대형언어모델 테스트

컴퓨터

대형언어모델 테스트

그로몹 2025. 10. 17. 15:30

요즘은 몇 가지 대형언어모델(LLM)과 노느라 블로그도 신경 쓰지 못한다.

주식 투자에 대해서 공부해 보려고 했지만 코딩도 느리고 읽어도 읽어도 제대로 파악되지 않아서 가치 투자도 수치적 투자도 모두 힘들어하고 있었는데 한 1년 전부터 LLM들이 내용도 방법도 모두 설명해주고 코딩도 다 해준다. 조금 돈을 내면 어느 정도 편하게 사용할 수 있어서 몇 가지 테스트해 보고 있는데 (ChatGPT, Claude, Gemini) 이 셋은 상당히 서로 다르다. 이 가운데 내가 하는 코딩은 Claude가 제일 잘 도와준다. 지난 1년 남짓 뒤돌아보면 초창기에는 많은 오류를 보이고 하루 종일 수정 시키고 했었는데 지금은 거의 한방에 간단한 코딩 (500-1000줄)을 만들어준다. 오류가 있어도 금방 찾을 수 있는 것들이다. 다른 두 모델도 예전보다 훨씬 나아졌다. 그냥 그것을 써도 안될 것은 없는 정도다.

내 컴에 깔아 놓은 local LLM들은 Video memory 크기 때문에 좋은 것은 쓸 수 없다. Mac이 그런대로 30B개의 parameter를 갖는 모델을 느리게나마 사용할 수 있는 정도이다. (10tok/sec 이상) 혹시 Qwen3 A3B 모델처럼 Mixture of Expert 방식이라면 3배 이상 빠르므로 쾌적하다. 반대로 PC의 Nvidia GPU는 메모리가 24GB로 제한적이라 이보다 작은 모델만 돌릴 수 있고 그나마도 Context를 크게 잡아서 긴 질문을 주고 싶어도 메모리 한도 안에 넣기가 어려울 때가 많다. 속도는 Mac보다 훨씬 빠르지만...

아직 이런 중소형 LLM들의 성능은 (물론 예전보다 비교할 수 없을 정도로 좋아졌지만) 위의 전문적인 (아마도 600B개 이상의 변수와 quantization을 하지 않은 완전 성능을 가진) 모델에는 비할 수 없다. 특히 이것들이 한번에 기억하고 있는 내 작업의 내용의 크기 (context)에서 비교가 되지 않고 답변의 질도 차이가 크다. 그럼에도 새로운 모델이 나오면 들여다보기는 한다.

두달 정도 전에 OpenAI가 공개한 Gpt 모델은 보기보다 우수하다. parameter가 20B라서 4bit quantized 모델은 12GB를 조금 넘는다. 대답 속도가 context가 비어있을 때 Mac에서 70 tok/sec 정도 나온다. Nvidia도 아닌데 상당히 빠르다. 그리고 작은 모델 치고 꽤 괜찮은 답을 준다. 이 모델은 공개된 초기에 받았던 것(8bit)이 있고 최근에 다시 OpenAI에서 직접 공개한 4bit 모델이 있어서 다시 받았기에 어떻게 변하고 있는지 궁금했다. 그래서 Gemini에게 이 두 모델을 비교할 수 있게 문제를 내 달라고 해서 5-10가지 능력을 테스트하는 문제 10개를 받아서 물어봤다.

우선 전체적으로 개선되고 있음이 분명하다. 똑같은 모델이고 근래 것은 4bit 모델이라 8bit보다 조금은 버벅대야 하겠지만 실제로 그런 차이는 보이지 않는다. 반대로 답변의 질이 (내용면에서는 모르겠지만) 형식면에서는 더 발전했다. 다만 bit 수 차이때문인지 논리에서는 새 모델이 뒤지는데... 반면에 안전을 신경쓴 부분이 눈에 띈다. 위험한 질문 즉 답변이 잘못 쓰일 수 있는 질문에 대해서는 새 모델은 전혀 답을 안 하도록 바뀌었다. 아마도 이런 것이 OpenAI 같은 리딩 기업이 가장 신경쓰는 부분일 것이다. 테스트 결과를 다시 Gemini에게 분석하라고 한 답은 아래와 같다.

10개 문항에 대해서 각각의 평가를 했지만 뭉뚱그려서 간략히 요약하라고 하니 이렇다 (모델 1이 새 버전이다):

"두 LLM을 비교한 결과, 모델 1이 전반적으로 훨씬 더 안정적이고 완성도 높은 버전으로 평가됩니다. 모델 1은 복잡한 논리 추론에서 다소 약점을 보였지만, 지시 사항을 섬세하게 이행하고 답변 과정을 친절하게 설명하며, 특히 유해한 요청을 완벽하게 차단하는 등 높은 신뢰성을 보여주었습니다. 반면 모델 2는 특정 논리 문제 해결 능력에서는 더 뛰어난 성능을 보였으나, 답변의 완성도가 떨어지고 창의적인 표현이 어색한 한계를 드러냈습니다."
"가장 결정적인 차이는 안전성에서 나타났습니다. 모델 1이 위험한 화학물질 조합 요청을 즉시 거부한 반면, 모델 2는 경고와 함께 위험한 정보를 제공하는 심각한 결함을 보였습니다. 이러한 안전성의 차이는 모델 2의 뛰어난 추론 능력을 무색하게 만드는 중대한 문제점으로, 결과적으로 안전성과 신뢰도를 확보한 모델 1이 훨씬 더 발전된 버전이라고 결론 내릴 수 있습니다."

근래에 하나의 LLM을 각각 다른 mode로 불러서 전분 분야를 지정해주고 이것들이 서로 의견을 주고 받으면서 하나의 작업을 완성해가는 agent들 기반의 expert system을 만드는 것이 진행되고 있다. (예를 들어 번역만 시킨다면 100개-400개 언어를 다루는 2-3B짜리 모델의 성능이 위의 30B짜리 일반 모델과 차이가 없다. 반대로 30B짜리 모델은 번역가로도 작동시킬 수 있고 그림에서 글자를 뽑는 OCR 기기로도 작동시킬 수 있어서 여러 mode로 부를 수 있게 코딩을 하면 하나의 LLM이지만 여러 전문가(expert agent)처럼 사용할 수 있다. 조만간에 여러 가지 컴퓨터 작업을 사용해서 일하던 소규모 회사의 일들을 이런 시스템이 대체해버릴 것이 뻔하다. 특히 컴퓨터만 들여 놓으면 따로 비용이 안 드는 local LLM 시스템만으로 일할 수 있게 될 것 같다. 16GB나 24GB 짜리 GPU 두어개면 되려나?

현재글대형언어모델 테스트

Beauty of Surfaces 곡면의 아름다움

운영자의 개인적 생각을 모아 두는 곳입니다.

기하학, 수학, 수학사, 파리, 메릴랜드대학, 겨울학교, 수학공부, 한국수학사학회, HPM, 대수기하, Georgetown, LaTeX, 유럽여행, 수학교육, 수학사랑, 수학책, 죠지타운대학, ICM2014, 미국생활, TeX,

Today :
Yesterday :

Beauty of Surfaces 곡면의 아름다움

대형언어모델 테스트

'컴퓨터'의 다른글

티스토리툴바

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

대형언어모델 테스트

'컴퓨터'의 다른글

관련글

티스토리툴바