최강 오픈모델 Qwen 3 공개 능력 테스트
이 YouTube 영상은 새로 출시된 QN3 모델의 성능을 평가합니다. 영상 제작자는 가장 큰 모델인 **235B (활성 22B)**와 **30B (활성 3B)**를 포함한 다양한 QN3 모델들을 소개하며, 허깅페이스 공개 및 MOE 아키텍처 등을 설명합니다. 이어서 논리, 수학, 코딩 문제를 직접 풀어보며 모델들의 정확도를 테스트합니다. 결론적으로 QN3 235B 모델이 만점을 기록했으며, 30B 모델 역시 크기에 비해 뛰어난 성능을 보여주며 92점을 받았다고 언급합니다.
출처(유튜브): 토목엔지니어 돌종 https://www.youtube.com/@dolljong
음성개요(내용설명):
유튜브 소개영상:
최강 오픈모델 Qwen 3 공개. 논리,수학,코딩 능력 테스트 _2025-04-29
이 비디오는 알리바바에서 새로 공개된 언어 모델인 Qwen 3를 소개하고 성능을 테스트하는 내용을 담고 있습니다. 특히, 가장 큰 모델인 Qwen 3 235B Active 22B와 두 번째로 큰 모델인 Qwen 3 30B Active 3B에 중점을 두어 논리, 수학, 코딩 등 다양한 문제 해결 능력을 검증합니다. 테스트 결과, Qwen 3 235B Active 22B 모델이 12문제 중 12문제를 모두 맞춰 만점을 기록했으며, Qwen 3 30B Active 3B 모델 또한 뛰어난 성능을 보여 만점에 가까운 점수를 획득했습니다. 이로써 Qwen 3는 만점을 기록한 소수의 강력한 AI 모델 대열에 합류하게 되었습니다.
최강 오픈모델 Qwen 3. 32b, 14b, 8b 논리,수학,코딩 능력 테스트 _2025-04-30
이 비디오는 알리바바에서 출시한 Qwen 3 대규모 언어 모델의 세 가지 버전인 32B, 14B, 8B 모델의 성능을 테스트한 결과를 공유합니다. 저자는 논리, 수학, 코딩 문제 등 다양한 과제를 제시하고 각 모델이 문제를 해결하는 데 걸린 시간과 정확성을 비교했습니다. 테스트 결과, Qwen 3 모델들은 전반적으로 유사한 정확도를 보였으며, 모델 크기와 문제 해결 시간이 항상 비례하지는 않음을 확인했습니다. 결론적으로, Qwen 3 모델들은 비슷한 크기의 다른 모델들에 비해 우수한 성능을 보여주었습니다.
최강 오픈모델 Qwen 3. 4b, 1.7b, 0.6b 논리,수학,코딩 능력 테스트(로컬) _2025-05-02
이 비디오는 로컬 환경에서 Qwen 3 언어 모델의 소형 버전을 테스트하는 것을 다룹니다. 특히, 0.6억, 1.7억, 4억 매개변수 모델의 성능을 수학, 논리, 코딩 등 12가지 문제를 통해 평가합니다. 테스트 결과, 4억 매개변수 모델이 75점으로 가장 좋은 성능을 보였으며, 이는 다른 더 큰 모델들과 비교했을 때도 높은 점수입니다. 전반적으로 Qwen 3 모델들은 오픈 모델 중에서도 뛰어난 성능을 보여주며 다양한 크기로 제공되어 활용성이 높다는 점을 강조합니다.
0.6b으로 LLama 4 109b도 이겼다. 놀라운 Qwen 3 0.6b 성능테스트_2025-05-04
해당 영상은 Qwen 3 0.6B라는 소형 인공지능 모델의 성능을 다양한 환경에서 테스트하고 그 결과를 비교 분석합니다. 로컬 환경인 LM Studio와 온라인 플랫폼인 Hugging Face 및 OpenRouter에서 Qwen 3 0.6B 모델의 정확도와 추론 시간을 평가했습니다. 특히 모델 양자화(Quantization) 방식에 따른 성능 변화와 소형 모델이 양자화에 더 민감할 수 있다는 점을 언급하며, 소형 모델의 발전 가능성에 대해 논의합니다.
주요 모델 및 특징:
- Qwen 3 시리즈: 알리바바에서 아파치 2.0 라이센스로 공개한 오픈 모델 시리즈. 다양한 파라미터 크기 및 아키텍처(Dense, MoE)로 제공됩니다.
- MoE (Mixture of Experts): 235B/22B 모델 및 30B/3B 모델에 적용된 아키텍처로, 전체 파라미터 중 일부(Active)만 활성화하여 효율성을 높였습니다.
- Dense 모델: 32B, 14B, 8B, 4B, 1.7B, 0.6B 모델과 같이 하나의 통일된 구조를 가집니다.
- 양자화 모델: LM Studio와 같은 로컬 환경에서는 모델 크기를 줄이기 위해 4비트 또는 8비트 양자화된 모델을 주로 사용합니다. 양자화는 모델 성능에 영향을 줄 수 있습니다.
- 다양한 컨텍스트 길이: 모델 크기에 따라 32K에서 128K까지의 컨텍스트 길이를 지원합니다.
성능 테스트 환경 및 방법:
- 테스트 환경:OpenRouter: 다양한 LLM을 비교 및 테스트할 수 있는 플랫폼. API 또는 웹 인터페이스를 통해 접근 가능하며, Free 모델도 제공됩니다.
- Hugging Face Spaces: 모델을 테스트하고 배포할 수 있는 플랫폼. 0.6B 모델 테스트에 사용되었습니다.
- LM Studio: 로컬 환경에서 LLM을 다운로드하고 실행할 수 있는 도구. 주로 작은 모델(4B, 1.7B, 0.6B)의 로컬 테스트에 사용되었습니다.
- 테스트 문제: 논리, 수학, 코딩 능력을 평가하는 12가지 문제 세트가 사용되었습니다. 문제 유형은 다음과 같습니다.
- 패턴 예측 (문자열)
- 간단한 방정식 풀이
- 색상 패턴 예측
- 순서 추론 (사과 먹는 순서)
- 논리 추론 (모자 색깔 맞추기)
- 논리 및 계산 (가짜 동전 찾기)
- 방정식 풀이 (아버지와 아들 나이)
- 논리 추론 (범인 찾기)
- 확률 계산 (주사위 곱과 합)
- 공학 문제 해결 (철근량 계산)
- 코딩 (2차 방정식 웹 앱 개발)
- 코딩 (H-빔 단면도 및 면적 계산 웹 앱 개발)
- 채점 방식: 각 문제에 대해 정답 여부를 판단하여 점수를 부여했습니다. 코딩 문제의 경우, 요구사항(수식 렌더링, 그래프, 기능 구현 등)의 충족 여부를 종합적으로 평가했습니다.
주요 테스트 결과 및 분석:
- 전반적인 성능: Qwen 3 시리즈는 전반적으로 논리, 수학, 코딩 문제에서 좋은 성능을 보여주었습니다. 특히 MoE 모델인 235B/22B는 12문제 모두 정답을 맞춰 만점을 기록했습니다.
- 모델 크기와 성능: 일반적으로 모델 크기가 클수록 성능이 우수한 경향을 보였지만, 작은 모델들도 인상적인 성능을 나타냈습니다.
- 0.6B 모델: 로컬 LM Studio 환경에서 4비트 양자화 모델은 25점을 기록했지만, OpenRouter 및 Hugging Face Spaces 환경(아마도 비양자화 또는 8비트 양자화)에서는 67점을 기록하며 Llama 4 109B와 같은 대형 모델과 유사한 점수를 얻었습니다.
- 1.7B 모델: 로컬 LM Studio 4비트 양자화 모델은 42점을 기록했습니다.
- 4B 모델: 로컬 LM Studio 4비트 양자화 모델은 75점을 기록하며 Qwen 32B Dense, Gemini 2.0 Flash와 같은 모델과 동등한 성능을 보였습니다.
- 8B, 14B, 32B Dense 모델: OpenRouter 환경에서 모두 83점을 기록하며 안정적인 성능을 보여주었습니다.
- 30B/3B MoE 모델: OpenRouter 환경에서 92점을 기록하며 235B/22B MoE 모델 다음으로 높은 점수를 기록했습니다.
- 양자화의 영향: 0.6B 모델의 테스트 결과에서 볼 수 있듯이, 모델 크기가 작을수록 양자화가 성능에 미치는 영향이 큰 것으로 추정됩니다. 4비트 양자화 모델은 비양자화 또는 8비트 양자화 모델에 비해 성능 저하가 두드러졌습니다.
- "제가이 0.6 빌리어는 다른 컴퓨터에서 했었거든요 제 노트북에서 한게 아니라 그런 레이도 있는지 모르겠습니다 자 다음 문제는 팔면체 조사이 두 개 던지는 문제죠 자 오픈라우터에서는 3분의이라고 정답을 맞췄고요 허깅 페이스 데모에서는 역시 3분으로 정답을 맞췄습니다 LM 스튜디오에서는 보겠습니다 5분 24초를 고민했고요 최종 답은 3이 맞는데..."
- "저는 이렇게 많이 차이 날 줄은 몰랐거든요 지금까지 LM 스튜디오에서 4비트 양자화가 디폴트로 돼 있다 보니까 4비트 양자와를 많이 돌려 봤잖아요 그렇다면 그게 다 실제 모델을 돌리면 훨씬 더 성과가 좋게 나올 것 같다는 생각이 들고 특히 파라미터수가 작은 거는이 양자화가 더 많은 영향을 미칠 것 같긴 해요"
- 코딩 능력: 코딩 문제(11번, 12번)의 경우, 모델 크기에 관계없이 성공률이 비교적 낮았습니다. 특히 렌더링, 그래프 구현, 동적인 값 계산 등에서 오류가 자주 발생했습니다. OpenRouter 환경의 235B/22B 모델만이 11번 문제를 성공적으로 해결했으며, 8B Dense 모델만이 OpenRouter 환경에서 12번 문제를 성공적으로 해결했습니다. LM Studio 로컬 환경에서는 코딩 문제 해결에 어려움을 겪었습니다.
- "11번째 문제 코딩 문제는 세타 실패했습니다" (0.6B, 1.7B, 4B LM Studio)
- "그래서 12번째 문제는 다 모두 실패했고요" (0.6B, 1.7B, 4B LM Studio)
- "그래서요 문제는 틀린 걸 하겠습니다 자 그래서 235빌리언은 맞았고요 30빌리언은 실패했습니다" (11번 문제, OpenRouter)
- "그래서 마지막 문제는 둘 다 성공했습니다" (12번 문제, OpenRouter 235B/22B, 30B/3B)
- "그래서 마지막 문제는 12번째 코딩 문제는 32빌리언 모델 틀렸고요 14빌리언 틀렸고 8빌리언이 오히려 맞췄어요" (12번 문제, OpenRouter Dense)
- 추론 시간: 모델 크기와 추론 시간이 항상 정비례하지는 않았습니다. 작은 모델이 오히려 더 오랜 시간을 생각하는 경우도 있었습니다.
- "어 모델이 작다고 해서 추론을 적게 하는 거는 아닌 거 같아요 그니까 모델이 작기 때문에 연연산이 빨리 되니까 초론도 빨리 될 거 같은데 또 그런 거 같지 않더라고요"
- Halucination: LM Studio 로컬 환경에서 0.6B 모델이 확률 계산 문제(9번)에서 추론 과정은 맞았으나 최종 답변을 잘못 출력하는 Halucination 현상을 보였습니다.
- "요게 할루시네이션이고 요거는 맞는 정답이고 이렇게 된 거죠 요거는 답을 맞췄다고 보겠습니다" (0.6B LM Studio 9번 문제 분석)
- API 및 환경의 영향: OpenRouter 및 Hugging Face Spaces와 같은 GPU 기반 환경에서 테스트한 모델들이 로컬 LM Studio 환경의 4비트 양자화 모델보다 성능이 훨씬 좋게 나왔습니다. 이는 양자화 수준이나 하드웨어 환경의 차이 때문인 것으로 보입니다.
다른 모델과의 비교:
Qwen 3 시리즈는 동일하거나 유사한 크기의 다른 오픈 모델들과 비교했을 때 뛰어난 성능을 보여주었습니다. 특히 0.6B 모델이 67점이라는 높은 점수를 기록한 것은 매우 인상적입니다. 4B 모델도 75점으로 Gemini 2.0 Flash와 같은 모델과 동등한 성능을 보였습니다. 8B, 14B, 32B Dense 모델 또한 해당 크기의 다른 모델들에 비해 높은 점수를 기록했습니다. MoE 모델인 235B/22B가 만점을 기록하며 최강 오픈 모델 중 하나로 자리매김했습니다.
결론:
알리바바의 Qwen 3 시리즈는 다양한 크기와 아키텍처로 제공되는 강력한 오픈 LLM입니다. 특히 논리 및 수학 문제 해결 능력에서 뛰어난 성능을 보였으며, 가장 큰 모델인 235B/22B는 만점을 기록하며 최상위 오픈 모델 대열에 합류했습니다. 작은 모델들도 크기에 비해 인상적인 성능을 보여주며 온디바이스 AI 활용 가능성을 제시했습니다. 다만, 코딩 능력의 경우 아직 개선의 여지가 있으며, 양자화 수준과 하드웨어 환경이 성능에 큰 영향을 미치는 것으로 확인되었습니다. Qwen 3는 현재 공개된 오픈 모델 중에서 성능 및 다양성 측면에서 최강의 경쟁력을 가진 것으로 평가됩니다.
향후 고려사항:
- 다양한 작업 및 벤치마크에서의 추가적인 성능 평가 필요.
- 양자화 수준이 성능에 미치는 영향에 대한 보다 심층적인 분석 필요.
- 코딩 능력 향상을 위한 지속적인 연구 개발 필요.
- 다양한 하드웨어 환경에서의 성능 테스트 필요.
NotebookLM을 이용해서 작성되었습니다.
디이씨(D.E.C)
martin@dec-w.com