# [실습] PDF 내용 기반 질의응답 어플리케이션

이번에는 PDF의 내용을 이용해 질의응답을 수행해 보겠습니다.

### 라이브러리 설치  

랭체인 관련 라이브러리와 벡터 데이터베이스 라이브러리를 설치합니다.   

In [None]:
!pip install openai langchain langchain-openai langchain-community chromadb tiktoken langchain_chroma pymupdf

Collecting langchain-openai
  Downloading langchain_openai-1.0.0-py3-none-any.whl.metadata (1.8 kB)
Collecting langchain-community
  Downloading langchain_community-0.4-py3-none-any.whl.metadata (3.0 kB)
Collecting chromadb
  Downloading chromadb-1.2.0-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.2 kB)
Collecting langchain_chroma
  Downloading langchain_chroma-1.0.0-py3-none-any.whl.metadata (1.9 kB)
Collecting pymupdf
  Downloading pymupdf-1.26.5-cp39-abi3-manylinux_2_28_x86_64.whl.metadata (3.4 kB)
INFO: pip is looking at multiple versions of langchain-openai to determine which version is compatible with other requirements. This could take a while.
Collecting langchain-openai
  Downloading langchain_openai-0.3.35-py3-none-any.whl.metadata (2.4 kB)
INFO: pip is looking at multiple versions of langchain-community to determine which version is compatible with other requirements. This could take a while.
Collecting langchain-community
  Downloading langchain_commu

In [None]:
import os
from dotenv import load_dotenv
load_dotenv('env', override=True)

if os.environ.get('OPENAI_API_KEY'):
    print('OpenAI API 키 확인')

OpenAI API 키 확인


In [None]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4.1-mini", temperature = 0.7, max_tokens = 4096)

## Indexing : 데이터 불러오기

PyMuPDFLoader를 이용해 목표 문서를 불러옵니다.    
실습 시트에 포함된 교재 PDF 파일을 업로드해 주세요.

In [None]:
# 현재 위치의 모든 pdf 불러오기
from glob import glob
import os

pdfs = glob(os.path.join('./', '*.pdf'))
pdfs

['./2505.09388v1.pdf']

In [None]:
from langchain_community.document_loaders import PyMuPDFLoader

documents = []

for path_material in pdfs:
    print(path_material)
    loader = PyMuPDFLoader(path_material)
    # 페이지별로 저장
    pages = loader.load()
    documents.append(pages)
    print("# Number of documents:", len(pages))

./2505.09388v1.pdf
# Number of documents: 35


PDF Loader로 불러온 데이터는 페이지 단위로 저장됩니다.    

In [None]:
for i in range(10,15):
    print(pages[i].page_content)
    print('----------')

Table 9: Examples of SFT data for thinking and non-thinking modes during the thinking mode fusion
stage. For the thinking mode, the /think flag can be omitted since it represents the default behavior. This
feature has been implemented in the chat template1 supported by the Hugging Face’s tokenizer, where
the thinking mode can be disabled using an additional parameter enable thinking=False.
Thinking Mode
Non-Thinking Mode
<|im start|>user
{query} /think<|im end|>
<|im start|>assistant
<think>
{thinking content}
</think>
{response}<|im end|>
<|im start|>user
{query} /no think<|im end|>
<|im start|>assistant
<think>
</think>
{response}<|im end|>
stable, which is crucial for maintaining stable training. As a result, we achieve consistent improvements
in both training reward and validation performance over the course of a single RL run, without any
manual intervention on hyperparameters. For instance, the AIME’24 score of the Qwen3-235B-A22B
model increases from 70.1 to 85.1 over a total of

각각의 Document를 하나로 합쳐, 하나의 큰 Document를 만들고 청킹을 수행하겠습니다.

In [None]:
from langchain_core.documents import Document
# Document 클래스 만들기

corpus = Document(page_content='', metadata={'source':'./교재.pdf'})
for page in pages:
    corpus.page_content += page.page_content + '\n'

corpus.page_content = corpus.page_content.replace('\n\n','\n')
len(corpus.page_content)

116009

Text Splitter를 이용해 청크로 분리합니다.   
이번에는 토큰 단위로 분리해 보겠습니다.    
TextSplitter의 `.from_tiktoken_encoder`를 이용합니다.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
import tiktoken

token_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    model_name="gpt-4o-mini",
    chunk_size=1000,
    chunk_overlap=200,
    # GPT-4o (= GPT 4.1 = GPT 5) 기준 1000/200 토큰 청킹
)

token_chunks = token_splitter.split_documents([corpus])
print(len(token_chunks))

55


전체 데이터를 Chroma에 저장합니다.

In [None]:
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model='text-embedding-3-large')
Chroma().delete_collection()
db = Chroma.from_documents(token_chunks, embeddings)


retriever = db.as_retriever(search_kwargs={"k": 5})
# Top K search 옵션 정하기


# filter 옵션을 통해 특정 메타데이터를 가진 벡터만 검색 가능
# Ex) author가 Hyungho Byun인 Document만 검색
# retriever = db.as_retriever(search_kwargs={"k": 5,"filter":{'author':'Hyungho Byun'}})

In [None]:
# Query 검색
unique_docs = retriever.invoke("LangChain의 장점은?")

print(unique_docs)

[Document(id='88c55bbd-0719-45e0-b628-e92a4f4047c5', metadata={'source': './교재.pdf'}, page_content='Qwen2.5-14B-Instruct\n91.4\n97.7\n96.8\n95.9\n93.4\n86.7\n78.1\nQwen2.5-32B-Instruct\n92.9\n96.9\n97.1\n95.5\n95.5\n90.3\n82.0\nQwen2.5-72B-Instruct\n95.1\n97.7\n97.2\n97.7\n96.5\n93.0\n88.4\nNon-thinking\nMode\nQwen3-4B\n85.2\n95.1\n93.6\n91.0\n87.8\n77.8\n66.0\nQwen3-8B\n89.1\n96.3\n96.0\n91.8\n91.2\n82.1\n77.4\nQwen3-14B\n94.6\n98.0\n97.8\n96.4\n96.1\n94.0\n85.1\nQwen3-32B\n93.7\n98.4\n96.0\n96.2\n94.4\n91.8\n85.6\nQwen3-30B-A3B\n91.6\n96.5\n97.0\n95.3\n92.4\n89.1\n79.2\nQwen3-235B-A22B\n95.0\n97.7\n97.2\n96.4\n95.1\n93.3\n90.6\nThinking\nMode\nQwen3-4B\n83.5\n92.7\n88.7\n86.5\n83.2\n83.0\n67.2\nQwen3-8B\n84.4\n94.7\n94.4\n86.1\n80.8\n78.3\n72.0\nQwen3-14B\n90.1\n95.4\n93.6\n89.8\n91.9\n90.6\n79.0\nQwen3-32B\n91.0\n94.7\n93.7\n91.6\n92.5\n90.0\n83.5\nQwen3-30B-A3B\n86.6\n94.1\n92.7\n89.0\n86.6\n82.1\n75.0\nQwen3-235B-A22B\n92.2\n95.1\n94.8\n93.0\n92.3\n92.0\n86.0\nFor evaluating long-

## [실습] PDF 요약 체인 만들기    

Prompt와 Chain을 구성하여, 강의 자료에 대한 질의응답을 수행하는 RAG 체인을 만들고 실행하세요.

In [None]:
from langchain.prompts import ChatPromptTemplate
prompt = ChatPromptTemplate([
    ("user", '''당신은 Qwen 3 Technical Report에 대해 QA(Question-Answer)을 수행하는 Assistant입니다.
다음의 Context를 이용하여 Question에 답변하세요.
정확한 답변을 제공하세요.
만약 모든 Context를 다 확인해도 정보가 없다면,
"정보가 부족하여 답변할 수 없습니다."를 출력하세요.
---
Context: {context}
---
Question: {question}''')])

prompt.pretty_print()
# Prompt : 한국어 질문 전달하


당신은 Qwen 3 Technical Report에 대해 QA(Question-Answer)을 수행하는 Assistant입니다.
다음의 Context를 이용하여 Question에 답변하세요.
정확한 답변을 제공하세요.
만약 모든 Context를 다 확인해도 정보가 없다면,
"정보가 부족하여 답변할 수 없습니다."를 출력하세요.
---
Context: [33;1m[1;3m{context}[0m
---
Question: [33;1m[1;3m{question}[0m


In [None]:
from langchain.schema.output_parser import StrOutputParser
translate_prompt = ChatPromptTemplate(
    ["다음 질문을 그대로 영어로 번역하세요: {query}"]
)
translate_chain = translate_prompt | llm | StrOutputParser()

translate_chain.invoke("큐웬 3 컨텍스트 윈도우 어떻게 돼?")

'How many context windows does Qwen 3 have?'

In [None]:
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

# retriever의 결과물은 List[Document] 이므로 이를 ---로 구분하는 함수
# metadata의 source를 보존하여 추가
def format_docs(docs):
    return " \n---\n ".join(['Content: '+ doc.page_content+ '\n' for doc in docs])
    # join : 구분자를 기준으로 스트링 리스트를 하나의 스트링으로 연결

rag_chain = (
    {"context": translate_chain | retriever | format_docs, "question": RunnablePassthrough()}
    # retriever : question을 받아서 context 검색: document 반환
    # format_docs : document 형태를 받아서 텍스트로 변환
    # RunnablePassthrough(): 체인의 입력을 그대로 저장
    | prompt
    | llm
    | StrOutputParser()
)


In [None]:
# 테스트

rag_chain.invoke("Qwen 3의 컨텍스트 길이는 어떻게 되니?")


'Qwen3 모델의 컨텍스트 길이는 모델에 따라 다르며, 다음과 같습니다.\n\n- Qwen3-0.6B, Qwen3-1.7B 모델: 32K (32,768 토큰)\n- Qwen3-4B, Qwen3-8B, Qwen3-14B, Qwen3-32B 모델: 128K (131,072 토큰)\n- Qwen3 MoE 모델 (Qwen3-30B-A3B, Qwen3-235B-A22B): 128K (131,072 토큰)\n\n즉, Qwen3 모델들은 최대 128K 토큰의 긴 컨텍스트를 지원합니다.'

Top-K 기반의 RAG도 문서의 내용을 바탕으로 답변하지만,    
특정 문제에 대해서는 단일 검색이 아닌 전체 문서를 확인해야 하는 경우가 존재합니다.   

Chunking을 활용하여, PDF 파일을 요약해 보겠습니다.

## 요약(Summarization)   

### 1. Stuff : 전체 문서를 다 넣고 요약하기

가장 간단한 요약 방법입니다.   
문서의 길이가 Context 길이보다 큰 경우에는 실행이 어렵습니다.

In [None]:
from langchain.prompts import PromptTemplate

prompt_template = """ Qwen3의 Technical Report가 아래에 주어집니다.
내용을 요약하여 아래에 출력하세요.
요약은 4개의 문단과 문단별 5개의 문장으로 작성하세요.
---
{text}
---
요약:"""

prompt = PromptTemplate(template = prompt_template)
chain = prompt | llm | StrOutputParser()


answer = chain.invoke({'text':corpus.page_content})
print(answer)

Qwen3는 Qwen 모델 시리즈의 최신 버전으로, 성능, 효율성, 다국어 지원 능력을 크게 향상시킨 대규모 언어 모델(LLM)이다. Qwen3는 0.6억에서 235억 파라미터 규모의 조밀(dense) 및 전문가 혼합(MoE) 아키텍처 모델을 포함하며, 복잡한 다단계 추론을 위한 '생각 모드'와 신속한 응답을 위한 '비생각 모드'를 하나의 통합 프레임워크로 제공한다. 사용자는 작업의 복잡도에 따라 계산 자원을 조절하는 '생각 예산' 기능을 활용할 수 있으며, 이전 모델 대비 29개에서 119개 언어로 다국어 지원 범위를 확대하여 글로벌 활용성을 높였다. 모든 Qwen3 모델은 Apache 2.0 라이선스로 공개되어 연구와 개발의 투명성과 재현성을 보장한다.

Qwen3의 학습에는 36조 개의 토큰 규모의 대규모 다국어 및 다분야 데이터셋이 사용되었으며, PDF 문서에서 텍스트를 추출하는 멀티모달 기법과 수학·코딩 전문 모델을 활용한 합성 데이터 생성으로 데이터 다양성과 품질을 크게 확장하였다. 사전학습은 일반 지식 학습, 추론 능력 강화, 그리고 최대 32,768 토큰의 장문 처리 능력 향상을 위한 3단계로 진행되었고, 모델 구조는 안정적인 학습을 위한 QK-Norm 도입과 고성능을 위한 세부 개선이 포함되었다. 또한, Qwen3는 다양한 벤치마크에서 기존 오픈소스 및 폐쇄형 모델과 경쟁하거나 이를 능가하는 최첨단 성능을 입증하였다.

사후학습(post-training)은 생각 모드와 비생각 모드를 통합하고, 소규모 모델의 효율적 개발을 위한 '강-약 지식 증류(Strong-to-Weak Distillation)'를 중심으로 설계되었다. 네 단계로 구성된 훈련 과정은 긴 사슬 추론(Chain-of-Thought) 학습, 강화 학습을 통한 추론 능력 향상, 모드 통합 및 일반 도메인 강화 학습을 포함한다. 이를 통해 Qwen3는 사용자가 모드를 자유롭게 전환하고, 추론 깊이를 설정할 수 있게 하며, 소형 모델도 고성능을 유지하면서 개발 비용과 시간을 크게 절감할

## 2. map_reduce
map_reduce는 청크 단위로 요약을 만들고, 이를 합친 결과를 이용해 최종 요약문을 다시 작성합니다.   

map 과정과 combine 과정이 존재하며, 각각 다른 프롬프트를 사용할 수 있습니다.

In [None]:
# Map 과정 : 각 문서에 대해 요약을 생성합니다.
from tqdm import tqdm

map_prompt = ChatPromptTemplate([
    ('system', '''당신은 인공지능과 거대 언어 모델의 전문가입니다.
Qwen3 Techinal Report의 내용을 읽고 요약하세요.
요약은 1-3개의 문단과 문단별 5개의 문장으로 작성하세요.
'''),
    ('user', '''{text}
---
Summary:
''')])

raw_summaries = []

map_chain  = map_prompt | llm | StrOutputParser()


for i in tqdm(range(len(token_chunks))):
    response = map_chain.invoke(token_chunks[i].page_content)
    raw_summaries.append(response)
    print('')
    print('#',i)
    print(response)
    print('===========================')

  2%|▏         | 1/55 [00:08<07:50,  8.71s/it]


# 0
Qwen3는 Qwen 모델 시리즈의 최신 버전으로, 성능, 효율성, 다국어 지원을 크게 향상시킨 대형 언어 모델(LLM)들로 구성되어 있다. 이 시리즈는 0.6억에서 2350억 파라미터 규모의 밀집형(dense) 및 전문가 혼합(MoE) 아키텍처 모델을 포함하며, 복잡한 다단계 추론을 위한 '사고 모드'와 빠른 맥락 기반 응답을 위한 '비사고 모드'를 통합하여 하나의 통합된 프레임워크 내에서 동적 전환이 가능하다. 또한, 사용자가 추론 시 계산 자원을 적응적으로 할당할 수 있는 '사고 예산' 메커니즘을 도입해 작업 복잡도에 따라 지연 시간과 성능의 균형을 맞출 수 있다.

Qwen3는 주요 모델의 지식을 활용해 소규모 모델 구축에 필요한 계산 자원을 크게 줄이면서도 경쟁력 있는 성능을 유지하고, 코드 생성, 수학적 추론, 에이전트 작업 등 다양한 벤치마크에서 최첨단 결과를 달성한다. 전작 Qwen2.5와 비교해 지원 언어 수를 29개에서 119개로 대폭 확대하여 다국어 이해 및 생성 능력을 강화함으로써 글로벌 접근성을 향상시켰다. 모든 Qwen3 모델은 Apache 2.0 라이선스 하에 공개되어 연구 및 개발 커뮤니티의 재현성과 협업을 적극 지원한다.

이 보고서는 AGI 목표를 향한 대형 기초 모델의 발전 맥락에서 Qwen3의 설계 철학과 기술적 진보를 설명하며, 대규모 데이터와 강화학습을 활용한 추론 최적화, 오픈소스 생태계에서의 역할 강화 등을 강조한다. 특히, 2350억 파라미터 MoE 모델인 Qwen3-235B-A22B는 높은 성능과 효율적인 추론을 동시에 달성하도록 설계되어 다양한 다운스트림 응용에 적합하다. Qwen3는 사용자 요구에 따라 사고 모드와 비사고 모드를 자유롭게 전환 가능케 하여 다양한 사용 시나리오에 유연하게 대응한다.


  4%|▎         | 2/55 [00:17<07:32,  8.54s/it]


# 1
Qwen3는 다양한 작업과 분야에서 최첨단 성능을 발휘하는 오픈 웨이트 대형 언어 모델(LLM) 모음으로, 0.6억에서 2350억 매개변수까지 다양한 크기의 밀집형 및 Mixture-of-Experts(MoE) 모델을 제공한다. 대표 모델인 Qwen3-235B-A22B는 2350억 매개변수와 토큰당 220억 활성화 매개변수를 갖춘 MoE 구조로, 높은 성능과 효율적인 추론을 동시에 달성한다. 이 모델은 사고 모드와 비사고 모드라는 두 가지 작동 모드를 하나의 모델에 통합하여, 사용자가 작업에 맞게 유연하게 모드 전환을 할 수 있도록 지원한다.

Qwen3는 약 36조 개 토큰, 119개 언어 및 방언을 포함하는 대규모 다국어 데이터로 사전학습되었으며, 멀티모달 접근 방식을 통해 PDF 문서에서 텍스트를 추출하고 수학 및 코딩 관련 합성 데이터를 생성하는 등 훈련 데이터를 확장했다. 사전학습은 일반 지식을 쌓는 1단계, STEM 및 코딩 관련 추론 능력을 강화하는 2단계, 그리고 최대 컨텍스트 길이를 4,096에서 32,768 토큰으로 확장하는 3단계로 이루어진다. 이러한 단계적 학습 전략은 모델의 전반적 성능과 다중 언어 처리 능력을 크게 향상시킨다.

사후학습에서는 장기 체인오브생각(CoT) 및 강화학습을 활용해 추론 능력을 극대화하고, 사고 및 비사고 모드를 모두 다룰 수 있도록 데이터 통합 및 일반 도메인 강화학습을 수행한다. 소형 모델들은 대형 모델로부터 지식을 전이하는 강한-약한(distillation) 방식을 통해 효율적으로 성능을 높였다. 평가 결과, Qwen3의 사전학습 및 사후학습 모델 모두 다양한 벤치마크에서 최첨단 성능을 기록했으며, 특히 코딩, 수학, 에이전트 관련 작업에서 뛰어난 성과를 보였다.


  5%|▌         | 3/55 [00:24<06:47,  7.84s/it]


# 2
Qwen3 시리즈는 강화학습 대비 성능과 학습 효율에서 크게 앞서며, 다양한 작업과 도메인에 걸친 벤치마크에서 뛰어난 성능을 입증했다. 기본 사전학습 모델은 최첨단 성능을 달성했고, 사후학습된 모델은 사고 모드 여부와 관계없이 주요 상용 모델 및 대규모 전문가 혼합(MoE) 모델들과 경쟁력 있는 결과를 보였다. 특히 코딩, 수학, 에이전트 관련 작업에서 두드러진 성과를 냈으며, 대표 모델인 Qwen3-235B-A22B는 AIME, LiveCodeBench, CodeForces 등에서 높은 점수를 기록했다. 더불어 사고 토큰에 할당되는 예산을 늘리면 다양한 작업에서 일관된 성능 향상이 관찰되었다. 보고서에서는 모델 구조, 학습 절차, 실험 결과 등을 상세히 다루고 있으며 향후 연구 방향도 제시한다.

Qwen3 모델군은 6개의 밀집(dense) 모델과 2개의 MoE 모델로 구성되며, 대표 모델 Qwen3-235B-A22B는 총 2350억 개 파라미터 중 220억 개가 활성화된다. 밀집 모델은 Qwen2.5의 구조를 계승하며, Grouped Query Attention, SwiGLU, Rotary Positional Embeddings, RMSNorm 등을 사용하고 QK-Norm 도입으로 안정적인 학습이 가능하다. MoE 모델은 128명의 전문가를 보유하고 있으며, 토큰당 8명의 전문가가 활성화된다. 이전 버전과 달리 공유 전문가를 제외하고, 글로벌 배치 부하 균형 손실을 적용해 전문가 특화도를 높였다. 이러한 설계와 학습 혁신 덕분에 하위 작업 성능이 크게 향상되었다.

Qwen3 모델은 Qwen 토크나이저를 사용하며, 이는 바이트 수준의 byte-pair encoding을 기반으로 약 15만 개의 어휘를 포함한다. 밀집 모델의 상세 구조는 층 수, 헤드 수, 임베딩 연결 여부, 컨텍스트 길이 등으로 차별화되며, 모델 크기에 따라 0.6억에서 32억 파라미터까지 다양하다. 이처럼 Qwen3는 효율적이고 확장 가능한 아키텍처를 통해 다방면에서 최적화된 성

  7%|▋         | 4/55 [00:29<05:58,  7.03s/it]


# 3
Qwen3 모델은 Qwen의 토크나이저를 사용하며, 바이트 레벨의 바이트 페어 인코딩 방식을 적용해 151,669개의 어휘 크기를 갖는다. 모델 아키텍처는 0.6B부터 32B까지 다양한 크기로 구성되며, MoE(전문가 혼합) 모델도 30B와 235B 규모로 제공된다. 또한, 문맥 길이는 최대 128K 토큰까지 지원해 대규모 문서 처리에 적합하다.

사전학습 데이터는 Qwen2.5 대비 두 배 이상의 토큰 수와 세 배 이상의 언어 다양성을 확보해 119개 언어와 방언, 총 36조 토큰으로 구성된다. 데이터는 코딩, STEM, 추론, 서적, 다국어, 합성 데이터 등 다양한 고품질 콘텐츠를 포함하고 있으며, Qwen2.5-VL과 Qwen2.5 모델을 활용해 PDF 문서 텍스트 인식 및 정제 과정을 거쳐 데이터 품질을 높였다. 또한, 다국어 데이터 주석 시스템을 도입해 30조 개 이상의 토큰에 교육적 가치, 분야, 안전성 등을 세밀하게 라벨링해 인스턴스 단위로 데이터 혼합을 최적화한다.

사전학습은 세 단계로 진행되며, 첫 번째 일반 단계에서는 119개 언어의 30조 토큰 이상을 4,096 토큰 시퀀스 길이로 학습한다. 이 단계에서 모델은 언어 능력과 일반 지식을 충분히 학습하며, 이후 단계에서는 더 특화된 학습이 진행될 예정이다. Qwen3는 대규모 다국어 및 다도메인 학습을 통해 언어적 범용성과 성능을 크게 향상시킨 최신 언어 모델임을 보여준다.


  9%|▉         | 5/55 [00:37<06:02,  7.25s/it]


# 4
Qwen3 모델은 세 단계의 사전학습 과정을 거쳐 언어 능력, 추론력, 그리고 긴 문맥 이해 능력을 체계적으로 향상시킨다. 첫 번째 일반 단계에서는 119개 언어와 방언을 포함한 30조 개 이상의 토큰을 사용해 기본적인 언어 및 세계 지식을 학습한다. 두 번째 추론 단계에서는 STEM, 코딩, 추론 관련 데이터 비중을 늘려 약 5조 개의 고품질 토큰을 추가 학습하며 학습률 감쇠 속도를 조절한다. 마지막으로 긴 문맥 단계에서는 최대 32,768 토큰 길이의 고품질 긴 문맥 데이터를 활용해 모델의 문맥 처리 능력을 크게 확대한다.

사전학습 과정에서는 RoPE 주파수 기반을 10,000에서 1,000,000으로 늘리고, YARN과 Dual Chunk Attention 기법을 도입해 추론 시 시퀀스 길이 처리 용량을 4배 향상시켰다. 또한, 세 단계 사전학습 데이터를 바탕으로 최적 하이퍼파라미터(학습률 스케줄러, 배치 크기 등)에 관한 스케일링 법칙을 개발하여 각 모델 유형에 맞는 학습 전략을 체계적으로 설정하였다. 이러한 세밀한 데이터 라벨링과 인스턴스 수준의 데이터 혼합 최적화는 효과적인 데이터 필터링과 조합을 가능하게 했다.

Qwen3 시리즈의 기본 언어 모델들은 일반 지식, 추론, 수학, 과학 지식, 코딩, 다국어 능력 등 다양한 영역에서 15개 이상의 벤치마크를 통해 종합적으로 평가되었다. 평가에는 MMLU, BBH, GSM8K, HumanEval, MultiPL-E 등 다양한 태스크가 포함되어 있으며, 0~8샷과 체인 오브 씽킹(Chain of Thought) 기법이 적용된 환경에서 성능을 검증하였다. 이를 통해 Qwen3 모델이 다방면에서 균형 잡힌 능력을 갖추었음을 확인할 수 있다.


 11%|█         | 6/55 [00:45<06:11,  7.58s/it]


# 5
Qwen3 시리즈의 베이스 모델은 Qwen2.5 및 기타 주요 오픈소스 베이스 모델과 비교하여 동일한 평가 환경에서 우수한 성능을 보였다. 특히 Qwen3-235B-A22B-Base 모델은 파라미터 수가 적음에도 불구하고 DeepSeek-V3, Llama-4-Maverick, Qwen2.5-72B-Base 등과 같은 경쟁 모델들을 대부분의 벤치마크에서 능가했다. Qwen3 MoE(전문가 혼합) 베이스 모델은 1/5 수준의 활성화 파라미터로 Qwen3의 일반 밀집(dense) 모델과 동등한 성능을 달성했고, Qwen2.5 MoE 모델과 비교해도 절반 이하의 활성화 파라미터로 더 나은 성능을 보이며 학습 및 추론 비용 면에서 유리하다.

Qwen3 일반 밀집 베이스 모델은 고파라미터 스케일에서 Qwen2.5 모델과 비슷하거나 더 뛰어난 성능을 내며, 특히 STEM, 코딩, 추론 분야 벤치마크에서 우위를 점했다. 이는 Qwen3 아키텍처의 개선, 학습 토큰의 규모 확대, 고도화된 학습 전략 덕분이다. 1.7B부터 235B까지 다양한 규모의 Qwen3 모델들이 대응하는 Qwen2.5 모델과 유사하거나 뛰어난 성능을 보여, 모델 크기 대비 효율성 측면에서 큰 진전을 이뤘다.

종합적으로 Qwen3 시리즈는 파라미터 수 대비 성능 최적화에 성공했으며, 특히 MoE 구조를 활용한 모델은 적은 활성화 파라미터로 비용 효율적이면서도 높은 성능을 발휘한다. 이로 인해 Qwen3는 추론 및 학습 비용을 줄이고도 최첨단 성능을 유지할 수 있어 다양한 멀티언어 및 코딩 작업에서 강력한 경쟁력을 확보했다.


 13%|█▎        | 7/55 [00:54<06:16,  7.84s/it]


# 6
Qwen3-235B-A22B-Base 모델은 다양한 평가 벤치마크에서 최상위 성능을 기록하며, 동종 최고 성능 모델들과 비교해 뛰어난 우수성을 입증했다. Llama-4-Maverick-Base와 같은 파라미터 수가 두 배인 모델보다 대부분의 벤치마크에서 우수한 성능을 보였으며, DeepSeek-V3-Base 대비 1/3 수준의 파라미터만으로 15개 중 14개 벤치마크에서 더 좋은 결과를 냈다. 또한, Qwen2.5-Plus와 비교 시 파라미터 수와 활성화 파라미터가 더 적으면서도 더 높은 성능을 보여, 향상된 사전 학습 데이터, 훈련 전략 및 모델 구조의 강점을 확인할 수 있다. Qwen2.5-72B-Base 대비 모든 벤치마크에서 우위를 보였으며, 활성화 파라미터는 1/3 미만으로 유지해 효율성과 경제성을 동시에 달성했다. 아울러, 모델 아키텍처 덕분에 추론 및 학습 비용도 크게 절감되었다.

Qwen3-32B-Base는 Qwen3 시리즈에서 가장 큰 데스트 모델로, 비슷한 크기의 Gemma-3-27B 및 Qwen2.5-32B와 비교되었다. 또한, 파라미터 수는 Qwen3-32B-Base의 세 배에 달하지만 활성화 파라미터는 절반 수준인 Llama-4-Scout와도 경쟁하였다. Qwen3-235B-A22B-Base는 총 2350억 파라미터 중 220억 활성화 파라미터를 사용하는 MoE 아키텍처로, 일반 과제, 수학·STEM, 코딩 및 다국어 과제 등 다양한 분야에서 탁월한 성능을 입증했다. 표 3에 따르면 MMLU, GSM8K, EvalPlus 등 주요 벤치마크에서 다른 강력한 오픈소스 모델들을 능가하는 점수를 기록하였다. 전반적으로 Qwen3 시리즈는 규모 대비 효율성과 성능 면에서 현존하는 공개 모델 중 최고 수준임을 보여준다.

요약하면, Qwen3 시리즈는 최신 MoE 모델 중에서도 뛰어난 성능과 비용 효율성을 동시에 달성한 혁신적인 모델이다. 특히 Qwen3-235B-A22B-Base는 적은 활성 파라미터로도 방대한 작업을 뛰어나게 처리하며

 15%|█▍        | 8/55 [01:00<05:50,  7.46s/it]


# 7
Qwen3 시리즈는 여러 오픈 소스 대형 언어 모델과 다양한 작업군에서 성능을 비교한 결과, 전반적으로 우수한 성적을 보였다. 32B 파라미터 모델 기준으로 BBH, GSM8K, EvalPlus, MBPP 등 다양한 벤치마크에서 최고 또는 두 번째로 높은 점수를 기록하며 특히 수학 및 코딩 과제에서 뛰어난 성능을 나타냈다. 또한, Qwen3-32B는 Dense 아키텍처를 기반으로 하면서도 72B 파라미터의 Qwen2.5-72B 모델과 경쟁할 만한 성능을 보여, 파라미터 효율성과 모델 설계의 우수성을 입증했다.

14B 및 30B 파라미터 급 모델에서도 Qwen3는 Gemma, Qwen2.5 등과 비교해 높은 점수를 획득했으며, MoE 아키텍처를 채택한 모델들과도 견줄 만한 성능을 보였다. 특히 Qwen3-30B-A3B 모델은 MoE 구조임에도 불구하고 활성화된 파라미터 수가 적음에도 불구하고 좋은 결과를 냈다. 다국어 작업 및 일반 지식 테스트에서도 안정적인 결과를 내며 다양한 분야에 걸쳐 균형 잡힌 성능을 갖추었다.

종합적으로 Qwen3 시리즈는 파라미터 수 대비 효율적인 학습과 강력한 성능을 기반으로, 수학, 코딩, 다국어 등 다양한 과제에서 경쟁력을 확보한 최신 대형 언어 모델임을 보여준다. Dense와 MoE 아키텍처를 넘나드는 설계 다양성을 통해 다양한 규모와 목적에 적합한 모델을 제공하며, 지속적으로 공개되는 오픈 소스 모델 중에서도 상위권에 위치하고 있다.


 16%|█▋        | 9/55 [01:06<05:19,  6.95s/it]


# 8
Qwen3 시리즈는 다양한 크기와 구조(밀집형(Dense) 및 전문가 혼합형(MoE))의 모델을 포함하며, 여러 벤치마크에서 강력한 성능을 보인다. 특히 Qwen3-30B-A3B 모델은 MMLU, BBH, SuperGPQA와 같은 일반 과제에서 높은 점수를 기록하며 우수한 성능을 입증했다. MoE 아키텍처를 활용한 모델들은 활성화 파라미터 수가 상대적으로 적음에도 불구하고, 효율적인 성능을 보여준다.

수학 및 STEM 과제에서는 Qwen3-14B와 30B 모델이 GSM8K, MATH, GPQA 등에서 경쟁력 있는 결과를 냈으며, 코딩 작업 평가(EvalPlus, MultiPL-E, MBPP 등)에서도 상위권 성능을 나타냈다. 이는 Qwen3 모델이 다방면의 문제 해결 능력을 고루 갖추고 있음을 시사한다. 다국어 과제 평가(MGSM, MMMLU 등)에서도 Qwen3 시리즈는 기존 Qwen2.5 및 Llama-3 모델 대비 개선된 점수를 기록하였다.

또한, Qwen3-8B 모델은 같은 크기의 Qwen2.5-14B와 비교해도 유사하거나 더 나은 성능을 보이며, 8B급 모델 중에서도 뛰어난 경쟁력을 가진 것으로 나타났다. 전반적으로 Qwen3 시리즈는 다양한 크기와 아키텍처 조합을 통해 높은 효율성과 성능을 동시에 달성하며, 최신 오픈소스 대형 언어 모델 중 상위권에 위치하고 있음을 보여준다.


 18%|█▊        | 10/55 [01:14<05:24,  7.21s/it]


# 9
Qwen3 시리즈는 다양한 크기와 파라미터 수를 가진 대형 언어 모델로, 여러 벤치마크에서 뛰어난 성능을 보였다. 4B 파라미터 모델(Qwen3-4B)은 GPQA, GSM8K, MATH, EvalPlus, MultiPL-E, MBPP, CRUX-O, MGSM, MMMLU, INCLUDE 등 다양한 일반, 수학, 코딩, 다국어 과제에서 기존 오픈소스 모델 대비 상위권의 점수를 기록하였다. 특히 GSM8K와 MATH 같은 수학 문제 해결 능력에서 80% 이상의 고성능을 달성하며, 7B 모델에 근접하는 결과를 보여주었다.

한편, 1.7B 및 0.6B 크기의 소형 모델들도 일반 과제와 수학 및 STEM 문제에서 경쟁력 있는 성능을 나타냈다. 예를 들어 Qwen3-1.7B는 62.63점의 MMLU 점수와 75.44점의 GSM8K 점수를 기록, 동일 규모의 기존 모델들보다 높은 점수를 나타냈다. 이러한 결과는 모델이 파라미터 수가 작아도 효율적으로 학습되고, 다양한 작업에서 균형 잡힌 성능을 유지함을 시사한다.

종합적으로 Qwen3는 다양한 크기의 모델에서 균형 잡힌 성능 향상을 보이며, 특히 수학 및 코딩 과제에서 강세를 보인다. 이는 대규모 언어 모델의 응용 범위를 넓히고, 다국어 능력까지 갖춘 점에서 실용성과 경쟁력이 높다는 것을 나타낸다. 따라서 Qwen3 모델은 연구 및 산업 현장에서 폭넓게 활용 가능한 최첨단 오픈소스 언어 모델임을 확인할 수 있다.


 20%|██        | 11/55 [01:20<05:08,  7.00s/it]


# 10
Qwen3 시리즈는 이전 세대 모델들과 비교해 파라미터 수 대비 뛰어난 성능을 보여준다. Qwen3-32B-Base는 32B 파라미터 모델 중에서 Qwen2.5-32B-Base 및 Gemma-3-27B Base를 대부분의 벤치마크에서 능가하며, 특히 MMLU-Pro와 SuperGPQA에서 큰 성능 향상을 기록했다. 더 나아가, Qwen3-32B-Base는 72B 파라미터의 Qwen2.5-72B-Base와 비교했을 때도 절반 이하의 파라미터 수임에도 불구하고 15개 평가 지표 중 10개에서 우수한 결과를 내, 수학, 코딩, 추론 분야에서 두드러진 강점을 나타냈다.

또한 Qwen3-32B-Base는 Llama-4-Scout-Base 모델 대비 3분의 1 수준의 파라미터 수임에도 불구하고 모든 벤치마크에서 월등한 성능을 보였으며, 활성화 파라미터 수는 오히려 두 배에 달해 효율성 측면에서도 우수함을 입증했다. Qwen3-14B-Base와 Qwen3-30B-A3B-Base도 유사 크기의 경쟁 모델인 Gemma-3-12B Base, Qwen2.5-14B Base, Qwen2.5-Turbo, Qwen2.5-32B-Base와 비교해 현저하게 더 나은 성능을 보여, Qwen3 시리즈가 다양한 규모에서 강력한 성능 경쟁력을 갖췄음을 보여준다.

종합적으로 Qwen3 모델은 파라미터 효율성과 성능 모두에서 크게 향상된 결과를 내며, 특히 코딩, 수학, 다국어 및 추론 과제에서 탁월한 능력을 발휘한다. 이는 대형 언어 모델의 최적화 및 설계 기술이 진일보했음을 시사하며, Qwen3는 현존하는 주요 오픈소스 모델과 비교해 경쟁력 있는 성능을 갖춘 차세대 대표 모델임을 확인시켜준다.


 22%|██▏       | 12/55 [01:27<05:00,  6.99s/it]


# 11
Qwen3 시리즈 모델은 다양한 크기에서 경쟁력 있는 성능을 보이며, 특히 Qwen3-14B-Base는 유사 크기의 Qwen2.5-14B-Base 및 Gemma-3-12B-Base 모델보다 모든 벤치마크에서 우수한 결과를 나타낸다. 또한 Qwen3-30B-A3B는 활성화된 파라미터 수가 적음에도 불구하고 Qwen2.5-14B-Base를 모든 작업에서 크게 능가하며, Qwen3-14B-Base 및 Qwen2.5-32B-Base와도 비슷한 성능을 보여 추론 및 학습 비용 측면에서 큰 이점을 제공한다. 엣지 디바이스용 소형 모델들도 Qwen2.5, Llama-3, Gemma-3 기반 모델과 비교해 우수한 성능을 유지하며, 특히 STEM 및 코딩 분야에서 더 큰 모델을 능가하는 경우도 많아 Qwen3 모델의 향상된 성능을 입증한다.

Qwen3의 사후 학습 파이프라인은 두 가지 핵심 목표를 중심으로 설계되었다. 첫째, ‘사고 제어(Thinking Control)’로서 비사고 모드와 사고 모드를 통합하여 사용자가 모델의 추론 여부와 사고 깊이를 조절할 수 있게 한다. 둘째, ‘강한 모델에서 약한 모델로의 증류(Strong-to-Weak Distillation)’를 통해 대규모 모델의 지식을 활용하여 경량 모델의 개발 비용과 계산 자원을 크게 절감한다. 이 과정은 네 단계로 구성되며, 초기 두 단계는 사고 능력 개발에, 후속 두 단계는 비사고 기능 통합에 초점을 맞춘다.

예비 실험 결과, 교사 모델의 출력 로짓을 학생 모델에 직접 증류하는 방식이 경량 모델의 성능을 효과적으로 향상시키며, 사고 과정의 세밀한 제어도 가능하게 한다. 이 방법은 모든 소형 모델에 대해 개별적으로 4단계 학습을 수행하는 것보다 훨씬 효율적이며, GPU 사용 시간을 1/10로 줄이면서도 Pass@1 및 Pass@64 점수에서 향상된 결과를 보인다. 따라서 Qwen3 시리즈는 고성능과 효율성을 동시에 추구하는 혁신적인 학습 전략을 제시한다.


 24%|██▎       | 13/55 [01:34<04:52,  6.97s/it]


# 12
Qwen3의 훈련 과정은 총 네 단계로 구성되며, 처음 두 단계는 모델의 '사고' 능력을 개발하는 데 중점을 두고, 이후 두 단계는 강력한 '비사고' 기능을 통합하는 것을 목표로 한다. 특히, 교사 모델의 출력 로짓을 경량 학생 모델에 직접 증류하는 방식이 효과적임을 보였으며, 이는 모든 소규모 모델에 대해 4단계 훈련을 개별적으로 수행할 필요를 없애고, Pass@1 및 Pass@64 점수 향상과 함께 훈련 효율성도 크게 개선한다. 이 방법은 기존 4단계 훈련 대비 GPU 시간의 10분의 1만 소요되어 효율적이다.

첫 번째 단계인 Long-CoT Cold Start는 수학, 코드, 논리적 추론, 일반 STEM 문제 등 다양한 분야를 포괄하는 엄격하게 필터링된 데이터셋을 구축하여, 깊은 추론이 요구되는 문제들로 구성된 훈련을 시작한다. 이 과정에서 Qwen2.5-72B-Instruct를 활용해 쉽지 않은 문제만을 선별하고, QwQ-32B 모델과 인간 평가자가 답변의 정확성과 질을 검증한다. 이 초기 단계에서는 모델이 즉각적인 추론 성능에 치중하지 않고 기초적 추론 패턴을 학습하도록 하여, 이후 강화 학습 단계에서 개선 가능성을 극대화한다.

두 번째 단계인 Reasoning RL에서는 Cold Start에서 사용되지 않은, 학습 가능하고 난이도 높은 3,995개의 쿼리-검증 쌍을 활용해 GRPO 알고리즘으로 모델을 업데이트한다. 대형 배치 크기와 다수의 롤아웃, 그리고 오프 정책 훈련을 통해 샘플 효율성을 높이고, 엔트로피 조절로 탐색과 착취의 균형을 맞추는 전략을 적용한다. 이러한 체계적인 접근으로 모델의 추론 능력과 탐색 역량을 동시에 강화하며, 이후 단계에서 사고 및 비사고 모드를 융합하는 훈련으로 확장된다.


 25%|██▌       | 14/55 [01:40<04:31,  6.62s/it]


# 13
Qwen3 모델의 학습 과정에서는 대규모 배치 크기와 높은 쿼리 롤아웃 수를 활용하고, 샘플 효율성을 높이기 위해 오프폴리시 학습을 적용하는 것이 효과적임을 확인하였다. 또한, 모델 엔트로피를 조절하여 탐험과 활용의 균형을 맞추고 안정적인 학습을 유지하는 것이 중요하며, 이를 통해 수동적인 하이퍼파라미터 조정 없이도 학습 보상과 검증 성능에서 일관된 향상을 달성했다. 예를 들어, Qwen3-235B-A22B 모델은 170회의 강화학습(RL) 스텝 동안 AIME’24 점수가 70.1에서 85.1로 상승하였다.

Thinking Mode Fusion 단계에서는 기존의 “생각하는” 모델과 “생각하지 않는” 기능을 통합하여 두 가지 사고 모드를 하나의 모델 내에서 관리하고, 별도의 모델 배포 비용과 복잡성을 줄이고자 하였다. 이를 위해 추론 RL 모델에 대해 지속적인 감독 학습(SFT)을 수행하고, /think 및 /no think 플래그를 포함한 새로운 채팅 템플릿을 설계하여 사용자가 동적으로 사고 모드를 전환할 수 있도록 하였다. SFT 데이터셋은 생각하는 데이터와 생각하지 않는 데이터를 결합하였으며, 후자는 코딩, 수학, 다국어, 창의적 글쓰기 등 다양한 영역을 포괄하고 특히 저자원 언어 번역 작업의 비중을 높였다.

이 통합된 사고 모드 모델은 중간 생각 단계에서의 응답을 생성할 수 있는 능력을 갖추어, 사용자가 설정한 사고 길이 제한에 도달하면 자동으로 사고를 중단하고 누적된 추론 결과를 바탕으로 최종 답변을 생성하는 사고 예산 제어 기능을 지원한다. 이러한 사고 모드의 융합과 제어는 Qwen3 모델이 다양한 복잡도의 작업에서 일관되고 효율적으로 대응할 수 있게 하는 기반이 된다.


 27%|██▋       | 15/55 [01:47<04:25,  6.63s/it]


# 14
Qwen3 모델은 복잡한 다중 턴 대화에서 사용자 쿼리에 무작위로 /think와 /no think 플래그를 삽입하여 모델이 마지막 플래그에 맞춰 응답하도록 하는 Thinking Mode Fusion 기법을 도입했다. 이 방식은 모델이 비사고 모드와 사고 모드를 모두 학습함으로써 불완전한 사고 상태에서도 응답을 생성할 수 있는 능력을 자연스럽게 획득하게 하며, 사용자가 설정한 사고 시간 예산에 도달하면 사고를 중단하고 즉시 최종 답변을 생성하도록 한다. 이러한 사고 예산 제어 기능은 별도의 학습 없이도 사고 모드 융합을 통해 자연스럽게 나타난다.

일반 RL 단계에서는 20개 이상의 다양한 작업별 맞춤 보상 체계를 구축하여 모델의 능력과 안정성을 전반적으로 향상시켰다. 주요 목표는 사용자 지시사항 준수, 응답 형식 일치, 선호도 조율, 도구 호출 능력, 그리고 특수 상황에서의 정확성 강화 등이며, 이를 평가하기 위해 규칙 기반 보상, 참조 답변이 있는 모델 기반 보상, 참조 없는 모델 기반 보상 등 세 가지 보상 방식을 활용한다. 이로써 모델은 다양한 시나리오에서 사용자 기대에 부합하는 자연스럽고 정확한 응답을 제공할 수 있다.

Strong-to-Weak Distillation 파이프라인은 경량 모델군(Qwen3-0.6B부터 14B 및 MoE 모델 포함)의 성능과 모드 전환 능력을 향상시키기 위해 고안되었다. 이 과정은 오프폴리시 증류 단계에서 교사 모델의 사고 및 비사고 모드 출력을 결합해 기본 추론 및 모드 전환 능력을 학습시키고, 이후 온폴리시 증류 단계에서 학생 모델이 직접 정책을 수행하며 학습을 심화하는 두 단계로 이루어진다. 이를 통해 경량 모델도 고성능 및 사고 모드 스위칭 역량을 갖추게 된다.


 29%|██▉       | 16/55 [01:51<03:50,  5.92s/it]


# 15
The Strong-to-Weak Distillation pipeline is designed to optimize lightweight models, including five dense models and one MoE model, by enhancing performance and enabling robust mode-switching capabilities. The distillation process comprises two main phases: off-policy distillation, where teacher model outputs from both /think and /no think modes are combined to build foundational reasoning and mode-switching skills in student models, and on-policy distillation, where the student model generates responses under specific modes and is fine-tuned by minimizing KL divergence with large teacher models.

For post-training evaluation, the instruction-tuned models undergo comprehensive testing using automatic benchmarks across multiple languages and task categories. Benchmarks span general tasks like MMLU-Redux and GPQA-Diamond, alignment tasks assessing instruction-following and human preference alignment, and math and text reasoning tasks using advanced math and logical reasoning datase

 31%|███       | 17/55 [01:57<03:49,  6.04s/it]


# 16
Qwen3 모델 평가를 위해 다양한 특화 벤치마크가 활용되었다. 지시 수행 능력은 IFEval, 인간 선호도 정렬은 Arena-Hard와 AlignBench v1.1, 글쓰기 능력은 Creative Writing V3와 WritingBench로 측정되었다. 수학 및 논리 추론 능력은 MATH-500, AIME’24/’25, ZebraLogic, AutoLogi 등 고난도 문제로 평가되었으며, AIME 문제는 64회 샘플링 후 평균 정확도를 최종 점수로 삼았다. 코딩 및 에이전트 과제는 BFCL v3, LiveCodeBench, Codeforces Ratings를 통해 시험되었고, 모델 성능과 전문 프로그래머 간 격차도 코드포스 Elo 등급으로 분석했다.

다국어 능력 평가는 지시 수행, 지식, 수학, 논리 추론의 네 가지 영역으로 나누어 진행되었다. 지시 수행은 Multi-IF(8개 언어), 지역 지식은 INCLUDE(44개 언어), 일반 지식은 MMMLU(14개 언어)로 평가했으며, 수학 문제는 MT-AIME2024(55개 언어)와 PolyMath(18개 언어)를 사용했다. 논리 추론은 10개 언어를 포함한 MlogiQA로 측정했다. 평가 효율을 위해 일부 벤치마크 데이터는 10% 샘플링하였으며, 생성 시 샘플링 온도, top-p, top-k, presence penalty 등 하이퍼파라미터도 세밀하게 조정하였다.

Qwen3-235B-A22B 모델은 생각 모드와 비생각 모드에서 각각 최적화된 파라미터를 적용하며, 최대 출력 길이를 32,768~38,912 토큰으로 설정해 충분한 추론 공간을 제공한다. 비교 대상 모델로는 OpenAI-o1, DeepSeek-R1, Grok-3-Beta (Think), Gemini2.5-Pro 등이 있으며, Qwen3-235B-A22B는 모듈러 MoE 구조를 기반으로 22B 활성화 파라미터를 갖추고 있어 경쟁력 있는 성능을 보였다.


 33%|███▎      | 18/55 [02:04<03:54,  6.35s/it]


# 17
Qwen3-235B-A22B 모델은 사고(Thinking) 모드와 비사고(Non-thinking) 모드에서 각각 최대 출력 길이를 32,768 토큰으로 설정했으며, AIME’24 및 AIME’25 문제에서는 충분한 사고 공간을 제공하기 위해 이를 38,912 토큰으로 확장했다. 표 11의 사고 모드 성능 비교에서 Qwen3-235B-A22B는 AIME’24(92.0)와 AIME’25(86.7) 등 수학 및 텍스트 추론 분야에서 높은 점수를 기록하며, 여러 일반, 정렬, 에이전트 및 코딩, 다중언어 과제에서도 경쟁력 있는 성능을 보여주었다. 특히 MATH-500, AutoLogi, Arena-Hard 등 여러 벤치마크에서 최상위권 성적을 보이며, CodeForces 점수도 2056점(상위 98.2%)으로 우수함을 입증했다.

비사고 모드(표 12)에서는 GPT-4o, DeepSeek-V3 등 여러 모델과 비교했을 때 Qwen3-235B-A22B가 MMLU-Redux(89.2)와 GPQA-Diamond(62.9) 등에서 안정적인 성능을 보였다. 이 모드에서 모델은 22B 활성화 파라미터를 사용하며, 총 235B 파라미터 규모를 유지하는 MoE 아키텍처 기반이다. Dense와 MoE 구조를 포함한 다양한 모델과 비교하였을 때, Qwen3는 균형 잡힌 성능과 효율성을 갖춘 점이 돋보인다.

종합적으로 Qwen3-235B-A22B는 사고 및 비사고 모드 모두에서 광범위한 벤치마크를 통해 뛰어난 추론 능력과 다중 영역 적용 가능성을 입증했다. 특히 사고 모드에서 수학 문제 해결 능력이 두드러지며, 비사고 모드에서도 전반적인 일반 및 언어 이해 능력을 고루 갖추고 있다. 이는 대규모 MoE 아키텍처와 충분한 토큰 처리 능력을 바탕으로 한 모델 설계의 강점을 보여주는 결과이다.


 35%|███▍      | 19/55 [02:10<03:37,  6.04s/it]


# 18
Qwen3 모델 평가 결과에 따르면, 플래그십 모델인 Qwen3-235B-A22B은 공개 소스 모델 중 최고 수준의 성능을 보이며, DeepSeek-R1과 DeepSeek-V3 등 강력한 경쟁 모델을 능가한다. 이 모델은 사고 능력(Reasoning)과 비사고 능력 모두에서 뛰어난 성과를 나타내며, OpenAI-o1, Gemini2.5-Pro, GPT-4o 같은 폐쇄형 최상위 모델들과도 대등한 경쟁력을 갖추고 있다. 전반적으로 Qwen3-235B-A22B는 깊이 있는 추론 능력과 포괄적인 일반 능력을 동시에 갖춘 점이 돋보인다.

또 다른 플래그십인 Qwen3-32B는 이전 모델인 QwQ-32B보다 대부분의 벤치마크에서 우수한 성능을 보이며, OpenAI-o3-mini와 비슷한 수준의 추론 능력을 선보인다. 특히, 비사고 모드에서도 뛰어난 성능을 나타내며, 이전의 비사고 플래그십 모델인 Qwen2.5-72B-Instruct를 능가하는 결과를 기록했다. 이는 Qwen3-32B가 추론과 비추론 작업 모두에서 균형 잡힌 강력한 성능을 제공함을 의미한다.

요약하면, Qwen3 시리즈는 공개 소스 AI 모델 중 최상위 성능을 기록하며, 사고력과 일반화 능력에서 탁월한 경쟁력을 갖추고 있다. Dense 및 MoE 아키텍처를 기반으로 한 다양한 모델들이 각각 추론 및 비추론 작업에서 뛰어난 결과를 내고 있어, 연구 및 실무 적용에서 유용한 선택지가 될 것으로 평가된다.


 36%|███▋      | 20/55 [02:17<03:44,  6.42s/it]


# 19
Qwen3 시리즈는 오픈소스 및 폐쇄소스 모델들과의 비교에서 뛰어난 추론 능력과 전반적인 성능을 입증했다. 특히 플래그십 모델 Qwen3-235B-A22B는 오픈소스 모델 중 DeepSeek-R1, DeepSeek-V3를 포함한 강력한 베이스라인을 능가하며, 폐쇄소스 모델인 OpenAI-o1, Gemini2.5-Pro, GPT-4o와도 경쟁력 있는 성능을 보였다. 이는 60% 활성화와 35% 파라미터만 사용하면서도 수학, 에이전트, 코딩 등 추론이 요구되는 작업에서 두드러진 성과를 나타내어 오픈소스 모델의 추론 역량이 폐쇄소스 모델과 거의 대등해졌음을 의미한다.

Qwen3-32B는 이전 최강 추론 모델 QwQ-32B를 대부분 벤치마크에서 앞서며, 폐쇄소스 OpenAI-o3-mini와도 대등한 성능을 보였다. 또한 비추론 모드에서도 전작 Qwen2.5-72B-Instruct를 능가하여 추론 및 비추론 모드 모두에서 강력한 모델임을 입증했다. 이는 Qwen3-32B가 32B 규모에서 최첨단 추론 모델로 자리매김했음을 시사하며, 다국어 처리와 정렬(alignment) 성능에서도 우수하다.

경량 모델군인 Qwen3-30B-A3B, Qwen3-14B 등은 Strong-to-Weak Distillation 기법을 통해 동등하거나 더 큰 파라미터를 가진 오픈소스 모델들보다 일관되게 우수한 성능을 제공한다. 이를 통해 Qwen3 시리즈가 다양한 규모와 모드에서 고성능을 유지하며, 특히 추론 능력과 일반화 능력에서 업계 최상위권에 위치함을 확인할 수 있다.


 38%|███▊      | 21/55 [02:25<03:52,  6.82s/it]


# 20
Qwen3-32B 모델은 사고(Thinking) 모드에서 기존 최고 성능 모델인 QwQ-32B를 17개 중 23개 벤치마크에서 능가하며, 32B 크기에서 최첨단 추론 모델로 자리매김했다. 또한, OpenAI의 폐쇄형 모델인 OpenAI-o3-mini(중간)와 비교해도 정렬(alignment)과 다국어 성능 면에서 우수한 경쟁력을 보였다. 사고 모드가 아닌(non-thinking) 모드에서는 Qwen3-32B가 거의 모든 벤치마크에서 모든 비교 대상 모델보다 뛰어난 성능을 보였으며, 특히 Qwen2.5-72B-Instruct와 비슷한 일반 작업 수행 능력을 가지면서도 정렬, 다국어 및 추론 관련 작업에서 현저한 강점을 나타내었다. 이는 Qwen3 시리즈가 이전 Qwen2.5 시리즈 대비 근본적인 성능 향상을 이뤘음을 입증한다.

Qwen3-30B-A3B와 Qwen3-14B 모델 역시 사고 모드에서 QwQ-32B와 비교해 매우 경쟁력 있는 성능을 보여주었다. 특히 Qwen3-30B-A3B는 모델 크기가 더 작고 효율성이 높은 상황에서도 QwQ-32B와 거의 동등한 추론 관련 성능을 달성했다. 비사고 모드에서는 Phi-4, Gemma-3-27B-IT, Qwen2.5-32B-Instruct 등과 비교해 우수한 결과를 보이며, 경량화된 모델임에도 불구하고 높은 품질의 결과물을 생성함을 확인했다. 전반적으로 Qwen3 시리즈는 효율성과 성능 두 측면에서 모두 크게 향상된 최신 LLM임을 증명하였다.

평가 결과는 표 13, 14, 15, 16에 상세히 제시되어 있으며, Qwen3 시리즈가 다양한 일반, 정렬, 추론, 코딩 및 다국어 벤치마크에서 기존 최상위 모델들을 능가하거나 동등한 성능을 달성함을 보여준다. 특히, 32B 크기 모델이 70B 크기 모델과 견줄 만한 성능을 보임으로써, 모델 크기 대비 효율성 측면에서 중요한 진전을 이뤘다. 이러한 결과는 Qwen3가 현재 공개된 대규모 언어 모델 중 최첨단 기술을 구현한 사례임을 시사한다.


 40%|████      | 22/55 [02:30<03:29,  6.35s/it]


# 21
Qwen3-32B 모델은 다양한 벤치마크 테스트에서 우수한 성능을 보이며, 특히 수학 및 추론, 코드 작성, 다중언어 과제에서 강점을 나타낸다. MATH-500, AIME, ZebraLogic 등 수학 관련 테스트에서 높은 점수를 기록했고, 코드 작성 능력을 평가하는 BFCL v3, LiveCodeBench v5에서도 경쟁력 있는 결과를 보여주었다. 다중언어 평가인 MMMLU 14개 언어와 INCLUDE, Multi-IF 등 테스트에서도 꾸준히 상위권에 위치하며 다국어 처리 능력을 입증했다. GPT-4o-mini, LLaMA-4 Scout, Qwen2.5-72B와 비교할 때, Qwen3-32B는 파라미터 수는 적지만 전반적으로 균형 잡힌 성능을 나타낸다. 특히 Alignment 및 Creative Writing 분야에서 뛰어난 결과를 내면서 실용성과 창의성 측면에서 강점을 보였다.

비교 지표에서 Qwen3-32B는 GPT-4o-mini와 LLaMA-4 Scout보다 적은 파라미터 수(32B)를 가지고도 유사하거나 더 나은 성능을 기록했다. 예를 들어, Arena-Hard에서는 92.8점으로 가장 높은 점수를 기록했고, WritingBench에서도 7.54점으로 상위권에 위치했다. 반면, 코드 작성 관련 CodeForces 점수는 1353점으로 GPT-4o-mini보다 낮지만, 전체적인 평가에서는 고른 성능 분포를 보여주었다. 이러한 결과는 Qwen3-32B의 효율적인 아키텍처와 최적화가 효과적으로 작용했음을 시사한다.

요약하면, Qwen3-32B는 다양한 AI 평가 지표에서 뛰어난 균형성과 효율성을 가진 모델로 자리매김했다. 수학, 추론, 언어 및 코드 작성 등 여러 영역에서 강력한 성능을 발휘하며, 특히 적은 파라미터 수에도 불구하고 GPT-4o-mini 및 LLaMA-4 Scout와 견줄 만한 결과를 보여준다. 이러한 특성은 Qwen3-32B가 실용적이고 다재다능한 인공지능 솔루션으로 활용될 가능성을 높인다.


 42%|████▏     | 23/55 [02:36<03:23,  6.36s/it]


# 22
Qwen3 시리즈의 최신 모델인 Qwen3-30B-A3B와 Qwen3-14B는 다양한 벤치마크에서 우수한 성능을 보여주고 있다. 특히, 수학 및 텍스트 추론(MATH-500, AIME 등), 일반 지식(MMLU-Redux, C-Eval), 그리고 코딩 및 에이전트 관련 과제에서도 높은 점수를 기록했다. MoE(Mixture of Experts) 아키텍처를 적용한 Qwen3-30B-A3B 모델은 활성화된 파라미터 수가 적음에도 불구하고, Dense 아키텍처의 대형 모델들과 견줄 만한 경쟁력을 지녔다. 또한, 다국어 및 다양한 추론 작업에서 일관되게 좋은 결과를 내며, CodeForces 같은 코딩 테스트에서도 상위 97% 이상의 등급을 획득했다.

본 보고서에서 제시된 비교 표는 Qwen3-30B-A3B와 Qwen3-14B가 기존의 Qwen2.5-32B, Phi-4, Gemma 등 타 모델과 비교해 다방면에서 우수한 성능을 보임을 시사한다. 특히 Alignment, Creative Writing, 그리고 다양한 추론 벤치마크에서 Qwen3 시리즈가 최고 또는 차상위 점수를 기록하며, 인공지능의 전반적 이해력과 문제 해결 능력이 크게 향상되었음을 알 수 있다. 이러한 결과는 Qwen3 모델이 적은 활성화 파라미터로도 뛰어난 효율성과 성능을 발휘할 수 있음을 보여준다.

종합하면, Qwen3 시리즈는 MoE 아키텍처 도입과 최적화된 파라미터 구성을 통해 대규모 언어 모델 분야에서 경쟁력을 강화하였다. 다양한 평가 항목에서 강력한 성능을 입증하며, 특히 복잡한 수학 문제, 코딩, 다국어 이해 등 실용적 응용 분야에서 뛰어난 활용 가능성을 보이고 있다. 이는 앞으로 인공지능 연구와 산업 적용에 있어 Qwen3 모델이 중요한 역할을 할 것임을 예고한다.


 44%|████▎     | 24/55 [02:47<03:53,  7.55s/it]


# 23
Qwen3 시리즈는 다양한 크기와 구조의 모델로, 일반, 정렬, 수학 및 추론, 에이전트 및 코딩, 다국어 등 여러 과제에서 다른 최신 모델들과 성능을 비교한 결과를 제시하고 있다. 특히 Qwen3-30B-A3B 모델은 MoE(Mixture of Experts) 아키텍처를 활용하여 30B 총 파라미터 중 3B만 활성화하며, MMLU-Redux, C-Eval, AutoLogi 등 다양한 벤치마크에서 상위권 성능을 기록하였다. 14B, 27B, 32B 등 기존 Dense 모델들과 비교 시, Qwen3-30B-A3B는 수학 및 논리 문제 해결 능력에서 경쟁력 있는 점수를 보여주며, 특히 AutoLogi와 Arena-Hard 등에서 우수한 성능을 나타냈다.

또한, Qwen3-4B 및 Qwen3-8B 모델은 상대적으로 작은 규모임에도 불구하고 추론(Thinking) 능력을 갖춘 모델로 평가되어, DeepSeek-R1 및 Distill-Qwen 시리즈와 비교해도 유의미한 성능을 보였다. 이들 모델은 수학 문제(MATH-500, AIME)와 코딩 벤치마크 등에서 안정적인 결과를 내며, 특히 Qwen3-8B가 Qwen3-4B보다 전반적으로 더 높은 점수를 획득했다. 전체적으로 Qwen3 시리즈는 다양한 파라미터 규모와 아키텍처를 통해 다방면에서 강력한 성능과 효율성을 동시에 추구하고 있음을 확인할 수 있다.

마지막으로, 다국어 및 창의적 글쓰기, 정렬 과제에서도 Qwen3 모델은 우수한 결과를 보여, 다국어 지원과 인간 친화적 인터랙션 측면에서도 경쟁력을 갖추었다. 특히 MLogiQA, PolyMath, MT-AIME2024 등 여러 평가에서 Qwen3-30B-A3B가 상위권을 차지하며, 실세계 문제 해결능력도 강화되었음을 시사한다. 이 보고서는 Qwen3 모델들이 다양한 자연어 처리 및 추론 과제에서 균형 잡힌 성능을 달성하면서, 최신 AI 연구의 발전 방향을 반영하고 있음을 보여준다.


 45%|████▌     | 25/55 [02:52<03:29,  6.99s/it]


# 24
Qwen3 시리즈 모델들은 다양한 벤치마크에서 우수한 성능을 보여주며, 특히 추론 및 정렬(alignment) 작업에서 두드러진 결과를 나타냈다. Qwen3-8B 모델은 8B 파라미터를 가진 Dense 아키텍처로서 MATH-500, AIME, ZebraLogic, AutoLogi 등 수학 및 텍스트 추론 과제에서 최고 점수를 기록했고, Creative Writing과 WritingBench 같은 창의적 글쓰기 작업에서도 다른 모델 대비 높은 성능을 보였다. 또한, 멀티링구얼 작업에서도 Multi-IF, INCLUDE, MMMLU 14개 언어 등에서 강점을 보이며 다국어 처리 능력이 뛰어남을 입증했다.

비교 대상인 DeepSeek-R1-Distill-Qwen-14B, 32B 모델과 Qwen3-4B 모델과의 비교에서 Qwen3-8B는 전반적으로 높은 성능을 유지하며, 특히 Alignment 벤치마크인 IFEval strict prompt, Arena-Hard, AlignBench 등에서 최고 혹은 두 번째로 우수한 결과를 냈다. 코딩 및 에이전트 관련 작업에서도 BFCL v3, LiveCodeBench v5, CodeForces 문제 해결에서 좋은 성과를 보여, 다방면에서 균형 잡힌 성능을 갖춘 모델임을 확인할 수 있다.

한편, Qwen3-4B 모델도 파라미터 수가 적음에도 불구하고 상당히 경쟁력 있는 성능을 내며, MLogiQA, PolyMath 등의 복잡한 추론 과제에서 의미 있는 결과를 보였다. 전반적으로 Qwen3 시리즈는 기존 Qwen2.5 및 LLaMA-3.1, Gemma-3 같은 동급 모델 대비 한층 개선된 성능을 제공하며, 특히 추론, 정렬, 멀티링구얼, 창의적 작업 등 다차원적인 언어 이해 및 생성 능력에서 강점을 가진 최신 거대 언어 모델임을 보여준다.


 47%|████▋     | 26/55 [03:01<03:40,  7.59s/it]


# 25
Qwen3 시리즈와 이전 버전인 Qwen2.5 및 기타 모델들의 성능 비교를 통해 Qwen3의 우수성을 확인할 수 있다. Qwen3-14B 모델은 14억 개의 파라미터를 가진 Dense 아키텍처로, 다양한 벤치마크에서 높은 점수를 기록했다. 예를 들어, MMLU-Redux에서 80.0점, GPQA-Diamond에서 45.5점, C-Eval에서 78.0점으로 전반적인 자연어 이해 및 추론 능력이 크게 향상되었다. 또한, Alignment 테스트에서도 IFEval strict prompt 81.0점, Arena-Hard 68.3점으로 인간과의 상호작용 품질 역시 개선되었다. 수학 및 논리 추론, 코딩 능력 평가에서도 Qwen3-14B가 우수한 성능을 나타내면서 종합적인 모델 성능 향상을 입증했다.

Qwen3-4B와 8B 모델도 비슷한 아키텍처를 기반으로 하면서 각각 4억 및 8억 개의 파라미터를 가졌고, 다양한 벤치마크에서 경쟁력 있는 결과를 보였다. 특히 MATH-500, AIME, AutoLogi 등 수학 및 논리 문제에서 높은 점수를 기록하여 복잡한 문제 해결 능력이 뛰어남을 보여주었다. 다국어 평가에서도 Qwen3 모델군은 다방면에서 우수한 성능을 나타내어, 글로벌 환경에서 활용 가능성을 높였다. 코딩 및 에이전트 관련 벤치마크에서는 LiveCodeBench, BFCL v3 등의 평가에서 고른 점수를 획득하여 실용적인 응용에 적합함을 확인할 수 있다.

더 작은 규모의 Qwen3-1.7B와 0.6B 모델은 각각 1.7억과 0.6억 파라미터를 가진 모델로, 다른 소형 모델들과 비교했을 때도 월등한 성능을 보였다. 예를 들어, MMLU-Redux에서 73.9점과 55.6점을 기록하며 동일 규모 대비 우수함을 입증했다. 이처럼 Qwen3 시리즈는 다양한 규모에서 균형 잡힌 성능과 효율성을 제공하며, 대형 모델부터 경량화 모델까지 폭넓게 활용할 수 있는 가능성을 보여준다. 전반적으로 Qwen3는 자연어 처리, 추론, 코딩, 다국어 등 다방면에서 전작 

 49%|████▉     | 27/55 [03:08<03:24,  7.31s/it]


# 26
Qwen3 시리즈 모델은 다양한 크기와 아키텍처를 바탕으로 여러 벤치마크 테스트에서 우수한 성능을 보였다. Qwen3-1.7B 모델은 1.7억 개의 활성화 파라미터를 가지고 있으며, MMLU-Redux, C-Eval, LiveBench 등 일반 및 정렬(Alignment) 작업에서 다른 최신 모델들을 능가하는 점수를 기록했다. 특히, 수학 및 텍스트 추론(Math & Text Reasoning) 분야에서 MATH-500, AutoLogi, ZebraLogic 테스트에서 90% 이상의 높은 정확도를 나타내며 뛰어난 추론 능력을 증명했다.

비교 대상인 DeepSeek-R1-Distill-Llama-8B와 같은 대형 모델과 비교했을 때도 Qwen3-1.7B는 적은 파라미터 수에도 불구하고 상당히 경쟁력 있는 성능을 보여, 효율성과 성능 간의 균형이 잘 맞춰져 있음을 알 수 있다. 또한, Qwen3-0.6B 모델도 소형 모델임에도 불구하고 여러 작업에서 중간 이상의 점수를 획득하여 경량화 모델로서의 가능성을 입증했다. 다국어 작업 및 코딩, 에이전트 관련 벤치마크에서도 안정적인 성능을 보여 전반적인 활용도가 높다.

한편, 비추론(Non-thinking) 작업에 대해 비교한 결과 Qwen3-1.7B는 Phi-4-mini, Qwen2.5 시리즈 등과 견줘도 높은 점수를 기록하여 다재다능함을 강조했다. 특히 일반 및 정렬 작업에서 우수한 성능을 나타내며, 이는 Qwen3 모델이 다양한 분야에서 범용적으로 사용할 수 있는 강력한 언어 모델임을 시사한다. 이러한 결과는 Qwen3가 최첨단 기술을 적용해 설계된 점과, 다양한 자연어 이해 및 생성 작업에서 탁월한 성능을 제공함을 보여준다.


 51%|█████     | 28/55 [03:16<03:23,  7.54s/it]


# 27
Qwen3 시리즈는 다양한 크기의 언어 모델(0.6B에서 30B 파라미터까지)을 포함하며, Strong-to-Weak Distillation 기법을 통해 적은 활성 파라미터만으로도 뛰어난 추론 능력을 보유하도록 설계되었다. 특히 Qwen3-30B-A3B와 Qwen3-14B 모델은 기존 Qwen2.5-32B-Instruct 모델보다 적은 파라미터와 활성화된 파라미터로도 대부분의 벤치마크에서 우수한 성능을 기록해 효율성과 비용 측면에서 개선을 이루었다. 다양한 벤치마크(일반, 정렬, 수학 및 추론, 에이전트 및 코딩, 다국어 과제)에서 Qwen3 모델은 경쟁 모델들과 비교해 높은 점수를 획득하며 우수성을 입증했다.

특히 Qwen3-8B 및 4B 모델은 thinking 모드에서 DeepSeek-R1-Distill-Qwen-14B/32B와 비교되었고, non-thinking 모드에서는 LLaMA-3.1-8B-Instruct, Gemma-3-12B-IT, Qwen2.5-7B/14B-Instruct 등과 경쟁하여 좋은 성과를 보였다. 저용량 모델인 Qwen3-1.7B와 0.6B 역시 DeepSeek 모델과 비교되며 경량화된 모델임에도 불구하고 상당한 성능을 유지했다. 이러한 결과는 Qwen3 시리즈가 모델 크기와 계산 자원에 따른 유연성을 갖추면서도 실용적인 수준의 성능을 제공함을 시사한다.

종합적으로, Qwen3 모델군은 강력한 증류 기법과 효율적인 파라미터 활용을 통해 다양한 과제에서 탁월한 성능을 나타내며, 대규모 모델 대비 비용 효율적인 대안으로 자리매김하고 있다. 이로써 실무 및 연구 환경에서 다양한 규모와 용도에 맞는 최적의 선택지를 제공하고, 향후 인공지능 언어 모델의 확장성과 적용 가능성을 제고하는 데 기여할 것으로 기대된다.


 53%|█████▎    | 29/55 [03:21<02:57,  6.81s/it]


# 28
Qwen3 시리즈 모델들은 훨씬 적은 활성화 및 총 파라미터 수로도 우수한 성능을 보이며, 비용 효율적인 운영이 가능하다. Qwen3-8B 및 4B 모델들은 기존의 DeepSeek 및 LLaMA, Gemma, Qwen2.5 시리즈 모델들과 다양한 모드(생각 모드와 비생각 모드)에서 비교 평가되었으며, 전반적으로 더 많은 파라미터를 가진 기존 모델들보다 뛰어난 성능을 나타냈다. 이러한 결과는 Strong-to-Weak Distillation 기법의 효과를 입증하며, 경량화와 비용 절감이 동시에 가능함을 보여준다.

Qwen3 모델은 ‘Thinking Budget’ 조절을 통해 수학, 코딩, STEM 분야 벤치마크에서 지능 수준을 점진적으로 향상시킬 수 있음을 확인했다. 특히, 출력 길이를 32K 이상으로 확장할 경우 향후 성능 개선 가능성도 제시되어 추가 연구가 기대된다. 또한, on-policy distillation 기법은 강화학습 대비 GPU 사용 시간을 약 1/10 수준으로 줄이면서도 더 우수한 성능을 달성했다. 이는 교사 모델의 로짓을 활용해 학생 모델의 탐색 공간과 추론 능력을 효과적으로 확장시킨 결과로, AIME 벤치마크에서의 pass@64 점수 향상으로도 확인된다.

마지막으로, Thinking Mode Fusion 및 일반 강화학습의 효과에 대한 평가도 진행되었으며, Qwen3의 다양한 학습 및 추론 전략이 모델의 전반적 성능 향상에 기여하고 있음을 시사한다. 이 연구는 대규모 언어 모델의 경량화와 효율적 학습 방법에 대한 중요한 실험적 근거를 제공하며, 앞으로의 확장성과 비용 절감 측면에서 큰 의미를 가진다.


 55%|█████▍    | 30/55 [03:29<02:54,  6.98s/it]


# 29
Qwen3-32B 모델의 성능 향상을 위해 세 가지 학습 단계인 Reasoning RL, Thinking Mode Fusion, General RL이 적용되었다. 각 단계는 다양한 벤치마크 데이터셋에서 평가되었으며, 특히 Thinking Mode Fusion 단계에서 대부분의 태스크에서 유의미한 성능 향상이 관찰되었다. 예를 들어, CounterFactQA, LengthCtrl, ThinkFollow, ToolUse 같은 내부 벤치마크에서는 최대 10% 이상의 점수 상승이 나타났다. 이는 모델이 상황에 맞는 사고 모드를 전환하고 복잡한 도구 사용 및 길이 조절 같은 세부적인 능력을 강화했음을 보여준다. 반면, 일부 지식 및 STEM 관련 벤치마크에서는 소폭 성능 저하가 있었으나, 전반적인 효율성 향상과 균형 잡힌 성능 개선에 성공했다.

또한, Off-policy Distillation, Reinforcement Learning, On-policy Distillation 세 가지 방법을 비교한 결과, On-policy Distillation이 가장 적은 GPU 시간(1,800시간)으로 대규모 성능 향상을 이뤄냈다. AIME, MMLU, GPQA 등 주요 수학 및 언어 이해 벤치마크에서 On-policy Distillation 단계가 최고 성능을 기록하며 효율성과 효과성을 입증했다. 이러한 과정은 Qwen3-32B가 복잡한 추론, 대화, 도구 활용 능력을 동시에 향상시키도록 설계된 점을 시사한다. 특히, Thinking Mode Fusion과 General RL의 결합이 모델의 다중 사고 모드 전환 및 일반화 능력 강화에 중요한 역할을 한 것으로 평가된다.

결론적으로, Qwen3-32B의 학습 전략은 강화 학습과 사고 모드 융합을 통해 다양한 유형의 문제 해결 능력을 크게 개선하였다. 내부 및 외부 벤치마크 모두에서 균형 잡힌 성능 향상이 관찰되며, 특히 창의적 글쓰기, 다중 턴 대화, 도구 호출 안정성 등 실제 응용에 중요한 영역에서 뛰어난 결과를

 56%|█████▋    | 31/55 [03:35<02:41,  6.73s/it]


# 30
Qwen3는 사고 모드(thinking mode)와 비사고 모드(non-thinking mode)를 통합한 최신 대형 언어 모델로, 36조 토큰의 방대한 데이터로 사전학습되어 119개 언어 및 방언을 이해하고 생성할 수 있다. 3단계 훈련에서 모델은 두 가지 모드를 전환하는 능력을 갖추었으며, 일반적인 지식 및 명령 수행 능력이 향상되었다. 4단계에서는 두 모드 모두에서 정확한 모드 전환이 가능해져, ThinkFollow 점수가 98.9로 크게 개선되었다.

그러나 지식, STEM, 수학, 코딩 분야에서는 사고 모드 융합과 일반 강화학습이 큰 성과를 내지 못했으며, 오히려 AIME’24와 LiveCodeBench 같은 고난도 과제에서는 사고 모드 성능이 다소 떨어졌다. 이는 모델이 더 광범위한 일반 임무에 맞춰 훈련되면서 전문적인 복잡 문제 해결 능력이 일부 희생된 결과로 분석된다. 연구진은 이러한 성능 저하를 감수하고 모델의 전반적인 다재다능성을 높이는 방향을 선택하였다.

향후 연구는 데이터 품질과 다양성을 높여 사전학습 규모를 확장하고, 모델 아키텍처와 훈련법 개선을 통해 효과적인 압축과 극장 맥락 확장 등을 추구할 계획이다. 또한 환경 피드백을 활용하는 에이전트 기반 강화학습에 컴퓨팅 자원을 집중하여, 추론 시간 확장이 필요한 복잡한 과제를 수행할 수 있는 에이전트를 개발하는 데 주력할 것이다.


 58%|█████▊    | 32/55 [03:40<02:24,  6.29s/it]


# 31
Qwen3 기술 보고서는 Qwen 시리즈 언어 모델의 장문 처리 능력과 성능 평가 결과를 상세히 다루고 있다. 특히 RULER 벤치마크를 통해 4K부터 128K까지 다양한 길이의 문맥에서 모델들이 어떻게 작동하는지를 실험하였다. Qwen2.5 시리즈의 72B 모델이 가장 높은 평균 점수(95.1)를 기록하며 장문 이해에 강점을 보였고, Qwen3 시리즈는 상대적으로 작은 파라미터 수임에도 불구하고 우수한 성능을 나타냈다. Qwen3-14B 모델은 평가 데이터가 공개되지 않았으나, 4B 및 8B 모델은 각각 85.2와 89.1의 평균 점수로 실용적인 성능을 증명하였다. 이 결과는 Qwen 모델들이 대규모 문맥에서도 안정적으로 정보를 처리할 수 있음을 시사한다.

또한, 보고서는 비사고(non-thinking) 모드에서의 성능 차이도 분석하여, 다양한 운영 모드에서의 모델 효율성을 비교하였다. Qwen 시리즈의 모델들은 긴 문맥을 다루는 능력에서 일관된 성능 향상을 보여, 실제 응용에서 긴 텍스트 처리에 적합함을 보여준다. 전반적으로 Qwen3는 이전 버전 대비 모델 크기와 성능의 균형을 잘 맞추었으며, 초대규모 문맥 이해 능력 향상에 초점을 맞추었다. 이러한 결과는 자연어 처리 분야에서 대형 언어 모델의 활용 가능성을 넓히는 중요한 진전으로 평가된다.


 60%|██████    | 33/55 [03:52<02:56,  8.04s/it]


# 32
Qwen3 기술 보고서에서는 긴 문맥 처리와 다국어 능력 평가 결과를 중심으로 Qwen3 시리즈 모델들의 성능을 상세히 분석하였다. 긴 문맥 처리 능력을 측정하기 위해 RULER 벤치마크를 사용하였으며, 비사고 모드에서 Qwen3 모델들이 동일 크기의 Qwen2.5 모델들보다 우수한 성능을 보였다. 사고 모드에서는 성능이 다소 저하되었는데, 이는 해당 작업들이 추론보다는 정보 검색에 초점이 맞춰져 있어 사고 모드의 추가적인 추론 과정이 오히려 방해가 될 수 있음을 시사한다. 연구팀은 향후 사고 모드에서도 긴 문맥 처리 능력을 향상시키기 위한 노력을 지속할 계획임을 밝혔다.

다국어 능력 평가에서는 스페인어, 프랑스어, 포르투갈어, 이탈리아어, 아랍어, 일본어, 한국어, 인도네시아어, 러시아어, 베트남어, 독일어, 태국어 등 다양한 언어에서 Qwen3 모델이 경쟁력 있는 성능을 나타냈다. 특히 Belebele 벤치마크를 활용해 80개 지원 언어에 대해 평가한 결과, Qwen3는 유사 크기의 Gemma 모델과 비교해 대등한 성능을 보였으며 Qwen2.5 모델 대비 월등히 뛰어났다. 이를 통해 Qwen3 시리즈가 광범위한 언어 환경에서도 안정적이고 우수한 자연어 이해 능력을 갖추었음을 확인할 수 있다.

종합적으로, Qwen3 모델은 긴 문맥 처리와 다국어 이해 능력에서 전 세대 모델 대비 진일보한 성능을 기록하였다. 비사고 모드에서의 긴 문맥 처리 우수성과 다국어 벤치마크에서의 강력한 경쟁력은 Qwen3의 핵심 강점으로 평가된다. 향후 연구에서는 사고 모드의 긴 문맥 처리 성능 최적화와 더불어 다양한 언어와 작업에서 모델의 활용도를 더욱 높이는 방향으로 발전할 전망이다.


 62%|██████▏   | 34/55 [03:58<02:34,  7.36s/it]


# 33
Qwen3 시리즈 모델들은 다양한 벤치마크 평가에서 경쟁력 있는 성능을 보여주며, 특히 강력한 다국어 능력을 입증하였다. Belebele 벤치마크를 활용해 80개 지원 언어(최적화되지 않은 42개 언어 제외)에 대해 평가한 결과, Qwen3는 유사 크기의 Gemma 모델과 대등한 성능을 보였고, 이전 버전인 Qwen2.5 대비 현저히 우수한 성능을 나타냈다. 이는 Qwen3가 다국어 자연어 이해 분야에서 뛰어난 범용성과 확장성을 갖추었음을 시사한다.

스페인어를 포함한 여러 언어별 세부 성능 지표를 보면, Qwen3-235B-A22B 모델은 다양한 평가 항목에서 상위권 성적을 기록했으며, GPT-4o-2024-1120 및 Gemma-3-27b-IT 등의 다른 최신 모델과 비교해도 경쟁력 있는 결과를 보였다. 특히 사고 모드(Thinking Mode)에서 더욱 강력한 성능을 발휘해 복합적인 언어 이해 및 추론 작업에 적합함을 확인할 수 있다. 이러한 성과는 Qwen3 시리즈가 다양한 크기와 구성으로 다양한 응용 환경에 유연하게 대응할 수 있음을 의미한다.

종합적으로, Qwen3는 광범위한 언어와 작업에 대해 높은 정확도와 일관된 성능을 제공하며, 다국어 자연어 처리 분야에서 중요한 발전을 이뤘다. 이 모델들은 다국어 벤치마크에서 기존 모델들을 능가하거나 대등한 성능을 유지하면서, 특히 중대형 모델에서 뛰어난 효율성과 확장성을 보여줌으로써 향후 인공지능 언어 모델 연구 및 실무 적용에 큰 기여를 할 것으로 기대된다.


 64%|██████▎   | 35/55 [04:05<02:26,  7.32s/it]


# 34
Qwen3 시리즈는 다양한 크기와 설정으로 여러 벤치마크에서 우수한 성능을 보였다. 특히, 235B, 32B, 30B 모델은 프랑스어 및 다중 언어 벤치마크에서 상위권 점수를 기록하며 Gemini2.5-Pro 및 GPT-4o-2024-1120과 견줄 만한 성과를 냈다. 크기가 클수록 전반적으로 높은 정확도와 평균 점수를 나타냈으며, Thinking Mode에서 더 뛰어난 성능을 보이는 경향이 있다.

Thinking Mode와 Non-thinking Mode 간에도 차이가 확인되었는데, Thinking Mode에서 Qwen3-235B-A22B와 Qwen3-32B가 가장 높은 평균 점수를 기록했다. 반면, Non-thinking Mode에서는 Qwen3-14B가 상대적으로 높은 점수를 보이며 다양한 벤치마크에서 안정적인 성능을 유지하였다. GPT-4o-2024-1120과 Gemma-3-27b-IT 등 경쟁 모델과 비교할 때도 Qwen3 모델군은 강력한 경쟁력을 갖추고 있음을 보여준다.

이 보고서는 Qwen3 모델들이 다국어 및 복합적인 평가 기준에서 뛰어난 성과를 내며, 특히 대형 모델일수록 성능이 향상됨을 강조한다. 또한, 다양한 활용 시나리오에 맞춘 Thinking Mode의 중요성을 시사하며, 앞으로의 연구 및 개발 방향에 있어 모델 크기와 모드 선택이 핵심 요소임을 시사한다. 전반적으로 Qwen3는 최신 AI 언어 모델 분야에서 강력한 입지를 다지고 있음을 확인할 수 있다.


 65%|██████▌   | 36/55 [04:11<02:10,  6.85s/it]


# 35
Qwen3 시리즈 모델들은 다양한 크기(0.6B부터 235B까지)와 모드(Thinking Mode, Non-thinking Mode)에서 포르투갈어 벤치마크 테스트를 수행하여 성능을 평가받았다. Thinking Mode에서는 Qwen3-235B-A22B가 대부분의 벤치마크 항목에서 최고 혹은 두 번째로 높은 점수를 기록하며 평균 77.0점으로 가장 우수한 성능을 보였다. Qwen3-32B와 Qwen3-14B도 70점대 중반의 안정적인 성능을 나타내며 상위권에 위치했다.

Non-thinking Mode에서는 전체적으로 점수가 다소 낮아지는 경향이 있었으며, Qwen3-235B-A22B가 평균 61.2점으로 가장 높은 평가를 받았다. GPT-4o-2024-1120과 Gemma-3-27b-IT 같은 경쟁 모델들도 다수 포함되었는데, 이들 모델은 Qwen3의 대형 모델에 비해 다소 낮은 점수를 받았다. 모델 크기가 커질수록 점수가 상승하는 경향이 뚜렷하게 나타났으며, 특히 30B 이상 모델들이 뛰어난 성능을 보였다.

이 결과는 Qwen3 시리즈가 대형 언어모델 시장에서 경쟁력 있는 성능을 발휘함을 입증하며, Thinking Mode가 활성화될 때 모델의 문제 해결 능력과 이해력이 크게 향상됨을 보여준다. 또한, 다양한 벤치마크 항목에서 고르게 높은 성능을 달성한 점은 Qwen3 모델의 다재다능함을 시사한다. 전반적으로 Qwen3는 포르투갈어 처리 분야에서 강력한 성능을 가진 모델임을 확인할 수 있다.


 67%|██████▋   | 37/55 [04:18<02:03,  6.84s/it]


# 36
Qwen3 시리즈는 다양한 크기의 모델로 구성되어 있으며, 이들의 성능은 벤치마크 점수를 통해 평가된다. 특히 이탈리아어 벤치마크에서 Qwen3-32B, Qwen3-30B-A3B, Qwen3-14B 모델이 높은 점수를 기록하며 우수한 성능을 보였다. Gemini2.5-Pro 모델이 다중 지능형 문제 해결 능력에서 가장 뛰어난 성능을 나타냈고, Qwen3-235B-A22B와 Qwen3-32B도 상위권에 위치했다. 사고 모드(Thinking Mode)에서의 성능은 비사고 모드(Non-thinking Mode)보다 전반적으로 우수했으며, 이는 모델의 문제 해결 능력과 이해력이 향상되었음을 시사한다. 작은 모델일수록 점수가 낮아지는 경향을 보였지만, Qwen3 시리즈 전체적으로 균형 잡힌 성능을 나타냈다.

또한, Qwen3 모델들은 GPT-4o-2024-1120과 Gemma-3-27b-IT 같은 최신 경쟁 모델과 비교했을 때도 상당한 경쟁력을 갖추고 있다. 특히 사고 모드에서의 Qwen3-235B-A22B 모델은 중간 크기 모델 대비 높은 점수를 달성하여, 대규모 모델이 갖는 장점을 잘 활용함을 보여주었다. 이와 함께, PolyMath, MMMLU, MT-AIME24와 같은 다양한 평가 지표에서 Qwen3 시리즈가 고르게 좋은 성과를 냈다. 비사고 모드에서는 점수가 다소 낮아지긴 했으나, 여전히 주요 벤치마크에서 경쟁력 있는 성능을 유지했다. 이는 Qwen3 모델들이 다양한 상황에서 유연하게 적용 가능함을 의미한다.

종합적으로, Qwen3 기술 보고서는 다국어 및 다중 과제 수행능력에서 Qwen3 시리즈가 뛰어난 성능을 보이며, 특히 사고 모드에서의 향상된 능력이 주목할 만하다고 결론짓는다. 모델 크기에 따른 성능 차이가 명확하나, 14B 이상 모델에서부터는 고성능을 안정적으로 발휘하는 경향을 보인다. 경쟁 모델과 비교해도 우수한 점수를 기록하며, 이는 Qwen3 시리즈가 현 시점에서 매우 경쟁력 있는 대형 언어 모델임을 시사한다. 앞으로도 다양한 언어

 69%|██████▉   | 38/55 [04:26<02:01,  7.17s/it]


# 37
Qwen3 시리즈는 다양한 크기와 구성으로 다국어 벤치마크 평가에서 뛰어난 성능을 보이고 있다. 특히 Qwen3-30B-A3B와 Qwen3-14B 모델은 아랍어와 일본어 벤치마크에서 평균 점수 60점 이상을 기록하며 상위권에 위치한다. 이 모델들은 MLogiQA, INCLUDE, MMMLU, MT-AIME24, PolyMath 등 다양한 태스크에서 높은 점수를 획득해 다재다능한 자연어 이해 능력을 입증했다. 또한, 생각(Thinking) 모드를 활성화한 상태에서의 성능이 비활성화 상태보다 현저히 우수해, 사고 과정의 모방이 모델의 문제 해결 능력을 크게 향상시킨다는 점이 확인되었다. 이로써 Qwen3 모델들은 대규모 언어 모델 분야에서 경쟁력 있는 기술적 진보를 보여준다.

특히 아랍어 벤치마크에서 Gemini2.5-Pro 모델이 최고 점수를 기록했으나, Qwen3-235B-A22B와 Qwen3-32B 등도 근접한 성과를 내며 강력한 경쟁력을 나타냈다. 일본어 평가에서도 Gemini2.5-Pro가 우수한 성능을 보였고, Qwen3 시리즈는 다양한 크기별로 점진적인 성능 향상을 보여 모델 크기와 성능 간의 상관관계를 뒷받침한다. 반면, 비슷한 크기임에도 생각 모드 미적용 모델은 낮은 점수를 기록, 사고 과정 시뮬레이션의 중요성이 강조된다. 이 결과들은 다국어 지원과 사고 모드 도입이 대형 언어 모델의 실제 활용도를 높이는 핵심 요소임을 시사한다.

종합하면, Qwen3 모델은 다양한 언어와 태스크에서 뛰어난 성능을 보이며, 사고 모드 활성화가 성능 개선에 크게 기여한다. 모델 크기와 구성에 따라 점진적으로 성능이 향상되며, Gemini 시리즈와의 비교에서도 경쟁력 있는 결과를 산출한다. 이러한 특성은 Qwen3가 다국어 자연어 처리와 복잡한 문제 해결에 적합한 차세대 언어 모델임을 입증한다. 앞으로도 사고 모드 기술과 모델 최적화를 통해 더욱 진보된 성능을 기대할 수 있다.


 71%|███████   | 39/55 [04:31<01:44,  6.51s/it]


# 38
Qwen3 기술 보고서는 다양한 크기와 구성의 Qwen3 모델들이 일본어와 한국어 벤치마크 테스트에서 우수한 성능을 보였음을 보여준다. 특히, 235B 파라미터를 가진 Qwen3-235B-A22B 모델은 일본어 및 한국어 테스트에서 Thinking Mode를 활용할 때 평균 점수 76.0과 75.1로 가장 높은 성과를 기록하였다. 이 모델은 MLogiQA, INCLUDE, MMMLU, MT-AIME24, PolyMath 등 다양한 평가 항목에서 탁월한 결과를 나타내며, 대형 모델의 강점을 입증하였다.

또한, Qwen3-32B 및 Qwen3-30B-A3B 모델들도 전반적으로 높은 점수를 기록하며 대형 모델군 내에서 경쟁력 있는 성능을 보였다. 반면, 소형 모델군인 Qwen3-1.7B 및 Qwen3-0.6B는 상대적으로 낮은 점수를 기록하였는데, 이는 모델 크기에 따른 성능 차이를 명확히 드러낸다. Thinking Mode와 Non-thinking Mode 간에는 성능 차이가 존재하며, Thinking Mode가 전반적으로 더 우수한 결과를 도출하였다.

보고서에서는 Gemini2.5-Pro와 GPT-4o-2024-1120 등 타 모델과의 비교도 포함되어, Qwen3 시리즈가 현존하는 여러 대형 언어 모델과 견줄만한 성능을 갖추었음을 강조한다. 이러한 결과는 Qwen3 모델이 다국어 및 다양한 과제에서 효과적인 활용 가능성을 제시하며, 향후 연구 및 응용에 중요한 참고 자료가 될 것으로 기대된다.


 73%|███████▎  | 40/55 [04:35<01:27,  5.83s/it]


# 39
Qwen3 기술 보고서의 일부 벤치마크 결과는 한국어와 인도네시아어에서 다양한 모델들의 성능을 비교 분석한 내용이다. 한국어 평가에서 Gemini2.5-Pro와 Qwen3-235B-A22B 모델이 전반적으로 높은 점수를 기록했으며, 특히 복합적인 사고 모드(Thinking Mode)에서 우수한 성능을 보였다. 반면 비사고 모드(Non-thinking Mode)에서는 GPT-4o와 Gemma-3-27b-IT 등이 상대적으로 좋은 성과를 나타냈다.

인도네시아어 벤치마크 결과 역시 Gemini2.5-Pro와 Qwen3-235B-A22B 모델이 가장 높은 평균 점수를 기록하며, 대형 모델들이 다국어 처리 능력에서 강점을 보였다. Qwen3 시리즈는 모델 크기에 따라 성능 차이를 보였는데, 대형 모델일수록 높은 점수를 획득하는 경향을 보였다. 또, 사고 모드에서는 전반적으로 더 나은 성능을 나타냈으며, 이는 복잡한 문제 해결능력과 관련이 있다.

전반적으로 Qwen3 계열 대형 언어 모델들은 다국어 벤치마크에서 강력한 성능을 발휘하며, 특히 사고 모드에서의 활용이 효과적임을 확인할 수 있었다. Gemini2.5-Pro 모델과 일부 Qwen3-235B 모델은 다양한 언어 환경에서 균형 잡힌 성능을 보여주어, 다국어 자연어 처리 및 복합 문제 해결에 적합한 모델임을 시사한다. 이러한 결과는 향후 다국어 인공지능 서비스 및 연구 개발에 중요한 참고 자료로 활용될 수 있다.


 75%|███████▍  | 41/55 [04:43<01:29,  6.36s/it]


# 40
Qwen3 시리즈 모델들은 인도네시아어 및 러시아어 벤치마크에서 다양한 성능을 보였다. 인도네시아어에서는 Gemini2.5-Pro와 Qwen3-235B-A22B 모델이 THINKING Mode에서 평균 점수 75.2로 가장 높은 성능을 기록했고, Qwen3-30B-A3B와 Qwen3-32B 모델도 상위권에 위치했다. NON-THINKING Mode에서는 Qwen3-235B-A22B가 평균 56.1점으로 가장 우수한 성능을 나타냈다. 러시아어 벤치마크에서는 Qwen3-235B-A22B가 THINKING Mode에서 68.9점으로 최고 점수를 기록하며 Gemini2.5-Pro와 근소한 차이를 보였다. 전반적으로 대형 모델일수록 벤치마크 점수가 높고 THINKING Mode가 NON-THINKING Mode보다 더 우수한 결과를 나타내는 경향이 있다.

각 언어별로 평가된 여러 하위 벤치마크(INCLUDE, MT-AIME24, PolyMath 등)에서 Qwen3-235B-A22B가 일관되게 상위권을 유지하며 뛰어난 다국어 처리 능력을 입증했다. 특히 인도네시아어에서 MT-AIME24 점수가 87.2점으로 가장 높아 번역 및 언어 이해에서 강점을 보였다. 러시아어에서는 PolyMath와 MT-AIME24 영역에서 Qwen3-235B-A22B의 점수가 각각 53.1점과 80.4점으로 우수한 성과를 냈다. 이 데이터는 Qwen3 시리즈가 대규모 언어 모델로서 다국어 환경에서 균형 잡힌 성능을 갖추고 있음을 보여준다. 반면 저용량 모델(Qwen3-0.6B 등)은 상대적으로 낮은 점수를 기록해 모델 크기와 성능 간 상관관계를 확인할 수 있다.

요약하면, Qwen3-235B-A22B 모델은 THINKING Mode에서 다국어 벤치마크에서 최상위권 성능을 발휘하며, Gemini2.5-Pro와 경쟁하는 수준이다. 대형 모델들은 복잡한 언어처리 과제에서 강점을 가지며, 다양한 벤치마크를 통해 그 성능이 검증되었다. NON-THINKING Mode에서는 전반적으로 점수가

 76%|███████▋  | 42/55 [04:48<01:18,  6.05s/it]


# 41
Qwen3 시리즈는 다양한 크기(0.6B부터 235B까지)의 언어 모델로 구성되어 있으며, 베트남어 벤치마크에서 뛰어난 성능을 보이고 있다. 특히 Qwen3-235B-A22B 모델은 Thinking Mode에서 평균 점수 75.2로 가장 우수하며, MLogiQA, INCLUDE, MT-AIME24, PolyMath 등 다양한 테스트에서 상위권을 차지했다. Gemini2.5-Pro와 Qwen3-32B도 높은 성능을 보여 대형 모델들이 복합적인 언어 이해와 추론 능력에서 강점을 가진다.

비교군인 GPT-4o-2024-1120, Gemma-3-27b-IT, Qwen2.5-72B-Instruct 등과 비교 시 Qwen3 시리즈의 최신 대형 모델들은 대부분 Thinking Mode에서 우수한 점수를 기록하였다. 반면 Non-thinking Mode에서는 전반적으로 낮은 성능을 보여, 사전 학습된 추론 및 사고 기능을 활용하는 것이 성능 향상에 크게 기여함을 알 수 있다. 또한, 모델 크기가 클수록 벤치마크 점수가 증가하는 경향이 뚜렷하여, 모델 용량과 성능 간의 상관관계가 명확히 관찰된다.

종합하면 Qwen3 시리즈는 다양한 크기별로 균형 잡힌 성능을 제공하며, 특히 대형 모델들이 베트남어를 포함한 다국어 벤치마크에서 뛰어난 추론 능력을 입증하였다. Thinking Mode 활용 시 복잡한 문제 해결 능력이 극대화되며, 이는 차세대 다국어 AI 언어 모델 개발에 중요한 시사점을 제공한다. 향후 연구에서는 더 다양한 언어와 과제에 대한 평가 및 최적화가 기대된다.


 78%|███████▊  | 43/55 [04:56<01:19,  6.66s/it]


# 42
Qwen3 시리즈는 다양한 크기와 구성으로 독일어 벤치마크에서 높은 성능을 보이고 있다. 특히 Qwen3-235B-A22B 모델은 Thinking Mode에서 평균 74.0점으로 가장 우수한 성적을 기록했으며, INCLUDE, MMMLU, MT-AIME24, PolyMath 등 여러 평가 항목에서 두드러진 결과를 나타냈다. 중간 크기 모델들인 Qwen3-32B와 Qwen3-30B-A3B도 각각 70.2점과 68.2점의 평균 점수를 보여 경쟁력 있는 성능을 유지했다. 반면 비사고(Non-thinking) 모드에서는 전반적으로 점수가 낮아, 사고 모드가 성능 향상에 중요한 역할을 하는 것으로 보인다. GPT-4o-2024-1120과 Gemma-3-27b-IT 같은 다른 최신 모델과 비교해도 Qwen3의 대형 모델들이 우위를 점하고 있다.

모델 크기별로 살펴보면, 더 큰 파라미터 수를 가진 모델일수록 독일어 처리 능력이 향상되는 경향이 뚜렷하다. 예를 들어, Qwen3-235B-A22B는 71.4점의 INCLUDE 점수와 86.0점의 MMMLU 점수를 기록해 가장 뛰어난 점수를 받았다. 반면 0.6B와 1.7B 크기의 소형 모델들은 평균 점수가 30점대 초반에서 40점대 미만에 머무르며 성능 차이를 보여준다. 이와 함께, Thinking Mode와 Non-thinking Mode 간의 점수 차이가 모델 성능 평가에 있어 중요한 변수임을 확인할 수 있다. 즉, 사고 모드 활성화가 모델의 언어 이해 및 추론 능력을 크게 향상시키는 핵심 요소임을 시사한다.

결론적으로 Qwen3 시리즈는 대형 모델 중심으로 독일어 벤치마크에서 탁월한 성과를 보이며, 사고 모드 활성화가 성능에 긍정적인 영향을 미친다. 이는 자연어 처리 분야에서 대규모 언어 모델의 중요성과 함께, 적절한 모드 설정이 모델 활용 극대화에 필수적임을 강조한다. 향후 연구에서는 중형 및 소형 모델의 효율성 개선과 함께 사고 모드 최적화가 중요한 연구 방향이 될 것으로 기대된다. 이와 같은 결과들은 

 80%|████████  | 44/55 [05:01<01:08,  6.20s/it]


# 43
Qwen3 모델 시리즈는 다양한 크기와 구성으로 여러 언어에 대해 벤치마크 테스트를 수행하여 성능을 평가했다. 특히 태국어(Thai) 벤치마크 결과에서 Qwen3-235B-A22B 모델이 Thinking Mode에서 71.4점으로 우수한 성능을 보였으며, Gemini2.5-Pro와 Qwen3-32B 모델도 높은 점수를 기록했다. Non-thinking Mode에서는 전반적으로 점수가 낮았으나, Qwen3-235B-A22B 모델이 37.4점으로 비교적 좋은 결과를 나타냈다. 이는 대형 모델일수록 복잡한 사고가 필요한 작업에서 뛰어난 성능을 발휘함을 시사한다. 

또한, Qwen3는 Belebele Benchmark를 통해 인도유럽어족(Indo-European) 등 여러 언어 가족을 지원하며, 총 40개의 언어와 다양한 문자 체계를 포괄한다. 이로써 Qwen3는 다양한 언어적 배경을 아우르는 다국어 지원 능력을 갖추었음을 확인할 수 있다. 벤치마크 결과는 모델 크기와 학습 방법에 따라 성능 차이가 크며, 특히 Thinking Mode에서의 성능 향상이 두드러진다. 

종합적으로 Qwen3는 대규모 다국어 모델로서, 복잡한 언어 이해와 추론 작업에서 우수한 성능을 보이고 다양한 언어와 문자 체계를 지원한다. 이는 다국어 자연어 처리와 인공지능 응용 분야에 광범위하게 활용될 가능성을 시사한다. 앞으로도 모델 최적화와 다양한 언어 지원 강화를 통해 성능이 더욱 향상될 것으로 기대된다.


 82%|████████▏ | 45/55 [05:06<00:59,  5.95s/it]


# 44
Qwen3 모델은 Belebele 벤치마크에서 다양한 언어 계통과 언어 코드를 지원하며, 인도-유럽어족, 중국-티베트어족, 아프로-아시아어족 등 총 16개 언어 계통에 걸쳐 76개 이상의 언어를 포괄한다. 특히 인도-유럽어족에서 40개의 언어를 지원하며, 그 외에도 오스트로네시아어족, 닥리비언어족, 튀르크어족 등 주요 언어 가족을 포함한다. 이처럼 광범위한 언어 지원을 통해 다국어 처리 능력을 강화하였다.

성능 비교 결과, Qwen3-32B 모델은 대부분의 언어 계통에서 최고 점수를 기록하며 기존 Qwen2.5 및 Gemma-3 모델을 능가하는 성능을 보였다. ‘Thinking’ 모드에서 특히 높은 점수를 나타내며, 이는 심층적 추론 능력 향상에 기인한다. 14B와 32B 크기 모델 모두에서 Qwen3가 상위권 성능을 유지하며, 다양한 크기에서도 안정적인 다국어 이해력을 입증하였다.

종합적으로, Qwen3는 광범위한 언어 지원과 우수한 벤치마크 성능을 결합하여 다국어 대규모 언어 모델의 새로운 기준을 제시한다. 특히 복잡한 언어 계통을 아우르는 다중 언어 처리에서 뛰어난 효율성과 정확도를 달성하였다. 이로써 글로벌 자연어 처리 응용 분야에서의 활용 가능성이 크게 확대되었다.


 84%|████████▎ | 46/55 [05:10<00:47,  5.24s/it]


# 45
Qwen3 기술 보고서는 다양한 크기와 설정의 Qwen 시리즈 언어 모델들의 성능을 비교 분석한다. 특히 Qwen3-14B 모델은 사고(Thinking) 모드에서 최고 성능을 기록하며, Qwen2.5-14B-Instruct 및 이전 세대 모델들을 능가하는 결과를 보였다. 모델 크기가 작아질수록 성능은 감소하지만, Qwen3 시리즈는 동일 크기 내에서 경쟁력 있는 결과를 나타내며, 사고 모드가 비사고 모드보다 전반적으로 우수함을 확인하였다.

보고서에서는 또한 Gemma-3와 Qwen2.5 모델들과의 비교를 통해 Qwen3의 기술적 진보를 강조하며, 다양한 문제 유형과 평가 지표에 대한 상세한 성능 수치를 제공한다. 참고문헌에는 최신 연구 및 관련 기술들이 포함되어 있어, Qwen3 개발 배경과 최신 동향을 이해하는 데 기여한다. 전반적으로 Qwen3는 대규모 언어 모델 분야에서 혁신적인 접근을 통해 성능과 활용 가능성을 크게 향상시킨 결과로 평가된다.


 85%|████████▌ | 47/55 [05:18<00:47,  5.94s/it]


# 46
Qwen 기술 보고서는 대규모 언어 모델의 설계와 응용에 관한 최신 연구를 종합적으로 다루고 있다. 보고서는 모델 아키텍처, 학습 방법, 그리고 성능 평가에 초점을 맞추며, 특히 장기 문맥 처리와 다중 언어 지원 등 현대 언어 모델이 직면한 주요 과제를 해결하는 방안을 제시한다. 또한, Qwen 모델은 코드 생성, 자연어 이해, 대화 등 다양한 태스크에서 뛰어난 성능을 보여, 실용적 활용 가능성을 확대하고 있다. 보고서에는 Qwen2.5-VL과 같은 멀티모달 확장 모델에 대한 기술적 설명도 포함되어 있어, 텍스트와 비주얼 데이터를 통합하는 새로운 연구 동향을 반영한다. 전반적으로 Qwen 시리즈는 최첨단 AI 연구를 실무에 적용하는 데 중요한 참고 자료로 평가된다.

보고서는 다양한 벤치마크와 평가 데이터셋을 활용해 모델의 능력을 체계적으로 검증했다. 예를 들어, 122개 언어 변종을 포함하는 Belebele 벤치마크와 같은 다국어 읽기 이해 테스트를 통해 모델의 범용성을 입증했다. 또한, 코드 생성 분야에서는 MultiPL-E 벤치마크를 통한 평가로 모델의 프로그래밍 능력을 검증하여, 개발자 지원 도구로서의 발전 가능성을 탐색했다. 보고서에 소개된 최신 연구들은 훈련 없이도 긴 문맥을 처리하는 기술과 함께, 소수 샘플 학습(few-shot learning) 능력을 강화하는 데 초점을 맞추고 있다. 이러한 기술적 진보는 대규모 언어 모델의 확장성과 적응성을 크게 향상시킨다.

마지막으로, Qwen 보고서는 Anthropic의 Claude 3.7 Sonnet, OpenAI의 GPT 시리즈 등 주요 경쟁 모델과의 비교를 통해 자사의 기술 우수성을 강조한다. 보고서 작성진은 모델의 효율성과 정확도를 높이기 위한 다양한 최적화 기법을 적용했으며, 이는 실제 응용 환경에서의 실행 속도와 자원 활용도 향상으로 이어졌다. 향후 연구 방향으로는 멀티모달 통합, 장기 문맥 관리, 그리고 다국어 처리 능력의 지속적인 개선이 제안되었다. 이를 통해 Qwen 시리즈는 A

 87%|████████▋ | 48/55 [05:25<00:44,  6.41s/it]


# 47
Qwen3 기술 보고서는 최신 인공지능 및 거대 언어 모델(LLM) 분야에서의 주요 연구와 발전 동향을 체계적으로 정리하고 있다. 특히, 코드 생성과 수학 문제 해결에 특화된 신경망 모델들의 성능 평가 방법론과 최첨단 모델들의 구조적 혁신에 대해 집중적으로 다룬다. MultiPL-E와 같은 다중 프로그래밍 언어 벤치마크, 그리고 DeepSeekMoE의 전문가 특화 혼합 전문가 모델(MoE) 접근법을 통해 모델 확장성과 전문성 향상에 대한 실질적인 성과를 제시한다. 또한, Gemini 2.5와 같은 대형 비전 트랜스포머 모델의 사례를 통해 모델 규모 확장과 성능 최적화의 최신 트렌드를 소개한다. 이 보고서는 LLM의 평가, 학습, 그리고 적용 분야에서의 기술 발전을 종합적으로 이해하는 데 중요한 자료로 활용된다.

보고서는 코드 생성 모델의 평가에 대한 Mark Chen 등의 연구와, 수학 문제 해결을 위한 검증자 훈련 방식(Cobbe et al.)을 통해 LLM의 문제 해결 능력 강화 방식을 분석한다. 또한, DeepSeekMoE(2024) 연구를 통해 전문가 특화 모델 설계가 모델의 효율성과 정확도를 어떻게 극대화하는지를 설명한다. 대규모 모델 학습과 확장성 측면에서는 ICML 2023에서 발표된 220억 파라미터 규모의 비전 트랜스포머(Dehghani et al.) 연구가 중요한 참고사례로 언급된다. 구글 딥마인드의 Gemini 2.5(2025) 모델은 최신 대형 AI 시스템 개발의 사례로서, 모델의 사고 및 업데이트 능력 개선에 중점을 둔다. 전반적으로 이 보고서는 다양한 분야에서 LLM의 다각적 평가와 실용성 증대에 관한 중요한 연구 성과들을 종합하여 제시한다.

마지막으로, SuperGPQA와 같은 대규모 LLM 평가 프레임워크는 285개 대학원 학문 분야를 아우르는 광범위한 평가를 가능하게 하여, LLM의 학문적 적용 가능성과 전반적인 성능 향상을 지원한다. 이와 함께, 언어 모델의 구조적 혁신으로 게이트 합성곱 네트워크(Dauphin e

 89%|████████▉ | 49/55 [05:33<00:41,  6.96s/it]


# 48
Qwen3 기술 보고서는 대규모 비전 트랜스포머 모델과 거대 언어 모델(LLM)의 확장 및 평가에 관한 최신 연구들을 종합적으로 다룬다. 특히, 220억 파라미터 규모의 비전 트랜스포머 모델 확장(ICML 2023)과 285개 대학원 학문 분야에 걸친 LLM 평가(SuperGPQA, 2025) 연구가 핵심적으로 소개된다. 또한 Llama 3 모델 군의 개발과 다양한 도메인에 대한 일반화 추정 방법(DoGE, 2023), 그리고 MMLU 벤치마크의 현황(2024)에 대한 분석도 포함된다. 이와 함께 코드 이해 및 실행 능력을 평가하는 CRUXEval 벤치마크(2024)와 강화학습을 통한 추론 능력 강화 연구(DeepSeek-R1)도 주요 주제로 다뤄진다. 연구들은 대규모 모델의 성능 향상과 평가 체계 발전에 기여하며, 멀티모달 및 다분야 AI 시스템 개발에 중요한 기반을 제공한다.

보고서는 대규모 파라미터 기반 트랜스포머 모델이 컴퓨터 비전과 자연어 처리 분야 모두에서 성능을 크게 향상시키는 것을 강조한다. 특히, 비전 트랜스포머의 스케일 업과 LLM의 광범위한 학문 분야 적용은 AI 모델의 범용성과 실용성을 확장한다. 또한, 도메인 가중치 재조정 기법(DoGE)은 모델의 일반화 능력을 높이는 방법론으로 제안되며, 이는 다양한 데이터 환경에서 모델 적응력을 개선하는 데 기여한다. CRUXEval과 같은 특화된 벤치마크는 코드 이해 및 실행과 같은 고차원적 AI 능력 평가를 가능하게 하며, 이는 AI의 실제 응용 분야 확대에 중대한 영향을 미친다. 이처럼, Qwen3 보고서는 첨단 AI 모델 개발과 평가의 최신 동향을 체계적으로 정리하여 연구자와 개발자에게 유용한 참고자료를 제공한다.

마지막으로, 보고서는 AI 모델의 지속적인 성능 개선을 위해 대규모 데이터셋과 복잡한 평가 지표의 중요성을 강조한다. LLM 평가의 다학문적 접근은 모델이 다양한 분야에서 균형 잡힌 성능을 발휘하도록 돕는다. 또한, 강화학습 기반 추론 강화 기법은 AI가 보다 효율적이

 91%|█████████ | 50/55 [05:40<00:34,  6.93s/it]


# 49
Qwen3 기술 보고서는 최신 대형 언어 모델(LLM) 평가와 개선 방향에 관한 다양한 연구들을 포괄적으로 검토한다. 보고서는 MMLU, CRUXEval, DeepSeek-R1, Multi-IF 등 다중 과제 및 다국어, 다중 턴 대화 능력 평가를 위한 벤치마크의 중요성을 강조하며, 이들 벤치마크가 LLM의 추론, 코드 이해, 실행 능력을 진단하는 데 핵심적임을 소개한다. 또한, RULER, C-Eval, LiveCodeBench와 같은 세부 평가 도구를 통해 긴 문맥 처리 능력과 중국어 및 코드 관련 성능 측정 방법론도 심층 분석한다.

보고서는 Qwen2.5-Coder와 Tülü 3 같은 최신 모델들의 기술적 진보와 평가 결과를 바탕으로, 모델 학습 구조 및 사전 훈련 후 미세 조정 전략이 성능 향상에 미치는 영향을 탐구한다. 특히, Transformer 구조의 효율성을 개선한 Pre-RMSNorm, Pre-CRMSNorm 등의 최신 기술과 강화 학습을 통한 추론 능력 증진 방법론도 상세히 다룬다. 이와 함께, 고품질 벤치마크 구축을 위한 데이터 수집 및 정제 과정의 중요성도 강조하여, 평가 신뢰도와 공정성 확보에 기여하는 연구 동향을 제시한다.

종합적으로, Qwen3 보고서는 대형 언어 모델의 평가 및 개선을 위한 최신 연구 동향과 기술적 진보를 체계적으로 정리하여, 연구자 및 개발자들이 모델의 실제 활용 가능성과 한계를 명확히 인식할 수 있도록 돕는다. 이를 통해, 향후 LLM의 다방면 능력 강화와 공정하고 신뢰성 높은 평가 체계 구축에 기여할 방향성을 제시한다.


 93%|█████████▎| 51/55 [05:49<00:29,  7.36s/it]


# 50
Qwen3 기술 보고서는 개방형 대형 언어 모델(LLM)의 사후 학습(post-training) 단계에서 최첨단 성능을 달성하기 위한 다양한 접근법과 연구 동향을 종합적으로 다룬다. 모델의 논리적 추론 능력 한계, 다중 작업 이해, 코드 생성 정확성 평가, 그리고 다국어 및 다중 모달 처리 능력 향상에 관한 최신 연구들을 포함한다. 또한, 데이터 혼합 기법(RegMix)과 효율적인 컨텍스트 창 확장(YaRN) 같은 혁신적인 학습 기법도 소개하며, 모델의 훈련과 평가를 위한 새로운 벤치마크(Arena-Hard, AlignBench) 개발 사례도 설명한다. 이러한 연구들은 LLM의 성능과 적용 범위를 넓히고, 실제 응용에서의 신뢰성과 효율성을 높이는 데 초점을 맞춘다. 전반적으로 Qwen3 보고서는 LLM 기술 발전을 위한 다각도의 최신 연구 결과와 실용적 도전 과제를 체계적으로 정리한 중요한 자료이다.

보고서에 인용된 주요 연구들은 LLM의 추론 능력 평가(ZebraLogic), 단계적 검증 기법(Let’s verify step by step), 고품질 벤치마크 구축(Arena-Hard, BenchBuilder), 그리고 코드 생성 정확성 평가 등 다양한 분야를 포괄한다. 또한, Meta-AI의 Llama 4 다중 모달 모델과 OpenAI의 GPT-4o, o3 및 o4-mini 모델 등 최첨단 상용 모델들과의 비교 연구도 포함되어 있다. 이들 연구는 LLM의 다중 언어 처리, 멀티태스킹, 논리적 추론, 창의적 글쓰기 능력 강화에 중점을 둔 최신 발전 동향을 반영한다. 다양한 데이터 소스와 학습 기법을 통합해 모델의 범용성과 신뢰도를 제고하려는 노력이 돋보인다.

결론적으로 Qwen3 기술 보고서는 LLM의 학습 방법론, 평가 기준, 그리고 실제 적용 가능성을 한층 진전시키기 위한 연구 커뮤니티의 최신 성과를 집대성한 문서이다. 이는 차세대 AI 시스템 개발에 필요한 방향성과 기술적 토대를 제공하며, 대형 언어 모델의 한계 극복과 성능 향상을 위한 실

 95%|█████████▍| 52/55 [05:56<00:21,  7.27s/it]


# 51
Qwen 시리즈는 대규모 언어 모델(LLM) 분야에서 최신 기술력을 집약한 모델로, 특히 QwQ-32B 버전에서 강화학습을 적극 도입하여 성능과 응답 품질을 크게 향상시켰다. 해당 모델들은 광범위한 멀티태스크 학습과 효율적인 컨텍스트 윈도우 확장 기술(YaRN) 등을 활용하여 다양한 자연어 이해 및 생성 과제에서 우수한 결과를 보인다. 또한, CodeElo 벤치마크를 통해 인간 수준의 코드 생성 능력을 평가하며, 전문화된 전문가 혼합(MoE) 모델을 위한 부하 분산 손실 함수 연구도 진행 중이다.

Qwen 모델 개발팀은 특히 미지의 영역에 대한 깊은 성찰과 혁신적 접근을 강조하며, 이는 QwQ-32B의 강화학습 기반 강화에 잘 반영되어 있다. 멀티링구얼 환경과 지역 지식 포함(INCLUDE) 평가를 통해 다국어 및 문화적 맥락 이해 측면에서도 탁월한 성과를 내고 있다. 수학적 추론 한계를 극복하기 위한 DeepSeekMath 연구와 희귀 단어 번역을 위한 서브워드 단위 신경망 기법 등도 Qwen 연구와 연계되어, 언어 모델의 전방위적 성능 개선에 기여한다.

종합적으로 Qwen 시리즈는 효율적 학습, 강화학습 적용, 멀티태스크 및 코드 생성 능력, 그리고 지역 및 수학 지식 포함 등 다각적 혁신을 통해 2025년 언어 모델 기술 발전을 선도하고 있다. 이는 OpenAI의 O3, O4-mini 모델 및 다양한 최신 연구들과 함께 인공지능 언어처리 분야의 중요한 이정표를 제시하며, 고도화된 자연어 처리 및 생성 능력 확보에 크게 이바지하고 있다.


 96%|█████████▋| 53/55 [06:02<00:14,  7.04s/it]


# 52
Qwen3 기술 보고서는 다국어 이해 및 수학적 추론 능력을 포함한 최신 인공지능 언어 모델의 성능 평가와 개선 방향을 종합적으로 다룬다. 보고서는 다양한 다국어 벤치마크와 체인 오브 사고(chain-of-thought) 추론 기법을 통해 모델의 복잡한 문제 해결 능력을 검증하며, 희귀 단어 번역을 위한 서브워드 단위 활용과 회전 위치 임베딩(rotary position embedding) 등의 기술적 혁신을 소개한다. 또한, 수학적 추론 능력을 다국어 환경에서 평가하는 PolyMath와 DeepSeekMath 같은 첨단 평가 도구를 활용해 모델의 한계와 가능성을 심층 분석한다.

보고서에서 강조하는 주요 이슈는 모델의 일반화 능력과 지역별 지식의 통합, 그리고 테스트 시 스케일링(test-time scaling)의 언어적 일반화 가능성이다. 이러한 연구들은 빅벤치(BIG-Bench)와 MMLU-Pro 같은 강력하고 도전적인 다중 작업 언어 이해 벤치마크를 통해 입증되며, 모델이 다국어 및 수학 문제 해결에서 보여주는 성능 향상을 목표로 한다. 또한, LiveBench와 WritingBench 같은 새로운 벤치마크는 오염 없는 데이터 환경에서 생성형 쓰기 능력을 포함한 다양한 언어 생성 태스크를 평가하는 데 기여한다.

종합적으로 Qwen3 보고서는 인공지능 언어 모델이 다언어 환경과 수학적 복잡성을 효과적으로 다룰 수 있도록 설계되고 평가되는 최신 연구 동향을 반영한다. 이는 자연어 처리, 기계 번역, 수학적 추론, 그리고 생성형 AI 분야에서의 기술 발전과 실용적 적용 가능성을 높이는 데 중요한 역할을 한다. 앞으로도 이와 같은 다각도의 평가와 혁신적 기법 도입이 모델의 정확도와 범용성을 강화하는 데 필수적임을 시사한다.


 98%|█████████▊| 54/55 [06:07<00:06,  6.38s/it]


# 53
Qwen3 기술 보고서는 대규모 언어 모델(LLM)의 최신 발전과 성능 향상에 관한 내용을 다루고 있다. 보고서는 다양한 벤치마크와 비교 평가를 통해 Qwen 시리즈 모델의 우수성을 입증하며, 특히 Qwen2, Qwen2.5, 그리고 Qwen2.5-Math 모델들의 기술적 세부사항과 성능 개선 전략을 상세히 설명한다. 이들 모델은 데이터 혼합 최적화, 장기 문맥 처리 능력 향상, 그리고 수학적 문제 해결 능력 강화에 중점을 두고 개발되었다고 밝히고 있다.

또한, 보고서는 LiveBench, WritingBench, Berkeley function calling leaderboard 등 최신 LLM 평가 벤치마크와의 연계 연구를 통해 모델의 실제 적용 가능성과 신뢰성을 높이고자 하는 시도를 소개한다. 특히 오염 없는 데이터 셋을 활용한 엄격한 평가와 생성형 글쓰기 능력 검증이 중요한 평가 지표로 다뤄진다. 이와 같이 Qwen3는 다면적 평가를 기반으로 한 실용적이고 확장성 있는 LLM 개발을 목표로 한다.

마지막으로, 보고서는 향후 연구 방향으로 추론 에이전트 시대에 적합한 모델 설계, 데이터 전처리 및 혼합 전략의 지속적 최적화, 그리고 전문 영역(예: 수학) 모델의 자기 개선 메커니즘 개발을 제시한다. 이를 통해 Qwen 시리즈는 인공지능 언어 모델 분야에서 경쟁력을 유지하며, 다양한 응용 분야에서의 활용 가능성을 넓히려는 비전을 공유한다.


100%|██████████| 55/55 [06:16<00:00,  6.84s/it]


# 54
Qwen3는 최신 대규모 언어 모델(LLM)로, Qwen2.5 시리즈의 발전을 기반으로 설계되었다. 이 모델은 텍스트와 코드, 멀티모달 데이터를 통합하여 다양한 자연어 처리 및 생성 작업에서 뛰어난 성능을 보인다. 특히, 수학적 추론 능력 강화를 위해 Qwen2.5-Math에서 도입된 자기 개선(self-improvement) 기법을 확장 적용하였으며, 이를 통해 전문적인 수학 모델로서의 역량을 크게 향상시켰다. 또한, 다국어 및 다중 작업 평가를 위해 P-MMEval 벤치마크를 활용해 다양한 언어와 작업 간의 일관된 성능 평가를 수행하였다. 이와 함께, Instruction-following 및 논리 추론 능력 평가를 위한 AutoLogi 등 자동화된 평가 도구도 병행하여 개발, 모델의 실용성과 신뢰성을 높였다.

Qwen3 기술 보고서는 학습 데이터, 모델 아키텍처, 훈련 방법론, 그리고 평가 결과를 상세히 다룬다. 모델은 대규모 멀티태스크 학습과 고도화된 지시어 이해 능력을 바탕으로 복잡한 지시를 정확히 수행하며, 다양한 도메인에 걸쳐 강력한 일반화 능력을 보인다. 특히, 수학 및 논리 퍼즐과 같은 고난도 문제에서 기존 모델 대비 우수한 성능을 기록하였으며, 이는 모델의 자기 개선 및 멀티모달 학습 전략이 실질적 효과를 발휘했음을 의미한다. 평가 결과는 Qwen3가 현재 공개된 주요 LLM들과 비교해도 경쟁력 있는 수준임을 입증한다. 아울러, 지속적인 연구를 통해 모델의 확장성과 효율성 향상 방안도 제시하고 있다.

종합적으로, Qwen3는 대규모 언어 모델 연구에 있어 자기 개선, 멀티태스크 및 멀티모달 학습, 그리고 일관된 평가 체계 구축 등 다각도의 혁신을 포함한다. 이는 자연어 이해, 생성, 수학적 추론, 그리고 다국어 처리 능력에서 새로운 기준을 제시하며, 차세대 인공지능 응용에 중요한 기반 기술로 자리매김하고 있다. 앞으로도 Qwen 시리즈의 발전을 통해 더욱 정교하고 신뢰성 높은 AI 모델 개발이 기대된다.





In [None]:
# Reduce 과정 : 각 문서의 요약을 하나로 합칩니다.
reduce_prompt = ChatPromptTemplate([
    ('system', '''당신은 인공지능과 거대 언어 모델의 전문가입니다.
Qwen3 Techinal Report에 대한 요약문의 리스트가 주어집니다.
이를 읽고, 전체 주제를 포함하는 최종 요약을 작성하세요.
요약은 5개의 문단과 문단별 4-8개의 문장으로 작성하세요.
'''),
    ('user', '''{text}
---
Summary:
''')])

reduce_chain = reduce_prompt | llm | StrOutputParser()

summary = reduce_chain.invoke('\n---\n'.join(raw_summaries))

summary

'Qwen3는 Qwen 시리즈의 최신 대형 언어 모델(LLM)로, 0.6억에서 2350억 파라미터 규모의 밀집형(Dense)과 전문가 혼합형(MoE) 모델을 포함한다. 이 모델은 ‘사고 모드’와 ‘비사고 모드’를 하나의 프레임워크에서 동적으로 전환할 수 있으며, 계산 자원을 작업 복잡도에 맞게 조절하는 ‘사고 예산’ 메커니즘을 도입해 성능과 지연 시간의 균형을 최적화한다. 119개 언어와 방언, 36조 토큰에 달하는 대규모 다국어 데이터를 활용해 사전학습되었으며, 단계별 학습 전략과 강화학습, 증류 기법을 통해 추론 능력과 다국어 이해력을 크게 향상시켰다. Apache 2.0 라이선스로 공개되어 연구 및 산업계에서 협업과 재현성을 지원한다.\n\n아키텍처 측면에서 Qwen3는 최신 Transformer 기법을 적용하고, MoE 모델은 128명의 전문가를 활용해 활성화된 파라미터 수를 줄이면서도 고성능을 구현한다. 대표 모델인 Qwen3-235B-A22B는 2350억 파라미터 중 220억 활성화 파라미터를 사용해 수학, 코딩, 다국어 등 다양한 분야에서 최첨단 성능을 보인다. 토크나이저는 바이트 수준의 Byte-Pair Encoding을 기반으로 약 15만 개 어휘를 포함하며, 최대 128K 토큰의 긴 문맥도 처리 가능해 대규모 문서 이해에 강점을 가진다.\n\n사후학습에서는 사고 모드와 비사고 모드의 융합(Thinking Mode Fusion)과 강한 모델에서 약한 모델로 지식을 전이하는 강한-약한 증류(Strong-to-Weak Distillation) 파이프라인을 도입했다. 이를 통해 경량 모델도 고성능과 사고 모드 전환 능력을 갖추면서 훈련 비용과 시간을 크게 줄였다. 강화학습과 감독학습이 결합된 학습 전략은 다양한 작업에서 일관된 성능 향상을 가져왔으며, 사고 예산 조절 기능은 복잡한 문제에서 효율적이고 유연한 추론을 가능하게 한다.\n\n성능 평가에서는 Qwen3 시리즈가 다양한 일반, 수학, 코딩, 에이전트, 다국어, 정렬(Alignment) 벤치마

## 3. Refine
Refine은 청크를 순서대로 참고하며, 매 시점 요약문을 작성합니다.   
요약문과 새로운 청크를 비교하여, 요약문을 업데이트합니다.



In [None]:
# 첫 번째 청크 요약하기

first_summarize_prompt = ChatPromptTemplate([
    ('system', '''당신은 인공지능과 거대 언어 모델의 전문가입니다.
Qwen3 Techinal Report의 내용을 읽고 요약하세요.
요약은 1-3개의 문단과 문단별 5개의 문장으로 작성하세요.
'''),
    ('user', '''{text}
---
Summary:
''')])

X = first_summarize_prompt.format_messages(text=token_chunks[0].page_content)

summary = llm.invoke(X).content
summary

In [None]:
# 두 번째 청크부터, 계속 추가하며 요약하기
refine_prompt = ChatPromptTemplate([
    ('system', '''당신은 인공지능과 거대 언어 모델의 전문가입니다.
Qwen3 Techinal Report의 현재 시점까지의 요약이 주어집니다.
이를 읽고, 새롭게 주어지는 내용과 비교하여 요약을 보완하세요.
요약은 5개의 문단과 문단별 4-8개의 문장으로 작성하세요.
'''),
    ('user', '''현재 시점까지의 요약: {previous_summary}
---
새로운 내용: {new_text}''')])


refine_chain = refine_prompt | llm | StrOutputParser()

for i in tqdm(range(1, len(token_chunks))):
    summary = refine_chain.invoke(
        {'previous_summary':summary,
         'new_text':token_chunks[i].page_content})
    print('')
    print(summary)
    print('=======================')

# 길이를 지정하지 않으면 오래 걸릴 수 있습니다.

In [None]:
summary

## [실습] 임의의 PDF 다운로드하여 요약하기

arxiv 등의 페이지에서 PDF를 다운로드하여 업로드하고,   
Stuff/Map-Reduce/Refine 등의 방법을 이용해 전체 PDF를 요약하세요.