# [실습] LangChain을 이용한 어플리케이션 개발   

LCEL 구조를 이용하여, 간단한 텍스트를 요약하는 어플리케이션을 만들어 보겠습니다.

In [None]:
!pip install google-genai langchain langchain-community langchain_google_genai pymupdf

Collecting langchain-community
  Downloading langchain_community-0.3.21-py3-none-any.whl.metadata (2.4 kB)
Collecting langchain_google_genai
  Downloading langchain_google_genai-2.1.2-py3-none-any.whl.metadata (4.7 kB)
Collecting pymupdf
  Downloading pymupdf-1.25.5-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.8.1-py3-none-any.whl.metadata (3.5 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting filetype<2.0.0,>=1.2.0 (from langchain_google_genai)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting google-ai-generativelanguage<0.7.0,>=0.6.16 (from langchain_google_genai)
  Downloading google_ai_generativ

## Gemini API 준비하기


Google API 키를 등록하고 입력합니다.   
구글 계정 로그인 후 https://aistudio.google.com  에 접속하면, API 키 생성이 가능합니다.

In [None]:
import os
os.environ['GOOGLE_API_KEY'] = 'AIzaSyBbKlO_udgEoOLhdVD5ekl5Edbw0WpqunQ'

from langchain_core.rate_limiters import InMemoryRateLimiter
from langchain_google_genai import ChatGoogleGenerativeAI

# Gemini API는 분당 10개 요청으로 제한
# 즉, 초당 약 0.167개 요청 (10/60)
rate_limiter = InMemoryRateLimiter(
    requests_per_second=0.167,  # 분당 10개 요청
    check_every_n_seconds=0.1,  # 100ms마다 체크
    max_bucket_size=10,  # 최대 버스트 크기
)

# rate limiter를 LLM에 적용
llm = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash",
    rate_limiter=rate_limiter,
    temperature = 0.5,
    max_tokens = 2048
)

PDF 파일 준비하기   
임의의 PDF 파일을 다운로드하여 준비합니다.   
(예시 PDF 파일을 사용하실 분은 첨부된 PDF 파일을 활용해 주세요!)

In [None]:
path_material = 'example.pdf'
# 자유롭게 경로 변경해서 실행하셔도 됩니다!

랭체인에서는 데이터를 `Document` 클래스로 처리합니다.   
데이터의 형식에 따라 적절한 document_loader를 불러와서 사용할 수 있습니다.   

이번 실습에서는 PDF를 불러오는 가장 간단한 로더인 PyMuPDFLoader를 사용합니다.

In [None]:
from langchain_community.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader(path_material)
# 페이지별로 저장
pages = loader.load()
print("# Number of Pages:", len(pages))

# Number of Pages: 26


In [None]:
pages[10]

Document(metadata={'producer': 'pdfTeX-1.40.23', 'creator': 'LaTeX with hyperref', 'creationdate': '2025-03-11T18:57:41+00:00', 'source': 'example.pdf', 'file_path': 'example.pdf', 'total_pages': 26, 'format': 'PDF 1.5', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'moddate': '2025-03-11T18:57:41+00:00', 'trapped': '', 'modDate': 'D:20250311185741Z', 'creationDate': 'D:20250311185741Z', 'page': 10}, page_content='Gemma 3 Technical Report\nof chemical knowledge, we employed a closed-\nended knowledge-based approach on chemical\nhazards developed by Macknight et al. Our eval-\nuation suggests that the knowledge of Gemma 3\nmodels in these domains is low.\n7.4. Our approach to responsible open models\nDesigning safe, secure, and responsible applica-\ntions requires a system-level approach, working\nto mitigate risks associated with each specific use\ncase and environment. We will continue to adopt\nassessments and safety mitigations proportion-\nate to the potential risks fro

PDF 파일은 페이지별 Document를 저장합니다.   
요약을 수행하기 위해, 전체 텍스트를 하나의 Document에 합칩니다.

In [None]:
from langchain_core.documents import Document
# Document 클래스 만들기

corpus = Document(page_content='')
for page in pages:
    corpus.page_content += page.page_content + '\n'

corpus.page_content = corpus.page_content.replace('\n\n','\n')
len(corpus.page_content)

70114

LLM에 처리하기 전, 토큰 수를 체크합니다.

In [None]:
from google import genai
from google.genai import types

client = genai.Client()


response = client.models.count_tokens(
    model='gemini-2.0-flash',
    contents=corpus.page_content
)

print("Prompt tokens:",response.total_tokens)

Prompt tokens: 25917


요약 체인을 만들고 구성합니다.

## [실습] 요약 체인 만들기

`corpus.page_content`를 입력으로 받는 요약 체인을 만들고 실행하세요.

In [None]:
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
summary_prompt = ChatPromptTemplate(
    [('user', '''
당신은 LLM/AI 전문가입니다.
LLM에 대한 최신 모델의 논문이 주어집니다.
전문 개발자를 대상으로 이를 설명한다고 가정하고,
모델의 구조에 집중해서 논문의 내용을 요약하세요.

전체는 5문단으로 하고, 문단별 4~8개 문장으로 구성하세요.
---
{text}''')

    ]

)
summary_chain = summary_prompt | llm | StrOutputParser()

summary = summary_chain.invoke(corpus.page_content)
summary

'Gemma 3는 Google DeepMind에서 개발한 경량 오픈 모델인 Gemma 제품군의 최신 버전으로, 10억에서 270억 개의 파라미터를 갖는 다양한 크기로 제공됩니다. 이번 버전은 시각적 이해 능력, 확장된 언어 지원, 최소 128K 토큰의 긴 컨텍스트를 특징으로 합니다. 특히 긴 컨텍스트에서 KV-cache 메모리 사용량이 급증하는 문제를 해결하기 위해 모델 아키텍처를 변경했습니다. 이는 로컬 어텐션 레이어와 글로벌 어텐션 레이어의 비율을 높이고, 로컬 어텐션의 범위를 짧게 유지함으로써 달성되었습니다.\n\nGemma 3 모델은 지식 증류를 통해 학습되었으며, 사전 학습 및 명령어 미세 조정 버전 모두에서 Gemma 2보다 우수한 성능을 보입니다. 특히 새로운 사후 학습 레시피는 수학, 채팅, 명령어 추종, 다국어 능력을 크게 향상시켜 Gemma3-4B-IT가 Gemma2-27B-IT와 경쟁하고 Gemma3-27B-IT가 Gemini-1.5-Pro와 벤치마크 전반에서 비교될 수 있도록 합니다. Gemma 3 모델은 이전 버전과 유사한 디코더 전용 트랜스포머 아키텍처를 따르며, Grouped-Query Attention (GQA), post-norm, pre-norm, RMSNorm 등의 요소들을 사용합니다. Gemma 2에서 사용되었던 soft-capping은 QK-norm으로 대체되었습니다.\n\nGemma 3의 주요 아키텍처 개선 사항 중 하나는 로컬 슬라이딩 윈도우 셀프 어텐션과 글로벌 셀프 어텐션을 5:1 비율로 번갈아 사용하는 것입니다. 이는 각 글로벌 레이어 사이에 여러 개의 로컬 레이어를 배치하고, 로컬 레이어의 범위를 1024 토큰으로 제한하여 KV 캐시의 메모리 폭발 문제를 완화합니다. 따라서 글로벌 레이어만 긴 컨텍스트에 집중하며, 5개의 로컬 레이어마다 1개의 글로벌 레이어가 존재합니다. 또한, Gemma 3 모델은 1B 모델을 제외하고 128K 토큰의 컨텍스트 길이를 지원합니다.\n\nGemma 3 모델은 SigLIP 비전 인

In [None]:
print(summary)

Gemma 3는 Google DeepMind에서 개발한 경량 오픈 모델인 Gemma 제품군의 최신 버전으로, 10억에서 270억 개의 파라미터를 갖는 다양한 크기로 제공됩니다. 이번 버전은 시각적 이해 능력, 확장된 언어 지원, 최소 128K 토큰의 긴 컨텍스트를 특징으로 합니다. 특히 긴 컨텍스트에서 KV-cache 메모리 사용량이 급증하는 문제를 해결하기 위해 모델 아키텍처를 변경했습니다. 이는 로컬 어텐션 레이어와 글로벌 어텐션 레이어의 비율을 높이고, 로컬 어텐션의 범위를 짧게 유지함으로써 달성되었습니다.

Gemma 3 모델은 지식 증류를 통해 학습되었으며, 사전 학습 및 명령어 미세 조정 버전 모두에서 Gemma 2보다 우수한 성능을 보입니다. 특히 새로운 사후 학습 레시피는 수학, 채팅, 명령어 추종, 다국어 능력을 크게 향상시켜 Gemma3-4B-IT가 Gemma2-27B-IT와 경쟁하고 Gemma3-27B-IT가 Gemini-1.5-Pro와 벤치마크 전반에서 비교될 수 있도록 합니다. Gemma 3 모델은 이전 버전과 유사한 디코더 전용 트랜스포머 아키텍처를 따르며, Grouped-Query Attention (GQA), post-norm, pre-norm, RMSNorm 등의 요소들을 사용합니다. Gemma 2에서 사용되었던 soft-capping은 QK-norm으로 대체되었습니다.

Gemma 3의 주요 아키텍처 개선 사항 중 하나는 로컬 슬라이딩 윈도우 셀프 어텐션과 글로벌 셀프 어텐션을 5:1 비율로 번갈아 사용하는 것입니다. 이는 각 글로벌 레이어 사이에 여러 개의 로컬 레이어를 배치하고, 로컬 레이어의 범위를 1024 토큰으로 제한하여 KV 캐시의 메모리 폭발 문제를 완화합니다. 따라서 글로벌 레이어만 긴 컨텍스트에 집중하며, 5개의 로컬 레이어마다 1개의 글로벌 레이어가 존재합니다. 또한, Gemma 3 모델은 1B 모델을 제외하고 128K 토큰의 컨텍스트 길이를 지원합니다.

Gemma 3 모델은 SigLIP 비전 인코더의 맞춤 

Gemini 2.0 Flash의 Context Window는 1M이므로 전체를 모두 하나의 컨텍스트로 입력해도 되지만,   
Context가 짧은 모델들의 경우, 전체를 분할하여 요약 작업을 수행할 수 있습니다.

**Map-Reduce** 방식의 요약을 만들어 보겠습니다.   

Map-Reduce는 텍스트를 청크로 분할하고, 청크별 요약을 생성한 뒤  
전체 요약문을 합쳐 프롬프트로 넣고 최종 요약문을 생성하는 방식입니다.

문서를 청크로 나누기 위해, RecursiveCharacterTextSplitter를 사용합니다.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=20000,
    chunk_overlap=4000,
)

chunks = text_splitter.split_documents([corpus])
print(len(chunks))

5


Map: 청크별 요약을 생성합니다.

In [None]:
# Map 과정 : 각 문서에 대해 요약을 생성합니다.
from tqdm import tqdm

map_prompt = ChatPromptTemplate([
    ('system', '''당신은 LLM/AI 전문가입니다.
LLM에 대한 최신 모델의 논문이 주어집니다.
전문 개발자를 대상으로 이를 설명한다고 가정하고,
기술적인 세부사항에 집중해서 논문의 내용을 요약하세요.
요약은 5개의 문단과 문단별 4~8개의 문장으로 작성하세요.
'''),
    ('user', '''{text}''')])

raw_summaries = []

map_chain  = map_prompt | llm | StrOutputParser()


for i in tqdm(range(len(chunks))):
    response = map_chain.invoke(chunks[i].page_content)

    raw_summaries.append(response)

    print('\n#',i)
    print(response)
    print('===========================')

 20%|██        | 1/5 [00:07<00:30,  7.51s/it]


# 0
다음은 Gemma 3 기술 보고서의 요약입니다.

Gemma 3는 경량 오픈 모델 제품군인 Gemma의 멀티모달 확장판으로, 10억에서 270억 개의 파라미터 규모로 제공됩니다. 이 버전은 시각 이해 능력, 더 넓은 언어 지원, 최소 128K 토큰의 더 긴 컨텍스트를 제공합니다. 또한 긴 컨텍스트에서 폭발적으로 증가하는 KV-캐시 메모리를 줄이기 위해 모델 아키텍처를 변경했습니다. 이는 로컬 및 글로벌 어텐션 레이어의 비율을 늘리고 로컬 어텐션의 범위를 짧게 유지함으로써 달성됩니다. Gemma 3 모델은 지식 증류를 통해 훈련되었으며 사전 훈련 및 명령어 미세 조정 버전 모두에서 Gemma 2보다 뛰어난 성능을 보입니다. 특히, 새로운 사후 훈련 레시피는 수학, 채팅, 명령어 추종, 다국어 능력을 크게 향상시켜 Gemma3-4B-IT가 Gemma2-27B-IT와 경쟁하고 Gemma3-27B-IT가 벤치마크에서 Gemini-1.5-Pro와 비교될 수 있도록 합니다. 모든 모델은 커뮤니티에 공개됩니다.

Gemma 3 모델은 이전 버전과 동일한 일반적인 디코더 전용 트랜스포머 아키텍처를 따르며, 대부분의 아키텍처 요소는 처음 두 Gemma 버전과 유사합니다. GQA(Grouped-Query Attention)를 사용하고, RMSNorm과 함께 post-norm 및 pre-norm을 사용합니다. Gemma 2의 소프트 캡핑을 QK-norm으로 대체합니다. 핵심 차이점은 로컬 슬라이딩 윈도우 셀프 어텐션과 글로벌 셀프 어텐션을 5:1 패턴으로 번갈아 사용한다는 것입니다. Gemma 3 모델은 1B 모델의 32K를 제외하고 128K 토큰의 컨텍스트 길이를 지원합니다. 글로벌 셀프 어텐션 레이어에서 RoPE 기본 주파수를 10k에서 1M으로 늘리고 로컬 레이어의 주파수를 10k로 유지합니다. 글로벌 셀프 어텐션 레이어의 범위를 확장하기 위해 위치 보간과 유사한 프로세스를 따릅니다.

비전 인코더로 SigLIP 인코더의 4억 파라미터 버전을 사용합니다. Gemma

 40%|████      | 2/5 [00:11<00:16,  5.38s/it]


# 1
Gemma 3은 텍스트, 이미지, 코드 이해를 위한 최신 오픈 언어 모델로, 이미지 이해, 긴 문맥 처리, 다국어 및 STEM 관련 능력 향상에 중점을 둡니다. 모델 크기와 아키텍처는 표준 하드웨어와의 호환성을 고려하여 설계되었으며, 대부분의 아키텍처 개선 사항은 성능을 유지하면서 이 하드웨어에 맞게 조정되었습니다. Gemma 3 모델은 이전 모델보다 훨씬 낮은 비율로 텍스트를 암기하며, 개인 정보가 포함된 데이터의 비율도 매우 낮습니다.

Gemma 3 모델은 로컬 및 글로벌 self-attention 레이어의 비율을 5:1로 조정하여 Gemma 2 모델의 1:1 비율에서 변경되었으며, 이는 복잡도에 미치는 영향이 미미합니다. Sliding window 크기를 줄여도 복잡도에 큰 영향이 없으며, 이는 메모리 사용량을 최적화하는 데 도움이 됩니다. KV 캐시 메모리 사용량을 줄이기 위해 "global only" 구성 대신 1:3 비율과 sliding window 크기를 1024로 설정하여 메모리 오버헤드를 줄입니다.

긴 문맥 처리를 위해 모델은 32K 시퀀스로 사전 학습된 후 4B, 12B, 27B 모델을 128K 토큰으로 확장하고 RoPE를 재조정합니다. 글로벌 self-attention 레이어의 RoPE 기본 주파수를 10k에서 1M으로 늘리고 로컬 self-attention 레이어는 10k를 유지합니다. 모델은 128K까지 일반화되지만, 그 이상으로 확장하면 성능이 저하됩니다.

작은 모델을 훈련할 때 작은 교사 모델을 사용하는 것이 좋다는 일반적인 발견과는 달리, Gemma 3은 더 큰 교사 모델을 사용하여 더 나은 성능을 달성합니다. 이미지 해상도와 관련하여 SigLIP 기반의 비전 인코더를 사용하며, 더 높은 해상도의 인코더가 더 나은 성능을 보입니다. Pan & Scan (P&S)을 통해 이미지의 원래 종횡비와 해상도를 유지하여 이미지의 텍스트를 읽어야 하는 작업에서 성능이 향상됩니다.

Gemma 3 모델의 안전성을 위해 훈련 데이터 

 60%|██████    | 3/5 [00:14<00:09,  4.56s/it]


# 2
다음은 Gemma 3 기술 보고서에 대한 전문 개발자를 위한 요약입니다.

Gemma 3은 텍스트, 이미지 및 코드에 대한 최신 오픈 언어 모델 제품군입니다. 이 모델은 이미지 이해, 긴 컨텍스트 처리 능력, 다국어 지원 및 STEM 관련 능력을 향상시키는 데 중점을 둡니다. 모델 크기와 아키텍처는 표준 하드웨어와의 호환성을 고려하여 설계되었으며, 아키텍처 개선 사항은 성능을 유지하면서도 하드웨어에 최적화되도록 조정되었습니다. Gemma 3은 이전 모델의 기능을 확장하고 다양한 작업에서 향상된 성능을 제공하는 것을 목표로 합니다.

안전성은 Gemma 3 개발에서 중요한 고려 사항입니다. 개발 속도와 안전성 테스트 간의 균형을 유지하면서 표적화되고 효율적인 평가를 수행합니다. 모델의 잠재적 위험을 평가하기 위해 기본 평가를 수행하여 안전 정책 위반율을 측정합니다. 합성 적대적 사용자 쿼리를 사용하여 모델의 응답을 정책 위반 여부에 따라 평가합니다. Gemma 3은 이러한 안전 정책에서 전반적으로 낮은 위반율을 보입니다.

Gemma 3은 STEM 관련 작업에서 향상된 성능을 보이므로 화학, 생물학, 방사선 및 핵(CBRN) 관련 지식에 대한 평가도 수행되었습니다. 내부 데이터 세트를 사용하여 CBRN 관련 지식 기반 다중 선택 질문에 대한 모델의 답변을 평가합니다. 화학 지식 평가는 Macknight 등이 개발한 화학적 위험에 대한 폐쇄형 지식 기반 접근 방식을 사용했습니다. 평가 결과 Gemma 3 모델의 CBRN 관련 지식은 낮은 수준으로 나타났습니다.

책임감 있는 오픈 모델 설계를 위해 시스템 수준의 접근 방식을 채택하여 특정 사용 사례 및 환경과 관련된 위험을 완화합니다. 모델의 잠재적 위험에 비례하는 평가 및 안전 완화 조치를 지속적으로 적용합니다. 모델의 이점이 예측 가능한 위험보다 훨씬 클 때만 커뮤니티와 공유합니다. 안전하고 책임감 있는 애플리케이션을 개발하기 위한 다각적인 노력을 기울이고 있습니다.

Gemma 3은 텍스트, 이미지 

 80%|████████  | 4/5 [00:19<00:04,  4.66s/it]


# 3
이 문서는 Google에서 개발한 Gemma 3 모델에 대한 기술 보고서입니다. 보고서는 Gemma 3 모델의 아키텍처, 훈련 방법 및 다양한 벤치마크에서의 성능을 자세히 설명합니다. Gemma 3는 이전 버전인 Gemma 2를 기반으로 구축되었으며, 사실적 지식, 상식 추론, STEM 능력 및 다국어 이해도를 포함한 다양한 영역에서 향상된 성능을 제공합니다. 이 보고서는 모델의 기능과 한계를 이해하는 데 관심 있는 개발자와 연구자에게 귀중한 리소스를 제공합니다.

Gemma 3 모델은 10억 개에서 270억 개에 이르는 다양한 매개변수 크기로 제공되며, 다양한 계산 요구 사항과 사용 사례를 충족합니다. 이 모델은 대규모 텍스트 및 코드 데이터 세트에 대해 사전 훈련되었으며, 특정 작업에 맞게 미세 조정할 수 있습니다. 보고서는 또한 모델의 다중 모드 버전을 탐구하여 이미지 이해 능력을 확장합니다. 아키텍처에는 주의 메커니즘이 포함되어 있으며, 이는 모델이 입력 시퀀스에서 가장 관련성이 높은 부분에 집중할 수 있도록 합니다. 이 보고서는 모델의 아키텍처, 훈련 방법 및 평가 프로토콜에 대한 자세한 정보를 제공합니다.

Gemma 3 모델은 다양한 벤치마크에서 이전 버전에 비해 상당한 개선을 보였습니다. 이 보고서는 사실적 지식, 상식 추론, STEM 능력 및 다국어 이해도를 포함한 다양한 영역에서 모델의 성능을 자세히 설명합니다. 특히 Gemma 3는 MMLU(Massive Multitask Language Understanding) 및 AGIEval(인공 일반 지능 평가)과 같은 벤치마크에서 뛰어난 성능을 보였으며, 이는 고급 추론 및 문제 해결 능력을 입증합니다. 이 보고서는 또한 모델의 장기 컨텍스트 처리 능력을 강조하고, RULER 및 MRCR 벤치마크에서 성능을 평가합니다.

이 보고서는 Gemma 3 모델의 다중 모드 기능도 탐구하여 이미지 이해 능력을 확장합니다. 이 모델은 COCO Caption, DocVQA 및 TextVQA와 같은 다

100%|██████████| 5/5 [00:23<00:00,  4.68s/it]


# 4
이 문서는 Gemma 3 모델의 성능을 다양한 벤치마크에서 평가한 결과를 제시합니다. 평가는 사전 훈련된(PT) 모델과 Instruction Fine-Tuned(IT) 모델 모두에 대해 수행되었으며, 모델 크기(4B, 12B, 27B)와 컨텍스트 길이(32K, 128K)에 따른 성능 변화를 분석합니다. 주요 평가 항목은 긴 컨텍스트 처리 능력, 멀티모달 이해 능력, 비디오 이해 능력, 그리고 다양한 내부 및 외부 벤치마크에서의 성능입니다.

긴 컨텍스트 벤치마크(RULER, MRCR)에서 Gemma 3 모델은 컨텍스트 길이가 길어짐에 따라 성능이 감소하는 경향을 보이지만, Instruction Fine-Tuning을 통해 성능을 향상시킬 수 있음을 보여줍니다. 특히, 27B IT 모델은 RULER 벤치마크에서 128K 컨텍스트 길이에서 66.0의 정확도를 달성했습니다. 이는 모델이 긴 컨텍스트 정보를 효과적으로 활용할 수 있음을 시사합니다.

멀티모달 벤치마크(MMMU, DocVQA, InfoVQA 등)에서 Gemma 3 IT 모델은 이미지와 텍스트를 함께 이해하는 능력을 평가받았습니다. 27B 모델은 대부분의 벤치마크에서 가장 높은 성능을 보였으며, MMMU 벤치마크에서 64.9의 정확도를 달성했습니다. 이는 모델이 다양한 시각적 정보를 효과적으로 처리하고 텍스트와 함께 이해할 수 있음을 나타냅니다.

비디오 이해 벤치마크(Perception Test MCVQA, ActivityNet-QA)에서 Gemma 3 IT 모델은 비디오 콘텐츠를 이해하고 질문에 답변하는 능력을 평가받았습니다. 27B 모델은 Perception Test MCVQA 벤치마크에서 58.1의 정확도를 달성했으며, ActivityNet-QA 벤치마크에서 52.8의 점수를 기록했습니다. 이는 모델이 비디오 내의 시각적 정보를 이해하고 관련된 질문에 답변할 수 있음을 보여줍니다.

다양한 내부 및 외부 벤치마크(MMLU, MBPP, HumanEval 등)에서 Gemma 3 IT 모델은 




In [None]:
gathered_summaries = '\n---\n'.join(raw_summaries)

print(gathered_summaries)

다음은 Gemma 3 기술 보고서의 요약입니다.

Gemma 3는 경량 오픈 모델 제품군인 Gemma의 멀티모달 확장판으로, 10억에서 270억 개의 파라미터 규모로 제공됩니다. 이 버전은 시각 이해 능력, 더 넓은 언어 지원, 최소 128K 토큰의 더 긴 컨텍스트를 제공합니다. 또한 긴 컨텍스트에서 폭발적으로 증가하는 KV-캐시 메모리를 줄이기 위해 모델 아키텍처를 변경했습니다. 이는 로컬 및 글로벌 어텐션 레이어의 비율을 늘리고 로컬 어텐션의 범위를 짧게 유지함으로써 달성됩니다. Gemma 3 모델은 지식 증류를 통해 훈련되었으며 사전 훈련 및 명령어 미세 조정 버전 모두에서 Gemma 2보다 뛰어난 성능을 보입니다. 특히, 새로운 사후 훈련 레시피는 수학, 채팅, 명령어 추종, 다국어 능력을 크게 향상시켜 Gemma3-4B-IT가 Gemma2-27B-IT와 경쟁하고 Gemma3-27B-IT가 벤치마크에서 Gemini-1.5-Pro와 비교될 수 있도록 합니다. 모든 모델은 커뮤니티에 공개됩니다.

Gemma 3 모델은 이전 버전과 동일한 일반적인 디코더 전용 트랜스포머 아키텍처를 따르며, 대부분의 아키텍처 요소는 처음 두 Gemma 버전과 유사합니다. GQA(Grouped-Query Attention)를 사용하고, RMSNorm과 함께 post-norm 및 pre-norm을 사용합니다. Gemma 2의 소프트 캡핑을 QK-norm으로 대체합니다. 핵심 차이점은 로컬 슬라이딩 윈도우 셀프 어텐션과 글로벌 셀프 어텐션을 5:1 패턴으로 번갈아 사용한다는 것입니다. Gemma 3 모델은 1B 모델의 32K를 제외하고 128K 토큰의 컨텍스트 길이를 지원합니다. 글로벌 셀프 어텐션 레이어에서 RoPE 기본 주파수를 10k에서 1M으로 늘리고 로컬 레이어의 주파수를 10k로 유지합니다. 글로벌 셀프 어텐션 레이어의 범위를 확장하기 위해 위치 보간과 유사한 프로세스를 따릅니다.

비전 인코더로 SigLIP 인코더의 4억 파라미터 버전을 사용합니다. Gemma 비전 인

In [None]:
# Reduce 과정 : 각 문서의 요약을 하나로 합칩니다.
reduce_prompt = ChatPromptTemplate([
    ('system', '''당신은 인공지능과 거대 언어 모델의 전문가입니다.
LLM 논문에 대한 요약문의 리스트가 주어집니다.
이를 읽고, 전체 주제를 포함하는 최종 요약을 작성하세요.
요약은 5개의 문단과 문단별 4-8개의 문장으로 작성하세요.
'''),
    ('user', '''{text}
---
Summary:
''')])

reduce_chain = reduce_prompt | llm | StrOutputParser()

summary = reduce_chain.invoke(gathered_summaries)

print(summary)

Gemma 3은 Google에서 개발한 최첨단 오픈 언어 모델 제품군으로, 텍스트, 이미지, 코드 이해를 모두 지원합니다. 이 모델은 이전 버전인 Gemma 2를 기반으로 구축되었으며, 이미지 이해, 긴 문맥 처리, 다국어 지원, STEM 관련 능력 향상에 중점을 둡니다. Gemma 3 모델은 10억 개에서 270억 개에 이르는 다양한 매개변수 크기로 제공되어 다양한 계산 요구 사항과 사용 사례를 충족하며, 표준 하드웨어와의 호환성을 고려하여 설계되었습니다.

Gemma 3 모델은 로컬 및 글로벌 self-attention 레이어의 비율을 5:1로 조정하여 Gemma 2 모델의 1:1 비율에서 변경되었으며, 이는 복잡도에 미치는 영향이 미미합니다. 긴 문맥 처리를 위해 모델은 32K 시퀀스로 사전 학습된 후 4B, 12B, 27B 모델을 128K 토큰으로 확장하고 RoPE를 재조정합니다. SigLIP 기반의 비전 인코더를 사용하여 이미지 해상도를 개선하고, Pan & Scan (P&S)을 통해 이미지의 원래 종횡비와 해상도를 유지하여 이미지의 텍스트를 읽어야 하는 작업에서 성능이 향상됩니다.

Gemma 3 모델은 지식 증류를 통해 훈련되었으며 사전 훈련 및 명령어 미세 조정 버전 모두에서 Gemma 2보다 뛰어난 성능을 보입니다. 특히, 새로운 사후 훈련 레시피는 수학, 채팅, 명령어 추종, 다국어 능력을 크게 향상시켜 Gemma3-4B-IT가 Gemma2-27B-IT와 경쟁하고 Gemma3-27B-IT가 벤치마크에서 Gemini-1.5-Pro와 비교될 수 있도록 합니다. 이 모델은 대규모 텍스트 및 코드 데이터 세트에 대해 사전 훈련되었으며, 특정 작업에 맞게 미세 조정할 수 있습니다.

안전성은 Gemma 3 개발에서 중요한 고려 사항입니다. 훈련 데이터 필터링, SFT 및 RLHF를 사용하여 유해한 콘텐츠 생성을 방지하고, 내부 안전 프로세스를 통해 모델이 Google의 안전 정책을 준수하도록 설계되었습니다. 모델의 잠재적 위험을 평가하기 위해 기본 평

In [None]:
summary

'Gemma 3은 Google에서 개발한 최첨단 오픈 언어 모델 제품군으로, 텍스트, 이미지, 코드 이해를 모두 지원합니다. 이 모델은 이전 버전인 Gemma 2를 기반으로 구축되었으며, 이미지 이해, 긴 문맥 처리, 다국어 지원, STEM 관련 능력 향상에 중점을 둡니다. Gemma 3 모델은 10억 개에서 270억 개에 이르는 다양한 매개변수 크기로 제공되어 다양한 계산 요구 사항과 사용 사례를 충족하며, 표준 하드웨어와의 호환성을 고려하여 설계되었습니다.\n\nGemma 3 모델은 로컬 및 글로벌 self-attention 레이어의 비율을 5:1로 조정하여 Gemma 2 모델의 1:1 비율에서 변경되었으며, 이는 복잡도에 미치는 영향이 미미합니다. 긴 문맥 처리를 위해 모델은 32K 시퀀스로 사전 학습된 후 4B, 12B, 27B 모델을 128K 토큰으로 확장하고 RoPE를 재조정합니다. SigLIP 기반의 비전 인코더를 사용하여 이미지 해상도를 개선하고, Pan & Scan (P&S)을 통해 이미지의 원래 종횡비와 해상도를 유지하여 이미지의 텍스트를 읽어야 하는 작업에서 성능이 향상됩니다.\n\nGemma 3 모델은 지식 증류를 통해 훈련되었으며 사전 훈련 및 명령어 미세 조정 버전 모두에서 Gemma 2보다 뛰어난 성능을 보입니다. 특히, 새로운 사후 훈련 레시피는 수학, 채팅, 명령어 추종, 다국어 능력을 크게 향상시켜 Gemma3-4B-IT가 Gemma2-27B-IT와 경쟁하고 Gemma3-27B-IT가 벤치마크에서 Gemini-1.5-Pro와 비교될 수 있도록 합니다. 이 모델은 대규모 텍스트 및 코드 데이터 세트에 대해 사전 훈련되었으며, 특정 작업에 맞게 미세 조정할 수 있습니다.\n\n안전성은 Gemma 3 개발에서 중요한 고려 사항입니다. 훈련 데이터 필터링, SFT 및 RLHF를 사용하여 유해한 콘텐츠 생성을 방지하고, 내부 안전 프로세스를 통해 모델이 Google의 안전 정책을 준수하도록 설계되었습니다. 모델의 잠재적 위험을 평가하기 