## 중요) 이 실습은 GPU 연결이 필요합니다.
**오른쪽 위 ▼ 화살표 클릭 --> 런타임 유형 변경 --> T4 GPU 설정**  
이후 아래 코드 실행해 주세요.

-----

<br><br>
# [실습] LangChain을 이용한 RAG 만들기

RAG는 Retrieval-Augmented Generation (RAG) 의 약자로, 질문이 주어지면 관련 있는 문서를 찾아 프롬프트에 추가하는 방식의 어플리케이션입니다.   
RAG의 과정은 아래와 같이 진행됩니다.
1. Indexing : 문서를 받아 검색이 잘 되도록 저장합니다.
1. Processing : 입력 쿼리를 전처리하여 검색에 적절한 형태로 변환합니다<br>(여기서는 수행하지 않습니다)
1. Search(Retrieval) : 질문이 주어진 상황에서 가장 필요한 참고자료를 검색합니다.
1. Augmenting : Retrieval의 결과와 입력 프롬프트를 이용해 LLM에 전달할 프롬프트를 생성합니다.
1. Generation : LLM이 출력을 생성합니다.

이번 실습에서는 웹 페이지의 결과를 받아와, 이를 기반으로 RAG를 수행하는 프로그램을 만들어 보겠습니다.

In [None]:
# 랭체인
!pip install langchain langchain-community langchain-google-genai langchain-chroma chromadb langchain_huggingface -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.3/67.3 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m51.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.0/42.0 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m611.1/611.1 kB[0m [31m42.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m89.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m284.2/284.2 kB[0m [31m24.0 MB/s[0m eta [36m0

위에 발생하는 에러는 실행과 무관합니다.

In [None]:
# 데이터 수집/전처리
!pip install rank-bm25 kiwipiepy sentence_transformers beautifulsoup4 -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.7/34.7 MB[0m [31m19.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m66.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for kiwipiepy_model (setup.py) ... [?25l[?25hdone


# [중요] 설치 후, **런타임 --> 세션 다시 시작** 후 실행해 주세요!

In [None]:
import os
os.environ['GOOGLE_API_KEY'] = 'AIzaSyBbKlO_udgEoOLhdVD5ekl5Edbw0WpqunQ'
os.environ['USER_AGENT'] = 'test'

from langchain_core.rate_limiters import InMemoryRateLimiter
from langchain_google_genai import ChatGoogleGenerativeAI

# Gemini API는 분당 10개 요청으로 제한
# 즉, 초당 약 0.167개 요청 (10/60)
rate_limiter = InMemoryRateLimiter(
    requests_per_second=0.167,  # 분당 10개 요청
    check_every_n_seconds=0.1,  # 100ms마다 체크
    max_bucket_size=10,  # 최대 버스트 크기
)

# rate limiter를 LLM에 적용
llm = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash",
    rate_limiter=rate_limiter,
    temperature = 0.5,
    max_tokens = 2048
)

In [None]:
# Test
response = llm.invoke("알리바바의 최신 언어 모델은 무엇입니까?")
print(response.content)

알리바바의 최신 언어 모델은 **Qwen2**입니다.

Qwen2는 2024년 5월에 공개되었으며, 다양한 크기(0.5B, 1.5B, 7B, 72B)의 모델을 제공하며, 특히 72B 모델은 성능 면에서 상당한 발전을 이루었습니다.

Qwen2는 이전 모델인 Qwen1.5를 기반으로 개선되었으며, 다음과 같은 특징을 가지고 있습니다:

*   **다국어 지원 강화:** 27개 언어에 대한 성능 향상
*   **추론 능력 향상:** 코딩, 수학, 추론 등 다양한 작업에서 더 나은 성능을 보여줍니다.
*   **오픈 소스:** Apache 2.0 라이선스로 공개되어 상업적 이용이 가능합니다.
*   **긴 문맥 처리 능력:** 최대 128K 토큰까지 처리 가능 (모델별로 상이)

더 자세한 정보는 알리바바 클라우드 공식 웹사이트 또는 관련 뉴스 기사를 참고하시면 좋습니다.


## 1. `WebBaseLoader`로 웹 페이지 받아오기

LangChain의 `document_loaders`는 다양한 형식의 파일을 불러올 수 있었는데요.
[https://python.langchain.com/docs/integrations/document_loaders/ ]    

이번에는 웹 페이지를 로드하는 `WebBaseLoader`를 통해 뉴스 기사를 읽어보겠습니다.    
WebBaseLoader는 URL의 내용을 불러오므로, URL 리스트를 먼저 전달해야 합니다.

#### 네이버 검색 연동하기
네이버 API를 사용해, 네이버 뉴스 검색 링크를 가져옵니다.   
(https://developers.naver.com/apps/#/register?defaultScope=search)   

API 사용 인증 후, 애플리케이션 등록을 통해 ID과 Secret를 발급합니다.

In [None]:
# 스포츠 뉴스는 형식이 달라서 지원하지 않습니다...

import requests
def get_naver_news_links(query, num_links=100):
    url = f"https://openapi.naver.com/v1/search/news.json?query={query}&display={num_links}&sort=sim"
    # 최대 100개의 결과를 표시
    headers = {
        'X-Naver-Client-Id': 'Ko6yIqbV2TOHq9rPH8tu',
        'X-Naver-Client-Secret': 'BvqX8mNtHu'
    }

    response = requests.get(url, headers=headers)
    result = response.json()
    # 특정 링크 형식만 필터링
    filtered_links = []
    for item in result['items']:
        link = item['link']
        if "n.news.naver.com/mnews/article/" in link:
            # 네이버 뉴스 스타일만 모으기
            filtered_links.append(link)

    print(query, ':', len(filtered_links), 'Example:', filtered_links[0])
    return filtered_links

filtered_links = []
for topic in ['메타', '오픈AI', 'XAI', '앤트로픽','구글','알리바바']:
    filtered_links += get_naver_news_links(topic, 100)
print('Total Articles:', len(filtered_links))
print('Total Articles(Without Duplicate):',len(list(set(filtered_links))))
filtered_links = list(set(filtered_links))

메타 : 80 Example: https://n.news.naver.com/mnews/article/015/0005118447?sid=100
오픈AI : 78 Example: https://n.news.naver.com/mnews/article/001/0015326262?sid=104
XAI : 52 Example: https://n.news.naver.com/mnews/article/009/0005475311?sid=105
앤트로픽 : 46 Example: https://n.news.naver.com/mnews/article/092/0002370386?sid=105
구글 : 74 Example: https://n.news.naver.com/mnews/article/001/0015325718?sid=104
알리바바 : 43 Example: https://n.news.naver.com/mnews/article/018/0005986646?sid=105
Total Articles: 373
Total Articles(Without Duplicate): 357


WebBaseLoader를 이용해, 링크로부터 본문을 불러옵니다.

In [None]:
# Jupyter 분산 처리를 위한 설정
import nest_asyncio

nest_asyncio.apply()

In [None]:
import bs4
from langchain_community.document_loaders import WebBaseLoader

async def get_news_documents(links):
    loader = WebBaseLoader(
        web_paths=links,
        bs_kwargs=dict(
            parse_only=bs4.SoupStrainer(
                class_=("newsct", "newsct-body")
                # newsct, newsct-body만 추출 : 네이버 뉴스 포맷에 맞는 HTML 요소
            )
        ),
        requests_per_second = 10, # 1초에 10개 요청 보내기
        show_progress = True # 진행 상황 출력
    )
    # docs = loader.load() # 기본 코드
    docs = []

    async for doc in loader.alazy_load():
        docs.append(doc)
    return docs

docs = await get_news_documents(filtered_links)
print(len(docs))

Fetching pages: 100%|##########| 357/357 [00:11<00:00, 32.24it/s]


357


In [None]:
docs[2]

Document(metadata={'source': 'https://n.news.naver.com/mnews/article/018/0005982605?sid=101'}, page_content='\n\n\n\n\n이데일리\n\n이데일리\n\n\n구독\n\n이데일리 언론사 구독되었습니다. 메인 뉴스판에서  주요뉴스를  볼 수 있습니다.\n보러가기\n\n\n이데일리 언론사 구독 해지되었습니다.\n\n\n\n\nPICK\n안내\n\n\n언론사가 주요기사로선정한 기사입니다.\n언론사별 바로가기\n닫기\n\n\n\n\n“월급 1400만원 줍니다” 제2의 량원펑 찾는 중국\n\n\n\n\n입력2025.04.08. 오후 4:43\n\n\n수정2025.04.08. 오후 5:01\n\n기사원문\n \n\n\n\n\n이명철 기자\n\n\n\n\n\n\n\n\n이명철 기자\n\n\n\n\n이명철 기자\n\n구독\n구독중\n\n\n\n\n구독자\n0\n\n\n응원수\n0\n\n\n\n더보기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n추천\n\n\n\n\n쏠쏠정보\n0\n\n\n\n\n흥미진진\n0\n\n\n\n\n공감백배\n0\n\n\n\n\n분석탁월\n0\n\n\n\n\n후속강추\n0\n\n\n \n\n\n\n댓글\n\n\n\n\n\n본문 요약봇\n\n\n\n본문 요약봇도움말\n자동 추출 기술로 요약된 내용입니다. 요약 기술의 특성상 본문의 주요 내용이 제외될 수 있어, 전체 맥락을 이해하기 위해서는 기사 본문 전체보기를 권장합니다.\n닫기\n\n\n\n\n\n\n\n\n텍스트 음성 변환 서비스 사용하기\n\n\n\n성별\n남성\n여성\n\n\n말하기 속도\n느림\n보통\n빠름\n\n이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.\n본문듣기 시작\n\n닫기\n\n\n \n\n글자 크기 변경하기\n\n\n\n가1단계\n작게\n\n\n가2단계\n보통\n\n\n가3단계\n크게\n\n\n가4단계\n아주크게\n\n\n가5단계\n최대크게\n\n\

불필요한 내용을 전처리합니다.

In [None]:
import re

def preprocess(docs):
    noise_texts = [
        '''구독중 구독자 0 응원수 0 더보기''',
        '''쏠쏠정보 0 흥미진진 0 공감백배 0 분석탁월 0 후속강추 0''',
        '''댓글 본문 요약봇 본문 요약봇''',
        '''도움말 자동 추출 기술로 요약된 내용입니다. 요약 기술의 특성상 본문의 주요 내용이 제외될 수 있어, 전체 맥락을 이해하기 위해서는 기사 본문 전체보기를 권장합니다. 닫기''',
        '''텍스트 음성 변환 서비스 사용하기 성별 남성 여성 말하기 속도 느림 보통 빠름''',
        '''이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다. 본문듣기 시작''',
        '''닫기 글자 크기 변경하기 가1단계 작게 가2단계 보통 가3단계 크게 가4단계 아주크게 가5단계 최대크게 SNS 보내기 인쇄하기''',
        'PICK 안내 언론사가 주요기사로선정한 기사입니다. 언론사별 바로가기 닫기',
        '응원 닫기',
        '구독 구독중 구독자 0 응원수 0 ',

    ]

    def clean_text(doc):
        text = doc.page_content
        # 탭과 개행문자를 공백으로 변환
        text = text.replace('\t', ' ').replace('\n', ' ')

        # 연속된 공백을 하나로 치환
        text = re.sub(r'\s+', ' ', text).strip()

        # 여러 구분자를 한번에 처리
        split_markers = [
            '구독 해지되었습니다.',
            '구독 메인에서 바로 보는 언론사 편집 뉴스 지금 바로 구독해보세요!'
        ]


        for marker in split_markers:
            parts = text.split(marker)
            if len(parts) > 1:
                if marker == '구독 해지되었습니다.':
                    text = parts[1]  # 뒷부분 사용
                else:
                    text = parts[0]  # 앞부분 사용


        # 노이즈 텍스트 제거
        for noise in noise_texts:
            text = text.replace(noise, '')

        # 연속된 공백을 하나로 치환
        text = re.sub(r'\s+', ' ', text).strip()

        doc.page_content = text

        return doc

    preprocessed_docs = []
    for doc in docs:
        # 텍스트 정제
        doc= clean_text(doc)
        preprocessed_docs.append(doc)

    return preprocessed_docs

preprocessed_docs = preprocess(docs)


In [None]:
preprocessed_docs[2]

Document(metadata={'source': 'https://n.news.naver.com/mnews/article/018/0005982605?sid=101'}, page_content='“월급 1400만원 줍니다” 제2의 량원펑 찾는 중국 입력2025.04.08. 오후 4:43 수정2025.04.08. 오후 5:01 기사원문 이명철 기자 이명철 기자 이명철 기자 구독 추천 봄철 채용 시즌, 주요 분야서 AI 관련 모집 절반 넘어로봇기업 유니트리, AI 분야 월급 최대 1400만원 지급AI 산업 구직자수 33% 증가, 대학도 관련 교육 확대해[베이징=이데일리 이명철 특파원] 중국에서 등장한 생성형 인공지능(AI) 모델 딥시크(창업자 량원펑)와 휴머노이드 로봇 기업인 유니트리(창업자 왕싱싱) 등이 등장하며 AI에 대한 인재 수요가 급증하고 있다. 최근 중국 채용 시즌에서는 기업마다 AI와 관련한 직책 채용을 확대하는 등 하나의 트렌드로 자리 잡고 있다는 판단이다. 중국 안후이성 허페이에서 취업 박람회가 열리고 있다. (사진=AFP)중국 현지에서는 봄철을 맞아 여러 지역에서 취업 박람회가 열리고 있는데 AI 알고리즘과 로봇 개발을 전공으로 삼은 인재들이 각광 받고 있다. 중국 관영 중국중앙TV(CCTV)는 올해 봄 채용 시즌 동안 AI 산업의 구직자수는 전년동기대비 33.4% 증가했다고 8일 보도했다.중국 관영 신화통신에 따르면 중국 항저우에서 약 830개 기업이 2만1000개의 일자리를 공고했다. 이중 절반은 AI 알고리즘 개발에 집중됐다.항저우에 본사를 둔 전자상거래 대기업 알리바바는 이번 봄철 채용에서 3000명 이상의 채용 공고를 냈다. 이번 채용에서 AI와 관련된 일자리는 전체 50%를 차지했다. 알리바바그룹 계열사인 알리바바 클라우드의 경우 AI 관련 직책 채용 규모가 전체 80%를 넘었다.항저우 ‘육소룡’(여섯 마리 작은 용) 중 하나인 유니트리의 경우 최근 취업 박람회에서 AI 알고리즘과 로봇 모션 제어 알고리즘 엔지니어 등에서 10개의 일자

## 2. Chunking: 청크 단위로 나누기   



전처리가 완료된 docs를 chunk 단위로 분리합니다.
`chunk_size`와 `chunk_overlap`을 이용해 청크의 구성 방식을 조절할 수 있습니다.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain import hub


# 청크 사이즈는 RAG 성능에 매우 중요한 역할을 수행합니다!

text_splitter = RecursiveCharacterTextSplitter(chunk_size=3000,
                                               chunk_overlap=600)
# 0~3000, 2400~5400, 4800~7800, ...
chunks = text_splitter.split_documents(preprocessed_docs)
print(len(chunks))

390


구성된 청크를 벡터 데이터베이스에 로드합니다.   
`Chroma.from_documents`는 documents의 임베딩을 구하고 이를 DB에 저장합니다.

In [None]:
from langchain_chroma import Chroma

벡터 데이터베이스에 데이터를 저장하기 위해, 임베딩 모델을 선정합니다.   
OpenAI의 `text-embedding-3-large`나, Google의 Gemini Embedding은 빠른 속도로 연산이 가능하나, 유료 모델입니다.   
(Gemini Embedding은 일 사용량 100회로 매우 부족합니다.)

이에 따라, 오프라인 사용이 가능한 허깅페이스에서 공개 임베딩 모델을 사용하여 구현해 보겠습니다.


#### 오픈 임베딩 모델 사용하기   
- intfloat/multilingual-e5-small (500MB)   
Multilingual-E5 시리즈는 마이크로소프트의 다국어 공개 임베딩 모델입니다.

- BAAI/bge-m3 (2GB)
BGE-M3 시리즈는 BAAI의 임베딩 모델로, 현재 가장 인기가 많은 모델입니다.

- nlpai-lab/KURE-v1 (2GB)    
KURE 임베딩은 고려대학교 NLP 연구실에서 만든 모델로, BGE-M3를 한국어 텍스트로 파인 튜닝한 모델입니다.

https://huggingface.co/nlpai-lab/KURE-v1

In [None]:
from sentence_transformers import SentenceTransformer

model_name = 'nlpai-lab/KURE-v1'
# CPU 설정으로 모델 불러오기
# huggingface.co/nlpai-lab/KURE-v1

emb_model = SentenceTransformer(model_name, device='cpu')
# 코랩 이외의 환경에서 불러오는 경우, 위 코드에 token='' 으로 HuggingFace Read 권한 토큰을 추가해야 할 수 있음

# 로컬 폴더에 모델 저장하기
emb_model.save('./embedding')

del emb_model

import gc
gc.collect()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/220 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/16.9k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/807 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.20k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/297 [00:00<?, ?B/s]

551

In [None]:
from langchain_huggingface import HuggingFaceEmbeddings

# 허깅페이스 포맷의 임베딩 모델 불러오기
embeddings = HuggingFaceEmbeddings(model_name= './embedding',
                                   model_kwargs={'device':'cuda'}) # gpu 사용하기

In [None]:
Chroma().delete_collection() # 메모리에 로드된 기존 데이터 삭제

db = Chroma.from_documents(documents=chunks,
                           embedding=embeddings,
                           persist_directory="./chroma_web",
                           collection_name='web', # DB 구분 이름

                           collection_metadata={'hnsw:space':'l2'}
                           # l2 메트릭 설정(기본값)
                           # cosine, mmr
                           )

retriever는 query에 맞춰 db에서 문서를 검색합니다.

In [None]:
retriever = db.as_retriever(search_kwargs={"k": 5})
# 기본값: Top 4

In [None]:
retriever.invoke("도메인 특화 언어 모델")

[Document(id='cf256727-e829-43e7-8ca5-af770f1b54e6', metadata={'source': 'https://n.news.naver.com/mnews/article/009/0005474541?sid=105'}, page_content='“넌 쓸데없는 말이 너무 많아”…딱 필요한 말만 하는 AI모델 뜬다는데 입력2025.04.10. 오후 10:43 기사원문 고민서 기자 고민서 기자 고민서 기자 구독 추천 LLM 경량화한 SLM 대세로몸집 줄이고 특정분야 특화정보 신속·정확하게 전달비용도 LLM 20분의 1 불과제조·금융·유통 등 적용 확산세계 최대 산업 자동화 기업 로크웰 오토메이션은 최근 마이크로소프트(MS)와 협력해 식음료 제조 현장에 특화된 인공지능(AI) 모델을 만들었다. 이 모델은 MS의 소규모언어모델(SLM) ‘파이’ 시리즈를 기반으로 개발됐는데 설비 문제가 발생했을 경우 공장 운영자에게 그 즉시 원인 분석과 대응 방안을 실시간으로 조언해준다. 공정 데이터를 중점적으로 학습하고 응답을 빠르게 할 수 있도록 경량화된 구조 덕분에 공장이 멈춰 서는 시간을 크게 줄이고 유지보수 효율도 끌어올리는 효과를 거두고 있다.개발 비용을 낮추면서도 특정 산업에 최적화된 SLM이 대세로 주목받고 있다. 방대한 데이터를 학습해 척척박사처럼 무엇이든지 알려주는 대규모언어모델(LLM)의 ‘범용 AI’ 대신 저비용으로 보다 빠르고 정확하게 정보를 전달하는 SLM의 ‘특화 AI’를 찾는 시장 수요가 더 두드러지고 있는 분위기다.10일 정보기술(IT) 업계에 따르면 구글, MS, 오픈AI 등 주요 글로벌 빅테크는 엔터프라이즈 사업의 일환으로 제조·금융·유통·헬스케어 등 다양한 산업 분야에 SLM 적용을 확대하고 있다.빅테크 기업들은 최소 수천억 개에서 많게는 1조개가 넘는 파라미터(매개변수)를 갖춘 초대형 언어모델도 보유하고 있지만, 실제 기업 고객들이 선호하는 것은 경량화된 SLM이다. 고비용·고연산의 초거대 AI보다 현장의 실질적인 문제를

#### 한국어 키워드 기반 검색 추가하기

임베딩 기반의 시맨틱 검색에 추가로 키워드 검색을 연동해 보겠습니다.   
랭체인의 기본 라이브러리는 키워드 기반의 `BM25Retriever`를 지원하나, 한국어 처리를 위해서는 추가 설정이 필요합니다.

In [None]:
# Kiwi 형태소 분석기
from kiwipiepy import Kiwi

kiwi = Kiwi()
def kiwi_tokenize(text):
    return [token.form for token in kiwi.tokenize(text)]


In [None]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever

# 키위 형태소 분석기로 청크를 분리한 뒤, 키워드 집합 추출
# 해당 키워드 집합으로 인덱싱
bm25_retriever = BM25Retriever.from_documents(
    chunks, preprocess_func = kiwi_tokenize)

bm25_retriever.k = 5

retriever = db.as_retriever(search_kwargs={"k": 5})

ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, retriever], weights=[0.5, 0.5]
)

In [None]:
ensemble_retriever

EnsembleRetriever(retrievers=[BM25Retriever(vectorizer=<rank_bm25.BM25Okapi object at 0x78e49480e4d0>, k=5, preprocess_func=<function kiwi_tokenize at 0x78e5f0626660>), VectorStoreRetriever(tags=['Chroma', 'HuggingFaceEmbeddings'], vectorstore=<langchain_chroma.vectorstores.Chroma object at 0x78e5f4a36910>, search_kwargs={'k': 5})], weights=[0.5, 0.5])

## 3. Prompting

RAG를 위한 간단한 프롬프트를 작성합니다.

In [None]:
from langchain.prompts import ChatPromptTemplate

In [None]:
prompt = ChatPromptTemplate([
    ("user", '''당신은 QA(Question-Answering)을 수행하는 Assistant입니다.
다음의 Context를 이용하여 Question에 답변하세요.
만약 모든 Context를 다 확인해도 정보가 없다면,
"정보가 부족하여 답변할 수 없습니다."를 출력하세요.
---
Context: {context}
---
Question: {question}''')])
prompt.pretty_print()


당신은 QA(Question-Answering)을 수행하는 Assistant입니다.
다음의 Context를 이용하여 Question에 답변하세요.
만약 모든 Context를 다 확인해도 정보가 없다면,
"정보가 부족하여 답변할 수 없습니다."를 출력하세요.
---
Context: [33;1m[1;3m{context}[0m
---
Question: [33;1m[1;3m{question}[0m


## 4. Chain

RAG를 수행하기 위한 Chain을 만듭니다.

RAG Chain은 프롬프트에 context와 question을 전달해야 합니다.    
체인의 입력은 Question만 들어가므로, Context를 동시에 prompt에 넣기 위해서는 아래의 구성이 필요합니다.

In [None]:
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

# retriever의 결과물은 List[Document] 이므로 이를 ---로 구분하는 함수
# metadata의 source를 보존하여 추가
def format_docs(docs):
    return " \n\n---\n\n ".join(
        ['URL: '+ doc.metadata['source'] + '\n기사 내용: ' +doc.page_content
         for doc in docs])
    # join : 구분자를 기준으로 스트링 리스트를 하나의 스트링으로 연결

rag_chain = (
    {"context": ensemble_retriever | format_docs, "question": RunnablePassthrough()}
    # retriever : question을 받아서 context 검색: document 반환
    # format_docs : document 형태를 받아서 텍스트로 변환
    # RunnablePassthrough(): 체인의 입력을 그대로 저장
    | prompt
    | llm
    | StrOutputParser()
)

In [None]:
print(format_docs(ensemble_retriever.invoke("GPT")))

URL: https://n.news.naver.com/mnews/article/366/0001066102?sid=105
기사 내용: “왜 이리 느리지”… ‘지브리 프사’ 인기에 몸살 난 챗GPT 입력2025.04.02. 오후 3:33 기사원문 윤예원 기자 윤예원 기자 윤예원 기자 구독 추천 GPU 부족해 반응 느려져… “일부 기능 영향”GPU 개수·성능이 LLM 품질 결정GPU 확보 못 하면 경쟁사에 밀릴 수도 일러스트=챗GPT 30대 직장인 김모씨는 평소 업무에 생성형 인공지능(AI) ‘챗GPT’를 자주 이용한다. 외국인 고객에게 보내는 메일을 작성하거나 자료를 검색할 때 챗GPT에 조언을 구하기도 한다. 그러나 최근 사진을 ‘지브리풍’ 스타일 등의 그림으로 바꾸는 기능이 유행한 후 챗GPT의 대답이 느려진 느낌을 받았다.김씨는 “평소에는 10초면 나올 간단한 설명이나 번역도 30초, 1분이 지나도 나오질 않는다”라며 “챗GPT가 과부하가 걸린 느낌”이라고 전했다.오픈AI의 이미지 생성 AI 모델 ‘챗GPT-4o 이미지 제너레이션’(이미지젠) 수요가 폭발하면서 챗GPT가 시스템 과부하에 몸살을 앓고 있다. 업계에서는 오픈AI가 AI 모델 구동에 필수 부품인 그래픽처리장치(GPU)를 확보하지 못한다면 장기적으로 앤트로픽, 퍼플렉시티 같은 경쟁자들에 밀릴 수 있다는 분석을 내놓고 있다. 올트먼이 ‘10만개’ 달라고 사정한 GPU 샘 올트먼 오픈AI 최고경영자(CEO)는 지난 1일(현지시각) X를 통해 챗GPT 이미지젠을 이용하려는 가입자가 급증하면서 일부 기능이 느려질 수 있다고 했다. 올트먼 CEO는 “우리는 상황을 통제하고 있지만, 오픈AI의 새로운 서비스가 지연되거나, 일부 기능이 제대로 작동하지 않거나, 용량 문제로 인해 서비스가 때때로 느려질 수 있다는 점을 고려해 주기 바란다”라고 밝혔다.올트먼 CEO는 또 “10만개의 GPU를 확보할 수 있다면 최대한 빨리 연락을 해달라”라고 언급했다. 앞서 그는 지난달 27일에도 “오픈AI의 GPU가 녹아내리고 있

In [None]:
rag_chain.invoke("XAI의 언어 모델 그록의 성능에 대해 설명해 주세요.")

"xAI의 언어 모델 그록은 다음과 같은 특징을 가지고 있습니다.\n\n*   **성장세**: 2025년 3월 기준으로 일평균 웹 방문자 수가 1,650만 명을 기록하며 빠르게 성장하고 있습니다. 이는 2월 대비 약 800% 증가한 수치입니다.\n*   **특징**:\n    *   '필터링 없는 AI'를 표방하며, 다른 AI들이 피하는 민감한 이슈나 인물에 대한 묘사를 서슴지 않습니다.\n    *   X(구 트위터)의 데이터를 활용하여 SNS 상의 여론 흐름을 알려줄 수 있습니다.\n    *   추론형 모델 그록3는 엔비디아의 최신 GPU H100 10만 개를 2억 시간 동안 훈련시켜 이전 모델보다 10배 높은 연산력을 갖췄습니다.\n*   **성능**: 수학, 과학 등 일부 분야 벤치마크에서 오픈AI의 GPT-4o, 앤트로픽의 클로드 3.5 소넷, 딥시크의 V3보다 높은 성과를 기록했다고 xAI는 주장합니다.\n*   **논란**:\n    *   트럼프 대통령과 머스크에 대한 부정적인 언급을 검열한다는 논란이 있습니다.\n    *   일부 벤치마크가 조작되었다는 의혹도 제기되고 있습니다.\n    *   아일랜드 개인정보보호위원회(DPC)는 그록의 불법 학습 의혹에 대해 조사에 착수했습니다."

In [None]:
rag_chain.invoke("OpenAI의 최근 기술 발전 성과는? 관련 링크도 보여주세요")

'OpenAI는 다음과 같은 기술 발전 성과를 보였습니다.\n\n*   **이미지 생성 모델**: 챗GPT 4o 이미지 생성 기능을 공개하여, 기존에 DALL-E에서 생성하지 못했던 이미지를 AI가 생성할 뿐만 아니라 AI 생성 이미지의 한계였던 텍스트까지 완벽하게 생성합니다. 사용자의 프롬프트에 맞춰 이미지를 다양하게 편집하는 것도 가능합니다.\n*   **새로운 모델 출시 계획**: GPT-4.1을 포함한 새로운 모델을 출시할 예정이며, GPT-4o 멀티모달 모델을 개선한 버전일 것으로 보입니다. GPT-4.1 미니·나노와 함께 GPT-4.1을 공개할 것으로 예상됩니다. 또한 o3 추론 모델의 정식 버전과 함께 o4 미니 버전도 준비 중입니다.\n\n관련 링크는 다음과 같습니다.\n\n*   [https://n.news.naver.com/mnews/article/009/0005465059?sid=101](https://n.news.naver.com/mnews/article/009/0005465059?sid=101)\n*   [https://n.news.naver.com/mnews/article/092/0002370358?sid=105](https://n.news.naver.com/mnews/article/092/0002370358?sid=105)'

In [None]:
rag_chain.invoke("OpenAI의 이미지 생성 기능이 저작권 논란이 있다던데, 어떤 얘기야?")

"OpenAI의 이미지 생성 기능과 관련된 저작권 논란은 다음과 같습니다.\n\n*   **지브리풍 이미지 생성:** 챗GPT를 이용하여 지브리 스타일의 이미지를 생성하는 것이 유행하면서, 지브리 스튜디오 수뇌부가 불편한 기색을 내비쳤습니다. 이는 예술계 전체에 불안감을 야기하고 있습니다.\n*   **미디어 업계의 홍역:** AI가 뉴스 기사를 무차별적으로 학습한 정황이 드러났음에도 불구하고, 미디어 업계는 제대로 대응하지 못하고 있습니다. 할리우드에서는 시나리오 작가, 성우, 배우, 스태프 등이 AI에게 일자리를 빼앗기고 있습니다.\n*   **특허 전쟁:** AI가 특허를 찾아주는 시대에 '특허 괴물'들이 활보하면서, 한국의 지식재산권이 위협받고 있습니다. 글로벌 제약사들이 K-바이오시밀러의 약진을 견제하기 위해 소송을 걸거나, 외국 벤처와 투자자들이 한국 스타트업을 노리고 소송을 준비한다는 이야기도 있습니다."

In [None]:
rag_chain.invoke("알리바바 큐원3 출시됐니?")

"알리바바는 2025년 4월 중 '큐원3'를 출시할 계획이라고 합니다. 2025년 4월 2일 기사에 따르면 이달 말 출시될 예정이라고 언급되었습니다."

만약 Context가 포함된 RAG 결과를 보고 싶다면, RunnableParallel을 사용하면 됩니다.

assign()을 이용하면, 체인의 결과를 받아 새로운 체인에 전달하고, 그 결과를 가져옵니다.

In [None]:
# assign : 결과를 받아서 새로운 인수 추가하고 원래 결과와 함께 전달
from langchain_core.runnables import RunnableParallel

rag_chain_from_docs = (
    prompt
    | llm
    | StrOutputParser()
)

rag_chain_with_source = RunnableParallel(
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

response = rag_chain_with_source.invoke(
    "XAI의 언어 모델 그록에 대해 설명해 주세요.")

# retriever가 1번 실행됨
# retriever의 실행 결과를 rag_chain_from_docs 에 넘겨주기 때문에

response

{'context': 'URL: https://n.news.naver.com/mnews/article/050/0000089234?sid=101\n기사 내용: GPT에서 보는 게 트렌드다. 방법은 간단하다. 이름과 생년월일, 성별 등을 입력하면 10초 만에 성격, 직업, 재물운, 조심해야 할 점, 행운 요소 등을 풀어준다. 이후 추가 질문을 통해 자세한 조언을 얻을 수 있다.자존감을 얻고 싶을 때에도, 날카로운 시선이 필요할 때에도 GPT는 큰 도움을 준다. 대화로그가 어느 정도 쌓인 후에 이렇게 질문해 보자.[대화를 바탕으로 내 사고 패턴과 의사결정 방식, 무의식적인 편향, 반복적으로 드러나는 약점이나 맹점을 상세히 분석해줘. 각 항목에 필요한 조언을 구체적으로 알려줘]이제 중요한 건 질문의 기술이다. 당신만의 ‘명령어(프롬프트) 센스’를 키워보자. 전문가들의 LLM 추천챗GPT가 어느 정도 익숙해졌다면 또 다른 LLM의 세계로 나가보자.챗GPT가 모든 분야에서 평균 이상의 기능을 한다면 또 다른 LLM은 각 분야에서 특화된 기능을 제공한다. 검색에 특화된 퍼플렉시티(Perplexity)와 그록3(Grok-3), PPT 제작에 강한 펠로(FELO)와 감마(Gamma), 저렴한 비용으로 대용량 작업이 가능한 제미나이 플래시(Gemini Flash)와 딥시크(DeepSeek) 등 활용법은 무궁무진하다.증권사 리서치센터장“전 궁금한 것 생기면 그록3 씁니다. 생각한 내용을 프롬프트에 적고 살을 붙여달라고 하거나 더 깊이 고민해야 할 사항이 있으면 알려달라는 식으로 유도해요. 잘못된 정보가 붙을 수도 있기 때문에 참고한 웹페이지를 다 살펴봅니다. 여기에 링크가 포함되어 있는 자료들이 제법 많이 붙어서 서칭을 이어가다 보면 정말 풍성해져요.”기획자“요즘 핫한 건 펠로(FELO)입니다. 일본 LLM이긴 한데 아기자기한 맛이 있어요. 마인드맵을 할 때나 PPT를 작성할 때 특화된 LLM입니다.”애널리스트“그록3 씁니다. 다양한 이슈에 팩트 체크가 강해요. 꿀팁은 특별히 없

In [None]:
print(response['context'])
print('--------')
print('Question:', response['question'])
print('Answer:', response['answer'])

URL: https://n.news.naver.com/mnews/article/009/0005469856?sid=105
기사 내용: “욕도 해, 선 넘는 것도 해줄게”...세계 최고부자가 내세우는 AI ‘그록’ 입력2025.04.02. 오후 10:14 기사원문 김태성 기자 김태성 기자 김태성 기자 구독 추천 머스크의 ‘그록’ 한달새 방문자 800% 쑥딥시크 제치고 AI 서비스 2위 굳히기나서 일론 머스크 테슬라 최고경영자. <사진=연합뉴스>일론 머스크 xAI 최고경영자(CEO)가 “세계에서 가장 똑똑한 인공지능(AI)”이라며 자신있게 선보인 ‘그록(Grok)’의 성장세가 무섭다. 지난 2월 추론형 새 모델 ‘그록3’를 선보인지 불과 한달만에 글로벌 일간 사용자 1600만명을 돌파하며 중국 대표 AI 딥시크와 같은 수준의 트래픽을 확보했기 때문이다.머스크 본인이 스스로 나서 그록을 알리고 있는데다 그록 개발사인 xAI가 최근 X(옛 트위터)를 합병하면서 시너지가 기대되는만큼 그록의 시장 침투 속도는 앞으로 더 빨라질 전망이다. 다만 성능을 일부 부풀렸다는 의혹과 함께 정치 편향성에 대한 지적이 이어지는 것이 향후 성장에 장애가 될 수 있다는 지적도 나온다.2일 정보통신(IT) 업계와 테크크런치 등 외신에 따르면 글로벌 그록 서비스 이용자는 지난 3월 기준으로 하루 평균 1650만명으로 집계됐다. 지난 2월 최신 모델 그록3를 탑재하며 전면 무료화를 선언한지 불과 한달만에 800%나 넘게 트래픽이 급증했다.그 결과 그록 이용자는 딥시크(1650만명) 수준으로 올라서며 전세계에서 가장 많이 사용하는 AI서비스 순위에서 오픈AI ‘챗GPT’(1억2600만명)에 이은 2위권을 형성했다. 같은 기간 구글 ‘제미나이’ 이용자는 전월 대비 7.4% 증가한 일평균 1090만명, 앤트로픽 ‘클로드’는 330만명인 것과 비교하면 놀라운 상승세다. 그록은 머스크가 2023년 7월 설립한 인공지능 회사 xAI가 개발한 생성형AI다. X가 가진 광대한 데이터, 테슬라의 AI 인재 등 