# 뉴스 데이터 확인 
raw_data.csv

In [77]:
import pandas as pd

# CSV 파일 경로 설정
csv_file_path = '../data/raw_data.csv'
df = pd.read_csv(csv_file_path)

# df 칼럼
print(df.columns)

# 카테고리별 갯수
print(df['Category'].value_counts())

Index(['Category', 'Title', 'Original Link', 'Description',
       'Publication Date'],
      dtype='object')
Category
주식            300
채권            300
금융            300
금리            300
환율 및 외환 시장    300
금융 규제         300
경제 지표         300
Name: count, dtype: int64


In [None]:

# 'content' 컬럼에서 NaN 값인 행들만 필터링하여 새로운 데이터프레임 생성
nan_df = df[df['Content'] == "FAIL"]

# 결과 출력
nan_df


# 뉴스 스크래핑 도전 

### 도전과제 표

| 도전과제                                             | 설명                                                                                   |
|------------------------------------------------------|----------------------------------------------------------------------------------------|
| 1. 다양한 HTML 구조 처리                             | 각기 다른 뉴스 사이트에서 다양한 HTML 구조를 처리해야 함.                              |
| 2. 동적 콘텐츠 렌더링 문제                           | 자바스크립트로 동적으로 생성되는 콘텐츠를 수집하기 어려움.                            |
| 3. 광고 및 불필요한 요소 필터링                      | 뉴스 기사 상단, 하단, 사이드바 등에 포함된 광고와 불필요한 텍스트를 제거해야 함.       |
| 4. 대규모 URL 처리 시간                              | 수천 개의 URL을 처리하는 데 시간이 많이 소요될 수 있음.                                |
| 5. 반자동화된 콘텐츠 추출 도구 필요성                | 다양한 웹사이트에서 뉴스 기사 콘텐츠만을 자동으로 추출할 수 있는 도구가 필요함.       |
| 6. 웹사이트의 접근 제한 및 차단 가능성               | 일부 뉴스 사이트는 크롤링을 차단하거나 제한할 수 있음.                                |
| 7. 자연어 처리 기반의 정교한 텍스트 필터링 필요      | 추출된 텍스트에서 실제 뉴스 기사 본문만을 식별하기 위해 NLP 기반의 필터링이 필요함.   |
| 8. 법적 및 윤리적 고려 사항                         | 뉴스 콘텐츠를 수집할 때 저작권 및 사이트의 이용 약관을 준수해야 함.                   |
| 9. 데이터 정제 및 일관성 유지                        | 다양한 소스로부터 수집한 텍스트의 일관성을 유지하고 데이터를 정제해야 함.            |
| 10. 수집 데이터의 저장 및 관리                       | 대량의 데이터를 효율적으로 저장하고 관리하는 방법이 필요함.                           |


### 참고자료
* [차단되지 않고 웹 스크래핑 하는 법](https://scrapeops.io/web-scraping-playbook/web-scraping-without-getting-blocked/#)
* [newspaper3k 라이브러리 사용법](https://pypi.org/project/newspaper3k/)

In [79]:
# !pip install lxml lxml_html_clean
# !pip install --upgrade newspaper3k
# !pip install fake_useragent

Collecting fake_useragent
  Downloading fake_useragent-1.5.1-py3-none-any.whl.metadata (15 kB)
Downloading fake_useragent-1.5.1-py3-none-any.whl (17 kB)
Installing collected packages: fake_useragent
Successfully installed fake_useragent-1.5.1


In [74]:
# newspaper3k를 사용하여 뉴스 기사 콘텐츠 추출
from newspaper import Article

def extract_news_content(url):
    article = Article(url, language='ko')
    article.download()
    article.parse()
    return article.text

# URL 리스트를 정의
url = list(nan_df["Original Link"][:10])
for i, u in enumerate(url):
    print(i, u, extract_news_content(u))

0 https://biz.chosun.com/international/international_economy/2024/08/17/JDIT2LDAJBBTTPHPED53JUYGEE/?utm_source=naver&utm_medium=original&utm_campaign=biz 
1 https://www.sisajournal.com/news/articleView.html?idxno=306070 카카오톡(으)로 기사보내기 네이버밴드(으)로 기사보내기 다른 공유 찾기

비트코인 ⓒ로이터=연합뉴스

국민연금이 가상화폐에 대한 간접 투자를 확대하고 있는 것으로 드러났다.

코인 전문 매체 코인데스크는 16일(현지 시각) 최근 공개된 증권거래위원회(SEC)에 증권 신고서를 인용해 국민연금이 올해 2분기에 약 3400만 달러(460억원)에 달하는 마이크로스트래티지 주식을 매입했다고 보도했다.

국민연금은 마이크로스트래티지가 이달 초 1대 10의 주식 분할 전, 평균 1377.48달러에 2만4500주를 매입했다. 3374만8260달러(약 457억원) 규모다. 주식 분할 후 국민연금이 보유한 주식 수는 24만5000주로 증가했다. 이날 종가(133.04달러) 기준 보유 금액은 3259만4800달러(약 441억원)로 3.4% 손실을 기록하고 있다.

마이크로스트래티지는 가장 많은 비트코인을 보유한 회사다. 약 2000만 개에 이르는 비트코인 전체 공급량의 1% 이상인 22만6500개를 보유하고 있다. 코인데스크는 “마이크로스트래티지가 코인 최대 기업 보유자인 만큼 국민연금의 주식 매입은 비트코인(BTC)에 대한 간접 투자로 볼 수 있다”고 밝혔다.

국민연금은 가상화폐 관련 기업 주식을 이전에도 매입해왔다. 코인데스크에 따르면, 국민연금은 미 가상화폐 거래소 코인베이스 주식 22만9807주도 보유 중이다.

국민연금은 지난해 코인베이스 주식을 평균 70.5달러에 28만2673주를 매입했다. 1992만8446달러(약 270억원) 규모다. 이후 1만2866주를 매도했다. 그러나 이날

# 스크래핑 방지 최적화 코드 
1. User-Agent 설정: 웹 서버가 봇인지 사람인지 구분할 때 사용하는 HTTP 헤더입니다. 일반적인 웹 브라우저에서 사용하는 User-Agent를 설정하여 봇이 아닌 것처럼 보이게 할 수 있습니다.
2. Request 간 시간 간격: 서버에 과부하를 일으키지 않기 위해 요청 사이에 딜레이를 두는 것이 좋습니다. 이를 통해 서버가 스크래퍼를 감지하고 차단할 가능성을 줄일 수 있습니다.
3. Rotating User-Agents: 여러 User-Agent를 순환하여 사용하는 것도 차단을 피하는 데 도움이 됩니다.
4. 병렬 요청 제한: 병렬로 많은 요청을 보내지 않도록, 동시에 처리할 수 있는 URL 수를 제한합니다.

In [None]:
from newspaper import Article
import time
import random
import requests
from fake_useragent import UserAgent
from concurrent.futures import ThreadPoolExecutor

# User-Agent 목록 설정
ua = UserAgent()
newspaper3k_extract_df = df

def extract_news_content(url):
    try:
        # 랜덤하게 User-Agent 설정
        headers = {'User-Agent': ua.random}
        
        # newspaper3k를 사용하여 뉴스 기사 콘텐츠 추출
        article = Article(url, language='ko')
        
        # URL 요청을 수행할 때, 설정한 헤더와 프록시 사용
        article.download(input_html=requests.get(url, headers=headers).text)
        article.parse()
        
        return article.text
    except Exception as e:
        print(f"Failed to scrape {url}: {str(e)}")
        return None

def scrape_urls(urls):
    with ThreadPoolExecutor(max_workers=5) as executor:
        for i, result in enumerate(executor.map(extract_news_content, urls)):
            if result:
                print(i, urls[i], result)
            # 각 요청 사이에 지연 시간 추가
            time.sleep(random.uniform(1, 3))

# 스크래핑 실행 (df["Original Link"]에 각 행마다 하나씩 url있음. 스크래핑 한 결과는 newspaper3k_extract_df["Content"]에 저장)


# 스크래핑 결과 확인

# 스크래핑에 실패한 결과 확인 (실패한 갯수 및 실패한 것만 따로 dataframe형태로 보여주기)



# 뉴스 스크래핑 결과 확인 (soup - 로그 분석)
* 콘텐츠 추출에 실패한 건수는 총 176건입니다.
* 총 실행 시간은 약 457초(7분 37초)입니다.

# 뉴스 스크래핑 결과 확인 (newspaper3k)
* Web scraping process completed. Total time taken: 568.56 seconds
* Average time per URL: 0.47 seconds
* Number of failed scrapes: 81

In [92]:
import pandas as pd

# CSV 파일 경로 설정
newspaper3k_extract_df = pd.read_csv('../data/raw_data_updated.csv')

# 스크래핑 결과 확인
print("Scraping results:")
newspaper3k_extract_df

Scraping results:


Unnamed: 0,Category,Title,Original Link,Description,Publication Date,Content
0,삼성,"‘야구대표자’ 우디, 삼성 라이온즈 덕후력 최강 “팬들의 자부심”",https://www.newsen.com/news_view.php?uid=20240...,이날 우디는 오늘의 구단으로 선정된 삼성 라이온즈 대표자로 출격해 다채로운 정보를 ...,2024-08-19 19:54:00+09:00,가수 우디(Woody)가 남다른 야구 덕후력을 보여줬다.\n\n우디는 8월 18일 ...
1,애플,SK하이닉스 “애플·구글 등 M7서 ‘맞춤형 HBM’ 요청...기회 잘 살릴 것”,https://www.mk.co.kr/article/11096325,"M7은 스탠더드앤드푸어스(S&P) 500 기업 중 대형 기술주 7개 종목인 애플, ...",2024-08-19 19:45:00+09:00,사진 확대 미 반도체 기업 엔비디아의 연례 개발자 콘퍼런스 GTC 2024가 열린 ...
2,삼성,"법원 ""삼성바이오, 회계처리 기준 위반해 투자주식 부당 평가""",https://www.yna.co.kr/view/AKR2024081913450000...,"행정소송 1심 재판부 ""자본잠식 회피 위해 에피스 지배력 상실 처리"" 형사사건 1심...",2024-08-19 19:37:00+09:00,"한주홍 기자\n\n행정소송 1심 재판부 ""자본잠식 회피 위해 에피스 지배력 상실 처..."
3,삼성,"삼성 TV 플러스, KLPGA 매이저 '한화 클래식 2024' 생중계 진행",https://sports.chosun.com/life/2024-08-19/2024...,삼성전자가 SBS골프와 협업해 삼성 TV 플러스에서 한국여자프로골프(KLPGA) 투...,2024-08-19 19:17:00+09:00,"3.\n\n'SON보다 많은 EPL 123골 사나이' 스털링의 '충격' 성명 발표,..."
4,삼성,"삼성전자, 인공지능 TV 앞세워 상반기 글로벌 TV 시장 1위 달성...금액 기준 ...",https://www.aitimes.kr/news/articleView.html?i...,사진은 삼성전자 Neo QLED 8K 실물 이미지 삼성전자가 올해 출시한 인공지능 ...,2024-08-19 19:14:00+09:00,사진은 삼성전자 Neo QLED 8K 실물 이미지\n\n삼성전자가 올해 출시한 인공...
...,...,...,...,...,...,...
594,애플,애플 4.8%↓·엔비디아 6.3%↓·구글 4.6%↓…M7 1천조 원 증발,https://news.sbs.co.kr/news/endPage.do?news_id...,"1위 애플과 인공지능 칩 선두 주자 엔비디아, 세계 최대 검색 엔진 업체 구글 주가...",2024-08-06 06:44:00+09:00,미국의 경기침체 우려로 현지시간 5일 뉴욕증시가 급락한 가운데 시가총액 1위 애플과...
595,애플,삼성·애플에 35조 찔러주고 “우리 것 띄워줘”…이 회사 ‘불법 독점기업’...,https://www.mk.co.kr/article/11085710,위해 (애플과 삼성전자 등에) 비용을 지불하는 것은 독점을 불법으로 규정한 셔먼법 ...,2024-08-06 06:43:00+09:00,사진 확대 구글로고\n\n세계 최대 검색 엔진을 서비스하는 구글이 미국 법무부가 제...
596,애플,"애플 4.8%↓·엔비디아 6.3%↓·구글 4.6%↓…M7, 1천조원 증발(종합)",https://www.yna.co.kr/view/AKR2024080600255109...,"1위 애플과 인공지능(AI) 칩 선두 주자 엔비디아, 세계 최대 검색 엔진 업체 구...",2024-08-06 06:36:00+09:00,버크셔 지분 절반 매각·새 AI 칩 출시 연기·반독점 소송에 낙폭 커져\n\n애플 ...
597,애플,애플 4%·엔비디아 5% 하락…M7 시총 한때 1조달러 증발,https://www.yna.co.kr/view/AKR2024080600250009...,1위 애플과 인공지능(AI) 칩 선두 주자 엔비디아는 다른 종목보다 더 큰 폭의 하...,2024-08-06 01:33:00+09:00,버크셔 지분 절반 매각·새 AI 칩 출시 연기에 낙폭 커져\n\n애플 로고 [AP ...


In [95]:

# 스크래핑에 실패한 결과 확인
failed_scrapes = newspaper3k_extract_df[newspaper3k_extract_df["Content"].isna()]
print(f"\nNumber of failed scrapes: {len(failed_scrapes)}")
print("\nFailed scrapes:")
print(failed_scrapes[["Original Link"]])


Number of failed scrapes: 57

Failed scrapes:
                                         Original Link
7    https://biz.sbs.co.kr/article_hub/20000187566?...
8                    http://www.jnilbo.com/74569888840
14                 https://vop.co.kr/A00001659804.html
17                   https://kbench.com/?q=node/259224
29                   https://kbench.com/?q=node/259223
37   https://www.siminilbo.co.kr/news/newsview.php?...
38   https://www.siminilbo.co.kr/news/newsview.php?...
40   https://biz.sbs.co.kr/article_hub/20000187549?...
57   http://www.thefirstmedia.net/news/articleView....
68   https://news.kbs.co.kr/news/pc/view/view.do?nc...
77   https://sports.chosun.com/life/2024-08-19/2024...
101  https://news.kbs.co.kr/news/pc/view/view.do?nc...
104  https://www.khan.co.kr/economy/market-trend/ar...
120  http://mbnmoney.mbn.co.kr/news/view?news_no=MM...
125  https://it.chosun.com/news/articleView.html?id...
139  https://www.newsworks.co.kr/news/articleView.h...
142  http://www.ne

# 요약

In [99]:
import pandas as pd

# CSV 파일 경로 설정
df = pd.read_csv('../data/raw_data_updated.csv')

print("{title} : ", df.iloc[0]["Title"])
print("{text} : ", df.iloc[0]["Content"])
df.iloc[0]["Description"]

{title} :  ‘야구대표자’ 우디, 삼성 라이온즈 덕후력 최강 “팬들의 자부심”
{text} :  가수 우디(Woody)가 남다른 야구 덕후력을 보여줬다.

우디는 8월 18일 공개된 티빙 오리지널 예능 '야구대표자 : 덕후들의 리그'(이하 '야구대표자')에 출연했다.

이날 우디는 오늘의 구단으로 선정된 삼성 라이온즈 대표자로 출격해 다채로운 정보를 전하며 자타공인 삼성 라이온즈 덕후를 증명했다. ▲ 티빙 ‘야구대표자’ 방송 캡처 [뉴스엔 하지원 기자]가수 우디(Woody)가 남다른 야구 덕후력을 보여줬다.우디는 8월 18일 공개된 티빙 오리지널 예능 '야구대표자 : 덕후들의 리그'(이하 '야구대표자')에 출연했다.이날 우디는 오늘의 구단으로 선정된 삼성 라이온즈 대표자로 출격해 다채로운 정보를 전하며 자타공인 삼성 라이온즈 덕후를 증명했다. 우디는 삼성 라이온즈의 구장을 소개하며 "그린벨트다. 밤늦도록 앰프 사용이 가능해 민원이 없다"고 밝혔다. 벌레가 많다는 상대 팀 견제에는 "지구촌 세계에서 벌레는 함께 살아가는 것"이라고 센스 있게 맞받아치며 웃음을 자아냈다. 이어 "메이저리그 구장 느낌"이라고 덧붙이는 등 무한 애정을 보였다.

이후 삼성 라이온즈 대표 응원가 '엘도라도'가 흘러나오자 우디는 친형인 KT 위즈 김상수 선수를 언급하기도 했다. "얼마 전에 형이 삼성 라이온즈와 경기하는데 '엘도라도'가 나왔다. 그걸 따라 부르고 있는 모습이 중계 화면에 잡혔다"며 너스레를 떨었다.

'팀 홈런 1위'에 대해선 "삼성이 어제 기록을 갈아치웠다. 작년까지는 삼성 라이온즈가 팀 홈런 8위였다. 올해 들어 어린 선수들의 성장과 함께 녹화 당일 기준 1위"라며 "137개로 엄청난 숫자다. 한 선수가 몰아치는 게 아니라 조금씩 나눠 쳤다"고 디테일한 설명을 덧붙였다.

계속해서 우디는 삼성 라이온즈 선수들의 홈런 기록을 전하며 전문적인 덕후의 기질을 드러냈다. 이에 삼성은 '최고의 홈런 타자 구단' 1위로 뽑혔고, 우디는 "선수들의 기록이 팬들의 자부심이다.

'이날 우디는 오늘의 구단으로 선정된 삼성 라이온즈 대표자로 출격해 다채로운 정보를 전하며 자타공인 삼성 라이온즈 덕후를 증명했다. 우디는 삼성 라이온즈의 구장을 소개하며 "그린벨트다. 밤늦도록 앰프 사용이... '

In [116]:
from langchain_community.llms import Ollama
from langchain.prompts import PromptTemplate
from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser

# Ollama를 사용하여 Gemma2 모델 초기화
model = Ollama(model="gemma2:latest")

template_string = """
작업: 다음 뉴스 기사를 분석하여 주요 포인트 3가지와 한 줄 인사이트를 추출하세요.

지시사항:
1. 기사의 내용을 면밀히 분석하세요.
2. 가장 중요하고 관련성 높은 정보를 바탕으로 3가지 주요 포인트를 추출하세요.
3. 각 포인트는 간결하게 한 문장으로 작성하되, 핵심 정보를 포함해야 합니다.
4. 기사 전체를 고려하여 독자에게 가장 유용할 수 있는 한 줄 인사이트를 도출하세요.
5. 인사이트는 기사의 함의나 잠재적 영향을 포함할 수 있습니다.

point_1 : 추출한 주요 포인트 중 첫번째를 작성하세요.
point_2 : 추출한 주요 포인트 중 두번째를 작성하세요.
point_3 : 추출한 주요 포인트 중 세번째를 작성하세요.
insight: 기사 전체를 고려하여 독자에게 가장 유용할 수 있는 한 줄 인사이트를 도출하세요. 인사이트는 기사의 함의나 잠재적 영향을 포함할 수 있습니다.

뉴스 기사: {text}

{format_instructions}
"""

# 출력 결과의 output format
point_1_schema = ResponseSchema(name="point_1",
                                description="추출한 주요 포인트 중 첫번째를 작성하세요.")
point_2_schema = ResponseSchema(name="point_2",
                                description="추출한 주요 포인트 중 두번째를 작성하세요.")
point_3_schema = ResponseSchema(name="point_3",
                                description="추출한 주요 포인트 중 세번째를 작성하세요.")
insight_schema = ResponseSchema(name="insight",
                                description="기사 전체를 고려하여 독자에게 가장 유용할 수 있는 한 줄 인사이트를 도출하세요. 인사이트는 기사의 함의나 잠재적 영향을 포함할 수 있습니다.")
response_schemas = [point_1_schema, point_2_schema, point_3_schema, insight_schema]

# output parser 지정
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
format_instructions = output_parser.get_format_instructions()

# 확인할 뉴스 인덱스 설정
index = 1

# ChatPromptTemplate 정의
prompt_template = PromptTemplate.from_template(template_string)

# 뉴스 콘텐츠
news_content = df.iloc[index]["Content"]  # type: str

# prompt_template에 변수 부분 치환해서 적용
formatted_prompt = prompt_template.format(text=news_content, format_instructions=format_instructions)

# LLM을 불러서 formatted_prompt를 적용
customer_response = model(formatted_prompt)

# json형식을 parse (dictionary로 사용 가능)
output_dict = output_parser.parse(customer_response)

# 결과 확인
print(df.iloc[index]["Original Link"])  # url
print(news_content)                     # 뉴스 기사
print(customer_response)                # LLM 답변
print(output_dict)                      # 답변을 parse (str -> dict)


https://www.mk.co.kr/article/11096325
사진 확대 미 반도체 기업 엔비디아의 연례 개발자 콘퍼런스 GTC 2024가 열린 18일(현지시간) 미 캘리포니아주 새너제이 컨벤션 센터에 마련된 전시관에서 SK하이닉스가 HBM3를 엔비디아에 공급하고 있다는 점을 부각하고 있다. [사진출처 = 연합뉴스]

류성수 SK하이닉스 고대역폭메모리(HBM) 비즈니스 담당 부사장은 19일 “M7(매그니피센트7)에서 모두 찾아와 HBM 커스텀을 해달라는 요청사항이 나오고 있다”며 밝혔다.

M7은 스탠더드앤드푸어스(S&P) 500 기업 중 대형 기술주 7개 종목인 애플, 마이크로소프트, 구글 알파벳, 아마존, 엔비디아, 메타, 테슬라를 의미한다.

이들 기업이 모두 인공지능(AI) 반도체 핵심 부품인 HBM을 맞춤형 제품으로 원하는 가운데 SK하이닉스와 빅테크와의 협업 가능성이 점쳐진다.

류 부사장은 이날 오후 서울 광진구 워커힐 호텔에서 열린 ‘이천포럼 2024′에서 “주말에도 M7 업체들과 콜(전화)을 진행하며 쉬지 않고 일을 했다”며 이같이 말했다.

루 부사장은 또 “그들(M7)의 요청사항을 만족시키기 위해 내부적으로, 한국 전체적으로도 굉장히 많은 엔지니어링 리소스가 필요한데, 이를 확보하려고 다방면으로 뛰어다니고 있다”고 전했다.

그러면서 “커스텀 제품과 관련한 요구사항이 많아지는 등 패러다임 시프트의 큰 전환점에 직면했다”며 “그 기회들을 잘 살리면서 메모리 사업을 지속 발전시켜가겠다”고 덧붙였다.

HBM은 AI 칩의 필수 반도체다. 과거 메모리가 ‘커머디티(범용 제품)’의 성격을 띠었던 것과 달리 세대가 지날수록 ‘커스텀(맞춤형)’으로 변화하고 있다.

‘HBM 시장 1위’인 SK하이닉스는 지난 3월 메모리업체 중 최초로 5세대 HBM인 HBM3E 8단 제품을 엔비디아에 납품하기 시작했다. 맞춤형 HBM인 6세대 HBM4도 준비 중이다.

류 부사장은 이날 메모리 업계 전망과 관련 “지금 잘하고 있는 그래픽처리장치(GPU) 업체(엔비디

dict

In [54]:
for index, row in df[:3].iterrows():
    title = row["Title"]
    print(title)
    text = row['Content']

    if pd.isna(text):
        # nan인 경우, 아직 원문 스크래핑 작업 하기 전이므로 pass
        pass
    elif text != "FAIL":
        # content가 있을 경우
        text_to_summarize = text
    else:
        # content가 'FAIL'일 경우 description 사용
        text_to_summarize = row["Description"]

    if pd.notna(text_to_summarize) and text_to_summarize:
        response = chain.invoke({"title":title, "text": text_to_summarize})
        print(response)
        print(f"요약 완료: {text_to_summarize[:50]}...")  # 일부만 로그에 기록
    else:
        print(f"요약할 내용이 없음: {index}")




국민연금, 비트코인 최다 보유 기업 주식 매입…460억 원 규모


KeyError: 'Input to PromptTemplate is missing variables {\'\\n        "title"\'}.  Expected: [\'\\n        "title"\'] Received: [\'title\', \'text\']'

# 원문 글 하나 가져와서 요약해보기

<p>
뉴스 요약 접근 방식 비교: 직접 요약 vs RAG

1. 원문 직접 요약
장점:

간단하고 직관적인 방식
원문의 전체 맥락을 유지하기 쉬움
구현이 상대적으로 간단함

단점:

긴 뉴스 기사의 경우 토큰 제한에 걸릴 수 있음
모델이 중요하지 않은 세부사항에 집중할 수 있음

2. RAG (Retrieval-Augmented Generation) 방식
장점:

관련 정보를 효과적으로 검색하여 요약의 정확성 향상
긴 문서나 여러 문서의 정보를 통합하기 좋음
최신 정보나 외부 지식을 쉽게 통합할 수 있음

단점:

구현이 더 복잡함
검색 품질에 따라 결과가 크게 달라질 수 있음
계산 비용이 더 높을 수 있음

3. 권장사항

뉴스 기사 길이가 일관되게 짧고 단일 주제를 다루는 경우: 원문 직접 요약
긴 기사나 여러 관련 기사를 통합해야 하는 경우: RAG 방식 </p>