# 실제 로직 테스트 코드

## 1. 환경 설정

In [1]:
# 환경 변수 로드
from dotenv import load_dotenv

load_dotenv()

True

In [2]:
# 사용할 클래스 목록
from dataclasses import dataclass

## 검색될 내용
@dataclass
class SearchResult:
  keyword: str
  title: str
  link: str
  content: str

## VDB에 들어갈 메타 데이터
@dataclass
class Metadata:
  keyword: str
  link: str

In [3]:
from langchain_upstage import ChatUpstage
from langchain.schema import SystemMessage, HumanMessage

# 분석 모델
llm_analize = ChatUpstage(
    model="solar-mini",
    temperature=0.7,
)

# 검증 모델
llm_validate = ChatUpstage(
    model="solar-pro2",
    temperature=0.7
)

llm_summarize = ChatUpstage(
    model="solar-mini",
    temperature=0.7
)

llm_classify = ChatUpstage(
    model="solar-mini",
    temperature=0.7
)

---
## 2. 사전 요소 정의 
### 1. RAG 기능 쪽 변수 및 함수

In [4]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_upstage import UpstageEmbeddings
from langchain_chroma import Chroma

# 스플리터 정의
splitter = RecursiveCharacterTextSplitter(
  chunk_size=300,
  chunk_overlap=50
)

# 임베딩 모델 설정
vstore = Chroma(
  collection_name="knowledge_base",
  embedding_function=UpstageEmbeddings(model="embedding-query"),
  persist_directory="./chroma"
)

# 검색자
retriever=vstore.as_retriever(
  search_type="mmr",
  search_kwargs={
    "k":4,
    "fetch_k":20,
    "lambda_mult":0.5
  }
)

# 연관 되어있는 것으로 볼 범위
THRESHOLD = 1.55

In [5]:
from langchain.schema import Document

# VDB에 저장된 문서 묶음 검색해오기
def search_documents(keyword: str) -> list[Document]:
  scored = vstore.similarity_search_with_score(keyword, k=20)

  filtered =  [
    doc for doc, score in scored if score <= THRESHOLD
  ]
  return filtered

# 검색 후 프롬프트도 만들기
def get_prompt_on_retrieve(keyword: str, prompt: str) -> str:
  search_results = search_documents(keyword=keyword)

  # 프롬프트에 내용 삽입하기
  result = prompt
  for items in search_results:
     result += ("\n" + items.page_content)

  return result

# contents를 스플리터로 자르고 메타데이터 붙이기
def split_documents(contents: list[str], metadatas: list[Metadata]):
  docs: list[Document] = []

  for i in range(len(contents)):
    splits = splitter.create_documents(
      texts=[contents[i]],
      metadatas=[{
        "keyword":metadatas[i].keyword,
        "link":metadatas[i].link,
      }],
    )
    docs.extend(splits)
  return docs

# SearchResult로 가져온 문서들을 contents와 metadatas로 분리
def embed_documents(datas: list[SearchResult]):
  # 데이터를 content와 메타데이터로 분리
  contents: list[str] = [("# " + data.title + "\n" + data.content) for data in datas]
  metadatas: list[Metadata] = [
    Metadata(
      data.keyword,
      data.link
    ) for data in datas
  ]

  docs = split_documents(contents=contents, metadatas=metadatas)

  # 벡터 스토어에 데이터 저장
  vstore.add_documents(docs)
  
  return {"result":"complete"}

### 2. llm 호출
#### 1. 프롬프트

In [6]:
# 분석가
analyst_form="""
{
    "answer":"문서를 바탕으로 한 추론과 결론",
    "link":[
        "근거로 사용한 문서의 링크 1",
        "근거로 사용한 문서의 링크 2",
        ....
    ]
}
"""

def analyst_prompt(keyword: str, form: str):
    return f"""
당신은 최고의 검색어 분석 전문가 입니다.
입력으로 키워드와 여러 문서들의 내용이 주어집니다.
해당 문서들은 모두 {keyword}로 검색된 내용들 중 가장 최근의 기사들입니다. 
아래와 같은 규칙과 방법으로 현재 이 키워드가 왜 트랜디해졌는지 분석하십시오.

근거는 반드시 문서만을 참고하여 주십시오.
각 문서마다 핵심 이슈를 요약하여 유사한 문서가 있는지 확인해야합니다.
여러개의 문서 중 유사한 주제로 3개 이상 동시에 발견되어야합니다.
감정적 단어나 추측적 표현("~일 것이다")은 피하고, 실제 문서 근거를 기반으로 결론을 도출합니다.\

출력 형식은 다음과 같이 JSON으로 주십시오: {form}
"""

# 검증자
validator_form="""
{
    "validation": "yes" 또는 "no",
    "reason": "판단의 이유 한 두 줄로 설명"
}
"""

def analyst_input_prompt(searched_documents: list[Document], news: list[str]) -> str:
    prompt = f"""
다음은 해당 검색어로 검색된 뉴스의 내용입니다. 참고하십시오:
{news}

이 내용은 해당 검색어와 관련되어있는 것으로 보이는 다른 검색어의
뉴스 내용입니다. 필요할 경우 추가적인 추론의 근거로 참고하십시오:
"""
    for document in searched_documents:
        prompt+= f"""
- {document.page_content}
    - keyword: {document.metadata["keyword"]}
    - link: {document.metadata["link"]}
"""
    return prompt

def validator_prompt(keyword: str, form: str):
    return f"""
당신은 엄격한 리뷰어 입니다.
이 내용은 벡터DB에서 {keyword}로 검색되었습니다.
실제로 해당 내용과 관련이 있는지 간단한 문구와 함께 검증하시오.

다음과 같은 양식으로 한 줄로 작성해야 합니다: {form}
"""

# 요약자
summarizer_prompt="다음 뉴스를 300자 내로 정리하십시오:"

# 분류자
# 먼저 정의된 카테고리 목록
ALLOWED_CATEGORIES = [
    "건강", "게임", "과학", "기술", "기타", "기후",
    "미용 및 패션", "법률 및 정부", "반려동물 및 동물",
    "비즈니스 및 금융", "쇼핑", "스포츠", "식음료",
    "엔터테이먼트", "자동차", "정치", "취업 및 교육"
]

classifier_form="""
{
    "summarize"="내용 요약",
    "tags"=[
        "태그1",
        "태그2",
        ...
    ]
    "category="카테고리"
}
"""
classifier_prompt=f"""
해당 내용을 요약하고, 태그와 카테고리를 생성해주십시오.
출력 양식은 다음과 같이 Json 형식으로 작성해야합니다: {classifier_form}
태그는 아무 단어나 상관 없지만, 카테고리는 다음 중 하나를 선택해야 합니다:
"""
for category in ALLOWED_CATEGORIES:
    classifier_prompt += "- " + category + "\n"

print(classifier_prompt)


해당 내용을 요약하고, 태그와 카테고리를 생성해주십시오.
출력 양식은 다음과 같이 Json 형식으로 작성해야합니다: 
{
    "summarize"="내용 요약",
    "tags"=[
        "태그1",
        "태그2",
        ...
    ]
    "category="카테고리"
}

태그는 아무 단어나 상관 없지만, 카테고리는 다음 중 하나를 선택해야 합니다:
- 건강
- 게임
- 과학
- 기술
- 기타
- 기후
- 미용 및 패션
- 법률 및 정부
- 반려동물 및 동물
- 비즈니스 및 금융
- 쇼핑
- 스포츠
- 식음료
- 엔터테이먼트
- 자동차
- 정치
- 취업 및 교육



#### 2. 호출 함수

In [7]:
def analyst_llm(keyword: str, docs: list[Document], summaries: list[str]) -> str:
    """
    분석 llm 호출 함수
    """
    messages = [
        SystemMessage(content=analyst_prompt(keyword, analyst_form)),
        HumanMessage(content=analyst_input_prompt(docs, summaries))
    ]

    # invoke()는 ChatModel 표준 인터페이스입니다.
    result = llm_analize.invoke(messages)

    # result는 보통 AIMessage 객체이며 .content에 텍스트가 들어 있습니다.
    return result.content.strip()

def validator_llm(prompt: str, keyword: str) -> str:
    """
    검증 llm 호출 함수
    """
    messages = [
        SystemMessage(content=validator_prompt(keyword, validator_form)),
        HumanMessage(content=prompt),
    ]

    # invoke()는 ChatModel 표준 인터페이스입니다.
    result = llm_validate.invoke(messages)
    
    return result.content.strip()

def summarizer_llm(prompt: str) -> str:
    """
    요약 llm 호출 함수
    """
    messages = [
        SystemMessage(content=summarizer_prompt),
        HumanMessage(content=prompt),
    ]

    result = llm_summarize.invoke(messages)

    # result는 보통 AIMessage 객체이며 .content에 텍스트가 들어 있습니다.
    return result.content.strip()

def classifier_llm(prompt: str) -> str:
    """
    분류 llm 호출 함수
    """
    messages = [
        SystemMessage(content=classifier_prompt),
        HumanMessage(content=prompt),
    ]

    result = llm_classify.invoke(messages)

    # result는 보통 AIMessage 객체이며 .content에 텍스트가 들어 있습니다.
    return result.content.strip()

### 3. 크롤링 기능

In [8]:
import requests
from bs4 import BeautifulSoup
import json
import time
from urllib.parse import quote_plus

def get_keyword_news(keyword):
    href_links = []

    origin_url = f'https://search.naver.com/search.naver?ssc=tab.news.all&query={keyword}'
    origin_url += "&sm=tab_opt&sort=0&photo=0&field=0&pd=12&ds=&de=&docid=&related=0&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so%3Ar%2Cp%3Aall&is_sug_officeid=0&office_category=0&service_area=0"

    response = requests.get(origin_url)
    soup = BeautifulSoup(response.content, "html.parser")
    
    naver_spans = soup.find_all('span', string='네이버뉴스')
   
    for news in naver_spans:
        anchor_tag = news.find('a')
        if anchor_tag:
            href = anchor_tag.get('href')
            href_links.append(href)
    return href_links
    
def get_news_from_naver(keyword, urls) -> list[SearchResult]:
    results: list[SearchResult] = []
    title = ""
    content = ""
    for url in urls:
        response = requests.get(url)
        soup = BeautifulSoup(response.content, "html.parser")

        if 'entertain.naver.com' in url:
            title_tag = soup.find('div', class_='ArticleHead_article_head_title__YUNFf')
            content_tag = soup.find('div', class_='_article_content')
            title = title_tag.get_text(strip=True)
            content = content_tag.get_text(strip=True)
        
        elif 'n.news.naver.com' in url:
            title_tag = soup.find('div', class_='media_end_head_title')
            content_tag = soup.find('div', class_='newsct_article')
            title = title_tag.find('span').get_text(strip=True)
            content = content_tag.get_text(strip=True)
        elif 'm.sports.naver.com' in url:
            title_tag = soup.find('h2', class_='ArticleHead_article_title__qh8GV')
            content_tag = soup.find('div', class_='ArticleContent_comp_article_content__luOFM')
            title = title_tag.get_text(strip=True)
            content = content_tag.get_text(strip=True)
        else:
            print("Unsupported URL format:", url)

        results.append(SearchResult(
            keyword=keyword,
            link=url,
            title=title,
            content=content
        ))
        # time.sleep(0.2)
    return results

# 진짜 쓰는 놈
def news_crawling(keyword):
    href_links = get_keyword_news(keyword)
    news_results = get_news_from_naver(keyword, href_links)
    return news_results

---
## 3. 그래프 요소 정의
### 1. 상태 작성

In [9]:

State = {
    "keyword": str,                # 분석 대상 키워드
    "raw_documents": [SearchResult],   # 크롤링/뉴스 등 원문 문서들 (content, link, source 등)
    "embedded_documents": [dict],  # 임베딩 후 VDB에 저장된 문서 메타
    "retrieved_documents": [Document], # VDB에서 keyword 기반으로 가져온 후보 문서들
    "validated_documents": [Document], # 키워드와 실제로 관련 있다고 LLM이 yes 준 문서들
    "news_summaries": [str],       # 뉴스 개별 요약 결과들
    "trend_analysis": dict,        # 트렌드 원인 분석 (LLM 결과: answer + link[])
    "summarize_and_classify": dict           # 최종 JSON (keyword, description, content, tags, category, refered)
}

### 2. 노드 구성

In [10]:
# 데이터 수집 부분
def collect_sources(state):
    print(f"데이터 수집 중: {state["keyword"]}")
    # 1) keyword로 외부 소스 크롤링
    fetched_docs = news_crawling(state["keyword"])
    # 2) 결과를 [{"keyword": ..., "link": ..., "content": ...}, ...] 형태로 수집
    state["raw_documents"] = fetched_docs
    return state

# 데이터 임베딩
def embed_and_store(state):
    print("수집한 문서 임베딩 중")
    # 문서별 embedding 계산 -> VDB에 저장
    docs = embed_documents(state["raw_documents"])
    # 저장 후, vector_id 등 메타 정리
    # 저장 결과 출력
    state["embedded_documents"] = docs
    return state

# VDB에서 Retrieve
def retrieve_from_vdb(state):
    print("데이터 검색 중")
    retrieved = search_documents(state["keyword"])
    state["retrieved_documents"] = retrieved  # 예: [{"content":..., "link":..., ...}, ...]
    return state

# 각 문서 검증
def validate_relevance(state):
    print("각 문서 검증")
    validated = []
    if len(state["retrieved_documents"]) == 0:
        return state
    for doc in state["retrieved_documents"]:
        raw = validator_llm(keyword=state["keyword"], prompt=doc.page_content)
        judgment = json.loads(raw)
        if judgment["validation"] == "yes":
            validated.append(Document(
                page_content= doc.page_content,
                metadata= {**doc.metadata, "reason": judgment["reason"]},
            ))
    state["validated_documents"] = validated
    return state

# 원문 요약
def summarize_news_individual(state):
    print("원문 요약 중")
    summaries = []
    for doc in state["raw_documents"]:
        summary = summarizer_llm(doc.content)
        summaries.append({
            "link": doc.link,
            "summary": summary
        })
    state["news_summaries"] = summaries
    return state

# 분석 및 이유 작성
def analyze_trend_reason(state):
    print("최종 분석 중")
    raw = analyst_llm(
        keyword=state["keyword"],
        docs=state["validated_documents"],
        summaries=state["news_summaries"]
    )
    trend_json = json.loads(raw)
    state["trend_analysis"] = trend_json  # {"answer": "...", "link": ["...", "..."]}
    return state

# 태그, 카테고리 붙이기
def classify_and_package(state):
    print("태그, 카테고리 붙이는 중 ")
    packaged = classifier_llm(
        prompt=state["trend_analysis"]["answer"],
    )
    state["summarize_and_classify"] = packaged
    return state


### 3. 노드 잇기 (그래프 짜기)

In [11]:
from langgraph.graph import StateGraph

workflow = StateGraph(dict)  # dict 대신 위에서 정의한 State 모델 사용 권장

workflow.add_node("collect_sources", collect_sources)
workflow.add_node("embed_and_store", embed_and_store)
workflow.add_node("retrieve_from_vdb", retrieve_from_vdb)
workflow.add_node("validate_relevance", validate_relevance)
workflow.add_node("summarize_news_individual", summarize_news_individual)
workflow.add_node("analyze_trend_reason", analyze_trend_reason)
workflow.add_node("classify_and_package", classify_and_package)

workflow.add_edge("collect_sources", "embed_and_store")
workflow.add_edge("embed_and_store", "retrieve_from_vdb")
workflow.add_edge("retrieve_from_vdb", "validate_relevance")
workflow.add_edge("validate_relevance", "summarize_news_individual")
workflow.add_edge("summarize_news_individual", "analyze_trend_reason")
workflow.add_edge("analyze_trend_reason", "classify_and_package")

workflow.set_entry_point("collect_sources")
workflow.set_finish_point("classify_and_package")

app = workflow.compile()

In [26]:
initial_state = {"keyword":"호남대"}
output = app.invoke(initial_state)

데이터 수집 중: 호남대
수집한 문서 임베딩 중
데이터 검색 중
각 문서 검증
원문 요약 중
최종 분석 중
태그, 카테고리 붙이는 중 


In [27]:
# 검색결과 저장하기
## 보기 쉽게..
from dataclasses import is_dataclass, asdict
import yaml
def to_plain(obj):
    # dataclass → dict
    if is_dataclass(obj):
        return asdict(obj)
    # LangChain Document → dict
    if isinstance(obj, Document):
        return {
            "page_content": obj.page_content,
            "metadata": obj.metadata,
        }
    # dict → 재귀 변환
    if isinstance(obj, dict):
        return {k: to_plain(v) for k, v in obj.items()}
    # list, tuple, set → 재귀 변환
    if isinstance(obj, (list, tuple, set)):
        return [to_plain(v) for v in obj]
    # 기본 타입은 그대로
    return obj

# 변환 후 YAML로 저장
with open("output.yaml", "w", encoding="utf-8") as f:
    yaml.safe_dump(to_plain(output), f, allow_unicode=True, sort_keys=False)

print("✅ YAML 저장 완료")

✅ YAML 저장 완료


In [28]:
get_summarize = json.loads(output["summarize_and_classify"])
get_summarize

{'summarize': "호남대학교는 최근 농협광주본부와 함께 '아침밥먹기 캠페인'을 개최하여 학생들의 건강과 활력을 높이는 데 힘쓰고 있습니다. 또한, 광주 우호협력도시인 중국 뤄양시의 의료미용 연수단이 호남대학교를 방문하여 미용·뷰티 전문 교육과정을 체험하고 수료증을 취득하는 등 교류·협력 방안을 모색하고 있습니다. 광주시자원봉사센터의 자원봉사 시민의식 조사에서 시민들이 관심을 갖고 있는 자원봉사 분야 중 하나로 호남대학교가 언급되고 있습니다.",
 'tags': ['호남대학교',
  '농협광주본부',
  '아침밥먹기 캠페인',
  '건강',
  '교류',
  '협력',
  '의료미용',
  '미용뷰티',
  '자원봉사',
  '시민의식 조사'],
 'category': '기타'}

In [29]:
@dataclass
class SearchResultOutput:
    """
    검색에 대한 응답 클래스입니다.
    """

    keyword: str
    description: str
    content: str
    tags: list[str]
    category: str
    refered: list[str]

output_real = SearchResultOutput(
    keyword=output["keyword"],
    description=get_summarize['summarize'],
    content=output["trend_analysis"]["answer"],
    tags=get_summarize['tags'],
    category=get_summarize['category'],
    refered=output["trend_analysis"]["link"]
)

print(output_real)

SearchResultOutput(keyword='호남대', description="호남대학교는 최근 농협광주본부와 함께 '아침밥먹기 캠페인'을 개최하여 학생들의 건강과 활력을 높이는 데 힘쓰고 있습니다. 또한, 광주 우호협력도시인 중국 뤄양시의 의료미용 연수단이 호남대학교를 방문하여 미용·뷰티 전문 교육과정을 체험하고 수료증을 취득하는 등 교류·협력 방안을 모색하고 있습니다. 광주시자원봉사센터의 자원봉사 시민의식 조사에서 시민들이 관심을 갖고 있는 자원봉사 분야 중 하나로 호남대학교가 언급되고 있습니다.", content="호남대학교는 최근 다양한 분야에서 활동을 펼치고 있습니다. 농협광주본부와 함께 '아침밥먹기 캠페인'을 개최하여 학생들의 건강과 활력을 높이는 데 힘쓰고 있습니다. 또한, 광주 우호협력도시인 중국 뤄양시의 의료미용 연수단이 호남대학교를 방문하여 미용·뷰티 전문 교육과정을 체험하고 수료증을 취득하는 등 교류·협력 방안을 모색하고 있습니다. 이 외에도 광주시자원봉사센터의 자원봉사 시민의식 조사에서 시민들이 관심을 갖고 있는 자원봉사 분야 중 하나로 호남대학교가 언급되고 있습니다. 따라서 호남대학교는 최근 다양한 분야에서의 활동과 협력으로 인해 검색어 트렌드에 오른 것으로 추론됩니다.", tags=['호남대학교', '농협광주본부', '아침밥먹기 캠페인', '건강', '교류', '협력', '의료미용', '미용뷰티', '자원봉사', '시민의식 조사'], category='기타', refered=['https://n.news.naver.com/mnews/article/003/0013569803?sid=102', 'https://n.news.naver.com/mnews/article/016/0002549842?sid=102', 'https://m.sports.naver.com/general/article/449/0000324932', 'https://n.news.naver.com/mnews/article/030/0003364926?sid=102', 'h