# LangChain1 - Model I-O / Memory / Output Parser

# 코랩 환경설정

In [None]:
# 구글 드라이브 마운트 - 파일 입출력 등에 필요함

# from google.colab import drive
# drive.mount('/content/drive')

In [None]:
# 작업 폴더로 이동

import os

# os.chdir('/content/drive/MyDrive/')

print(os.getcwd())


In [None]:
# 아래 두 명령어는 ipynb 코드 셀에서 파일을 만들고 그 안에 내용을 바로 적을 수 있는 %%writefile 명령어를 수행하기 위해 필요한 설정
# 파일 업데이트 시 자동 재업을 위한 설정

%load_ext autoreload
%autoreload 2

In [None]:
%%writefile api_keys.py
# api_keys.py 파일을 만들고, 그 안에 OPENAI_API_KEY 변수에 자신의 openai api key를 입력함

OPENAI_API_KEY = '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'

In [None]:
# api_keys 모듈에서 OPENAI_API_KEY를 임포트하여 환경 변수에 등록함.
# 이렇게 함으로서 OpenAI Model을 사용할 때마다 api key를 전달하는 수고를 덜 수 있음.

import os
from api_keys import OPENAI_API_KEY

os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY

# 최신 라이브러리 설치
- langchain
- langchain-core
- langchain-community
    - langchain thrid-party 라이브러리
- langchain-openai
    - langchain에서 openai, claude 크고 중요한 모델은 따로 라이브러리를 제공 회사와 함께 관리함.
    - 따라서 따로 설치 필요

# LangChain1 - LLM

## Model I/O - LLM 호출

LangChain에서 LLM 호출은 대형 언어 모델(LLM, Large Language Model)을 쉽게 활용할 수 있도록 하는 기능입니다.

이를 통해 OpenAI, Hugging Face, Cohere, Claude 등 다양한 LLM을 호출하고, 프롬프트를 생성하며, 체인을 구성하여 복잡한 작업을 수행할 수 있습니다.

LangChain은 LLM을 호출하는 데 필요한 인터페이스를 제공하며, 이를 통해 개발자는 모델과의 상호작용을 간단하게 구현할 수 있습니다.

In [None]:
# # 실습을 위해 사용할 라이브러리 설치

# !pip install -q langchain #← langchain 모듈 설치
# !pip install -q langchain-core #← langchain-core 모듈 설치
# !pip install -q langchain-community #← langchain-community 모듈 설치

In [None]:
# (예제코드1) Model I/O – LLM 호출
# 가장 기본적인 langchain 기능으로 LLM을 호출함.
# langchain_community의 chat_models에는 다양한 LLM이 모여 있음.

from langchain_community.chat_models import ChatOpenAI  #ChatOpenAI 클래스 가져오기

chat = ChatOpenAI(  #← 클라이언트를 만들고 chat에 저장
    model="gpt-4o-mini",  #← 호출할 모델 지정
)

res = chat.invoke('너는 누구니?')
print(res.content)


In [None]:
# AIMessage 클래스의 pretty_print 메서드: text를 보기 쉽게 출력해 줌.

res.pretty_print()

In [None]:
# langchain-openai 설치
# langchain_community.chat_models를 사용해도 되지만, 일부 인기 있는 LLM은 따로 Integration으로 라이브러리를 모아놓음.
# 만약 Anthropic의 LLM을 사용하고 싶으면, 다음 명령어를 수행할 것.
# pip install -U langchain-anthropic
# export ANTHROPIC_API_KEY="your-api-key"

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

In [None]:
# (예제코드2) Model I/O – LLM 호출
# 위 예시와 동일한 예시지만, 사용하는 Class가 다름.
# 이건 OpenAI Integration 모듈을 사용함. 그러나 결과는 같음

from langchain_openai import ChatOpenAI  #← ChatOpenAI 클래스 가져오기

chat = ChatOpenAI(  #← 클라이언트를 만들고 chat에 저장
    model="gpt-3.5-turbo",  #← 호출할 모델 지정
    temperature=0.1,
    # max_tokens=512
)

res = chat.invoke('생성형 AI에 대해 50자 이내로 간략히 설명해줘')
print(res.content)


In [None]:
# 스트리밍으로 출력받기

for string in chat.stream('생성형 AI에 대해 50자 이내로 간략히 설명해줘'):
    string.pretty_print()

### 연습문제1) ChatOpenAI 클래스를 이용하여 다음 조건을 만족하는 Chat Model을 만들고, 다음 질문에 대한 추론 결과를 프린트 하세요.
- 모델: gpt-4o
- 창의성: 1.5
- 최대토큰 수: 100
- 질문: 화성의 기후와 환경을 고려하여 만약 화성에 외
계인이 존재한다면, 어떤 모습일지 상상해봐. 한국어로
답변해줘.

In [None]:
# (연습문제1) Model I/O – LLM 호출
# 이번 연습문제는 Chat_Model 객체를 만들고, 질의를 하고, 답변을 받아내는 일련의 과정을 진행하는 것.
# 입력 인자의 타입이 반드시 Prompt일 필요는 없음. 문자열로 입력해도 됨.

from langchain_openai import ChatOpenAI  # ChatOpenAI 클래스 가져오기

# Chat Model 생성
chat = ChatOpenAI(
    model="gpt-4o",  # 사용할 모델 지정
    temperature=1.5,  # 창의성 증가
    max_tokens=100  # 최대 토큰 수 제한
)

# 질문 정의
question = "화성의 기후와 환경을 고려하여 만약 화성에 외계인이 존재한다면, 어떤 모습일지 상상해봐. 한국어로 답변해줘"

# 모델 호출 및 결과 출력
response = chat.invoke(question)
print(type(response))
print(response.content)


## Model I/O - Messages

In [None]:
# (예제코드3) Model I/O – HumanMessage 사용
# AIMessage와 HumanMessage를 사용한 경우 - 대화를 이어가고 이전 대화를 기억하는 것을 구현
# Chat_Model은 한번의 질의문만 할 수 있는 게 아니고, 대화를 이어나갈 수 있음.
# 이때 사용하는 가장 간단한 방법은, HumanMessage, AIMessage 객체를 이용하여 대화를 만들고, 이를 리스트에 묶어서 Chat_model에 전달함.
# 물론 여기 예제는 정해진 질문과 답변이 나오게 설계되어 있지만, 전반적인 프로세스는 Message 객체를 활용하면 됨.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_openai import ChatOpenAI #← ChatOpenAI 클래스 가져오기
from langchain_core.messages import HumanMessage #← 사용자의 메시지인 HumanMessage 가져오기

chat = ChatOpenAI( #← 클라이언트를 만들고 chat에 저장
    model="gpt-4o-mini", #← 호출할 모델 지정
)
res = chat( #← 실행하기
    [
        HumanMessage(content="안녕하세요!"),
    ]
)

print(type(res))
print(res.content)

In [None]:
# (예제코드4) Model I/O – HumanMessage, SystemMessage사용
# 이번에는 SystemMessage 사용법을 보여주는 예시인데, 이는 마치 prompt에서 AI의 페르소나를 설정해 주는 것과 비슷한 역할을 함.
# 또는 AI의 역할과 해야할 것, 하지 말아야 할 것 등을 제시하여, 원하는 결과를 얻도록 장치하는 것임.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage

chat = ChatOpenAI(model="gpt-3.5-turbo")

messages = [
    SystemMessage(
        content="당신의 인공지능 챗봇이 아니야. 당신은 나의 친구 AIglue야."),
    HumanMessage(
        content="너는 누구니?")
]

result = chat.invoke(messages)
result.pretty_print()


In [None]:
# (예제코드5) Model I/O – HumanMessage, AIMessage사용
# langchain 프롬프트에서 중괄호는 "변수" 기능이 있음.
# 즉, 중괄호 안의 텍스트를 곧이곧대로 해석하지 말고, 어떤 값의 변수 역할을 하는데, 변수의 기능을 간접적으로 설명하는 텍스트가 사용됨.
# 아래 예시는 AI가 "계란찜 만드는 법"을 어떻게 설명할지 모르지만, 그 내용을 AIMessage로 넣겠다느 의지가 반영되어 있음.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_openai import ChatOpenAI  #← 모듈 가져오기
from langchain_core.messages import HumanMessage, AIMessage  #← 사용자의 메시지인 HumanMessage 가져오기

chat = ChatOpenAI(  #← 클라이언트를 만들고 chat에 저장
    model="gpt-4o-mini",  #← 호출할 모델 지정
)

result = chat.invoke( #← 실행하기
    [
        HumanMessage(content="계란찜 만드는 법 알려줘"),
        AIMessage(content='{ChatModel의 답변인 계란찜 만드는 법}'), # 답변을 단기적으로 상기시켜주는 역할을 함. assistant 역할.
        HumanMessage(content='일본어로 번역해줘')
    ]
)
print(result.content)


In [None]:
# SystemMessage 추가
# SystemMessage를 통해, LLM의 페르소나를 설정함.

from langchain_openai import ChatOpenAI  #← 모듈 가져오기
from langchain.schema import HumanMessage, AIMessage, SystemMessage

chat = ChatOpenAI(  #← 클라이언트를 만들고 chat에 저장
    model="gpt-4o-mini",  #← 호출할 모델 지정
)

result = chat.invoke( #← 실행하기
    [
        SystemMessage(content='당신은 고급 레스토랑의 쉐프입니다. 아주 간략하게 요리의 핵심을 파악해서 100자 이내로 조리법을 설명해 줍니다.'),
        HumanMessage(content="계란찜 만드는 법 알려줘"),
        AIMessage(content='{ChatModel의 답변인 계란찜 만드는 법}'), # 답변을 단기적으로 상기시켜주는 역할을 함. assistant 역할.
        HumanMessage(content='영어로 번역해줘')
    ]
)
print(result.content)


### 연습문제2) ChatOpenAI 클래스와 Messages를 이용하여 다음 조건을 만족하는 Chat Model을 만들고, 다음 질문에 대한 추론 결과를 프린트 하세요.
- 모델: gpt-3.5-turbo-16k
- 창의성: 0.2
- 최대토큰 수: 300
- AI 페르소나: 고급 레스토랑 쉐프. 추가적인 설정 환영
- 지시사항1: 만우절에 어울리는 새로운 이탈리안 음식 개발하기
- 지시사항2: AI의답변에 이어, 개발한 메뉴를 레시피로 정리하기

In [None]:
# (연습문제2) Model I/O – Messages
# 앞에서 배운 Message 객체의 여러 종류들의 의미를 알고, 추론에 사용해 본다.
# 중괄호의 의미를 이해하고 적절히 활용한다.

from langchain_openai import ChatOpenAI
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage

# Chat Model 생성
chat = ChatOpenAI(
    model="gpt-3.5-turbo-16k",  # 모델 지정
    temperature=0.2,  # 창의성 설정 (논리적인 답변을 유지)
    max_tokens=300  # 최대 토큰 수 제한
)

messages = [
    SystemMessage(content="당신은 미슐랭 3스타를 보유한 고급 이탈리안 레스토랑의 쉐프입니다. 창의적이면서도 현실적인 요리를 개발하는 것이 중요합니다."), # AI 페르소나 설정
    HumanMessage(content="만우절에 어울리는 새로운 이탈리안 음식을 개발해줘."), # AI에게 만우절에 어울리는 새로운 이탈리안 음식 개발 요청
    AIMessage(content='{ChatModel의 답변인 만우절에 어울리는 새로운 메뉴}'), # AI의 답변 기억
    HumanMessage(content="개발한 이 메뉴의 레시피를 정리해줘.") # 신메뉴 레시피 정리 요청
]

# 모델 실행
response = chat(messages)

# 결과 출력
print(response.content)


## Model I/O - PromptTemplate

In [None]:
# (예제코드6) Model I/O – PromptTemplate 기본
# PromptTemplate의 기본 사용법을 예시로 보여줌.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_core.prompts import PromptTemplate

template = PromptTemplate(
    template="안녕하세요, 제 이름은 {name}입니다. 저는 {hobby}을 좋아합니다.",
    input_variables=["name", "hobby"],
)

prompt_text = template.format(name="AIglue", hobby="배드민턴")
print(type(template))
print(type(prompt_text))
print(prompt_text)

chat = ChatOpenAI(
    model="gpt-3.5-turbo-16k",  # 모델 지정
    temperature=0.2,  # 창의성 설정 (논리적인 답변을 유지)
    max_tokens=300  # 최대 토큰 수 제한
)

res = chat.invoke(prompt_text)
print(res.content)

In [None]:
# (예제코드7) Model I/O – PromptTemplate + LLM 호출
# LLM 호출에 문자열이나 Message 객체를 직접적으로 사용하지 않고, PromptTemplate을 만들어서 사용함.
# PromptTemplate의 장점은 고정된 질의문이 아니라 변수를 이용하여 질의문을 변형할 수 있다는 것.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_openai import ChatOpenAI
from langchain_core.prompts import PromptTemplate

# OpenAI 모델 생성
chat = ChatOpenAI(model="gpt-3.5-turbo")

# 프롬프트 템플릿 생성
template = PromptTemplate.from_template("역사 속 {event}에 대해 100자 이내로 설명해줘.")

# 프롬프트 적용 후 LLM 실행
prompt_text = template.format(event="프랑스 혁명")
res = chat.invoke(prompt_text)

print(res.content)


In [None]:
# (예제코드8) Model I/O – PromptTemplate + Message + LLM 호출
# PromptTemplate으로 질의문을 만들고, 이를 Message 객체 넣어서 LLM을 호출하는 방식
# 반드시 이렇게 해야하는 건 아니지만, 각 객체의 역할이 따로 있음.
# PromptTemplate으로 변수 기반의 질문을 만듦.
# 이를 AIMessage, HummanMessage, SystemMessage에 넣어 연결되는 대화문에 활용

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.messages import SystemMessage, HumanMessage

chat = ChatOpenAI(  #← 클라이언트 생성 및 chat에 저장
    model="gpt-3.5-turbo",  #← 호출할 모델 지정
)

prompt = PromptTemplate(  #← PromptTemplate을 작성
    template="{company}의 주력 제품은 무엇인가요？",  #← {company}라는 변수를 포함하는 프롬프트 작성하기
    input_variables=[
        "company"  #← company에 입력할 변수 지정
    ]
)

result = chat.invoke( #← 실행
    [
        SystemMessage(content='당신은 유능한 기업 분석가입니다.'),
        HumanMessage(content=prompt.format(company="sk hynix")),
    ]
)

print(result.content)


### 연습문제3) 당신은 한 기업의 영업 직원이며, 신제품을 고객들에게 효과적으로 설명하는 역할을 맡고 있습니다. 회사의 제품은 다양하기 때문에, 제품 이름만 입력하면 AI가 자동으로 해당 제품의 특징을 설명해주는 도우미 시스템을 구축하려 합니다. 다음 요구사항을 고려하여 Prompt를 설계하고, LLM을 호출하는 코드를 작성하세요.
- 제품명만 입력하면, AI가 자동으로 해당 제품을 상세히 설명하는 시스템 구축
- AI에게 전문적인 영업 컨설턴트 역할 부여

In [None]:
# (연습문제3) Model I/O – PromptTemplate
# 앞에서 배운 PromptTemplate, Message, LLM 호출 기능을 활용하여 LLM으로부터 답변을 얻어냄.

from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.messages import SystemMessage, HumanMessage

chat = ChatOpenAI(
    model="gpt-3.5-turbo",  # 모델 지정
    temperature=0.7  # 창의성을 약간 증가하여 더 매력적인 제품 설명 유도
)

# product_prompt = PromptTemplate(
#     template="고객에게 {product}를 설명하세요. 이 제품의 주요 특징과 고객이 이를 사용해야 하는 이유를 강조하세요.",
#     input_variables=["product"]
# )

product_prompt = PromptTemplate.from_template(
    template="고객에게 {product}를 설명하세요. 이 제품의 주요 특징과 고객이 이를 사용해야 하는 이유를 강조하세요.",
    )

result = chat(
    [
        SystemMessage(content="당신은 뛰어난 영업 전문가이며, 제품을 고객에게 매력적으로 설명하는 능력을 갖추고 있습니다."),
        HumanMessage(content=product_prompt.format(product="스마트 공기 청정기"))
    ]
)

print(result.content)


## Model I/O - Output Parser

In [None]:
# (예제코드9) Model I/O – Output Parser(StrOutputParser)
# Output Parser 중 가장 간단한 파싱 기법

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

chat = ChatOpenAI(model="gpt-3.5-turbo")
parser = StrOutputParser()

res = chat.invoke("AI의 역할은 무엇인가요?")
parsed_output = parser.parse(res.content)

print(type(parsed_output))
print(parsed_output)


In [None]:
# (예제코드10) Model I/O – Output Parser(JsonOutputParser)
# JSON 형식으로 제공해 달라는 요청이 있어야 만이 output Parser를 작동시킬 수 있음.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_core.output_parsers import JsonOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

chat = ChatOpenAI(model="gpt-3.5-turbo")
parser = JsonOutputParser()

prompt = PromptTemplate(
    template=(
        "대표적인 프로그래밍 언어 3가지를 JSON 형식으로 제공해줘. "
        "반드시 순수 JSON만 반환해야 하며, 다른 설명은 포함하지 마. " # 이 문구가 중요. AI 출력이 JSON 형식이 아니면 에러 발생
        "형식: {{\"languages\": [\"언어1\", \"언어2\", \"언어3\"]}}"
    )
)

res = chat.invoke(prompt.format())
parsed_output = parser.parse(res.content)

print(type(parsed_output))
print(parsed_output)


In [None]:
# (예제코드11) Model I/O – Output Parser(ListOutputParser)
# LLM의 답변을 List 형식으로 받아내고 이를 처리하고 표현함.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain_core.output_parsers import CommaSeparatedListOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

# OpenAI 모델 생성
chat = ChatOpenAI(model="gpt-3.5-turbo")

# ListOutputParser 설정
parser = CommaSeparatedListOutputParser()

# 프롬프트 템플릿 설정
prompt = PromptTemplate(
    template="가장 인기 있는 프로그래밍 언어 5가지를 리스트 형식으로 제공해줘. \n- {format_instructions}",
    input_variables=[],
    partial_variables={"format_instructions": parser.get_format_instructions()}
)

# 모델 실행
response = chat.invoke(prompt.format())

# 리스트로 변환 (파싱)
parsed_output = parser.parse(response.content)

# 결과 타입 출력
print(type(parsed_output))

# 결과 출력
print(parsed_output)


In [None]:
# LangChain의 Pydantic Parser를 사용하려면 pydantic이 설치되어 있어야 함.

# !pip install "pydantic[email]"

In [None]:
# (예제코드12) Model I/O – Output Parser(PydanticOutputParser)
# Pydantic 모델을 만들어서 Output 형태를 사용자가 마음대로 설정할 수 있는 것이 장점
# 아래 prompt에서 partial_varialbes는 pydantic model 형식을 미리 지정해 둔 것으로, 이를 기반하여 LLM이 답변을 생성할 수 있도록 유도함.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치
# !pip install "pydantic[email]" #← pydantic email-validation을 위한 모듈 설치

from typing import List
from langchain_core.output_parsers import PydanticOutputParser
from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate
from pydantic import BaseModel, Field

class MovieInfo(BaseModel):
    title: str = Field(..., description="영화 제목")
    director: str = Field(..., description="영화 감독")
    genre: str = Field(..., description="영화 장르")
    actors: List[str] = Field(..., description="출연 배우 이름 목록")
    release_year: int = Field(..., description="개봉 연도")

parser = PydanticOutputParser(pydantic_object=MovieInfo)

chat = ChatOpenAI(model="gpt-3.5-turbo")

prompt = PromptTemplate(
    template="영화 '{movie_name}'에 대한 정보를 JSON 형식으로 제공해줘. {format_instructions}",
    input_variables=["movie_name"],
    partial_variables={"format_instructions": parser.get_format_instructions()}
)

res = chat.invoke(prompt.format(movie_name="인셉션"))

parsed_output = parser.parse(res.content)

print(type(parsed_output))
print('-'*100)
print(parsed_output)
print('-'*100)
print(parsed_output.model_dump())


### 연습문제4) 아래 조건을 만족하는 Pydantic 모델 TouristSpotInfo을 정의하고, LLM의 출력을 파싱하세요.
- TouristSpotInfo 모델을 Pydantic을 이용하여 정의하세요.
    - name: 관광지의 이름 (문자열)
    - country: 관광지가 위치한 국가 (문자열)
    - city: 관광지가 위치한 도시 (문자열)
    - attractions: 관광지의 주요 볼거리 목록 (문자열 리스트)
    - best_visit_season: 가장 적절한 방문 계절 (문자열)
- LangChain의 PydanticOutputParser를 사용하여 JSON 데이터를 파싱하세요.
- 사용자가 특정 관광지를 입력하면, 해당 관광지 정보를 LLM을 활용하여 생성하고, 이를 TouristSpotInfo 모델로 변환하세요.
- 변환된 데이터를 출력하고, 모델의 JSON 변환 결과를 출력하세요.


In [None]:
# (연습문제4) Model I/O – Output Parser – PydanticOutput Parser
# Pydantic Model을 정의하고, template에서 pydantic model 답변을 요구함.

from typing import List
from langchain.output_parsers import PydanticOutputParser
from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate
from pydantic import BaseModel, Field

class TouristSpotInfo(BaseModel):
     name: str = Field(..., description="관광지 이름")
     country: str = Field(..., description="관광지가 위치한 국가")
     city: str = Field(..., description="관광지가 위치한 도시")
     attractions: List[str] = Field(..., description="주요 볼거리 목록")
     best_visit_season: str = Field(..., description="가장 적절한 방문 계절")
     year:int = Field(..., description="완성된 시기")

parser = PydanticOutputParser(pydantic_object=TouristSpotInfo)
chat = ChatOpenAI(model="gpt-3.5-turbo")
prompt = PromptTemplate(
    template="관광지 '{tourist_spot}'에 대한 정보를 JSON 형식으로 제공해줘. {format_instructions}",
    input_variables=["tourist_spot"],
    partial_variables={"format_instructions": parser.get_format_instructions()}
)

res = chat.invoke(prompt.format(tourist_spot="에펠탑"))
parsed_output = parser.parse(res.content)
print(parsed_output)
print(parsed_output.model_dump())


In [None]:
# (비교-연습문제4) Model I/O – Output Parser를 사용하지 않는 경우

from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate

chat = ChatOpenAI(model="gpt-3.5-turbo")

prompt = PromptTemplate(
    template="관광지 '{tourist_spot}'에 대한 정보를 제공해줘",
    input_variables=["tourist_spot"],
)

res = chat.invoke(prompt.format(tourist_spot="에펠탑"))
print(res.content)


### 연습문제5) 아래 조건을 만족하는 Pydantic 모델 User를 정의하고, LLM의 출력을 파싱하세요.
- “name”: 문자열이고, 최소 2글자 이상 입력되어야 함.
- “age”: 정수이며, 18이상 100 이하의 값이어야 함.
- “email”: 올바른 이메일 형식이어야 함.
- 적절한 예외 처리를 작성하여 오류 메시지 출력
- 사용자 입력 정보(name, age, email)을 전달하는 프롬프트를 만들고, LLM 출력 결과를 User 모델로 파싱하기



In [None]:
# (연습문제5-심화) Model I/O – Output Parser
# pydantic model을 만들 때, ge, le 등 생소한 파라미터가 있는 것에 유의할 것.

from pydantic import BaseModel, EmailStr, Field, ValidationError
from langchain_core.output_parsers import PydanticOutputParser
from langchain_openai import ChatOpenAI
from langchain_core.prompts import PromptTemplate

class User(BaseModel):
    name: str = Field(..., min_length=2, description="이름은 최소 2글자 이상이어야 합니다.")
    age: int = Field(..., ge=18, le=100, description="나이는 18 이상 100 이하의 정수여야 합니다.")
    email: EmailStr = Field(..., description="올바른 이메일 형식이어야 합니다.")

parser = PydanticOutputParser(pydantic_object=User)

chat = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

prompt = PromptTemplate(
    template="사용자의 입력 정보 - 이름, 이메일주소, 나이: \n{user_input}\n을 JSON 형식으로 변환하세요. \n{format_instructions}",
    input_variables=["user_input"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

user_input = input('이름, 이메일주소, 나이를 입력해 주세요. 멤버 등록을 위한 필수 사항입니다. ^^\n')

res = chat.invoke(prompt.format(user_input=user_input))

try:
    parsed_data = parser.parse(res.content)
    print("데이터 검증 성공:", parsed_data.model_dump())
except:
    print(f"데이터 검증 실패:")


# LangChain2 - Memory
- 단기 기억
    - langchain.llm_cache = InMemoryCache() : 이렇게 해도 되지만,
    - ChatOpenAI의 cache 옵션에서 처리하면 더 깔끔함.
    - inMemoryCache를 사용하면 응답이 훨씬 빠름.
- 장기기억
    - Vector Database 사용

In [None]:
# (예제코드1) Memory - InMemoryCache
# 컴퓨터 메모리를 이용하여 대화 내용을 단기 기억하는 방식

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치
# !pip install -qU langchain-community #← langchain-community 모듈 설치

import time  #← 실행 시간을 측정하기 위해 time 모듈 가져오기
import langchain
from langchain.cache import InMemoryCache  #← InMemoryCache 가져오기
from langchain_openai import ChatOpenAI # 이렇게 import 해도 되고, from langchain.chat_models import ChatOpenAI로 해도 됨.
from langchain.schema import HumanMessage

chat = ChatOpenAI(model='gpt-4o-mini',
    max_tokens=300,
    cache=InMemoryCache())  #← OpenAI 클라이언트 생성

start = time.time() #← 실행 시작 시간 기록
result = chat.invoke([ #← 첫 번째 실행을 수행
    HumanMessage(content="안녕하세요!")
])

end = time.time() #← 실행 종료 시간 기록
print(result.content)
print(f"실행 시간: {end - start}초")

start = time.time() #← 실행 시작 시간 기록
result = chat.invoke([ #← 같은 내용으로 두 번째 실행을 함으로써 캐시가 활용되어 즉시 실행 완료됨
    HumanMessage(content="안녕하세요!")
])

end = time.time() #← 실행 종료 시간 기록
print(result.content)
print(f"실행 시간: {end - start}초")


In [None]:
# (예제코드2) Memory - ConversationBufferMemory
# 대화 내용을 쉽게 저장하도록 만든 클래스
# input은 사용자의 입력, output은 AI의 답변이라고 생각해도 됨.
# Message 객체를 저장함.

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain.memory import ConversationBufferMemory

memory = ConversationBufferMemory( #← 메모리 초기화
    return_messages=True,
)

memory.save_context( #← 메모리에 메시지를 추가
    {
        "input": "안녕하세요!"
    },
    {
        "output": "안녕하세요! 잘 지내고 계신가요? 궁금한 점이 있으면 알려 주세요. 어떻게 도와드릴까요?"
    }
)

memory.save_context( #← 메모리에 메시지를 추가
    {
        "input": "오늘 날씨가 좋네요"
    },
    {
        "output": "저는 AI이기 때문에 실제 날씨를 느낄 수는 없지만, 날씨가 좋은 날은 외출이나 활동을 즐기기에 좋은 날입니다!"
    }
)

print(type(memory))

history = memory.load_memory_variables({})['history']

for story in history:
    print(f'{type(story)}: {story.content}')


# LangChain3 - Chains

In [None]:
# (예제코드1) Chains - LLMChain
# 앞서 여러 Chain을 살펴 보았지만, LLMChain은 가장 기본적인 Prompt와 LLM을 연결하는 Chain임.
# Chain으로 묶지 않고, LLM으로 Prompt를 바로 입력해도 됨.

from langchain import LLMChain, PromptTemplate  #← LLMChain 가져오기
from langchain_openai import ChatOpenAI

chat = ChatOpenAI(
    model="gpt-3.5-turbo",
)

prompt = PromptTemplate(
    template="{product}는 어느 회사에서 개발한 제품인가요?",
    input_variables=[
        "product"
    ]
)

# 예전 버전의 방식(비추)
chain = LLMChain( #← LLMChain을 생성
    llm=chat,
    prompt=prompt,
)

result = chain.invoke(input={'product':"iPhone"})

print(result)
print(type(result))

print(result['text'])
print('-'*100)


In [None]:
# # (예제코드1) Chains - LLMChain - 현재 추천하는 방식

chain = prompt | chat
result = chain.invoke(input={'product':"iPhone"})

print(type(result))
print(result.content)

In [None]:
# (예제코드2) Chains - ConversationChain + ConversationBufferMemory

from langchain.chains import ConversationChain
from langchain_openai import ChatOpenAI
from langchain.memory import ConversationBufferMemory

chat = ChatOpenAI()

memory = ConversationBufferMemory(return_messages=True)

chain = ConversationChain( #← ConversationChain을 초기화
    memory=memory, #← Memory 모듈을 지정
    llm=chat, #← 언어 모델을 지정
)

res = chain.invoke("안녕하세요!") #← ConversationChain을 실행
print(type(res))
print(res)
# print(res['history'][-1].content)
print(res['response'])

## 특정 기능에 특화된 Chains

### 특정 URL에 접속해 정보 얻는 방법
- url 접속 기능(LLMRequestsChain)
- LLMChain
- process
    - 웹 요청: LLMRequestsChain이 url에 요청을 보내 json 데이터를 가져옴.
    - LLM 호출: 가져온 데이터를 문자열로 바꿔 requests_result 변수에 매핑하여 PromptTemplate을 채움.
    - LLM 응답: 채워진 프롬프트가 LLM에 전달되어 응답을 생성
- 그러니까 LLMRequestsChain의 변수 requests_result는 드러나지 않기 때문에 미리 알고 있어야 함.
- url 변수도 마찬가지임. query는 사용자가 정의한 변수지만, url은  LLMRequestsChain에서 정의한 변수임.
- chains 마다 입력 받는 변수와 다음 chain에 전달하는 변수를 잘 파악해야 함.
- 모든 chain이 다 그렇진 않겠지만, 이번 케이스는 LLMChain보다 LLMRequestsChain이 먼저 실행되어야 함.


In [None]:
# bs4 라이브러리 설치
# !pip install bs4

In [None]:
# (예제코드3) Chains - LLMRequestsChain
# prompt와 llm을 연결하여 llm_chain을 만들고, 이 chain을 URL에 접근하여 JSON 형태로 데이터를 가져오는 LLMRequestsChain에 입력하여 받아온 데이터를 기반으로 응답하는 시스템
# reference: https://python.langchain.com/api_reference/_modules/langchain_community/chains/llm_requests.html#LLMRequestsChain

# !pip install langchain #← langchain 모듈 설치
# !pip install langchain-core #← langchain-core 모듈 설치
# !pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치
# !pip install bs4 #← Ibs4 라이브러리 설치

from langchain.chains import LLMChain, LLMRequestsChain
from langchain_openai import ChatOpenAI
from langchain_core.prompts import PromptTemplate

chat = ChatOpenAI()

prompt = PromptTemplate( #← PromptTemplate을 초기화
    template="""아래 문장을 바탕으로 질문에 답해 주세요.
                질문: {query}
                문장: {requests_result}""",
    input_variables=["query",
                "requests_result"],
)

# memory = ConversationBufferMemory()

llm_chain = LLMChain(
    llm=chat,
    prompt=prompt,
    # memory=memory, #← 메모리 기능을 사용하고 싶어도, 메모리는 input을 하나만 받음. 여기 LLMChain은 'query', 'request_result' 두 개의 input을 받기 때문에 충돌이 일어남.
    verbose=True,
)

chain = LLMRequestsChain(  #← LLMRequestsChain을 초기화
    llm_chain=llm_chain,  #← llm_chain에 LLMChain을 지정
)

res = chain.invoke({
    "query": "도쿄의 날씨를 알려주세요",
    "url": "https://www.jma.go.jp/bosai/forecast/data/overview_forecast/130000.json",
})

print(type(res))
print(res)
print(res['output'])


### 연습문제1) LangChain을 사용하여 키워드로 뉴스를 검색하고, 가장 첫번째 뉴스의 제목과 내용을 요약하는 프로그램을 작성하세요.
- https://newsapi.org/ 의 All articles API를 사용하여 키워드를 입력하고, 관련 뉴스를 가져오세요.
- 가장 첫번째 뉴스의 제목과 내용을 요약하고 출력하세요.

In [None]:
%%writefile api_keys.py
# api_keys.py 파일을 새로 만들고, NEWS_API_KEY 변수에 자신의 News api 키 등록하기

OPENAI_API_KEY = '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'
NEWS_API_KEY= '572347c7fe6c4e8186ad57eae56f15f9'

In [None]:
import os
from api_keys import NEWS_API_KEY, OPENAI_API_KEY

os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY
os.environ['NEWS_API_KEY'] = NEWS_API_KEY

In [None]:
# (연습문제1) Chains - Chains - LLMRequestsChain
# news_api와 LLMRequestsChain을 이용하여 JSON 형태로 데이터를 가져와 내용 요약하는 기능 구현

from langchain.chains import LLMChain, LLMRequestsChain
from langchain_openai import ChatOpenAI
from langchain_core.prompts import PromptTemplate
import os

# OpenAI LLM 초기화
chat = ChatOpenAI()

# 프롬프트 템플릿 설정
prompt = PromptTemplate(
    input_variables=["requests_result"],
    template="""{requests_result} 중 가장 첫 번째 뉴스의 제목과 내용을 한글로 보여줘.

    제목:
    내용요약: """
)

# LLMChain 생성
llm_chain = LLMChain(
    llm=chat,
    prompt=prompt,
    verbose=True,
)

# LLMRequestsChain 생성
chain = LLMRequestsChain(
    llm_chain=llm_chain
)

# API 요청 실행 (NewsAPI 사용 - API_KEY 필요)
# NEWS_API_KEY = os.environ.get('NEWS_API_KEY')
q = '상호관세'
url = f"https://newsapi.org/v2/everything?q={q}&apiKey={NEWS_API_KEY}"

res = chain.invoke({
    "url": url
})

res['output']


In [None]:
# (예제코드4) Chains – SimpleSequentialChain
# SimpleSequencialChain을 이용하여 여러 Chain을 직렬로 연결하여 기능을 수행함.

!pip install langchain #← langchain 모듈 설치
!pip install langchain-core #← langchain-core 모듈 설치
!pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain.chains import LLMChain, SimpleSequentialChain
from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate

chat = ChatOpenAI(model="gpt-3.5-turbo")

write_article_chain = LLMChain( #← 기사를 쓰는 LLMChain 만들기
    llm=chat,
    prompt=PromptTemplate(
        template="{input}에 관한 기사를 써주세요.",
        input_variables=["input"],
    ),
)

translate_chain = LLMChain( #← 번역하는 LLMChain을 생성
    llm=chat,
    prompt=PromptTemplate(
        template="다음 문장을 영어로 해 주세요.\n{input}",
        input_variables=["input",],
    ),
)

sequential_chain = SimpleSequentialChain( #← SimpleSequentialChain을 생성
    chains=[ #← 실행할 Chain을 지정
        write_article_chain,
        translate_chain,
    ]
)

result = sequential_chain.invoke({"input":"배드민턴 스매싱을 강하게 하는 방법",
                                }) #← SimpleSequentialChain을 실행

print(type(result))
print(result)
print(result['output'])


In [None]:
# (예제코드5) Chains – SimpleSequentialChain - multiple inputs
# 여러 개의 입력 파라미터를 사용하려면, SequentialChain을 사용해야 함.
# SimpleSequentialChain은 하나의 입력 파라미터만(input 변수) 사용할 수 있음.
# LLMChain 안에서 output_key를 적절히 활용해야 함.
# 이미 사용한 output_key는 다시 사용할 수 없음.
# 그러니까 이미 "input" 변수를 써 먹으면, output_key="input"으로는 쓸 수 없다는 것.

!pip install langchain #← langchain 모듈 설치
!pip install langchain-core #← langchain-core 모듈 설치
!pip install langchain-openai #← Integration 패키지에서 langchain-openai 모듈 설치

from langchain.chains import LLMChain, SequentialChain
from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate

chat = ChatOpenAI(model="gpt-3.5-turbo")

# 기사를 생성하는 LLMChain
write_article_chain = LLMChain(
    llm=chat,
    prompt=PromptTemplate(
        template="{input}에 관한 기사를 써주세요.",
        input_variables=["input"],  # "topic" 입력값 사용
    ),
    output_key="article",  # 출력값의 키(설정이라고 봐야 함.)
)

# 번역하는 LLMChain (목적 언어 추가)
translate_chain = LLMChain(
    llm=chat,
    prompt=PromptTemplate(
        template="다음 문장을 {target_language}로 번역해 주세요.\n문장: {article}",
        input_variables=["article", "target_language"],  # 번역할 문장과 목적 언어
    ),
    output_key="translated_text",  # 출력값의 키
)

# SequentialChain으로 두 체인 연결
sequential_chain = SequentialChain(
    chains=[write_article_chain, translate_chain],  # 체인 리스트
    input_variables=["input", "target_language"],  # 초기 입력값
    output_variables=["translated_text"],  # 최종 출력값
    verbose=True,
)

# 입력 데이터
input_data = {
    "input": "배드민턴 스매싱을 강하게 하는 방법",  # 기사 주제
    "target_language": "영어",       # 번역 목적 언어
}

# 체인 실행
result = sequential_chain.invoke(input_data)

# 결과 출력
print(result)
print(result['translated_text'])


# LangChain4 - Vector DB

## PDF 로드 및 페이지별로 나누기
- langchain에서 다양한 PDFLoader를 지원하는데, 그 중 PyMuPDFLoader를 사용함.
- 성능과 속도면에서 장점이 있음.
- 페이지별로 Document 타입으로 저장하며, 리스트로 Document를 모아서 반환함.

In [None]:
# 랭체인의 PyMuPDFLoader를 사용하기 위해 pymupdf 라이브러리 설치

!pip install -q pymupdf

In [None]:
# (예제코드1) PyMuPDFLoader – PDF 파일 내 문서 추출

from langchain_community.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader("./tariff_war_us_china.pdf")
documents = loader.load()

print(type(documents[0]))
print(len(documents))

for doc in documents:
    print(doc.metadata)
    print(doc.page_content)
    print('-'*50)

### 연습문제1) 아래 요구사항을 만족하는 코드를 작성하세요.
- PyMuPDFLoader를 사용하여 PDF 파일(tariff_war_us_china.pdf)을 불러오세요.
- RecursiveCharacterTextSplitter를 이용하여 문서를 500자 단위로 나누되, 중첩(overlap)은 0으로 설정하세요.
- 힌트: chunk_size, chunk_overlap 파라미터 활용
- Reference: https://python.langchain.com/api_reference/text_splitters/character/langchain_text_splitters.character.RecursiveCharacterTextSplitter.html#langchain_text_splitters.character.RecursiveCharacterTextSplitter
- 분할된 문서 리스트의 개수를 출력하세요.
- 첫 번째 문서의 데이터 타입을 출력하세요.
- 두 번째 문서의 내용을 출력하세요.


In [None]:
# (연습문제1) RecursiveCharacterTextSplitter – PDF 파일 내용 추출
# pdf 파일을 load한 데이터(documents)를 바로 split 할 수 있음.
# split_documents(documents): 스플릿한 documents를 인자로 입력

!pip install -q pymupdf #← PyMuPDF 라이브러리 설치
!pip install -q langchain-text-splitters #← langchain의 text splitters 패키지 설치

from langchain_community.document_loaders import PyMuPDFLoader #← PyMuPDFLoader 모듈 임포트
from langchain_text_splitters import RecursiveCharacterTextSplitter #← RecursiveCharacterTextSplitter를 가져옴

loader = PyMuPDFLoader("./tariff_war_us_china.pdf") #← PDF 파일 로더 초기화
documents = loader.load()  #← PDF 파일을 로드하여 문서 리스트로 변환

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) #← RecursiveCharacterTextSplitter 초기화
splitted_documents = text_splitter.split_documents(documents) #← 문서를 분할

print(len(splitted_documents)) #← 분할된 문서 개수 출력
print(type(splitted_documents[0])) #← 첫 번째 분할 문서의 타입 출력
print(splitted_documents[1].page_content) #← 두 번째 분할 문서의 내용 출력


### 연습문제2) 아래 요구사항을 만족하는 코드를 작성하세요.
- 텍스트 파일(tariff_war_us_china.txt)을 UTF-8 인코딩으로 읽어오세요.
읽어온 텍스트의 전체 길이를 출력하세요.
- RecursiveCharacterTextSplitter를 사용하여 문서를 500자 단위로 나누되, 중첩(overlap)은 0으로 설정하세요.
- 분할된 텍스트 리스트의 개수를 출력하세요.
- 두 번째 분할 텍스트의 내용을 출력하세요.
- 힌트)
    - with open as 구문을 활용하면 쉽게 txt 파일의 내용을 텍스트로 읽어 올 수 있습니다.
    - RecursiveCharacterTextSplitter의 create_documents() 메서드를 이용하면 텍스트를 쉽게 문서화할 수 있어요.

In [None]:
# (연습문제2) RecursiveCharacterTextSplitter – TXT 파일 내용 추출
# 입력되는 파일이 txt 파일인 경우 내용을 읽어 파일 객체를 입력값으로 줌.
# create_documents([file]): file 객체를 리스트로 입력

from langchain_text_splitters import RecursiveCharacterTextSplitter

with open("./tariff_war_us_china.txt", encoding="utf-8") as f: #← 텍스트 파일 열기
    file = f.read() #← 파일 내용 읽기
print('텍스트의 길이:', len(file)) #← 텍스트 길이 출력

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) #← RecursiveCharacterTextSplitter 초기화
texts = text_splitter.create_documents([file]) #← 텍스트를 문서로 변환 및 분할

print(len(texts)) #← 분할된 텍스트 개수 출력
print(texts[1].page_content) #← 두 번째 분할 텍스트 내용 출력



## 벡터 임베딩과 코사인 유사도 계산
- PDF 파일로 부터 Document를 만들고, 각 Document를 다시 Chunk 단위로 만든 다음, 그 문장 text를 token 단위로 나눈 후, 임베딩 AI를 이용하여 벡터 임베딩을 만듦.
- 벡터 임베딩을 만들면, 문장 간 유사도를 쉽게 계산할 수 있음.

In [None]:
# 분할한 문서를 OpenAI embdding으로 벡터화한 후 데이터베이스에 저장
# tiktoken 라이브러리 설치
# tiktoken 라이브러리는 OpenAI의 GPT 모델과 같은 언어 모델에서 텍스트를 토큰 단위로 처리하기 위한 도구
# 토큰화, 토큰 수 계산, 디코딩과 같은 작업을 효율적으로 수행하도록 설계됨.

!pip install -q tiktoken

In [None]:
# (예제코드3) 벡터 유사도 계산하기
# 코사인 유사도 계산
# vec1, vec2, vec3 각 pair간 유사도를 계산

import numpy as np
from numpy import dot  #← 벡터 내적 계산을 위한 함수
from numpy.linalg import norm  #← 벡터 norm 계산을 위한 함수

def cos_sim(A, B):
    return dot(A, B) / (norm(A) * norm(B))  #← 두 벡터의 내적계산

# 비교할 벡터 정의
vec1 = np.array([0,1,1,1])  #← 첫 번째 벡터
vec2 = np.array([1,0,1,1])  #← 두 번째 벡터
vec3 = np.array([2,0,2,2])  #← 세 번째 벡터

# 벡터 간 코사인 유사도 출력
print('벡터1과 벡터2의 유사도 :', cos_sim(vec1, vec2))  #← vec1과 vec2의 코사인 유사도 계산
print('벡터1과 벡터3의 유사도 :', cos_sim(vec1, vec3))
print('벡터2와 벡터3의 유사도 :', cos_sim(vec2, vec3))


In [None]:
# (예제코드4) OpenAIEmbeddings – 임베딩 모델 사용하기
# 단어, 문장, 문맥을 이해하기 위해 수치 벡터로 구성된 임베딩 모델을 이용함.
# 다양한 언어모델이 언어를 처리하는 기반에는 임베딩 모델이 존재함.
# 여기에서는 OpenAIEmbeddings를 이용하지만, 다양한 언어 임베딩 모델이 존재함.

import numpy as np
from numpy.linalg import norm  #← 벡터의 크기(노름, norm) 계산을 위한 함수
from langchain_openai import OpenAIEmbeddings  #← OpenAI의 임베딩 모델을 사용하기 위한 모듈

# OpenAI 임베딩 모델 설정 (text-embedding-ada-002 사용)
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

# 텍스트 임베딩 변환 (각 문장을 벡터로 변환)
q_emb = embeddings.embed_query("나는 인공지능 공부하는 게 재미있어.")  #← 기준이 되는 문장의 임베딩 벡터
a_emb = embeddings.embed_query("인공지능을 공부하긴 해야하는데...")  #← 비교할 첫 번째 문장
b_emb = embeddings.embed_query("아우 귀찮다 귀찮아.")  #← 비교할 두 번째 문장

# q_emb의 타입과 길이
print(type(q_emb))
print(np.array(q_emb).shape)

# 코사인 유사도 계산 및 출력
print("a_query_sim: ", np.dot(q_emb, a_emb) / (norm(q_emb) * norm(a_emb)))  #← q_emb와 a_emb의 코사인 유사도
print("b_query_sim: ", np.dot(q_emb, b_emb) / (norm(q_emb) * norm(b_emb)))  #← q_emb와 b_emb의 코사인 유사도


## 벡터 DB 저장소 만들고 문서 저장하기
- 문서나 문장을 벡터로 만든 후, 벡터 데이터베이스에 저장하여 저장 및 추출을 용이하게 함.

In [None]:
# chroma db를 사용하기 위한 파이썬 라이브러리와 langchain 라이브러리 설치

!pip install -q langchain-chroma chromadb

In [None]:
# pymupdf 라이브러리 설치

!pip install pymupdf

In [None]:
# (예제코드5) 로컬 환경에 벡터 데이터베이스 만들기 - Chroma
# Chroma db 사용
# local 환경에 벡터 데이터베이스 생성 및 문서 추가

from langchain.document_loaders import PyMuPDFLoader
from langchain_openai import OpenAIEmbeddings  #← OpenAIEmbeddings 가져오기
from langchain.text_splitter import SpacyTextSplitter, RecursiveCharacterTextSplitter
from langchain_chroma import Chroma #← Chroma 가져오기

loader = PyMuPDFLoader("./tariff_war_us_china.pdf")
documents = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
splitted_documents = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings( #← OpenAIEmbeddings를 초기화
    model="text-embedding-3-large" #← 모델명을 지정
)

database = Chroma(  #← Chroma를 초기화
    persist_directory="./.data",  #← 영속화 데이터 저장 위치 지정
    embedding_function=embeddings  #← 벡터화할 모델을 지정
)

database.add_documents(  #← 문서를 데이터베이스에 추가
    splitted_documents,  #← 추가할 문서 지정
)

print("데이터베이스 생성이 완료되었습니다.") #← 완료 알림


In [None]:
# (예제코드6) 벡터 데이터베이스에서 문서 검색 - Chroma

from langchain_openai import OpenAIEmbeddings
from langchain_chroma import Chroma

embeddings = OpenAIEmbeddings( #← OpenAIEmbeddings를 초기화
    model="text-embedding-3-large" #← 모델명을 지정
)

database = Chroma(
    persist_directory="./.data",
    embedding_function=embeddings
)

print('문서의 수: ', database._collection.count())

documents = database.similarity_search(
    query="미중무역전쟁이 불러올 여파는 어떤 게 있을까?",
    k=3, #← default k = 4
    ) #← 데이터베이스에서 유사도가 높은 문서를 통째로 가져옴
print(f"찾은 문서 개수: {len(documents)}") #← 문서 개수 표시

for document in documents:
    print(f"문서 내용: {document.page_content}") #← 문서 내용을 표시


### 연습문제3) 다음 프로세스에 맞춰 주어진 PDF 문서를 FAISS 벡터 데이터베이스에 저장하고, 사용자의 입력과 가장 유사한 문서를 검색하는 시스템을 구현하세요.
- Faiss-cpu 라이브러리 설치하기
- PDF 문서 로드하기
- 텍스트 분할하기
- 임베딩 벡터 생성
- FAISS 데이터베이스에 벡터 저장
- 사용자의 질의(query)와 가장 유사한 문서 2개 출력

In [None]:
# faiss를 사용하기 위한 faiss-cpu 라이브러리 설치
# GPU가 지원되는 시스템에서는 faiss-gpu 설치하여 사용할 것.

!pip install -q faiss-cpu #← faiss-cpu 설치. GPU가 지원되는 시스템은 faiss-gpu 설치

In [None]:
# (연습문제3) 벡터 데이터베이스 문서 검색 - FAISS
# faiss db 사용
# local 환경에 벡터 데이터베이스 생성 및 문서 추가

from langchain.document_loaders import PyMuPDFLoader  #← PDF 문서 로드를 위한 모듈
from langchain_openai import OpenAIEmbeddings  #← OpenAI 임베딩 모델 사용을 위한 모듈
from langchain_community.vectorstores import FAISS  #← FAISS 벡터 데이터베이스 사용을 위한 모듈
from langchain.text_splitter import RecursiveCharacterTextSplitter  #← 텍스트 분할을 위한 모듈

# PDF 문서 로드
loader = PyMuPDFLoader("./tariff_war_us_china.pdf")  #← PDF 파일 로드
documents = loader.load()  #← PDF 문서를 LangChain 문서 객체로 변환

# 텍스트 분할 설정 (500자 단위, 50자 중첩)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splitted_documents = text_splitter.split_documents(documents)  #← 문서를 작은 조각으로 분할

# OpenAI 임베딩 모델 설정
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")  #← OpenAI의 최신 임베딩 모델 사용

# FAISS 벡터 데이터베이스 생성
faiss_db = FAISS.from_documents(splitted_documents, embeddings)  #← 문서 임베딩 후 FAISS DB에 저장

# 저장된 문서 수 확인
print('db에 저장된 문서의 수: ', faiss_db.index.ntotal)  #← 데이터베이스에 저장된 문서 개수 출력

# FAISS 벡터 데이터베이스 저장
faiss_db.save_local("./faiss_index")  #← FAISS DB를 로컬에 저장

# 유사 문서 검색 함수 정의
def search_similar_documents(query, k=3):
    """사용자의 쿼리와 유사한 문서를 검색하는 함수"""

    # 저장된 FAISS 데이터베이스 로드
    loaded_faiss_db = FAISS.load_local(
        "./faiss_index",
        embeddings,
        allow_dangerous_deserialization=True  #← 안전하지 않은 역직렬화를 허용 (주의 필요)
    )

    # 입력 쿼리와 유사한 문서 검색
    results = loaded_faiss_db.similarity_search(query, k=k)  #← 유사 문서 상위 k개 검색

    # 검색된 문서 개수 출력
    print('db에서 검색한 문서의 수: ', len(results))

    # 검색된 문서 출력
    for i, doc in enumerate(results):
        print(f"\n🔍 [Top {i+1} 유사 문서]\n")
        print(doc.page_content)  #← 검색된 문서 내용 출력
        print("-" * 80)

# 사용자 입력 쿼리
user_query = "미중 무역 전쟁의 영향은?"

# 유사 문서 검색 실행
search_similar_documents(user_query, 2)
