In [None]:
from langchain_core.messages import AIMessage, HumanMessage, SystemMessage
from langchain_openai import ChatOpenAI, AzureChatOpenAI
from dotenv import load_dotenv

load_dotenv(override=True)

model = AzureChatOpenAI(model="gpt-4o",
                        api_version="2025-04-01-preview",
                        temperature=0)

messages = [
    SystemMessage("You are a helpful assistant."),
    HumanMessage("안녕하세요. 제 이름은 안민재입니다."),
    AIMessage("안녕하세요. 안민재님. 반가워요."),
    HumanMessage("제 이름이 뭐에요?")
]

ai_message = model.invoke(messages)

print(ai_message.content)

In [None]:
# Streaming

messages = [
    SystemMessage("You are a helpful assistant."),
    HumanMessage("안녕!"),
]
for chunk in model.stream(messages):
    print(chunk.content, end="", flush=True)

In [None]:
# PromptTemplate
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate.from_template("""
                                      다음 요리의 레시피를 생각해주세요.
                                      요리명: {dish}
                                      """)

prompt_value = prompt.invoke({"dish": "카레"})
print(prompt_value.text)

In [None]:
# ChatPromptTemplate
from langchain_core.prompts import ChatPromptTemplate
from pprint import pprint
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "사용자가 입력한 요리의 레시피를 생각해 주세요."),
        ("human", "{dish}"),
        ("ai", "{recipe}"), #("assistant", "") 도 가능
    ]
)
prompt_value = prompt.invoke({"dish": "카레", "recipe": "카레 레시피"})
pprint(prompt_value.messages)

In [None]:
# Messages Placeholder
from langchain_core.messages import AIMessage, HumanMessage
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are helpful assistant."),
        MessagesPlaceholder("chat_history", optional=True),
        ("human", "{input}"),
    ]
)

prompt_value = prompt.invoke(
    {
        "chat_history": [
            HumanMessage(content="안녕하세요, 저는 안민재입니다.!"),
            AIMessage(content="안녕하세요, 안민재님. 반가워요."),
        ],
        "input": "제 이름이 뭐에요?",
    }
)

pprint(prompt_value.messages)

In [None]:
ai_message = model.invoke(prompt_value)
print(ai_message.content)

In [None]:
# Output Parsers
# PydanticOutputParser

from pydantic import BaseModel, Field

class Recipe(BaseModel):
    ingredients: list[str] = Field(description="ingredients of the dish")
    steps: list[str] = Field(description="steps to make the dish")



from langchain_core.output_parsers import PydanticOutputParser

output_parser = PydanticOutputParser(pydantic_object=Recipe)
format_instructions = output_parser.get_format_instructions()

print(format_instructions)

In [None]:
from langchain_core.prompts import ChatPromptTemplate
prompt = ChatPromptTemplate.from_messages(
    [
        ("system",
         "사용자가 입력한 요리의 레시피를 생각해 주세요. \n\n"
         "{format_instructions}"
         ),
        ("human", "{dish}"),
    ]
)

prompt_with_format_instructions = prompt.partial(
    format_instructions=format_instructions
)

prompt_value = prompt_with_format_instructions.invoke({"dish": "카레"})

print("=== role: system ===")
print(prompt_value.messages[0].content)
print("=== role: user ===")
print(prompt_value.messages[1].content)

In [None]:
from langchain_openai import AzureChatOpenAI

model = AzureChatOpenAI(
    model="gpt-4o",
    api_version="2025-04-01-preview",
    temperature=0
)

ai_message = model.invoke(prompt_value)
print(ai_message.content)


In [None]:
recipe = output_parser.invoke(ai_message)
print(type(recipe))
print(recipe)


In [None]:
# StrOutputParser
from langchain_core.messages import AIMessage
from langchain_core.output_parsers import StrOutputParser

output_parser = StrOutputParser()

ai_message = AIMessage(content="안녕하세요, 저는 AI 어시턴트입니다.")
ai_message = output_parser.invoke(ai_message)
print(type(ai_message))
print(ai_message)

In [None]:
# LCEL (LangChain Expression Language)
# 연쇄적으로 연결하고 싶은 경우
# Prompt template 을 채우고, 그 결과를 Chat model에 제공한 후 그 결과를 Python 객체로 변환

# prompt와 model 연결
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import AzureChatOpenAI

model = AzureChatOpenAI(
    model="gpt-4o",
    api_version="2025-04-01-preview",
    temperature=0
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "사용자가 입력한 요리의 레시피를 생각해 주세요."),
        ("human", "{dish}")
    ]
)

model = AzureChatOpenAI(
    model="gpt-4o",
    api_version="2025-04-01-preview",
    temperature=0
)

chain = prompt | model

ai_message = chain.invoke({"dish": "카레"})
print(ai_message.content)


In [None]:
# StrOutputParser를 연결에 추가
# prompt, model, StrOutputParser 연결은 LCE의 가장 기본적인 형태
from langchain_core.output_parsers import StrOutputParser

chain = prompt | model | StrOutputParser()
output = chain.invoke({"dish": "카레"})
print(output)


In [None]:
# Pydantic Output Parser를 사용한 연결
from langchain_core.output_parsers import PydanticOutputParser
from pydantic import BaseModel, Field

class Recipe(BaseModel):
    ingredients: list[str] = Field(descriptions="ingredients of the dish")
    steps: list[str] = Field(descriptions="steps to make the dish")

output_parser = PydanticOutputParser(pydantic_object=Recipe)

In [None]:
from langchain_core.prompts import ChatPromptTemplate
propmt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "사용자가 입력한 요리의 레시피를 생각해 주세요. \n\n {format_instructions}"
        ),
        ("human", "{dish}")
    ]
)

prompt_with_format_instructions = prompt.partial(
    format_instructions=output_parser.get_format_instructions()
)

model = AzureChatOpenAI(
    model="gpt-4o",
    api_version="2025-04-01-preview",
    temperature=0
)

chain = prompt_with_format_instructions | model | output_parser

recipe = chain.invoke({"dish": "카레"})
print(type(recipe))
print(recipe)


In [None]:
# with_structured_output
# with_structured_output은 기본적으로 Function calling을 사용하여 json 형식의 데이터를 출력
# Function calling은 실제로 함수를 호출하지 않고, json 형식의 데이터를 확실하게 출력하는 목적으로 자주 사용
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import AzureChatOpenAI
from pydantic import BaseModel, Field


class Recipe(BaseModel):
    ingredients: list[str] = Field(description="ingredients of the dish")
    steps: list[str] = Field(description="steps to make the dish")

output_parser = PydanticOutputParser(pydantic_object=Recipe)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "사용자가 입력한 요리의 레시피를 생각해 주세요."),
        ("human", "{dish}")
    ]
)

model = AzureChatOpenAI(
    model="gpt-4o",
    api_version="2025-04-01-preview",
    temperature=0
)

chain = prompt | model.with_structured_output(Recipe)

recipe = chain.invoke({"dish": "카레"})
print(type(recipe))
print(recipe)

In [None]:
# RAG: 검색증강이라고 단순히 생각하는 것이 아니라 프롬프트에 문맥을 추가하는 방법을 고려
# Langchain - RAG component
# - Document loader
# - Document transformer
# - Embedding model
# - Vector store
# - Retriever

In [None]:
from langchain_community.document_loaders import GitLoader

def file_filter(file_path: str) -> bool:
    return file_path.endswith(".mdx")

loader = GitLoader(
    clone_url="https://github.com/langchain-ai/langchain",
    repo_path="./langchain",
    branch="master",
    file_filter=file_filter,
)

raw_docs = loader.load()
print(len(raw_docs))

In [None]:
# langchain에서 문서를 청크화 하는 기능군을 "Text Splitter"라고 부름
# pip install langchain-text-splitters

In [None]:
# 문자 수로 청크 분할
# tiktoken 토큰 수로 분할, python 소스 코드를 가능한 한 클래스나 함수로 분할하는 기능도 있
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)

docs = text_splitter.split_documents(raw_docs)
print(len(docs))

In [None]:
print(type(docs))
docs[0]

In [None]:
# Embedding Model
from langchain_openai import AzureOpenAIEmbeddings

embeddings = AzureOpenAIEmbeddings(
    model="text-embedding-3-large",
    api_version="2025-04-01-preview",
)

embeddings.embed_query("Hello, world!")

In [None]:
# Vector Store : chroma 사용
# pip install langchain-chroma
# Vector DB 에는 Faiss, Elasticsearch, Redis, Milvus 등 다양한 옵션이 있음
from langchain_chroma import Chroma

db = Chroma.from_documents(docs, embeddings)

In [None]:
retriever = db.as_retriever()

In [None]:
# retriever 내부에서 제공된 query를 벡터화해 vector store에 저장된 문서 중에서 벡터 거리가 가장 가까운 것을 찾음

query = "AWS의 S3에서 데이터를 읽어 들이기 위한 Document loader가 있나요?"

context_docs = retriever.invoke(query)
print(f"len = {len(context_docs)}")

first_doc = context_docs[0]
print(f"metadata = {first_doc.metadata}")
print(first_doc.page_content)