## 랭체인(LangChain)

In [1]:
!pip install -U langchain



In [1]:
from dotenv import load_dotenv
load_dotenv()

True

### (1) 체인

체인은 개별 단계를 순서대로 이어 붙여 하나의 흐름을 만들어 준다.

In [2]:
# chain 실행 방법
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o")

llm.invoke("피타고라스 정리의 공식은 무엇인가요?")

AIMessage(content='피타고라스 정리는 직각삼각형에서 성립하는 정리로, 그 공식은 다음과 같습니다:\n\n\\[ a^2 + b^2 = c^2 \\]\n\n여기서 \\( c \\)는 직각삼각형의 빗변의 길이이고, \\( a \\)와 \\( b \\)는 빗변이 아닌 두 변의 길이입니다. 이 공식은 빗변의 제곱은 다른 두 변의 제곱의 합과 같다는 것을 나타냅니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 114, 'prompt_tokens': 21, 'total_tokens': 135, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_d8864f8b6b', 'id': 'chatcmpl-BQD0ixIStMdSNy3YytxdlQEd214jp', 'finish_reason': 'stop', 'logprobs': None}, id='run-66c4345b-9b93-4396-9af7-d6222dbe2582-0', usage_metadata={'input_tokens': 21, 'output_tokens': 114, 'total_tokens': 135, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [3]:
# 프롬프트 지시 추가

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_template(
    "초등학생이 이해할 수 있는 방식으로 답을 설명하세요.: <질문>: {query}"
)

llm = ChatOpenAI(model="gpt-4o")

chain = prompt | llm

chain.invoke({"query": "피타고라스 정리의 공식은 무엇인가요?"})

AIMessage(content="피타고라스 정리는 삼각형 중에서 직각삼각형에 대한 거예요. 직각삼각형은 한 각이 90도인 삼각형이에요. 이 삼각형을 이루는 세 변 중에서, 가장 긴 변을 빗변이라고 부르고, 나머지 두 변을 각각 다른 이름 대신 보통 '변'이라고 불러요.\n\n피타고라스 정리의 공식은 이렇게 생겼어요:\n\n\\[\na^2 + b^2 = c^2\n\\]\n\n여기서 \\(a\\)와 \\(b\\)는 빗변이 아닌 두 변의 길이이고, \\(c\\)는 가장 긴 변인 빗변의 길이예요. 쉽게 말해서, 두 짧은 변의 제곱을 더한 값이 가장 긴 변의 제곱과 같다는 뜻이랍니다! 예를 들어, 변의 길이가 각각 3, 4, 5인 직각삼각형이 있다면, \\(3^2 + 4^2 = 5^2\\)는 9 + 16 = 25가 되어 맞는다는 걸 확인할 수 있어요.", additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 256, 'prompt_tokens': 40, 'total_tokens': 296, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_90122d973c', 'id': 'chatcmpl-BQD0rMkTB93EjiSYD5mxqUWwjuULb', 'finish_reason': 'stop', 'logprobs': None}, id='run-0a07a754-0354-4011-9d49-177bf091ab4e-0', usage_metadata=

In [4]:
# ouput parser 추가

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_template(
    "초등학생이 이해할 수 있는 방식으로 답을 설명하세요.: <질문>: {query}"
)

llm = ChatOpenAI(model="gpt-4o")

output_parser = StrOutputParser()

chain = prompt | llm | output_parser

chain.invoke({"query": "피타고라스 정리의 공식은 무엇인가요?"})

'피타고라스 정리는 직각삼각형에 대한 것입니다. 직각삼각형은 한 각이 90도인 삼각형이에요. 피타고라스 정리는 이런 직각삼각형에서 가장 긴 변(빗변)과 나머지 두 변(다리들)의 길이 사이의 관계를 설명해요.\n\n공식은 이렇게 생겼어요:\n\n\\[ a^2 + b^2 = c^2 \\]\n\n여기서,\n- \\(a\\)와 \\(b\\)는 직각을 이루는 두 변의 길이예요.\n- \\(c\\)는 가장 긴 변, 즉 빗변의 길이예요.\n\n쉽게 말하면, 두 다리의 길이를 각각 제곱해서 더한 값이 빗변의 길이를 제곱한 값과 같다는 뜻이에요. 예를 들어, 한 변의 길이가 3이고 다른 한 변의 길이가 4인 직각삼각형이 있다면, 빗변의 길이는 5가 돼요(왜냐하면 \\(3^2 + 4^2 = 9 + 16 = 25\\)이고, \\(5^2 = 25\\)).'

In [5]:
# 멀티체인

# 예시: 찬성 의견과 반대 의견을 각각 생성하고, 이를 결합하여 최종적인 토론 형식의 답변을 제공하는 프로세스

from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema import StrOutputParser
from langchain_core.runnables import RunnablePassthrough, RunnableParallel, RunnableMap
from operator import itemgetter # 파이프라인에서 데이터의 특정 부분을 추출하는 데 사용. 예를 들어, 이전 단계에서 생성된 base_response 를 다음 단계에 전달할 때 활용

In [6]:
# topic 에 대한 기본 논쟁을 생성하고, 그 결과를 base라는 이름으로 전달
basictopic = (
    ChatPromptTemplate.from_template("{topic}에 대한 논쟁을 한국어로 생성합니다.")
    | ChatOpenAI()
    | StrOutputParser()
    | {"base": RunnablePassthrough()}
)

# 긍정적인 의견 생성
positive = (
    ChatPromptTemplate.from_template("{base}의 장점 또는 긍정적인 측면을 나열하세요.")
    | ChatOpenAI()
    | StrOutputParser()
)

# 부정적인 의견 생성
negative = (
    ChatPromptTemplate.from_template("{base}의 단점 또는 부정적인 측면을 나열하세요.")
    | ChatOpenAI()
    | StrOutputParser()
)

# 최종 답변
# 긍정적 의견(results_1)과 부정적 의견(results_2)를 통합하여 최종 비평을 생산
final = (
    ChatPromptTemplate.from_messages(
        [
            ("ai", "{original_response}"),
            ("human", "긍정:\n{results_1}\n\부정:\n{results_2}"),
            ("system", "비평에 대한 최종 답변 생성")
        ]
    )
    | ChatOpenAI()
    | StrOutputParser()
)

In [7]:
# 병렬 처리
# RunnableParallel을 사용하여 positive와 negative를 병렬로 처리
# 이는 각 체인을 동시에 실행하여 전체 프로세스의 속도를 최적화하는 방법
chain = (
    basictopic
    | RunnableParallel(
        results_1 = positive,
        results_2 = negative,
        original_response = itemgetter("base")
    )
    | RunnableMap(
        {
            "positive_result": itemgetter("results_1"),
            "negative_result": itemgetter("results_2"),
            "final_answer": itemgetter("original_response")
        }
    )
)

In [8]:
# 최종 실행

result = chain.invoke({"topic": "social media"})

In [9]:
positive_result = result['positive_result']
negative_result = result['negative_result']
final_answer = result['final_answer']

In [10]:
positive_result

'1. 소통과 연결: social media를 통해 지리적 제약 없이 사람들과 소통할 수 있으며, 친구나 가족과 연락을 유지할 수 있습니다.\n2. 정보 공유: social media를 통해 뉴스나 이벤트, 팁 등 다양한 정보를 쉽게 얻을 수 있습니다.\n3. 마케팅과 홍보: 비즈니스나 개인 브랜드의 홍보 및 마케팅에 유용하게 사용될 수 있습니다.\n4. 커뮤니티 형성: 공통된 관심사를 가진 사람들끼리 모여 커뮤니티를 형성하고 소통할 수 있습니다.\n5. 창의성 촉진: 다양한 아이디어와 의견을 공유하고 피드백을 받아 창의성을 촉진할 수 있습니다.\n\n이러한 장점들을 최대한 활용하며, social media의 발전과 이용에 있어서는 적절한 규제와 보호 정책을 통해 사회적 문제를 예방하고 해결해야 한다는 것이 중요합니다.'

In [11]:
negative_result

'1. 개인정보 유출: social media를 통해 개인정보가 노출되어 사생활이 침해될 수 있습니다. 사용자의 개인정보가 무단으로 수집되거나 유출될 경우 개인정보 보호에 대한 우려가 증가하고 있습니다.\n\n2. 온라인 괴롭힘: social media를 통한 익명성으로 인해 온라인에서의 괴롭힘이 쉽게 일어날 수 있습니다. 특히 청소년들 사이에서는 사회적 평가나 부당한 비판이 빈번하게 발생할 수 있어 정신적인 스트레스를 유발할 수 있습니다.\n\n3. 정보 과부하: social media를 통해 너무 많은 정보가 동시에 제공되기 때문에 사용자들은 필요없는 정보에 시간을 낭비하거나 정보 과부하로 인해 혼란을 겪을 수 있습니다.\n\n4. 중독성: social media의 사용이 과도하게 이루어질 경우 중독성이 발생할 수 있습니다. 사용자들은 social media에 지나치게 의존하게 되어 현실과의 괴리를 느끼고 정서적 문제를 겪을 수 있습니다.\n\n5. 반사회적 행동 유발: social media를 통해 가짜 뉴스나 선정적인 콘텐츠 등이 확산될 수 있어, 사회적 방해나 윤리적 문제를 일으킬 수 있습니다. 이로 인해 사회적 갈등이나 분열이 심화될 우려가 있습니다.'

In [12]:
final_answer

'현재 사회에서는 social media에 대한 의견이 분분하게 나뉘고 있습니다. 일부 사람들은 social media가 소통과 정보 공유에 많은 도움을 준다고 주장하는 반면, 다른 일부 사람들은 social media가 개인정보 유출과 불필요한 정보 과부하를 초래한다고 우려하는 견해도 있습니다.\n\n특히, social media의 사용이 점점 증가함에 따라 사회적 문제도 덩달아 발생하고 있다는 의견도 제기되고 있습니다. 특히 청소년들의 social media 중독과 온라인 괴롭힘 문제 등이 큰 이슈로 부각되고 있습니다.\n\n이에 대해 어떤 사람들은 social media 규제가 필요하다고 주장하며, 다른 일부 사람들은 자유로운 의사소통을 방해한다는 이유로 규제에 반대하는 견해도 있습니다.\n\n이러한 논쟁 속에서 사회 전반적으로 어떤 방향으로 social media가 발전해야 하는지에 대한 논의가 계속되고 있습니다. 이를 통해 social media의 잠재적인 장점을 최대한 발휘하면서도 문제점을 해결하기 위한 방향을 마련하는 것이 중요한 과제로 자리잡고 있습니다.'

### (2) 프롬프트

프롬프트 템플릿은 개발자가 언어 모델과 상호작용하는 방식을 구조화하여 일관성 있는 응답을 얻도록 도와주는 사전 구축된 구조

In [13]:
# PromptTemplate 기본 사용법

from langchain_core.prompts import PromptTemplate

prompt_template = PromptTemplate.from_template(
    "{content}에 대한 {adjective} 농담을 들려주세요."
)

formatted_prompt = prompt_template.format(adjective="재미있는", content="닭")
print(formatted_prompt)

닭에 대한 재미있는 농담을 들려주세요.


In [14]:
# 채팅 프롬프트
from langchain_core.prompts import ChatPromptTemplate

# 대화형 템플릿 만들기
chat_template = ChatPromptTemplate.from_messages(
    [
        ("system", "너는 유능한 어시스트야 너의 이름은 {name} 이야."),
        ("human", "안녕하세요?"),
        ("ai", "안녕하세요 무엇을 도와드릴까요?"),
        ("human", "{user_input}"),
    ]
)

# 템플릿에 값 채우기
messages = chat_template.format_messages(name="김철수", user_input="너의 이름은 뭐야?")
print(messages)

[SystemMessage(content='너는 유능한 어시스트야 너의 이름은 김철수 이야.', additional_kwargs={}, response_metadata={}), HumanMessage(content='안녕하세요?', additional_kwargs={}, response_metadata={}), AIMessage(content='안녕하세요 무엇을 도와드릴까요?', additional_kwargs={}, response_metadata={}), HumanMessage(content='너의 이름은 뭐야?', additional_kwargs={}, response_metadata={})]


In [15]:
# 프롬프트 조합 및 변수 사용

from langchain_core.prompts import (
    ChatPromptTemplate,
    HumanMessagePromptTemplate,
    MessagesPlaceholder,
)

from langchain_core.messages import HumanMessage, AIMessage


# 대화 요약 템플릿 만들기
human_prompt = "지금까지의 대화를 {word_count} 단어로 요약합니다."
human_message_template = HumanMessagePromptTemplate.from_template(human_prompt)

# 대화 내용과 함께 요약 요청
chat_prompt = ChatPromptTemplate.from_messages(
    [MessagesPlaceholder(variable_name="conversation"), human_message_template]
)

# 대화 내용과 단어 수를 넣어서 요약 프롬프트 생성
conversation = [
    HumanMessage(content="프로그래밍을 배우는 가장 좋은 방법은 무엇인가요?"),
    AIMessage(content="변수 및 루프와 같은 기본 사항부터 시작하세요."),
]
formatted_prompt = chat_prompt.format_prompt(conversation=conversation, word_count="10")
print(formatted_prompt.to_messages())


[HumanMessage(content='프로그래밍을 배우는 가장 좋은 방법은 무엇인가요?', additional_kwargs={}, response_metadata={}), AIMessage(content='변수 및 루프와 같은 기본 사항부터 시작하세요.', additional_kwargs={}, response_metadata={}), HumanMessage(content='지금까지의 대화를 10 단어로 요약합니다.', additional_kwargs={}, response_metadata={})]


### (3) 메모리

ReAct 에이전트에 메모리 기능을 추가하여 대화의 연속성을 확보하는 방법 소개

In [16]:
# LangChain 및 필요한 라이브러리 임포트
from langchain.agents import initialize_agent, Tool, AgentType
from langchain_openai import ChatOpenAI
from langchain.callbacks import get_openai_callback
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

# LLM 모델 설정 (예: OpenAI GPT 모델)
llm = ChatOpenAI(model="gpt-4o")

In [17]:
# 에이전트

# 에이전트가 사용할 툴 설정
tools = [
    Tool(
        name="Echo",
        func=lambda x: f"Echoing: {x}",  # 간단한 툴로 입력한 값을 그대로 반환
        description="Echo the input text"
    )
]

# 에이전트 설정: Tool을 사용하여 질의를 처리할 수 있도록 설정
agent_executor = initialize_agent(
    tools=tools,
    llm=llm,
    agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION,  # 적절한 에이전트 타입 설정
    verbose=True  # 출력되는 내용이 많아짐
)

  agent_executor = initialize_agent(


In [19]:
# 메모리 없는 예시

# 사용자 프로필 관리
query = "안녕 나는 김철수야."
print("질문:", query)
result = agent_executor.invoke({"input": query})
print("답변:", result['output'])

query = "내가 누구인지 기억나니?"
print("질문:", query)
result = agent_executor.invoke({"input": query})
print("답변:", result['output'])

질문: 안녕 나는 김철수야.


[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Echo
Action Input: 안녕 나는 김철수야.[0m
Observation: [36;1m[1;3mEchoing: 안녕 나는 김철수야.[0m
Thought:[32;1m[1;3mI now know the final answer. 

Final Answer: 안녕 나는 김철수야.[0m

[1m> Finished chain.[0m
답변: 안녕 나는 김철수야.
질문: 내가 누구인지 기억나니?


[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Echo
Action Input: 내가 누구인지 기억나니?[0m
Observation: [36;1m[1;3mEchoing: 내가 누구인지 기억나니?[0m
Thought:[32;1m[1;3mI should interpret the information provided and respond accordingly. 

Final Answer: 나는 인공지능 비서이기 때문에 개인적인 기억력이 없습니다. 당신이 누구인지 스스로 설명해주시면 도움이 될 것입니다.[0m

[1m> Finished chain.[0m
답변: 나는 인공지능 비서이기 때문에 개인적인 기억력이 없습니다. 당신이 누구인지 스스로 설명해주시면 도움이 될 것입니다.


In [20]:
# 사용자 설정 정보와 관련 질문
query = "기본 설정 언어를 한국어로 업데이트합니다."
print("질문:", query)
result = agent_executor.invoke({"input": query})
print("답변:", result['output'])
print('---')
query = "내가 선호하는 언어는?"
print("질문:", query)
result = agent_executor.invoke({"input": query})
print("답변:", result['output'])


질문: 기본 설정 언어를 한국어로 업데이트합니다.


[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mTo update the default language to Korean, I'll use the Echo tool to repeat the command.

Action: Echo
Action Input: 기본 설정 언어를 한국어로 업데이트합니다.[0m
Observation: [36;1m[1;3mEchoing: 기본 설정 언어를 한국어로 업데이트합니다.[0m
Thought:[32;1m[1;3mI now know the final answer.

Final Answer: 기본 설정 언어를 한국어로 업데이트합니다.[0m

[1m> Finished chain.[0m
답변: 기본 설정 언어를 한국어로 업데이트합니다.
---
질문: 내가 선호하는 언어는?


[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: Echo
Action Input: 내가 선호하는 언어는 무엇인가요?[0m
Observation: [36;1m[1;3mEchoing: 내가 선호하는 언어는 무엇인가요?[0m
Thought:[32;1m[1;3mMy apologies for the misunderstanding. Let's go through it step-by-step. The question "내가 선호하는 언어는?" is asking "What is my preferred language?" However, as an AI, I don't know your preferences unless provided with additional context. If there's a different intention behind your question, kindly provide more information.

Final Answer: Without 

### 메모리 기능을 추가하기 위해 ChatMessageHistory 와 RunnableWithMessageHistory 클래스를 활용하여 대화의 기록을 저장하고, 이를 통해 에이전트가 이전 대화 내용을 기억하도록 구현해보자.

In [None]:
# 메모리 클래스 정의

# from pydantic import BaseModel, Field, validator
from pydantic import BaseModel, Field, field_validator
from langchain_core.tools import StructuredTool
from langchain_core.tools import ToolException

class UserProfileInput(BaseModel):
    name: str = Field(description="사용자 이름")
    language: str = Field(description="사용자 언어")

    # @validator('name')
    @field_validator('name')
    def validate_name(cls, v):
        if not v or len(v) < 1:
            raise ToolException('Name cannot be empty')
        return v

    # @validator('language')
    @field_validator('language')
    def validate_language(cls, v):
        if not v or len(v) < 1:
            raise ToolException('Language cannot be empty')
        return v

In [23]:
# 도구 정의

def update_user_profile(name: str, language: str) -> str:
    """이름과 선호하는 언어로 사용자 프로필을 업데이트"""
    return f"프로필 업데이트 완료: name: {name}, language: {language}"

def get_user_profile() -> str:
    """사용자의 프로필 정보를 검색"""
    # In a real scenario, this would fetch data from a database or a file
    return "사용자 프로필 가져오기: name: Alex, language: 프랑스어"

update_profile_tool = StructuredTool.from_function(
    func=update_user_profile,
    args_schema=UserProfileInput,
    handle_tool_error=True,
)

get_profile_tool = StructuredTool.from_function(
    func=get_user_profile,
    # args_schema=UserProfileInput,
    handle_tool_error=True,
)

In [24]:
# 메모리 기반 에이전트 설정

from langchain_community.chat_message_histories import ChatMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_core.chat_history import BaseChatMessageHistory
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain.agents import create_tool_calling_agent
from langchain.agents import AgentExecutor

prompt = ChatPromptTemplate.from_messages([
    ("system", "You're a helpful assistant"),
    ("placeholder", "{history}"),
    ("human", "{input}"),
    ("placeholder", "{agent_scratchpad}"),
])

tools = [update_profile_tool, get_profile_tool]

In [25]:
agent = create_tool_calling_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

In [26]:
store = {}  # 메시지 기록을 저장하는 더미 데이터베이스

def get_session_history(session_id: str) -> BaseChatMessageHistory:
    if session_id not in store:
        store[session_id] = ChatMessageHistory()
    return store[session_id]

agent_executor_w_memory = RunnableWithMessageHistory(
    agent_executor,
    get_session_history,
    input_messages_key="input",
    history_messages_key="history",
)

### 메모리 사용 사례

In [27]:
# 사용자 프로필 관리

agent_executor_w_memory.invoke(
    {"input": "안녕하세요, 저는 김철수입니다."},
    config={"configurable": {"session_id": "user123"}},
)

agent_executor_w_memory.invoke(
    {"input": "내가 누구인지 기억나?"},
    config={"configurable": {"session_id": "user123"}},
)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m안녕하세요, 김철수님! 도와드릴 내용이 있으면 말씀해 주세요.[0m

[1m> Finished chain.[0m


[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `get_user_profile` with `{}`


[0m[33;1m[1;3m사용자 프로필 가져오기: name: Alex, language: 프랑스어[0m[32;1m[1;3m현재 프로필 정보에 따르면, 사용자의 이름은 Alex이고 선호하는 언어는 프랑스어로 되어 있습니다. 혹시 김철수로 변경하시거나 다른 정보를 업데이트하시겠어요?[0m

[1m> Finished chain.[0m


{'input': '내가 누구인지 기억나?',
 'history': [HumanMessage(content='안녕하세요, 저는 김철수입니다.', additional_kwargs={}, response_metadata={}),
  AIMessage(content='안녕하세요, 김철수님! 도와드릴 내용이 있으면 말씀해 주세요.', additional_kwargs={}, response_metadata={})],
 'output': '현재 프로필 정보에 따르면, 사용자의 이름은 Alex이고 선호하는 언어는 프랑스어로 되어 있습니다. 혹시 김철수로 변경하시거나 다른 정보를 업데이트하시겠어요?'}

### (4) 인덱스

특정 작업을 수행하기 위해서는 데이터 내에 포함되지 않은 파일, 즉 외부 데이터를 처리할 수 있어야 한다.

인덱스는 대규모 데이터셋에서 필요한 정보를 빠르게 찾아내는 데 매우 중요한 역할을 하며, 특히 RAG 기반 애플리케이션에서는 필수적인 요소로 사용된다.

#### DocumentLoader

DocumentLoader 는 다양한 형식의 문서를 효과적으로 로드하고 처리할 수 있는 도구  
문서를 벡터 데이터베이스에 추가하기 전에 불필요한 정보나 중복된 내용을 걸러낼 수 있음

In [28]:
# 기본 TextLoader 활용

from langchain_community.document_loaders import TextLoader

loader = TextLoader("./ReAct README.md")
document = loader.load()

print(document)

[Document(metadata={'source': './ReAct README.md'}, page_content="# ReAct Prompting\n\nGPT-3 prompting code for ICLR 2023 paper [ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629).\n\nTo use ReAct for more tasks, consider trying [LangChain's zero-shot ReAct Agent](https://python.langchain.com/docs/modules/agents/agent_types/react.html).\n\n## Setup\nYou need to first have an OpenAI API key and store it in the environment variable ``OPENAI_API_KEY`` (see [here](https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety)).\n\nPackage requirement: ``openai``, and install ``alfworld`` following instructions [here](https://github.com/alfworld/alfworld).\n\n## Experiments\nRun ``{hotpotqa,fever,alfworld,webshop}.ipynb``. As HotpotQA and FEVER have large validation sets, we only run 500 random examples (see notebooks). We find PaLM and GPT-3 are better at different tasks.\n\n\n|                    | HotpotQA (500 random dev, EM) | 

In [29]:
# 웹 페이지 URL 활용

from langchain_community.document_loaders import WebBaseLoader

# 웹 페이지 로더 설정
url = "https://n.news.naver.com/mnews/article/055/0001207714"
loader = WebBaseLoader(url)

# 웹 페이지 내용을 로드
document = loader.load()

# 결과 확인
print(document)

USER_AGENT environment variable not set, consider setting it to identify your requests.


[Document(metadata={'source': 'https://n.news.naver.com/mnews/article/055/0001207714', 'title': '[날씨] 아침까지 추위 계속…밤부턴 중부지방 비', 'language': 'ko'}, page_content='\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n[날씨] 아침까지 추위 계속…밤부턴 중부지방 비\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n본문 바로가기\n\n\n\n\n\n\nNAVER\n\n뉴스\n\n\n엔터\n\n\n\n\n스포츠\n\n\n\n\n날씨\n\n\n\n\n프리미엄\n\n\n\n\n\n\n\n\n\n\n검색\n\n\n\n\n\n\n\n\n\n\n언론사별\n\n\n정치\n\n\n경제\n\n\n사회\n\n\n생활/문화\n\n\nIT/과학\n\n\n세계\n\n\n랭킹\n\n\n신문보기\n\n\n오피니언\n\n\nTV\n\n\n팩트체크\n\n\n알고리즘 안내\n\n\n정정보도 모음\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nSBS\n\nSBS\n\n\n구독\n\nSBS 언론사 구독되었습니다. 메인 뉴스판에서  주요뉴스를  볼 수 있습니다.\n보러가기\n\n\nSBS 언론사 구독 해지되었습니다.\n\n\n\n\n[날씨] 아침까지 추위 계속…밤부턴 중부지방 비\n\n\n\n\n입력2024.11.20. 오전 1:00\n\n\n수정2024.11.20. 오전 1:01\n\n기사원문\n \n\n\n\n\n\n\n\n\n추천\n\n\n\n\n쏠쏠정보\n0\n\n\n\n\n흥미진진\n0\n\n\n\n\n공감백배\n0\n\n\n\n\n분석탁월\n0\n\n\n\n\n후속강추\n0\n\n\n \n\n\n\n댓글\n\n\n\n\n\n텍스트 음성 변환 서비스 사용하기\n\n\n\n성별\n남성\n여성\n\n\n말하기 속도\n느림\n보통\n빠름\n\n이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.\n본문듣기 시작\n\n

In [31]:
!pip install pypdf

Collecting pypdf
  Using cached pypdf-5.4.0-py3-none-any.whl.metadata (7.3 kB)
Using cached pypdf-5.4.0-py3-none-any.whl (302 kB)
Installing collected packages: pypdf
Successfully installed pypdf-5.4.0


In [32]:
# PDF 문서 활용

from langchain.document_loaders import PyPDFLoader

# PDF 파일 경로 설정
pdf_path = "./2210.03629v3-2.pdf"
loader = PyPDFLoader(pdf_path)

# PDF 파일 내용을 로드
document = loader.load()

# 결과 확인
print(document)

[Document(metadata={'producer': 'pdfTeX-1.40.21', 'creator': 'LaTeX with hyperref', 'creationdate': '2023-03-13T00:09:11+00:00', 'author': '', 'keywords': '', 'moddate': '2023-03-13T00:09:11+00:00', 'ptex.fullbanner': 'This is pdfTeX, Version 3.14159265-2.6-1.40.21 (TeX Live 2020) kpathsea version 6.3.2', 'subject': '', 'title': '', 'trapped': '/False', 'source': './2210.03629v3-2.pdf', 'total_pages': 33, 'page': 0, 'page_label': '1'}, page_content='Published as a conference paper at ICLR 2023\nREAC T: S YNERGIZING REASONING AND ACTING IN\nLANGUAGE MODELS\nShunyu Yao∗*,1, Jeffrey Zhao2, Dian Yu2, Nan Du2, Izhak Shafran2, Karthik Narasimhan1, Yuan Cao2\n1Department of Computer Science, Princeton University\n2Google Research, Brain team\n1{shunyuy,karthikn}@princeton.edu\n2{jeffreyzhao,dianyu,dunan,izhak,yuancao}@google.com\nABSTRACT\nWhile large language models (LLMs) have demonstrated impressive performance\nacross tasks in language understanding and interactive decision making, their\

#### 벡터 데이터베이스

벡터 데이터베이스는 고차원 벡터로 변환된 텍스트 데이터를 저장하고, 이를 기반으로 유사성 검색을 가능하게 하는 데이터베이스

In [34]:
!pip install faiss-cpu

Collecting faiss-cpu
  Using cached faiss_cpu-1.10.0-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Using cached faiss_cpu-1.10.0-cp310-cp310-manylinux_2_28_x86_64.whl (30.7 MB)
Installing collected packages: faiss-cpu
Successfully installed faiss-cpu-1.10.0


In [35]:
# VectorStore 의 기본 예제를 통해 벡터 데이터베이스를 생성하고, 문서를 임베딩하여 저장한 후, 유사성 검색을 수행하는 방법을 소개한다.

# FAISS 활용

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain_community.document_loaders import TextLoader

# 1. 텍스트 문서 로드
# pdf_path = "./2210.03629v3-2.pdf"
# loader = PyPDFLoader(pdf_path)
loader = TextLoader("./ReAct README.md")
documents = loader.load()

# 2. 문서 내용을 리스트로 변환
texts = [doc.page_content for doc in documents]
print(texts)

# 3. OpenAI 임베딩 모델로 텍스트 임베딩 생성
embedding_model = OpenAIEmbeddings(model="text-embedding-ada-002")
document_embeddings = embedding_model.embed_documents(texts)

# 4. FAISS 벡터 데이터베이스 생성 및 임베딩 저장
vector_db = FAISS.from_texts(texts, embedding_model)

# 5. 데이터베이스 상태 확인
print(f"총 {len(texts)} 개의 문서가 벡터 데이터베이스에 저장되었습니다.")


["# ReAct Prompting\n\nGPT-3 prompting code for ICLR 2023 paper [ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629).\n\nTo use ReAct for more tasks, consider trying [LangChain's zero-shot ReAct Agent](https://python.langchain.com/docs/modules/agents/agent_types/react.html).\n\n## Setup\nYou need to first have an OpenAI API key and store it in the environment variable ``OPENAI_API_KEY`` (see [here](https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety)).\n\nPackage requirement: ``openai``, and install ``alfworld`` following instructions [here](https://github.com/alfworld/alfworld).\n\n## Experiments\nRun ``{hotpotqa,fever,alfworld,webshop}.ipynb``. As HotpotQA and FEVER have large validation sets, we only run 500 random examples (see notebooks). We find PaLM and GPT-3 are better at different tasks.\n\n\n|                    | HotpotQA (500 random dev, EM) | FEVER (500 random dev, EM) | AlfWorld (success rate) | WebShop  

In [36]:
# 벡터 데이터베이스에서 유사한 문서를 검색해보자

# 6. 쿼리 문장을 임베딩하여 벡터로 변환
query = "What is a document loader?"

# 7. 벡터 데이터베이스에서 쿼리와 유사한 문서 검색
search_results = vector_db.similarity_search(query, k=3)  # 상위 3개의 유사 문서 반환

# 검색 결과 출력
for i, result in enumerate(search_results, 1):
    print(f"유사 문서 {i}:")
    print(result.page_content)
    print()

유사 문서 1:
# ReAct Prompting

GPT-3 prompting code for ICLR 2023 paper [ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629).

To use ReAct for more tasks, consider trying [LangChain's zero-shot ReAct Agent](https://python.langchain.com/docs/modules/agents/agent_types/react.html).

## Setup
You need to first have an OpenAI API key and store it in the environment variable ``OPENAI_API_KEY`` (see [here](https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety)).

Package requirement: ``openai``, and install ``alfworld`` following instructions [here](https://github.com/alfworld/alfworld).

## Experiments
Run ``{hotpotqa,fever,alfworld,webshop}.ipynb``. As HotpotQA and FEVER have large validation sets, we only run 500 random examples (see notebooks). We find PaLM and GPT-3 are better at different tasks.


|                    | HotpotQA (500 random dev, EM) | FEVER (500 random dev, EM) | AlfWorld (success rate) | WebShop  (success

#### Text Splitter

Text Splitter는 긴 문서나 문단을 작은 청크 단위로 분할하여 검색 엔진이 효율적으로 인덱싱하고 검색할 수 있도록 돕는 도구

Text Splitter는 문맥을 유지하며 문서를 분할하는 데 중점을 둔다.

In [37]:
# 문서 로드 후 분할

from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 텍스트 로더 설정
loader = TextLoader("./ReAct README.md")

# 텍스트 스플리터 설정 (500자 단위로 분할)
splitter = RecursiveCharacterTextSplitter(chunk_size=500)

# 문서를 로드하면서 동시에 분할
documents = loader.load_and_split(text_splitter=splitter)

# 각 청크 확인
for doc in documents:
    print(doc)

page_content='# ReAct Prompting

GPT-3 prompting code for ICLR 2023 paper [ReAct: Synergizing Reasoning and Acting in Language Models](https://arxiv.org/abs/2210.03629).

To use ReAct for more tasks, consider trying [LangChain's zero-shot ReAct Agent](https://python.langchain.com/docs/modules/agents/agent_types/react.html).' metadata={'source': './ReAct README.md'}
page_content='To use ReAct for more tasks, consider trying [LangChain's zero-shot ReAct Agent](https://python.langchain.com/docs/modules/agents/agent_types/react.html).

## Setup
You need to first have an OpenAI API key and store it in the environment variable ``OPENAI_API_KEY`` (see [here](https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety)).

Package requirement: ``openai``, and install ``alfworld`` following instructions [here](https://github.com/alfworld/alfworld).' metadata={'source': './ReAct README.md'}
page_content='Package requirement: ``openai``, and install ``alfworld`` following instruc

### (5) 콜백 및 평가

콜백은 랭체인 작업의 각 단계에서 발생하는 이벤트를 추적하고 모델의 성능을 모니터링하는 데 사용되는 중요한 기능

콜백과 평가 기능의 핵심은 작업의 흐름을 상세히 추적하고 분석
- 체인의 각 단계에서 발생하는 이벤트를 기록하여 작업이 어떻게 진행되고 있는지 실시간으로 파악
- 응답 생성 과정에서 발생한 에러나 특정 단계에서의 성능 저하 같은 문제를 확인 가능
- 실시간 스트리밍 기능을 통해 작업 상태를 스트리밍하며 관리자에게 알림을 제공
- 각 작업에 대한 평가 지표를 기록하여 모델의 성능을 모니터링하는 역할

In [38]:
# 콜백 함수

from langchain_openai import ChatOpenAI
from langchain.callbacks import get_openai_callback

llm = ChatOpenAI(model="gpt-4o", temperature=0)

with get_openai_callback() as cb:
    response = llm.invoke("프랑스, 영국, 스페인의 수도는?")
    print(response)
    print(f"Total Tokens: {cb.total_tokens}")
    print(f"Total Cost: {cb.total_cost}")

content='프랑스의 수도는 파리, 영국의 수도는 런던, 스페인의 수도는 마드리드입니다.' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 30, 'prompt_tokens': 20, 'total_tokens': 50, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_0011324330', 'id': 'chatcmpl-BQDuN14cqHr7i2yOrcpE1z1JvVoHf', 'finish_reason': 'stop', 'logprobs': None} id='run-b3fd7f1b-5e5a-429f-b05f-a464d2ef02ea-0' usage_metadata={'input_tokens': 20, 'output_tokens': 30, 'total_tokens': 50, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}}
Total Tokens: 50
Total Cost: 0.00035
