# Hello LangChain

# LangChain  관련 주요 링크

-  Python Langchain 공식 홈:  https://python.langchain.com/
-  API 레퍼런스 홈: https://python.langchain.com/api_reference/reference.html


## Langchain 의 패키지 구성


### Base Packages
- [Core: langchain-core](https://python.langchain.com/api_reference/core)
- [Langchain: langchain](https://python.langchain.com/api_reference/langchain)
- [Test Splitters: langchain-text-splitters](https://python.langchain.com/api_reference/text_splitters)
- [Community: langchain-community](https://python.langchain.com/api_reference/community)
- [Experimental: langchain-experimental](https://python.langchain.com/api_reference/experimental)

### Integrations
- 랭체인은 수많은 LLM 모델들과 커뮤니티, 벡터스토어, 데이터베이스, 툴 들과 함께 사용할수 있도록 제공되는 패키지들이 많다 (앞으로 더 많아 질거다)
- [OpanAI: langchain-openai](https://python.langchain.com/api_reference/openai)
- [Huggingface: langchain-huggingface](https://python.langchain.com/api_reference/huggingface)
- [MistalAI: langchain-mistralai](https://python.langchain.com/api_reference/mistralai)
- 그밖에도 많이 있다 ...


# 환경변수 설정 필요

In [None]:
# OPENAI_API_KEY

In [1]:
import os

In [2]:
os.environ['OPENAI_API_KEY'][:20] + '...'

'sk-proj-iKU13YeoxNgF...'

In [3]:
# 수동으로 읽어오기
from dotenv import load_dotenv

In [4]:
load_dotenv()

True

In [5]:
print(f'{os.environ['OPENAI_API_KEY'][:20]}...')
print(f'{os.getenv('OPENAI_API_KEY')[:20]}...')

sk-proj-iKU13YeoxNgF...
sk-proj-iKU13YeoxNgF...


# ■ LLM vs. Chat model

LangChain 은 LLM 과 Chat model 두가지를 지원합니다

`LLM`(Large Language Model)과 `Chat Model`은 비슷한 역할을 하지만, 약간의 차이점이 있습니다.

이는 주로 **모델의 입력 및 상호작용 방식**에서 나타난다.

---

### 1. LLM (Large Language Model)
- **특징**:
  - 일반적으로 **텍스트 입력**을 받고, 이에 대한 텍스트 출력을 생성합니다.
  - 단순한 프롬프트 기반 입력/출력을 처리하기 위한 모델입니다.
  - 사용자가 제공한 입력 텍스트를 분석하고, 그에 대한 결과를 한 번에 출력합니다.
- **입력 형식**:
  ```plaintext
  "Tell me a summary of the benefits of LangChain."
  ```
- **출력 형식**:
  ```plaintext
  "LangChain is a framework designed to simplify the development of applications powered by large language models, making it easier to manage prompts, chains, and integrations."
  ```
- **주요 사용 사례**:
  - 단일 질문-답변
  - 텍스트 생성
  - 간단한 프롬프트 처리를 위한 작업

---

### 2. Chat Model
- **특징**:
  - **대화 형식**으로 설계된 모델로, 다중 턴 대화를 처리할 수 있다.
  - 입력 형식이 **메시지 Message**로 구성되며, 각 메시지는 사용자의 메시지 (User Message)와 시스템의 메시지(System Message)로 나뉜다.
  - '문맥'을 이해하고 '대화의 흐름'을 유지하는 데 최적화되어 있다.
- **입력 형식**:
  메시지 객체를 전달해야 하며, 보통 아래와 같은 구조입니다.
  ```python
  [
      {"role": "system", "content": "You are an assistant who helps with Python programming."},
      {"role": "user", "content": "Can you explain the difference between LLM and chat models in LangChain?"}
  ]
  ```
- **출력 형식**:
  ```python
  {"role": "assistant", "content": "Sure! LLM and Chat Models differ in their input and interaction styles..."}
  ```
- **주요 사용 사례**:
  - 다중 턴 대화
  - 문맥 추적 및 유지 (대화 히스토리 반영)
  - 대화 기반 챗봇, FAQ 시스템 등

---

### 3. 주요 차이점 요약
| **특징**        | **LLM**                                                | **Chat Model**                                        |
|-----------------|------------------------------------------------------|----------------------------------------------------|
| **입력 형식**   | 단일 텍스트 입력                                         | 역할 기반의 대화 메시지 객체 (role: system, user, assistant) |
| **대화 히스토리**| 문맥 추적 불가능 (단일 요청 처리)                          | 대화 히스토리를 통해 문맥을 유지하고 반영                 |
| **사용 목적**   | 텍스트 생성, 요약, 단순 질의응답                             | 대화형 인터페이스, 챗봇, 다중 턴 질의응답               |
| **응용 사례**   | 단일 질문-답변, 텍스트 생성                                | 고객 지원 챗봇, 인터랙티브 Q&A, 멀티턴 대화 시스템          |

---


### 5. 언제 어떤 것을 선택해야 할까요?
- **단일 작업이나 간단한 텍스트 생성**:
  - `LLM`을 사용하는 것이 적합합니다.
- **대화 기반 애플리케이션이나 문맥을 유지해야 하는 작업**:
  - `Chat Model`을 사용하는 것이 더 적합합니다.

In [6]:
import langchain
langchain.__version__

'0.3.23'

In [7]:
from langchain_openai.llms.base import OpenAI  # LLM   (gpt-3.5-turbo 사용  2024.12)

In [8]:
from langchain_openai.chat_models.base import ChatOpenAI  # Chat model  (gpt-3.5-turbo 사용  2024.12)

In [None]:
# 랭체인을 사용하면!
# 각 model 들의 API 을 따로따로 공부하고 알아야 할 필요없다.
# 또한 각 model api 제공자가 제공하는 Python package 를 다운로드 할 필요도 없다.

In [9]:
llm = OpenAI()

In [10]:
llm.model_name

'gpt-3.5-turbo-instruct'

In [11]:
chat = ChatOpenAI()

chat.model_name

'gpt-3.5-turbo'

# LLM 호출

In [13]:
result = llm.invoke("How many planets are there?")
print(type(result))
print('답변', result)

<class 'str'>
답변 

There are currently eight planets in our solar system: Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, and Neptune.


In [15]:
result = llm.invoke("태양계에는 얼마나 많은 행성들이 있나요? 그 행성들의 이름도 알려줘.")
print(type(result))
print('답변', result)

<class 'str'>
답변 

태양계에는 8개의 행성이 있으며, 수성, 금성, 지구, 화성, 목성, 토성, 천왕성, 해왕성이 있습니다.


# ChatModel 호출

In [17]:
result = chat.invoke("How many planets are there?")
print(type(result))  # Message객체
print('💚', result)
print('🧡답변', result.content)

<class 'langchain_core.messages.ai.AIMessage'>
💚 content='There are eight planets in our solar system: Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, and Neptune.' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 27, 'prompt_tokens': 13, 'total_tokens': 40, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BgrgFb7OXnXBUQaqKCJKFQ69itQfn', 'finish_reason': 'stop', 'logprobs': None} id='run--8d1479cf-098b-4389-a408-4d7b5e2e2555-0' usage_metadata={'input_tokens': 13, 'output_tokens': 27, 'total_tokens': 40, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}}
🧡답변 There are eight planets in our solar system: Mercury, Venus, Earth, Mars, Jupiter, Saturn, Ur

## 한글 or 영어 ?

챗 GPT의 언어 처리 능력은 인공지능 기술의 훌륭한 발전을 보여줍니다. 하지만 사용자가 받는 답변의 품질은 제출하는 언어에 따라 약간의 차이가 있을 수 있습니다. 이런 차이는 챗 GPT가 학습하는 과정에서 다양한 언어의 데이터 양과 품질, 그리고 언어별 특성을 얼마나 잘 처리하는지에 따라 결정됩니다.

OpenAI의 언어 모델, 특히 GPT 시리즈는 다양한 데이터 소스에서 얻은 대량의 데이터로 학습됩니다. 이 데이터는 주로 영어를 비롯한 여러 언어에서 수집되며, 학습 데이터의 구성은 모델의 성능과 일반화 능력에 큰 영향을 미칩니다.

영어는 전세계적으로 많이 사용되며*, 인터넷 상의 데이터도 영어가 많아서 챗 GPT는 영어 질문에 대해 더 정확하고 자연스러운 답변을 제공할 확률이 높습니다. 그러나 한국어와 같은 다른 언어는 상대적으로 데이터가 부족하거나, 언어의 복잡성 때문에 처리가 더 어려울 수 있어, 이로 인해 답변의 품질에 차이가 나타날 수 있습니다.

참고
- https://fastcampus.co.kr/gov_review_insightGPTlang

## 사용량 확인 해보기
이쯤에서 openai 페이지
DASHBOARD > Usage > Activity 를 확인해보자.
사용한 양이 표시될거다.

https://platform.openai.com/usage/activity

In [18]:
from langchain_anthropic.chat_models import ChatAnthropic

# Messages

In [19]:
# Chat Model 은 '질문'만 받는게 아니라 '대화' 도 할수 있다 (Message 를 보낼수도 있다)
# '대화(conversation)' 은
#    : 여러 메세지 묶음
#    : 상대의 대화의 맥락에 맞게 대답할수 있다.

In [None]:
# https://python.langchain.com/docs/integrations/chat/openai/#instantiation
# 레퍼런스 : https://python.langchain.com/api_reference/openai/chat_models/langchain_openai.chat_models.base.ChatOpenAI.html
"""
chat = ChatOpenAI(
    model="gpt-4o",
    temperature=0,
        # 모델의 응답 다양성을 제어하는 역할을 합니다.
        # 이는 OpenAI의 GPT 모델에서 사용하는 매개변수로,
        #  생성되는 텍스트의 창의성과 확률적 다양성(랜덤성을 조정합니다)ㄴ
        #
    max_tokens=None,  # model 리 리턴하는 결과의 최대 token 개수지정.
    timeout=None,
    max_retries=2,
    # api_key="...",  # if you prefer to pass api key in directly instaed of using env vars
    # base_url="...",
    # organization="...",
    # other params...
)
"""
None

In [20]:
chat = ChatOpenAI(temperature=0.1)

In [21]:
# v0.3
from langchain_core.messages.human import HumanMessage
# https://python.langchain.com/api_reference/core/messages/langchain_core.messages.human.HumanMessage.html

from langchain_core.messages.system import SystemMessage
# https://python.langchain.com/api_reference/core/messages/langchain_core.messages.system.SystemMessage.html

from langchain_core.messages.ai import AIMessage
# https://python.langchain.com/api_reference/core/messages/langchain_core.messages.ai.AIMessage.html

# HumanMessage : 사람이 AI 에 보내는 Message
# SystemMessage : LLM 에 설정들을 제공하기 위한 Message
# AIMessage: AI 에 의해 리턴되는 Message

In [27]:
messages = [
    SystemMessage(
        content="You are a geography expert. And your only reply in Korean",
    ),
    AIMessage(
        content="안녕, 내 이름은 둘리 야",
    ),
    HumanMessage(
      content="""
          What is the distance between Mexico and Thailand.
          Also, what is yoru name?
      """,  
    ),
]

In [28]:
result = chat.invoke(messages)

result

AIMessage(content='멕시코와 태국 사이의 거리는 대략 16,000km입니다. 제 이름은 둘리입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 36, 'prompt_tokens': 62, 'total_tokens': 98, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-Bgs6ftzIvJv3sew7SG7PFFlpPNaEL', 'finish_reason': 'stop', 'logprobs': None}, id='run--31ebb19a-f645-4599-8612-26477f08f7b1-0', usage_metadata={'input_tokens': 62, 'output_tokens': 36, 'total_tokens': 98, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

# Prompt Template

## Prompt
↑ messages 를 prompt 라고도 함 (?)
- 모델에 입력으로 제공되는 텍스트나 데이터
- 모델에게 작업을 수행하도록 지시하거나, 모델이 생성할 텍스트의 컨텍스트를 제공
- LLM 과 의사소통하기 위한 방법

---

LLM(대형 언어 모델)에서 **프롬프트 prompt**란 모델에 **입력**으로 제공되는 텍스트나 데이터입니다. 이는 모델에게 작업을 수행하도록 지시하거나, 모델이 생성할 텍스트의 컨텍스트를 제공합니다. 프롬프트는 모델의 출력을 결정하는 중요한 역할을 합니다.

### 프롬프트의 역할:
1. **모델에 대한 지시**: 프롬프트는 모델에게 무엇을 해야 할지 알려주는 역할을 합니다. 예를 들어, 사용자가 모델에게 질문을 하거나, 특정 스타일의 텍스트를 생성하도록 요청할 때 프롬프트가 필요합니다.

2. **컨텍스트 제공**: 모델이 적절한 응답을 생성할 수 있도록 필요한 배경 정보나 문맥을 제공합니다. 예를 들어, 어떤 주제에 대한 질문을 할 때, 관련 배경 정보를 제공하여 모델이 더 정확한 답을 할 수 있게 합니다.

3. **모델의 출력 유도**: 프롬프트가 모델의 출력을 유도하고, 생성되는 텍스트의 스타일, 내용, 형식 등을 결정하는 데 중요한 영향을 미칩니다.

### 예시:
1. **질문 응답**:
   - **프롬프트**: "What is the capital of France?"
   - **출력**: "The capital of France is Paris."

2. **창의적 글쓰기**:
   - **프롬프트**: "Write a short story about a dragon and a knight."
   - **출력**: 모델이 창의적으로 드래곤과 기사에 관한 이야기를 생성합니다.

3. **번역**:
   - **프롬프트**: "Translate the following sentence to Spanish: 'Hello, how are you?'"
   - **출력**: "Hola, ¿cómo estás?"

### 프롬프트의 종류:
- **단순한 질문**: 사용자가 단순히 궁금한 점을 묻는 형태.
- **지시문**: 특정 작업을 수행하도록 지시하는 형태.
- **형식화된 입력**: 특정 형식이나 구조를 갖춘 입력(예: 텍스트 요약, 번역, 코드 작성 등).

### 프롬프트 설계의 중요성:
- **정확한 결과**를 얻기 위해서는 **프롬프트의 설계**가 매우 중요합니다. 프롬프트가 모호하거나 불완전하면 모델이 원하는 출력을 생성하기 어렵습니다.
- 다양한 프롬프트를 실험하면서 모델의 반응을 관찰하고, 가장 적합한 프롬프트를 찾는 것이 중요합니다.

### 프롬프트 설계 팁:
1. **명확하고 구체적인 지시**: 무엇을 원하는지 정확하게 전달하세요. 예를 들어, "Explain quantum mechanics"보다는 "Explain quantum mechanics in simple terms for a high school student"와 같이 구체적인 요구를 하는 것이 좋습니다.
   
2. **적절한 컨텍스트 제공**: 필요한 배경 정보나 문맥을 제공하면 모델이 더 정확한 답변을 생성할 수 있습니다.

3. **다양한 실험**: 프롬프트를 조금씩 바꿔가며 테스트해 보면서 최적의 응답을 유도할 수 있습니다.

### 결론:
프롬프트는 대형 언어 모델에게 작업을 지시하는 중요한 입력으로, 모델이 수행할 작업의 방향을 결정짓는 요소입니다. 프롬프트를 잘 설계하는 것이 LLM을 효과적으로 활용하는 데 큰 도움이 됩니다.## Prompt
↑ messages 를 prompt 라고도 함 (?)
- 모델에 입력으로 제공되는 텍스트나 데이터
- 모델에게 작업을 수행하도록 지시하거나, 모델이 생성할 텍스트의 컨텍스트를 제공
- LLM 과 의사소통하기 위한 방법

---

LLM(대형 언어 모델)에서 **프롬프트 prompt**란 모델에 **입력**으로 제공되는 텍스트나 데이터입니다. 이는 모델에게 작업을 수행하도록 지시하거나, 모델이 생성할 텍스트의 컨텍스트를 제공합니다. 프롬프트는 모델의 출력을 결정하는 중요한 역할을 합니다.

### 프롬프트의 역할:
1. **모델에 대한 지시**: 프롬프트는 모델에게 무엇을 해야 할지 알려주는 역할을 합니다. 예를 들어, 사용자가 모델에게 질문을 하거나, 특정 스타일의 텍스트를 생성하도록 요청할 때 프롬프트가 필요합니다.

2. **컨텍스트 제공**: 모델이 적절한 응답을 생성할 수 있도록 필요한 배경 정보나 문맥을 제공합니다. 예를 들어, 어떤 주제에 대한 질문을 할 때, 관련 배경 정보를 제공하여 모델이 더 정확한 답을 할 수 있게 합니다.

3. **모델의 출력 유도**: 프롬프트가 모델의 출력을 유도하고, 생성되는 텍스트의 스타일, 내용, 형식 등을 결정하는 데 중요한 영향을 미칩니다.

### 예시:
1. **질문 응답**:
   - **프롬프트**: "What is the capital of France?"
   - **출력**: "The capital of France is Paris."

2. **창의적 글쓰기**:
   - **프롬프트**: "Write a short story about a dragon and a knight."
   - **출력**: 모델이 창의적으로 드래곤과 기사에 관한 이야기를 생성합니다.

3. **번역**:
   - **프롬프트**: "Translate the following sentence to Spanish: 'Hello, how are you?'"
   - **출력**: "Hola, ¿cómo estás?"

### 프롬프트의 종류:
- **단순한 질문**: 사용자가 단순히 궁금한 점을 묻는 형태.
- **지시문**: 특정 작업을 수행하도록 지시하는 형태.
- **형식화된 입력**: 특정 형식이나 구조를 갖춘 입력(예: 텍스트 요약, 번역, 코드 작성 등).

### 프롬프트 설계의 중요성:
- **정확한 결과**를 얻기 위해서는 **프롬프트의 설계**가 매우 중요합니다. 프롬프트가 모호하거나 불완전하면 모델이 원하는 출력을 생성하기 어렵습니다.
- 다양한 프롬프트를 실험하면서 모델의 반응을 관찰하고, 가장 적합한 프롬프트를 찾는 것이 중요합니다.

### 프롬프트 설계 팁:
1. **명확하고 구체적인 지시**: 무엇을 원하는지 정확하게 전달하세요. 예를 들어, "Explain quantum mechanics"보다는 "Explain quantum mechanics in simple terms for a high school student"와 같이 구체적인 요구를 하는 것이 좋습니다.
   
2. **적절한 컨텍스트 제공**: 필요한 배경 정보나 문맥을 제공하면 모델이 더 정확한 답변을 생성할 수 있습니다.

3. **다양한 실험**: 프롬프트를 조금씩 바꿔가며 테스트해 보면서 최적의 응답을 유도할 수 있습니다.

### 결론:
프롬프트는 대형 언어 모델에게 작업을 지시하는 중요한 입력으로, 모델이 수행할 작업의 방향을 결정짓는 요소입니다. 프롬프트를 잘 설계하는 것이 LLM을 효과적으로 활용하는 데 큰 도움이 됩니다.

Prompt 성능이 좋다면 LLM 답변의 성능도 좋을 것입니다.

모든 웹 사이트들은 상황에 맞는 뛰어는 성능의 prompt 를 제작하는데 전념함.

LangChain 은 prompt 를 공유하기 위한 커뮤니티도 형성되고 있다.
산업 전체 전반적으로 각 분야별 prompt 를 만들어 내고 있다.

예를 들면
| 플랫폼               | 기능              | URL                                                             |
| ----------------- | --------------- | --------------------------------------------------------------- |
| **LangChain Hub** | 프롬프트 및 체인 공유    | [smith.langchain.com/hub](https://smith.langchain.com/hub)      |
| **Discord**       | 커뮤니티, 프롬프트 논의   | [discord.gg/langchain](https://discord.gg/langchain)            |
| **GitHub**        | 코드 예제, 프롬프트 활용법 | [LangChain Examples](https://github.com/langchain-ai/langchain) |


그래서, LangChain 프레임워크의 많은 부분이 prompt 에 집중되어 있다.

prompt 끼리 결함도 할수 있고, 저장하거나 불러올수도 있다.

변수 설정 도중에 검증도 할수 있다.

## PromptTemplate
메세지 커스터마이징

In [29]:
# v0.3
from langchain_core.prompts.prompt import PromptTemplate
# https://python.langchain.com/api_reference/core/prompts/langchain_core.prompts.prompt.PromptTemplate.html

from langchain_core.prompts.chat import ChatMessagePromptTemplate, ChatPromptTemplate
# https://python.langchain.com/api_reference/core/prompts/langchain_core.prompts.chat.ChatPromptTemplate.html
# https://python.langchain.com/api_reference/core/prompts/langchain_core.prompts.chat.ChatMessagePromptTemplate.html

In [30]:
template = PromptTemplate.from_template(
     # placeholder {...} 사용
    "What is the distance between {country_a} and {country_b}"
)

template

PromptTemplate(input_variables=['country_a', 'country_b'], input_types={}, partial_variables={}, template='What is the distance between {country_a} and {country_b}')

In [32]:
# template.format() # 에러 KeyError: 'country_a'

In [33]:
prompt = template.format(country_a = 'Mexico', country_b = 'Brazil')

prompt

'What is the distance between Mexico and Brazil'

In [34]:
chat.invoke(prompt)

AIMessage(content='The distance between Mexico City, Mexico and Brasília, Brazil is approximately 4,500 kilometers (2,800 miles) when measured in a straight line. However, the actual distance may vary depending on the specific locations within each country.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 48, 'prompt_tokens': 15, 'total_tokens': 63, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BgsH63C1K7IGZVhWbFSK41mpeEkch', 'finish_reason': 'stop', 'logprobs': None}, id='run--8292957c-9157-411c-8ceb-b58408be578c-0', usage_metadata={'input_tokens': 15, 'output_tokens': 48, 'total_tokens': 63, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

## ChatPromptTemplate

In [35]:
template = ChatPromptTemplate.from_messages([
    # SystemMessage 튜플
    ("system", "You are a geography expert. And your only reply in {language}"),
    # AIMessage 튜플
    ("ai", "안녕, 내 이름은 {name} 야"),
    # HumanMessage 튜플
    ("human", """
        What is the distance between {country_a} and {country_b}.
        Also, what is your name?
        """),    
])

template

ChatPromptTemplate(input_variables=['country_a', 'country_b', 'language', 'name'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['language'], input_types={}, partial_variables={}, template='You are a geography expert. And your only reply in {language}'), additional_kwargs={}), AIMessagePromptTemplate(prompt=PromptTemplate(input_variables=['name'], input_types={}, partial_variables={}, template='안녕, 내 이름은 {name} 야'), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['country_a', 'country_b'], input_types={}, partial_variables={}, template='\n        What is the distance between {country_a} and {country_b}.\n        Also, what is your name?\n        '), additional_kwargs={})])

In [36]:
prompt = template.format_messages(
    language="Korean",
    name="뽀로로",
    country_a="Canada",
    country_b="Japan",
)

prompt

[SystemMessage(content='You are a geography expert. And your only reply in Korean', additional_kwargs={}, response_metadata={}),
 AIMessage(content='안녕, 내 이름은 뽀로로 야', additional_kwargs={}, response_metadata={}),
 HumanMessage(content='\n        What is the distance between Canada and Japan.\n        Also, what is your name?\n        ', additional_kwargs={}, response_metadata={})]

In [37]:
chat.invoke(prompt)

AIMessage(content='캐나다와 일본 사이의 거리는 약 7,000km입니다. 제 이름은 뽀로로입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 35, 'prompt_tokens': 62, 'total_tokens': 97, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BgsMdUNP0LFyAZN2jMBuXh0Zt4nOQ', 'finish_reason': 'stop', 'logprobs': None}, id='run--7290cfee-22b6-41c6-919e-f8bd333ae1dd-0', usage_metadata={'input_tokens': 62, 'output_tokens': 35, 'total_tokens': 97, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

# OutputParser and LCEL

## Output Parser 란

LLM(대형 언어 모델)에서 생성된 출력을 처리하고 '원하는 형식으로 변환'하는 데 사용되는 유틸리티입니다. 이를 통해 모델이 생성하는 텍스트를 '구조화된 데이터로 변환'하거나, '특정 규칙에 따라 데이터를 추출'할 수 있습니다

1. 출력 구조화
    - 모델의 텍스트 응답을 파싱하여 JSON, 딕셔너리, 목록 등과 같은 프로그래밍에서 사용 가능한 구조화된 데이터로 변환합니다
    
1. 출력 검증
    - 모델이 예상치 못한 출력을 반환할 경우 적절한 에러 메시지를 제공하거나 기본값을 반환하도록 처리할 수 있습니다.
    
1. 출력 표준화
    - 언어 모델의 출력이 항상 일관된 형식으로 제공되도록 보장합니다.
    

## BaseOutputParser

In [38]:
# 예제: LLM 의 출력을 -> list 로 변환시켜 보자.  (변환시키는 OutputParser 를 만들어 보자)

In [39]:
# v0.3
from langchain_core.output_parsers.base import BaseOutputParser
# https://python.langchain.com/api_reference/core/output_parsers/langchain_core.output_parsers.base.BaseOutputParser.html

# ↓ 이를 상속 받아 OutputParser 를 만든다

In [40]:
class CommaOutputParser(BaseOutputParser):

    # parse() 메소드를 반.드.시 구현.
    #   text = 입력텍스트
    def parse(self, text): 
        items = text.strip().split(",")
        return list(map(str.strip, items))
    

In [41]:
p = CommaOutputParser()

In [42]:
# 동작 확인
p.parse("   Hello,    how,   are,   you   ")

['Hello', 'how', 'are', 'you']

In [43]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered with a list of max {max_items}.
        Do NOT reply with anything else."""),

      ("human", "{question}")    
])

prompt = template.format_messages(
    max_items=10,
    question='What are the planets?'
)

result = chat.invoke(prompt)

print(result.__repr__())
print('*' * 30)
print(result.content)



AIMessage(content='1. Mercury\n2. Venus\n3. Earth\n4. Mars\n5. Jupiter\n6. Saturn\n7. Uranus\n8. Neptune\n9. Pluto', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 36, 'prompt_tokens': 47, 'total_tokens': 83, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BgsXhgMoZSiwQPlFPBu9wC5iInfsV', 'finish_reason': 'stop', 'logprobs': None}, id='run--9d2b06d7-6654-45a2-8806-16048ad150e9-0', usage_metadata={'input_tokens': 47, 'output_tokens': 36, 'total_tokens': 83, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})
******************************
1. Mercury
2. Venus
3. Earth
4. Mars
5. Jupiter
6. Saturn
7. Uranus
8. Neptune
9. Pluto


In [44]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered with a comma separated list of max {max_items}.
        Do NOT reply with anything else."""),

      ("human", "{question}")    
])

prompt = template.format_messages(
    max_items=10,
    question='What are the planets?'
)

result = chat.invoke(prompt)

print(result.__repr__())
print('*' * 30)
print(result.content)


AIMessage(content='Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, Neptune', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 17, 'prompt_tokens': 49, 'total_tokens': 66, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BgsZbQ7Jp4mPHuGCNP3SlkbWtATjA', 'finish_reason': 'stop', 'logprobs': None}, id='run--c9aba4bf-4142-4842-b870-2078527e84a8-0', usage_metadata={'input_tokens': 49, 'output_tokens': 17, 'total_tokens': 66, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})
******************************
Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, Neptune


In [46]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered with a comma separated list of max {max_items}.
        Do NOT reply with anything else."""),

      ("human", "{question}")    
])

prompt = template.format_messages(
    max_items=10,
    question='What are the colors?'
)

result = chat.invoke(prompt)

print(result.__repr__())
print('*' * 30)
print(result.content)

AIMessage(content='red, blue, green, yellow, orange, purple, pink, black, white, brown', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 19, 'prompt_tokens': 49, 'total_tokens': 68, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BgsbE2FgauuFQ3K0GzKXzH3RqK1fd', 'finish_reason': 'stop', 'logprobs': None}, id='run--d247344a-16ce-4471-a5a1-ee616177d022-0', usage_metadata={'input_tokens': 49, 'output_tokens': 19, 'total_tokens': 68, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})
******************************
red, blue, green, yellow, orange, purple, pink, black, white, brown


In [47]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered 
        with a comma separated list of max {max_items} in lowercase.
        Do NOT reply with anything else."""),

      ("human", "{question}")    
])

prompt = template.format_messages(
    max_items=10,
    question='What are the colors?'
)

result = chat.invoke(prompt)

print(result.__repr__())
print('*' * 30)
print(result.content)

AIMessage(content='red, blue, green, yellow, orange, purple, pink, black, white, brown', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 19, 'prompt_tokens': 53, 'total_tokens': 72, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BgscWRry5HrkkxXoSwEUtDh9vxXoo', 'finish_reason': 'stop', 'logprobs': None}, id='run--7741c850-fa48-4f1f-bf8e-7702f4a0da4c-0', usage_metadata={'input_tokens': 53, 'output_tokens': 19, 'total_tokens': 72, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})
******************************
red, blue, green, yellow, orange, purple, pink, black, white, brown


In [48]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered 
        with a comma separated list of max {max_items} in lowercase.
        Do NOT reply with anything else."""),

      ("human", "{question}")    
])

prompt = template.format_messages(
    max_items=10,
    question='What are the colors?'
)

result = chat.invoke(prompt)

p = CommaOutputParser()
p.parse(result.content)

['red',
 'blue',
 'green',
 'yellow',
 'orange',
 'purple',
 'pink',
 'black',
 'white',
 'brown']

In [49]:
"""
template -> format -> invoke -> parser ...

너무 단계가 많아 보인다..   이를 죄다 직접 하드 코딩하다니?

↓ LCEL 을 사용하면 위 과정들이 많~이 생략된다!
   => 바로 chain 의 등장!
"""
None

## Chain, LCEL

- LCEL (LangChain Expression Language: 랭체인 표현 언어)
  - LCEL은 LangChain 내에서 복잡한 표현식을 처리하고,
  - 모델과의 상호작용을 더 강력하고 유연하게 만드는 기능을 제공
    - 코드양을 많이 줄여줌.
    - 다양한 template 과 LLM 호출
    - 서로 다른 응답(response) 를 함께 사용케 함

In [50]:
# chain 생성!
#  '|' 연산자 사용

chain = template | chat | CommaOutputParser()

print(type(chain))
chain

<class 'langchain_core.runnables.base.RunnableSequence'>


ChatPromptTemplate(input_variables=['max_items', 'question'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['max_items'], input_types={}, partial_variables={}, template='You are a list generating machine.\n        Everything you are asked will be answered \n        with a comma separated list of max {max_items} in lowercase.\n        Do NOT reply with anything else.'), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['question'], input_types={}, partial_variables={}, template='{question}'), additional_kwargs={})])
| ChatOpenAI(client=<openai.resources.chat.completions.completions.Completions object at 0x000002D14A3CEC30>, async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x000002D14A3E07D0>, root_client=<openai.OpenAI object at 0x000002D149E87BC0>, root_async_client=<openai.AsyncOpenAI object at 0x000002D1498C1610>, temperature=0.1, model_kwa

In [51]:
# chain 호출!  invoke({...})

chain.invoke({
    "max_items": 5,
    "question": "What are the pokemons?",  
})

['pikachu', 'charmander', 'bulbasaur', 'squirtle', 'jigglypuff']

In [None]:
# TODO