# LLM and ChatModel

# LangChain  관련 주요 링크

-  Python Langchain 공식 홈:  https://python.langchain.com/
-  API 레퍼런스 홈: https://python.langchain.com/api_reference/reference.html


## Langchain 의 패키지 구성


### Base Packages
- [Core: langchain-core](https://python.langchain.com/api_reference/core)
- [Langchain: langchain](https://python.langchain.com/api_reference/langchain)
- [Test Splitters: langchain-text-splitters](https://python.langchain.com/api_reference/text_splitters)
- [Community: langchain-community](https://python.langchain.com/api_reference/community)
- [Experimental: langchain-experimental](https://python.langchain.com/api_reference/experimental)

### Integrations
- 랭체인은 수많은 LLM 모델들과 커뮤니티, 벡터스토어, 데이터베이스, 툴 들과 함께 사용할수 있도록 제공되는 패키지들이 많다 (앞으로 더 많아 질거다)
- [OpanAI: langchain-openai](https://python.langchain.com/api_reference/openai)
- [Huggingface: langchain-huggingface](https://python.langchain.com/api_reference/huggingface)
- [MistalAI: langchain-mistralai](https://python.langchain.com/api_reference/mistralai)
- 그밖에도 많이 있다 ...


# 환경변수 설정

In [1]:
import os

In [2]:
print(f'{os.environ['OPENAI_API_KEY'][:20]}...')

sk-proj-iKU13YeoxNgF...


# ■ LLM vs. Chat model

LangChain 은 LLM 과 Chat model 두가지를 지원합니다

`LLM`(Large Language Model)과 `Chat Model`은 비슷한 역할을 하지만, 약간의 차이점이 있습니다.

이는 주로 **모델의 입력 및 상호작용 방식**에서 나타난다.

---

### 1. LLM (Large Language Model)
- **특징**:
  - 일반적으로 **텍스트 입력**을 받고, 이에 대한 텍스트 출력을 생성합니다.
  - 단순한 프롬프트 기반 입력/출력을 처리하기 위한 모델입니다.
  - 사용자가 제공한 입력 텍스트를 분석하고, 그에 대한 결과를 한 번에 출력합니다.
- **입력 형식**:
  ```plaintext
  "Tell me a summary of the benefits of LangChain."
  ```
- **출력 형식**:
  ```plaintext
  "LangChain is a framework designed to simplify the development of applications powered by large language models, making it easier to manage prompts, chains, and integrations."
  ```
- **주요 사용 사례**:
  - 단일 질문-답변
  - 텍스트 생성
  - 간단한 프롬프트 처리를 위한 작업

---

### 2. Chat Model
- **특징**:
  - **대화 형식**으로 설계된 모델로, 다중 턴 대화를 처리할 수 있다.
  - 입력 형식이 **메시지 Message**로 구성되며, 각 메시지는 사용자의 메시지 (User Message)와 시스템의 메시지(System Message)로 나뉜다.
  - '문맥'을 이해하고 '대화의 흐름'을 유지하는 데 최적화되어 있다.
- **입력 형식**:
  메시지 객체를 전달해야 하며, 보통 아래와 같은 구조입니다.
  ```python
  [
      {"role": "system", "content": "You are an assistant who helps with Python programming."},
      {"role": "user", "content": "Can you explain the difference between LLM and chat models in LangChain?"}
  ]
  ```
- **출력 형식**:
  ```python
  {"role": "assistant", "content": "Sure! LLM and Chat Models differ in their input and interaction styles..."}
  ```
- **주요 사용 사례**:
  - 다중 턴 대화
  - 문맥 추적 및 유지 (대화 히스토리 반영)
  - 대화 기반 챗봇, FAQ 시스템 등

---

### 3. 주요 차이점 요약
| **특징**        | **LLM**                                                | **Chat Model**                                        |
|-----------------|------------------------------------------------------|----------------------------------------------------|
| **입력 형식**   | 단일 텍스트 입력                                         | 역할 기반의 대화 메시지 객체 (role: system, user, assistant) |
| **대화 히스토리**| 문맥 추적 불가능 (단일 요청 처리)                          | 대화 히스토리를 통해 문맥을 유지하고 반영                 |
| **사용 목적**   | 텍스트 생성, 요약, 단순 질의응답                             | 대화형 인터페이스, 챗봇, 다중 턴 질의응답               |
| **응용 사례**   | 단일 질문-답변, 텍스트 생성                                | 고객 지원 챗봇, 인터랙티브 Q&A, 멀티턴 대화 시스템          |

---


### 5. 언제 어떤 것을 선택해야 할까요?
- **단일 작업이나 간단한 텍스트 생성**:
  - `LLM`을 사용하는 것이 적합합니다.
- **대화 기반 애플리케이션이나 문맥을 유지해야 하는 작업**:
  - `Chat Model`을 사용하는 것이 더 적합합니다.

# LangChain

In [4]:
import langchain
langchain.__version__

'0.3.23'

In [5]:
# LLM 모델
from langchain_openai.llms.base import OpenAI

In [6]:
# ChatModel
from langchain_openai.chat_models.base import ChatOpenAI

In [7]:
llm = OpenAI()   # OPENAI_API_KEY 필요!

In [8]:
llm.model_name

'gpt-3.5-turbo-instruct'

In [9]:
chat = ChatOpenAI()

In [10]:
chat.model_name

'gpt-3.5-turbo'

# LLM 호출 (invoke)

In [13]:
result = llm.invoke("How many planets are there?")  # 입력 str
print(type(result))  # 출력 str
print('답변', result)

<class 'str'>
답변 

There are currently eight planets in our solar system: Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, and Neptune. However, there may be more planets beyond our solar system that have not yet been discovered. 


In [14]:
result = llm.invoke("태양계에는 얼마나 많은 행성들이 있죠?")  # 입력 str
print(type(result))  # 출력 str
print('답변', result)

<class 'str'>
답변 
태양계에는 8개의 행성이 있습니다. 이들은 수성, 금성, 지구, 화성, 목성, 토성, 천왕성, 해왕성입니다. 하지만 최근에는 명왕성을 비롯한 여러 개의 소행성과 미세 행성들도 발견되었습니다.


# ChatModel 호출

In [16]:
result = chat.invoke("How many planets are there?")  # 입력 str
print(type(result))  # 출력 Message
print('답변', result)
print('💙', result.content)

<class 'langchain_core.messages.ai.AIMessage'>
답변 content='In our solar system, there are 8 planets: Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, and Neptune.' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 29, 'prompt_tokens': 13, 'total_tokens': 42, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BopJL7k9QhssZYWnoHL9xwKTP6L0e', 'finish_reason': 'stop', 'logprobs': None} id='run--78a43e8a-5c6b-432d-b4b7-c4a337347e7f-0' usage_metadata={'input_tokens': 13, 'output_tokens': 29, 'total_tokens': 42, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}}
💙 In our solar system, there are 8 planets: Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, a

In [17]:
result = chat.invoke("태양계에는 얼마나 많은 행성들이 있죠?")  # 입력 str
print(type(result))  # 출력 Message
print('답변', result)
print('💙', result.content)

<class 'langchain_core.messages.ai.AIMessage'>
답변 content='태양계에는 총 8개의 행성이 있습니다. 수성, 금성, 지구, 화성, 목성, 토성, 천왕성, 명왕성입니다.' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 57, 'prompt_tokens': 32, 'total_tokens': 89, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BopVwvkGbPyWN0w4uqcZGdPZKfVmZ', 'finish_reason': 'stop', 'logprobs': None} id='run--4dbac12d-a982-480c-b4d1-075e7d1c78d2-0' usage_metadata={'input_tokens': 32, 'output_tokens': 57, 'total_tokens': 89, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}}
💙 태양계에는 총 8개의 행성이 있습니다. 수성, 금성, 지구, 화성, 목성, 토성, 천왕성, 명왕성입니다.


## 한글 or 영어 ?

챗 GPT의 언어 처리 능력은 인공지능 기술의 훌륭한 발전을 보여줍니다. 하지만 사용자가 받는 답변의 품질은 제출하는 언어에 따라 약간의 차이가 있을 수 있습니다. 이런 차이는 챗 GPT가 학습하는 과정에서 다양한 언어의 데이터 양과 품질, 그리고 언어별 특성을 얼마나 잘 처리하는지에 따라 결정됩니다.

OpenAI의 언어 모델, 특히 GPT 시리즈는 다양한 데이터 소스에서 얻은 대량의 데이터로 학습됩니다. 이 데이터는 주로 영어를 비롯한 여러 언어에서 수집되며, 학습 데이터의 구성은 모델의 성능과 일반화 능력에 큰 영향을 미칩니다.

영어는 전세계적으로 많이 사용되며*, 인터넷 상의 데이터도 영어가 많아서 챗 GPT는 영어 질문에 대해 더 정확하고 자연스러운 답변을 제공할 확률이 높습니다. 그러나 한국어와 같은 다른 언어는 상대적으로 데이터가 부족하거나, 언어의 복잡성 때문에 처리가 더 어려울 수 있어, 이로 인해 답변의 품질에 차이가 나타날 수 있습니다.

참고
- https://fastcampus.co.kr/gov_review_insightGPTlang

In [None]:
# 아래와 같이 api 키를 직접 매개변수로 건네줄수도 있지만...  KEY 비추한다.  환경변수 사용을 추천한다.
#
# llm = OpenAI(openai_api_key="sk-")
# chat = ChatOpenAI(openai_api_key="sk-")

In [18]:
from langchain_anthropic.chat_models import ChatAnthropic

# Invoke Messages

In [19]:
# ChatModel 은 '질문'만 받는게 아니라 '대화' 도 할수 있다 (Message 를 보낼수도 있다)
# '대화(conversation)' 은
#    : 여러 메세지 묶음
#    : 상대의 대화의 맥락에 맞게 대답할수 있다.

In [None]:
chat = ChatOpenAI(temperature=0.1)
        # 모델의 응답 다양성을 제어하는 역할을 합니다.
        # 이는 OpenAI의 GPT 모델에서 사용하는 매개변수로,
        #  생성되는 텍스트의 창의성과 확률적 다양성(랜덤성을 조정합니다)ㄴ


## Human / System / AI Message

In [20]:
from langchain_core.messages.human import HumanMessage
from langchain_core.messages.system import SystemMessage
from langchain_core.messages.ai import AIMessage

In [21]:
# HumanMessage : 사람이 AI 에 보내는 Message
# SystemMessage : LLM 에 설정들을 제공하기 위한 Message
# AIMessage: AI 에 의해 리턴되는 Message

In [22]:
messages = [
    SystemMessage(
        content = "You are a geography expert. And your only reply in Korean",
    ),
    AIMessage(
        content = "안녕, 내 이름은 둘리 야",
    ),
    HumanMessage(
        content = """What is the distance between Mexico and Thailand.
          Also, what is your name?""",        
    ),
]

In [26]:
result = chat.invoke(messages)  # <- 입력 Messages

result

AIMessage(content='멕시코와 태국 사이의 거리는 대략 15,000km입니다. 제 이름은 둘리입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 36, 'prompt_tokens': 58, 'total_tokens': 94, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-BopkXrwlCvcJyKrj2SqZ57MfNtd2z', 'finish_reason': 'stop', 'logprobs': None}, id='run--16a1aad9-8787-4b5d-b6b8-6534acb93231-0', usage_metadata={'input_tokens': 58, 'output_tokens': 36, 'total_tokens': 94, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [27]:
result.content

'멕시코와 태국 사이의 거리는 대략 15,000km입니다. 제 이름은 둘리입니다.'

# Prompt Template

## Prompt
↑ messages 를 prompt 라고도 함 (?)
- 모델에 입력으로 제공되는 텍스트나 데이터
- 모델에게 작업을 수행하도록 지시하거나, 모델이 생성할 텍스트의 컨텍스트를 제공
- LLM 과 의사소통하기 위한 방법

---

LLM(대형 언어 모델)에서 **프롬프트 prompt**란 모델에 **입력**으로 제공되는 텍스트나 데이터입니다. 이는 모델에게 작업을 수행하도록 지시하거나, 모델이 생성할 텍스트의 컨텍스트를 제공합니다. 프롬프트는 모델의 출력을 결정하는 중요한 역할을 합니다.

### 프롬프트의 역할:
1. **모델에 대한 지시**: 프롬프트는 모델에게 무엇을 해야 할지 알려주는 역할을 합니다. 예를 들어, 사용자가 모델에게 질문을 하거나, 특정 스타일의 텍스트를 생성하도록 요청할 때 프롬프트가 필요합니다.

2. **컨텍스트 제공**: 모델이 적절한 응답을 생성할 수 있도록 필요한 배경 정보나 문맥을 제공합니다. 예를 들어, 어떤 주제에 대한 질문을 할 때, 관련 배경 정보를 제공하여 모델이 더 정확한 답을 할 수 있게 합니다.

3. **모델의 출력 유도**: 프롬프트가 모델의 출력을 유도하고, 생성되는 텍스트의 스타일, 내용, 형식 등을 결정하는 데 중요한 영향을 미칩니다.

### 예시:
1. **질문 응답**:
   - **프롬프트**: "What is the capital of France?"
   - **출력**: "The capital of France is Paris."

2. **창의적 글쓰기**:
   - **프롬프트**: "Write a short story about a dragon and a knight."
   - **출력**: 모델이 창의적으로 드래곤과 기사에 관한 이야기를 생성합니다.

3. **번역**:
   - **프롬프트**: "Translate the following sentence to Spanish: 'Hello, how are you?'"
   - **출력**: "Hola, ¿cómo estás?"

### 프롬프트의 종류:
- **단순한 질문**: 사용자가 단순히 궁금한 점을 묻는 형태.
- **지시문**: 특정 작업을 수행하도록 지시하는 형태.
- **형식화된 입력**: 특정 형식이나 구조를 갖춘 입력(예: 텍스트 요약, 번역, 코드 작성 등).

### 프롬프트 설계의 중요성:
- **정확한 결과**를 얻기 위해서는 **프롬프트의 설계**가 매우 중요합니다. 프롬프트가 모호하거나 불완전하면 모델이 원하는 출력을 생성하기 어렵습니다.
- 다양한 프롬프트를 실험하면서 모델의 반응을 관찰하고, 가장 적합한 프롬프트를 찾는 것이 중요합니다.

### 프롬프트 설계 팁:
1. **명확하고 구체적인 지시**: 무엇을 원하는지 정확하게 전달하세요. 예를 들어, "Explain quantum mechanics"보다는 "Explain quantum mechanics in simple terms for a high school student"와 같이 구체적인 요구를 하는 것이 좋습니다.
   
2. **적절한 컨텍스트 제공**: 필요한 배경 정보나 문맥을 제공하면 모델이 더 정확한 답변을 생성할 수 있습니다.

3. **다양한 실험**: 프롬프트를 조금씩 바꿔가며 테스트해 보면서 최적의 응답을 유도할 수 있습니다.

### 결론:
프롬프트는 대형 언어 모델에게 작업을 지시하는 중요한 입력으로, 모델이 수행할 작업의 방향을 결정짓는 요소입니다. 프롬프트를 잘 설계하는 것이 LLM을 효과적으로 활용하는 데 큰 도움이 됩니다.

Prompt 성능이 좋다면 LLM 답변의 성능도 좋을 것입니다.

모든 웹 사이트들은 상황에 맞는 뛰어는 성능의 prompt 를 제작하는데 전념함.

LangChain 은 prompt 를 공유하기 위한 커뮤니티도 형성되고 있다.
산업 전체 전반적으로 각 분야별 prompt 를 만들어 내고 있다.

예를 들면
| 플랫폼               | 기능              | URL                                                             |
| ----------------- | --------------- | --------------------------------------------------------------- |
| **LangChain Hub** | 프롬프트 및 체인 공유    | [smith.langchain.com/hub](https://smith.langchain.com/hub)      |
| **Discord**       | 커뮤니티, 프롬프트 논의   | [discord.gg/langchain](https://discord.gg/langchain)            |
| **GitHub**        | 코드 예제, 프롬프트 활용법 | [LangChain Examples](https://github.com/langchain-ai/langchain) |


그래서, LangChain 프레임워크의 많은 부분이 prompt 에 집중되어 있다.

prompt 끼리 결함도 할수 있고, 저장하거나 불러올수도 있다.

변수 설정 도중에 검증도 할수 있다.

In [28]:
# v0.3
from langchain_core.prompts.prompt import PromptTemplate
# https://python.langchain.com/api_reference/core/prompts/langchain_core.prompts.prompt.PromptTemplate.html

from langchain_core.prompts.chat import ChatMessagePromptTemplate, ChatPromptTemplate
# https://python.langchain.com/api_reference/core/prompts/langchain_core.prompts.chat.ChatPromptTemplate.html
# https://python.langchain.com/api_reference/core/prompts/langchain_core.prompts.chat.ChatMessagePromptTemplate.html

In [None]:
# ChatPromptTemplate 는 message(s) 로부터 template 을 만듬.
# PromptTemplate 는 string 을 이용해서 template 을 만듬.
#  ↑ 둘다 유용하게 쓰임.

## PromptTemplate

In [29]:
template = PromptTemplate.from_template(
    # placeholder {...} 사용
    "What is the distance between {country_a} and {country_b}"    
)

print(type(template))
template

<class 'langchain_core.prompts.prompt.PromptTemplate'>


PromptTemplate(input_variables=['country_a', 'country_b'], input_types={}, partial_variables={}, template='What is the distance between {country_a} and {country_b}')

In [31]:
# template.format()  # KeyError: 'country_a'

In [32]:
prompt = template.format(country_a = 'Mexico', country_b = 'Thailand')

prompt

'What is the distance between Mexico and Thailand'

In [33]:
chat.invoke(prompt)

AIMessage(content='The distance between Mexico and Thailand is approximately 15,332 kilometers (9,528 miles) when measured in a straight line.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 26, 'prompt_tokens': 15, 'total_tokens': 41, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-Bopua7A9J6A0Q7ppCQGYOAzJJsHBR', 'finish_reason': 'stop', 'logprobs': None}, id='run--1606ccb6-1082-43fc-9dd4-31272cd61164-0', usage_metadata={'input_tokens': 15, 'output_tokens': 26, 'total_tokens': 41, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

## ChatPromptTemplate

In [34]:
template = ChatPromptTemplate.from_messages([
    # SystemMessage 튜플
    ("system", "You are a geography expert. And your only reply in {language}"),
    
    # AIMessage 튜플
    ("ai", "안녕, 내 이름은 {name} 야"),

    # HumanMessage 튜플
    ("human", """
        What is the distance between {country_a} and {country_b}.
        Also, what is your name?
    """),
])

print(type(template))
template

<class 'langchain_core.prompts.chat.ChatPromptTemplate'>


ChatPromptTemplate(input_variables=['country_a', 'country_b', 'language', 'name'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['language'], input_types={}, partial_variables={}, template='You are a geography expert. And your only reply in {language}'), additional_kwargs={}), AIMessagePromptTemplate(prompt=PromptTemplate(input_variables=['name'], input_types={}, partial_variables={}, template='안녕, 내 이름은 {name} 야'), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['country_a', 'country_b'], input_types={}, partial_variables={}, template='\n        What is the distance between {country_a} and {country_b}.\n        Also, what is your name?\n    '), additional_kwargs={})])

In [35]:
prompt = template.format_messages(
    language="Korean",
    name="뽀로로",
    country_a="Canada",
    country_b="Japan",
)

print(type(prompt))
prompt

<class 'list'>


[SystemMessage(content='You are a geography expert. And your only reply in Korean', additional_kwargs={}, response_metadata={}),
 AIMessage(content='안녕, 내 이름은 뽀로로 야', additional_kwargs={}, response_metadata={}),
 HumanMessage(content='\n        What is the distance between Canada and Japan.\n        Also, what is your name?\n    ', additional_kwargs={}, response_metadata={})]

In [36]:
chat.invoke(prompt)

AIMessage(content='캐나다와 일본 사이의 거리는 대략 8058 킬로미터 입니다. 제 이름은 뽀로로입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 40, 'prompt_tokens': 62, 'total_tokens': 102, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-Boq2Y5L83cChJ93ZzkoGLHVnC0BVV', 'finish_reason': 'stop', 'logprobs': None}, id='run--08edd5c3-f64f-4c29-9ef9-67205cc6c060-0', usage_metadata={'input_tokens': 62, 'output_tokens': 40, 'total_tokens': 102, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

# OutParser

## Output Parser 란

LLM(대형 언어 모델)에서 생성된 출력을 처리하고 '원하는 형식으로 변환'하는 데 사용되는 유틸리티입니다. 이를 통해 모델이 생성하는 텍스트를 '구조화된 데이터로 변환'하거나, '특정 규칙에 따라 데이터를 추출'할 수 있습니다

1. 출력 구조화
    - 모델의 텍스트 응답을 파싱하여 JSON, 딕셔너리, 목록 등과 같은 프로그래밍에서 사용 가능한 구조화된 데이터로 변환합니다
    
1. 출력 검증
    - 모델이 예상치 못한 출력을 반환할 경우 적절한 에러 메시지를 제공하거나 기본값을 반환하도록 처리할 수 있습니다.
    
1. 출력 표준화
    - 언어 모델의 출력이 항상 일관된 형식으로 제공되도록 보장합니다.
    

## BaseOutputParser 를 구현한 OutputParser 만들어 보기

In [37]:
"""
이번예제에서는 LLM 의 출력을 → list 로 변환시켜 보자.
LLM 의 출력(답변) 을 list 로 변환하는 OutputParser 를 만들어 보자
"""
None

In [38]:
# v0.3
from langchain_core.output_parsers.base import BaseOutputParser
# https://python.langchain.com/api_reference/core/output_parsers/langchain_core.output_parsers.base.BaseOutputParser.html

# ↓ 이를 상속 받아 OutputParser 를 만든다

In [39]:
class CommaOutputParser(BaseOutputParser):

    # parse() 를 반드시 구현해야 한다
    #  text <- 입력텍스트
    def parse(self, text):
        items = text.strip().split(',')
        return list(map(str.strip, items))
    

In [40]:
# 동작 확인
p = CommaOutputParser()

In [41]:
p.parse("   Hello, how,    are,   you    ")

['Hello', 'how', 'are', 'you']

In [44]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered with a list of max {max_items}.
        Do NOT reply with anything else."""),

      ("human", "{question}")
  ])

prompt = template.format_messages(
    max_items=10,
    question="What are the planets?",
)

result = chat.invoke(prompt)

print(result.content)



1. Mercury
2. Venus
3. Earth
4. Mars
5. Jupiter
6. Saturn
7. Uranus
8. Neptune
9. Pluto


In [45]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered with a comma separated list of max {max_items}.
        Do NOT reply with anything else."""),

      ("human", "{question}")
  ])

prompt = template.format_messages(
    max_items=10,
    question="What are the planets?",
)

result = chat.invoke(prompt)

print(result.content)

Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, Neptune, Pluto


In [46]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered with a comma separated list of max {max_items}.
        Do NOT reply with anything else."""),

      ("human", "{question}")
  ])

prompt = template.format_messages(
    max_items=10,
    question="What are the colors?",
)

result = chat.invoke(prompt)

print(result.content)

Red, blue, green, yellow, purple, orange, pink, black, white, brown


In [47]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered 
        with a comma separated list of max {max_items} in lowercase.
        Do NOT reply with anything else."""),

      ("human", "{question}")
  ])

prompt = template.format_messages(
    max_items=10,
    question="What are the colors?",
)

result = chat.invoke(prompt)

print(result.content)

red, blue, green, yellow, pink, orange, purple, brown, black, white


In [48]:
template = ChatPromptTemplate.from_messages([
      ("system", """You are a list generating machine.
        Everything you are asked will be answered 
        with a comma separated list of max {max_items} in lowercase.
        Do NOT reply with anything else."""),

      ("human", "{question}")
  ])

prompt = template.format_messages(
    max_items=10,
    question="What are the colors?",
)

result = chat.invoke(prompt)

p = CommaOutputParser()
p.parse(result.content)

['red',
 'blue',
 'green',
 'yellow',
 'orange',
 'pink',
 'purple',
 'black',
 'white',
 'brown']

In [49]:
"""
template -> format -> invoke -> parser ...

매 단계별로 하드코딩???

↓ LCEL 을 사용하면 위 과정이 많~이 생략된다 => chain~!
"""
None

## Chain, LCEL

- LCEL (LangChain Expression Language: 랭체인 표현 언어)
  - LCEL은 LangChain 내에서 복잡한 표현식을 처리하고,
  - 모델과의 상호작용을 더 강력하고 유연하게 만드는 기능을 제공
    - 코드양을 많이 줄여줌.
    - 다양한 template 과 LLM 호출
    - 서로 다른 응답(response) 를 함께 사용케 함

In [50]:
# chain 생성
#  '|' 연산자 사용
#  LangChain 의 핵심!~

chain = template | chat | CommaOutputParser()

print(type(chain))
chain

<class 'langchain_core.runnables.base.RunnableSequence'>


ChatPromptTemplate(input_variables=['max_items', 'question'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['max_items'], input_types={}, partial_variables={}, template='You are a list generating machine.\n        Everything you are asked will be answered \n        with a comma separated list of max {max_items} in lowercase.\n        Do NOT reply with anything else.'), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['question'], input_types={}, partial_variables={}, template='{question}'), additional_kwargs={})])
| ChatOpenAI(client=<openai.resources.chat.completions.completions.Completions object at 0x000001A6F083BF80>, async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x000001A6F0E93AD0>, root_client=<openai.OpenAI object at 0x000001A6F04B7A40>, root_async_client=<openai.AsyncOpenAI object at 0x000001A6F0EB7D40>, model_kwargs={}, openai_ap

In [53]:
# chain 호출!  invoke({...})

chain.invoke({
    "max_items": 5,
    "question": "What are the pokemons?",
})

['bulbasaur', 'charmander', 'squirtle', 'pikachu', 'eevee']

In [None]:
"""
['bulbasaur', 'charmander', 'squirtle', 'pikachu', 'eevee']

↑ Chain 을 사용해 꽤나 간결한 코드로 작동된다!

chain = template | chat | CommaOutputParser()

사실 랭체인은 내부에서
  .format_message() 호출 -> prompt 완성
  -> chat.invoke() 호출 -> AIMessage 리턴
  -> parse() 호출한다

이러한 일련의 작업을 chain.invoke() 호출 단한번으로 끝낸다.

이러한 chain 구문으로 정말 다양한 작업의 흐름들을 수행할수 있다.


"""
None

In [None]:
"""
chain 끼리도 결합할수 도 있다.

[예시]
chain_one = template | chat | CommaOutputParser()
chain_two = template_2 | chat | OutputParser2()

all = chain_one | chain_two | OutputParser3()
  ↑ chain_one 의 출력을 chain_two 의 입력값으로 사용 가능.
"""
None

## Chaining Chains

In [None]:
#  공식]
#  https://python.langchain.com/docs/concepts/lcel/
#  https://python.langchain.com/docs/how_to/#langchain-expression-language-lcel
#  https://python.langchain.com/docs/how_to/lcel_cheatsheet/

In [None]:
# 랭체인 대신 OpenAI api 를 사용한다면 에서 gpt-3.5-turbo 에게서 응답 받는 방법은 대체로 다음과 같다.
# https://platform.openai.com/docs/guides/text-generation

"""
# from openai import OpenAI
client = OpenAI()

completion = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "developer", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": "Write a haiku about recursion in programming."
        }
    ]
)

print(completion.choices[0].message)
"""
None

# ↑물론 이는 openai 패키지를 사용하는 것이다

# LangChain 내부에선 OpenAI python package 를 사용하곤 있지만,

# LangChain 을 사용하지 않는다면 위와 같은 코드를 작성해야 한다는 것이다

## LCEL 의 input / output

LangChain Expression Language (LCEL)은 LangChain에서 다양한 입력 유형을 활용하여 LLM과 도구를 결합하고 데이터 흐름을 제어하는 언어입니다. LCEL은 LLM의 입력과 처리에 사용되는 **입력 타입**(Input Types)을 명확하게 정의하여, 사용자 인터페이스와 도구 간의 상호작용을 더욱 효율적으로 만듭니다.

아래는 LCEL에서 자주 사용되는 주요 **입력 타입**에 대한 설명입니다.

---

### 1. **Plain Text**
- **설명**: 단순한 텍스트 입력입니다. 이 형식은 가장 기본적인 입력으로, LLM이 자유로운 자연어 처리를 수행할 수 있도록 합니다.
- **예시**:
  ```plaintext
  What is the capital of France?
  ```

- **특징**:
  - 텍스트 분석, 생성 및 대화형 작업에 적합.
  - 추가적인 구조나 메타데이터 없이 단순 텍스트로 전달.

---

### 2. **Structured Input**
- **설명**: JSON, 딕셔너리, 또는 구조화된 형식의 입력입니다. 데이터 필드가 명시적으로 정의되어 있으며, 모델이 이 구조에 따라 데이터를 처리합니다.
- **예시**:
  ```json
  {
      "question": "What is the capital of France?",
      "context": "France is a country in Europe."
  }
  ```

- **특징**:
  - 명시적인 데이터 필드를 통해 LLM이 필요한 정보를 더 정확히 추출 및 활용 가능.
  - 복잡한 데이터 분석이나 멀티 필드 처리가 필요한 작업에 유용.

---

### 3. **Prompt Templates**
- **설명**: 사용자가 정의한 프롬프트 템플릿을 입력으로 사용합니다. 템플릿에 변수 값을 채워 넣어 모델에 전달합니다.
- **예시**:
  ```python
  template = "Translate the following text to French: {text}"
  input = template.format(text="Hello, how are you?")
  ```

- **특징**:
  - 변수 기반 입력을 통해 재사용 가능성이 높음.
  - 사용자 정의 입력 생성 및 제어에 적합.

---

### 4. **Key-Value Pairs**
- **설명**: 키-값 쌍의 입력 형식으로, 명시적인 쿼리 형태로 정보를 제공합니다.
- **예시**:
  ```python
  {
      "name": "John",
      "age": 30,
      "location": "New York"
  }
  ```

- **특징**:
  - 정형화된 데이터를 제공하여 LLM이 더 효율적으로 데이터를 분석 및 처리할 수 있음.
  - 특정 정보 필드가 명확히 필요할 때 유용.

---

### 5. **Multi-modal Inputs**
- **설명**: 텍스트, 이미지, 오디오 등 다양한 데이터 유형을 조합한 입력 형식입니다.
- **예시**:
  ```python
  {
      "text": "Describe the image.",
      "image": "<image_data>"
  }
  ```

- **특징**:
  - 멀티모달 모델과 통합하여 다양한 입력 형식을 처리 가능.
  - 이미지 캡셔닝, 오디오-텍스트 변환 등의 작업에서 활용.

---

### 6. **Serialized Inputs**
- **설명**: 입력 데이터를 시리얼화(Serialize)하여 특정 형식으로 변환한 입력입니다. 예를 들어, JSON 문자열로 데이터를 전달합니다.
- **예시**:
  ```python
  input = '{"question": "What is the capital of France?", "context": "France is in Europe."}'
  ```

- **특징**:
  - 데이터가 외부 시스템이나 API와 통신할 때 유용.
  - 데이터 포맷에 대한 유연성이 높음.

---

### 7. **Chat Messages**
- **설명**: 채팅 메시지 형식의 입력으로, 사용자가 역할(role)과 내용(content)을 정의하여 LLM에게 대화 형식으로 정보를 전달합니다.
- **예시**:
  ```python
  [
      {"role": "system", "content": "You are an assistant."},
      {"role": "user", "content": "What is the weather today?"}
  ]
  ```

- **특징**:
  - ChatGPT 같은 대화형 모델에 적합.
  - 대화의 맥락을 유지하고 다중 발화 입력을 처리할 수 있음.

---

### 8. **Custom Input Types**
- **설명**: 사용자가 애플리케이션 요구 사항에 따라 정의하는 커스텀 입력 형식입니다.
- **예시**:
  ```python
  class CustomInput:
      def __init__(self, field1, field2):
          self.field1 = field1
          self.field2 = field2
  ```

- **특징**:
  - 특정 애플리케이션 로직과 완벽히 맞는 형식으로 데이터 처리.
  - 표준 입력 타입으로 표현하기 어려운 복잡한 구조를 다룰 때 유용.

---

### 요약
LCEL의 입력 타입은 단순 텍스트부터 구조화된 데이터, 멀티모달 입력까지 다양하게 제공되며, 각 타입은 특정 용도에 맞게 설계되었습니다. 입력 데이터를 정교하게 설계하고 적절한 형식을 선택함으로써 모델의 성능을 최적화할 수 있습니다.

### 첫번째 chain

In [54]:
chef_prompt = ChatPromptTemplate.from_messages([
    ('system', 
    """
      You are a world-class international chef.
      You create easy to follow recipes for any type of cuisines
      with easy to find ingredients.    
    """),
    ('human', 
    """
        I want to cook {cuisine} food.
    """),
])

chef_chain = chef_prompt | chat

In [None]:
# 위 Chef 에게서 레시피를 받게 될텐데, 이게 첫번째 chain 의 출력결과다
# 두번째 chain 에선 위 출력결과를 입력받아서 '채식 재료'만 사용하도록 변형 할겁니다.

# 작업은 두개
#   1. 레시피를 전달해주는 셰프
#   2. 채식주의자를 위한 셰프

### 두번째 chain

In [55]:
veg_chef_prompt = ChatPromptTemplate.from_messages([
  ("system",
    """
      You are a vegetarian chef specialized on
      making traditional recipies vegetarian.
      You find alternative ingredients and explain their preparation.
      You don't radically modify the recipe.
      If there is no alternative for a food just say
      you don't know how to replace it.
    """
  ),
  ("human","{recipe}"),    
])

veg_chain = veg_chef_prompt | chat

### final chain

In [57]:
# final_chain = chef_chain | veg_chain

# chef_chain 의 output 이 veg_chain 의 {recipe} 입력값으로 전달되게 하기
final_chain = {'recipe': chef_chain} | veg_chain

In [58]:
result = final_chain.invoke({
    'cuisine': 'indian',   # 첫번째 chain 인 chef_chain 의 {cuisine} 에 전달
})

# ↓ 두번째 chain 인 veg_chain 의 결과.
result

AIMessage(content="For a vegetarian version of Chicken Tikka Masala, we can substitute the chicken with a plant-based alternative such as tofu or paneer. Here's how you can make Vegetarian Tikka Masala using paneer:\n\nIngredients:\n- 1 lb paneer, cut into cubes\n- 1 cup plain yogurt (you can use plant-based yogurt)\n- 3 cloves garlic, minced\n- 1-inch piece of ginger, grated\n- 1 tbsp garam masala\n- 1 tsp ground turmeric\n- 1 tsp ground cumin\n- 1 tsp ground coriander\n- 1/2 tsp chili powder (adjust to taste)\n- Salt and pepper to taste\n- 2 tbsp vegetable oil\n- 1 onion, finely chopped\n- 1 can (14 oz) diced tomatoes\n- 1 cup heavy cream or coconut cream\n- Fresh cilantro, chopped (for garnish)\n- Cooked basmati rice or naan (to serve)\n\nInstructions:\n1. Instead of marinating chicken, marinate the paneer cubes in a mixture of yogurt, garlic, ginger, garam masala, turmeric, cumin, coriander, chili powder, salt, and pepper. Cover and refrigerate for at least 1 hour.\n\n2. Follow the

In [59]:
print(result.content)

For a vegetarian version of Chicken Tikka Masala, we can substitute the chicken with a plant-based alternative such as tofu or paneer. Here's how you can make Vegetarian Tikka Masala using paneer:

Ingredients:
- 1 lb paneer, cut into cubes
- 1 cup plain yogurt (you can use plant-based yogurt)
- 3 cloves garlic, minced
- 1-inch piece of ginger, grated
- 1 tbsp garam masala
- 1 tsp ground turmeric
- 1 tsp ground cumin
- 1 tsp ground coriander
- 1/2 tsp chili powder (adjust to taste)
- Salt and pepper to taste
- 2 tbsp vegetable oil
- 1 onion, finely chopped
- 1 can (14 oz) diced tomatoes
- 1 cup heavy cream or coconut cream
- Fresh cilantro, chopped (for garnish)
- Cooked basmati rice or naan (to serve)

Instructions:
1. Instead of marinating chicken, marinate the paneer cubes in a mixture of yogurt, garlic, ginger, garam masala, turmeric, cumin, coriander, chili powder, salt, and pepper. Cover and refrigerate for at least 1 hour.

2. Follow the same steps as the original recipe, but wh

## streaming= 과 callbacks

In [None]:
# ↑ 전부 실행 완료 될때까지 기다리는게 지루하다.
#   어떻게 진행되는지도 궁금하다.
#   진행되는 과정을 실시간으로 출력 할수 있다!

# Chat model 의 streaming=
#  streaming 은 LLM model 의 응답(resposne) 이 생성되는 것을
#    실시간으로(?) 보게 해줌.

# callbacks=[StreamingStdOutCallbackHandler()]
#    볼수 있는 문자(토큰)가 생길 때마다 print 해준다.

# callbacks 는 다양한 'event' 감지도 가능
#    LLM 이 작업을 시작했다거나, 끝냈다거나.
#    문자를 생성했다거나, 에러가 발생하거나..



In [60]:
# v0.3    https://python.langchain.com/api_reference/core/callbacks/langchain_core.callbacks.streaming_stdout.StreamingStdOutCallbackHandler.html
from langchain_core.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

In [61]:
chat = ChatOpenAI(
    temperature=0.1,
    streaming=True,
    callbacks=[StreamingStdOutCallbackHandler()],
)

In [62]:
# 위 Chat model 로 다시 실행해보기
chef_chain = chef_prompt | chat
veg_chain = veg_chef_prompt | chat
final_chain = {"recipe": chef_chain} | veg_chain

result = final_chain.invoke({
    "cuisine": "indian",  # chef_chain 의 {cuisine} 에 전달
})

print(result.content)

Great choice! Indian cuisine is full of delicious flavors and spices. Let's make a classic dish - Chicken Tikka Masala. Here's a simple recipe for you to try at home:

Ingredients:
- 1 lb boneless, skinless chicken breasts, cut into bite-sized pieces
- 1 cup plain yogurt
- 2 tablespoons lemon juice
- 2 teaspoons ground cumin
- 2 teaspoons paprika
- 1 teaspoon ground cinnamon
- 1 teaspoon ground turmeric
- 1 teaspoon ground coriander
- 1 teaspoon cayenne pepper (adjust to taste)
- Salt and pepper to taste
- 2 tablespoons vegetable oil
- 1 onion, finely chopped
- 3 cloves garlic, minced
- 1 tablespoon grated ginger
- 1 can (14 oz) tomato sauce
- 1 cup heavy cream
- Fresh cilantro, chopped (for garnish)
- Cooked rice or naan bread (for serving)

Instructions:
1. In a bowl, combine yogurt, lemon juice, cumin, paprika, cinnamon, turmeric, coriander, cayenne pepper, salt, and pepper. Add the chicken pieces and coat them well with the marinade. Cover and refrigerate for at least 1 hour, or ov