# Model IO
<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [4]:
!pip install langchain langchain-openai langchain-community langchain-huggingface

Collecting langchain-openai
  Downloading langchain_openai-0.3.26-py3-none-any.whl.metadata (2.3 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.26-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-huggingface
  Downloading langchain_huggingface-0.3.0-py3-none-any.whl.metadata (996 bytes)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading 

In [1]:
from google.colab import userdata
import os

os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')

## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

### openai

In [2]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o')

llm.invoke('태국의 수도는 어디인가요?')

AIMessage(content='태국의 수도는 방콕입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 16, 'total_tokens': 26, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_07871e2ad8', 'id': 'chatcmpl-BmvnA03t0GB3BUzC4h2XiUcDRGTqo', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--bbd2af54-6dbf-4b2b-80ef-2a0eab5e2efd-0', usage_metadata={'input_tokens': 16, 'output_tokens': 10, 'total_tokens': 26, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### huggingface

In [8]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
# hugging Face에 올라온 LLM(Phi-3)을 API처럼 연결해서 사용하는 예제
llm = HuggingFaceEndpoint(
    repo_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)
chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

chat_model.invoke('Where is the capital of France?')

AIMessage(content="The capital of France is Paris. It is not only the country's largest city but also its most populous, and it serves as the country's political, cultural, and economic center. Paris is renowned for its landmarks such as the Eiffel Tower, the Louvre Museum, and Notre-Dame Cathedral.", additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 70, 'prompt_tokens': 10, 'total_tokens': 80}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--d68cd528-f597-47f7-8e6e-7b4de788f053-0', usage_metadata={'input_tokens': 10, 'output_tokens': 70, 'total_tokens': 80})

In [None]:
# from langchain_huggingface import HuggingFacePipeline
# # Hugging Face 모델을 LangChain을 통해 로컬 또는 transformers 파이프라인 방식으로 불러와서 쓰는 방식.
# # HuggingFacePipeline은 로컬 또는 직접 다운로드 방식
# pipe = HuggingFacePipeline.from_model_id(
#     model_id='microsoft/Phi-3-mini-4k-instruct',
#     task='text-generation'
# )
# pipe.invoke('What is LLM?')

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

### ModelLaboratory
- 여러 LLM을 동시에 비교할 수 있는 실험 도구

In [4]:
from langchain.model_laboratory import ModelLaboratory

llms = [
    ChatOpenAI(model_name='gpt-3.5-turbo'),
    ChatOpenAI(model_name='gpt-4.1'),
]
lab = ModelLaboratory.from_llms(llms)
lab.compare('파이썬의 장점이 무엇인가요?')


[1mInput:[0m
파이썬의 장점이 무엇인가요?

client=<openai.resources.chat.completions.completions.Completions object at 0x7ef9d2669310> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7ef9d275c250> root_client=<openai.OpenAI object at 0x7ef9d266ac10> root_async_client=<openai.AsyncOpenAI object at 0x7ef9d266a150> model_kwargs={} openai_api_key=SecretStr('**********')


KeyboardInterrupt: 

## Prompts
https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```

In [5]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o-mini')

llm.invoke('LLM이 뭔가요?')

AIMessage(content='LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 인공지능(AI) 기술의 한 분야로, 자연어 처리(NLP)를 위해 설계되었습니다. LLM은 방대한 양의 텍스트 데이터를 학습하여 다양한 언어 작업을 수행할 수 있습니다. 예를 들어, 질문 답변, 텍스트 생성, 번역, 요약, 감정 분석 등 다양한 작업을 지원합니다.\n\nLLM은 딥러닝 기법을 사용하여 구축되며, Transformer 아키텍처와 같은 현대적인 신경망 구조를 활용하여 언어의 문맥과 의미를 이해합니다. 대표적인 LLM의 예로는 OpenAI의 GPT-3, GPT-4와 같은 모델이 있습니다. 이러한 모델은 다양한 응용 프로그램에서 사용되며, 사용자와의 인터랙션을 통해 지속적으로 발전하고 있습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 194, 'prompt_tokens': 15, 'total_tokens': 209, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw0nPvg86AMYtMIspGZRsAf1Tdmr', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--e58b16d7-8ddc-4720-b732-2

In [8]:
messages = [
    ('system', '당신은 친절한 초딩전용 챗봇입니다. 초딩의 눈높이에 맞게 설명해주세요.'),
    ('human', '랭체인이 뭔가요?')
]
llm.invoke(messages)

AIMessage(content='랭체인(LangChain)은 언어 모델을 사용해서 다양한 작업을 쉽게 할 수 있게 도와주는 도구예요. 우리가 원하는 일을 할 수 있도록 여러 가지 기능을 연결해주는 체인(chain) 같은 느낌이죠. \n\n예를 들어, 질문을 하면 대답을 해주기도 하고, 여러 정보를 검색해서 요약해주거나, 여러 언어로 번역해 주는 일도 할 수 있어요. 그래서 랭체인을 통해 우리는 언어 모델이 더 똑똑하고 유용하게 활용될 수 있도록 도와줄 수 있답니다! 이해하기 쉽죠? 😊', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 131, 'prompt_tokens': 47, 'total_tokens': 178, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw16nEMH8yCh6LLXo5kAnjJaqlyL', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--fbca25dc-d472-4fdd-b78a-2ddb52968853-0', usage_metadata={'input_tokens': 47, 'output_tokens': 131, 'total_tokens': 178, 'input_token_details': {'audio': 0, 'cache_read': 

### PromptTemplate

In [13]:
from langchain import PromptTemplate
# 어떤 상품에 대한 광고문구를 생성

prompt_template = PromptTemplate(
    template='{product}를 홍보하기 위한 신박한 광고문구를 작성해줘',
    input_variables=['product']
)
prompt = prompt_template.format(product='초소형 카메라')
prompt = prompt_template.format(product='냉털전용 냉장고')
prompt

ai_message = llm.invoke(prompt)
print(ai_message)

content='"신선함 그대로, 냉털전용 냉장고!  \n당신의 소중한 식재료를 언제나 가장 신선하게 보관해 드립니다.  \n냉장이 아닌 \'냉털\'로, 품질과 맛은 한층 더!  \n이제 음식은 걱정하지 마세요.  \n냉털전용 냉장고와 함께라면, 신선함이 바로 당신의 손에!"' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 97, 'prompt_tokens': 31, 'total_tokens': 128, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw6W29SoGKxezpszaskcydiHYbDw', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None} id='run--d4991274-e6eb-4330-91ea-f52f443c5d18-0' usage_metadata={'input_tokens': 31, 'output_tokens': 97, 'total_tokens': 128, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}}


### ChatPromptTemplate

In [15]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,

    HumanMessagePromptTemplate,
)

system_msg_template = SystemMessagePromptTemplate.from_template("당신은 {domain}분야의 최고의 챗봇입니다.")
human_msg_template = HumanMessagePromptTemplate.from_template("{question}")
chat_template = ChatPromptTemplate.from_messages([
    system_msg_template, human_msg_template])

prompt = chat_template.format_messages(domain='IT',  question='LLM이 뭔가요?')

llm.invoke(prompt).content

'LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 자연어 처리(NLP) 작업을 수행하기 위해 방대한 양의 텍스트 데이터로 훈련되어 있습니다. LLM은 인간처럼 자연스러운 언어를 이해하고 생성할 수 있도록 설계되었으며, 여러 가지 응용 분야에서 사용되고 있습니다.\n\n주요 특징은 다음과 같습니다:\n\n1. **대량 데이터 학습**: LLM은 수십억 개의 단어로 구성된 데이터셋에서 학습하여 언어의 문맥과 패턴을 이해합니다.\n\n2. **다양한 작업 수행**: 텍스트 생성, 번역, 질문 응답, 요약 등 다양한 자연어 처리 작업을 수행할 수 있습니다.\n\n3. **사전 학습 및 파인튜닝**: 대부분의 LLM은 먼저 일반적인 텍스트로 사전 학습을 하고, 특정 작업에 맞춰 추가 학습(파인튜닝)할 수 있습니다.\n\n4. **프롬프트 기반 상호작용**: LLM은 사용자가 입력하는 프롬프트에 따라 문장이나 정보를 생성할 수 있습니다.\n\n대표적인 예로 OpenAI의 GPT-3나 GPT-4, Google의 BERT 등이 있습니다. 이러한 모델들은 인공지능과 머신러닝의 발전을 통해 다양한 분야에서 혁신을 이루고 있습니다.'

In [18]:
prompt = chat_template.format_messages(domain='육아', question='우리 애가 밥을 안 먹어요. 어떡하죠?')
print(llm.invoke(prompt).content)

아이의 식습관이 걱정될 때는 여러 가지 방법을 시도해 볼 수 있습니다. 다음은 도움이 될 수 있는 몇 가지 팁입니다:

1. **식사 분위기 조성**: 편안하고 즐거운 분위기에서 식사하게 하세요. 함께 앉아 이야기하면서 먹는 것이 좋습니다.

2. **작은 양, 다양하게**: 아이가 한번에 많은 양을 먹기 어려울 수 있으므로, 적은 양을 여러 가지 제공해 보세요. 다양한 색깔과 모양의 음식을 준비하면 흥미를 유도할 수 있습니다.

3. **함께 요리하기**: 아이와 함께 요리를 해보세요. 요리에 참여하게 되면 음식에 대한 흥미가 생길 수 있습니다.

4. **식사 시간 규칙 정하기**: 규칙적인 식사 시간을 정해, 식사에 대한 기대감을 조성하세요.

5. **건강한 간식 제공**: 식사 사이에 건강한 간식을 제공해 배고픔을 유도할 수 있습니다. 과일이나 채소 스틱 같은 것이 좋습니다.

6. **모델 역할**: 부모가 좋은 식습관을 보이는 것이 중요합니다. 함께 건강한 음식을 먹어보세요.

7. **강요하지 않기**: 아이에게 음식을 강요하지 않는 것이 중요합니다. 아이가 스스로 선택할 수 있도록 유도해 보세요.

만약 이러한 방법들이 효과가 없다면, 소아과 의사와 상담해보는 것도 좋은 방법입니다. 아이의 건강과 성장에 대한 전문가의 조언을 듣는 것이 중요합니다.


### FewShotPromptTemplate

In [22]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q': '2 + 2 = ?', 'a': '4'},
    {'q': '3 + 5 = ?', 'a': '8'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q', 'a']
)

fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix='다음 수학문제를 풀어주세요:',
    suffix='Q: {question} \nA:', # 사용자입력값
    input_variables=['question']
)

prompt = fewshot_template.format(question='123 + 345 = ?')
print(prompt)

다음 수학문제를 풀어주세요:

Q: 2 + 2 = ?
A: 4

Q: 3 + 5 = ?
A: 8

Q: 123 + 345 = ? 
A:


In [24]:
print(llm.invoke(prompt).content)

A: 468


## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [25]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = "사과, 바나나, 오렌지, 포도"

output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
output

['사과', '바나나', '오렌지', '포도']

In [30]:
# {야구}팀 {5}개 질문
# {축구}팀 {10}개 질문

prompt_template = PromptTemplate(
    template="{subject} {n}개의 팀을 보여주세요.\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': output_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject='대한민국 프로야구', n=5)
prompt = prompt_template.format(subject='프리미어리그', n=5)
prompt

'프리미어리그 5개의 팀을 보여주세요.\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [31]:
ai_message = llm.invoke(prompt)
output = ai_message.content

# 출력파서가 가공한 최종출력
output = output_parser.parse(output)
output

['맨체스터 시티', '리버풀', '첼시', '맨체스터 유나이티드', '토트넘 홋스퍼']

In [33]:
chain = prompt_template | llm | output_parser
chain.invoke(input={'subject':'프로농구','n':3})

['서울 SK', '안양 KGC', '인천 전자랜드']

### JSONOutputParser

In [36]:
from langchain_core.output_parsers import JsonOutputParser

model_output = '{"title": "GPT-5를 소개합니다.", "author": "OpenAI", "pages": 250}'

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions())

output = json_parser.parse(model_output) # json_str -> python object(list, dict)
print(output)
print(type(output))


Return a JSON object.
{'title': 'GPT-5를 소개합니다.', 'author': 'OpenAI', 'pages': 250}
<class 'dict'>


In [45]:
# {AI} 관련 책 {3}권을 보여주세요. (json)
# {요리} 관련 책 {5}권을 보여주세요. (json)
# PromptTemplate - LLM - JsonOutputParser

json_parser = JsonOutputParser()

prompt_template = PromptTemplate(
    template="{subject} 관련 한국어 책 {n}권을 보여주세요.(실제하는 책 정보만 작성해주세요.)\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': json_parser.get_format_instructions()
    }
)

llm = ChatOpenAI(model_name='gpt-4o-mini')

prompt = prompt_template.format(subject='AI', n=3)
ai_message = llm.invoke(prompt)
output = json_parser.parse(ai_message.content)
print(output)

{'books': [{'title': '인공지능: 개념과 응용', 'author': '이상엽', 'publisher': '한빛미디어', 'publication_year': 2021}, {'title': '파이썬으로 배우는 기계학습', 'author': '박해선', 'publisher': '에이콘출판', 'publication_year': 2020}, {'title': 'AI 시대의 비즈니스 전략', 'author': '김상욱', 'publisher': 'MID', 'publication_year': 2022}]}


In [46]:
chain = prompt_template | llm | json_parser
output = chain.invoke(input={'subject':'AI', 'n': 3})
print(output)

{'books': [{'title': '인공지능, 모든 것을 바꾸다', 'author': '이광형', 'publisher': '가우스북스', 'publication_year': 2020}, {'title': 'AI 시대의 생존 전략', 'author': '이상헌', 'publisher': '한빛미디어', 'publication_year': 2021}, {'title': '머신러닝, 딥러닝, 인공지능', 'author': '박해선', 'publisher': '춘추출판', 'publication_year': 2022}]}
