# Model IO
<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [1]:
!pip install langchain-openai langchain-community langchain-huggingface



In [2]:
# colab secret 모두 등록할 것
from google.colab import userdata
import os

# LANGSMITH_TRACING=true
# LANGSMITH_ENDPOINT="https://api.smith.langchain.com"
# LANGSMITH_API_KEY="<your-api-key>"
# LANGSMITH_PROJECT="skn14-langchain"
# OPENAI_API_KEY="<your-openai-api-key>"


os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')


## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

### openai

In [6]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o')

llm.invoke('태국의 수도는 어디인가요?')

AIMessage(content='태국의 수도는 방콕입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 16, 'total_tokens': 26, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_07871e2ad8', 'id': 'chatcmpl-Bmvs8b20eY80dO3sb0MuSOIjza5kU', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--69e44ad9-b6f4-46e5-9dff-dcc47fb58151-0', usage_metadata={'input_tokens': 16, 'output_tokens': 10, 'total_tokens': 26, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### huggingface

In [5]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace

llm = HuggingFaceEndpoint(
    repo_id = 'microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)
chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

chat_model.invoke('서울은 어느 나라의 수도야?')

AIMessage(content='서울은 대한민국의 수도야. 대한민국는 북조선(조선)과 환경융합국가(한국과)와 같은 국가로 이루어져 있으며, 서울에서 "삼질병(삼질병 연합회국)으로서" 하나의 제도가 있기 때문에 경제적, 존재적이고 문화적으로도 중요한 지역이였으나, 실행이 되어 있는 국가가 아니었다. 현재는 서울는 대한민국의 수단중 초등지역.', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 247, 'prompt_tokens': 25, 'total_tokens': 272}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--dc4f630c-49a6-4ea1-8afb-5521f4d32c17-0', usage_metadata={'input_tokens': 25, 'output_tokens': 247, 'total_tokens': 272})

In [None]:
from langchain_huggingface import HuggingFacePipeline

pipe = HuggingFacePipeline.from_model_id(
    model_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)
pipe.invoke('What is LLM?')

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

### ModelKaboratory
- 여러 LLM을 동시에 비교할 수 있는 실험도구

In [7]:
from langchain.model_laboratory import ModelLaboratory

llms = [
    ChatOpenAI(model_name='gpt-3.5-turbo'),
    ChatOpenAI(model_name='gpt-4.1'),
]

lab = ModelLaboratory.from_llms(llms)
lab.compare('파이썬의 장점이 무엇인가요?')

[1mInput:[0m
파이썬의 장점이 무엇인가요?

client=<openai.resources.chat.completions.completions.Completions object at 0x7b3c5aa60210> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7b3c58f974d0> root_client=<openai.OpenAI object at 0x7b3c5b5c5810> root_async_client=<openai.AsyncOpenAI object at 0x7b3c5acc3910> model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3m1. 쉽고 간단한 문법: 파이썬은 다른 언어에 비해 문법이 간단하고 이해하기 쉽습니다. 이로 인해 초보자들도 빠르게 학습할 수 있습니다.

2. 다양한 라이브러리와 모듈: 파이썬은 다양한 라이브러리와 모듈을 제공하여 개발자들이 빠르게 프로그램을 개발할 수 있습니다. 

3. 크로스 플랫폼 지원: 파이썬은 다양한 운영체제에서 사용할 수 있고, 이식성이 뛰어나기 때문에 여러 플랫폼에서 동작할 수 있습니다. 

4. 커뮤니티와 생태계: 파이썬은 커다란 개발자 커뮤니티와 다양한 오픈소스 라이브러리를 보유하고 있어, 지원과 자료가 풍부합니다.

5. 데이터 분석 및 인공지능 분야에서 인기: 데이터 분석, 머신러닝, 딥러닝 등의 분야에서 파이썬이 인기를 끌고 있습니다. 데이터 과학 및 인공지능을 위한 라이브러리와 도구가 잘 갖춰져 있습니다. 

6. 확장성: 파이썬은 모듈과 패키지를 통해 기능을 확장하고 다양한 어플리케이션을 개발할 수 있습니다. 

7. 높은 생산성: 파이썬의 간결한 문법과 다양한 라이브러리들을 이용하여 개발 속도가 빠르고 생산성이 높습니다. 

8. 문서화와 테스팅: 파이썬은 문서화와 테스팅을 위한 다양한 도구들을 제공하여 소프

## Prompts

https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```

In [8]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o-mini')

llm.invoke('LLM이 뭔가요?')

AIMessage(content='LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 인공지능(AI) 기술의 한 분야로, 자연어 처리(NLP) 작업을 수행하기 위해 설계되었습니다. 대량의 텍스트 데이터를 학습하여 언어의 패턴, 의미, 문법 등을 이해하고, 다양한 언어 관련 작업 (예: 번역, 요약, 질문 답변 등)을 수행할 수 있습니다.\n\nLLM은 주로 딥러닝 기술을 기반으로 하며, 트랜스포머(Transformer) 아키텍처와 같은 고급 신경망 구조를 사용하여 개발됩니다. 대표적인 예로 OpenAI의 GPT 시리즈, Google\'s BERT, 그리고 Facebook의 RoBERTa 등이 있습니다. 이러한 모델들은 인간과 비슷한 방식으로 텍스트를 생성하거나 이해할 수 있는 능력을 갖추고 있어, 여러 분야에서 활용되고 있습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 201, 'prompt_tokens': 15, 'total_tokens': 216, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-BmvySPuAlRm6zJ5qVY5cPnXC4zCoN', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--

In [9]:
messages = [
    ('system', '당신은 친절한 초댕전용 챗봇입니다. 초딩의 눈높이에 맞게 설명해주세요.'),
    ('human', '랭체인이 뭔가요?')
]

llm.invoke(messages)

AIMessage(content='랭체인(Chain of Thought)이라고 해요! 정말 재미있는 것이죠. 사람들이 생각을 정리하거나 문제를 풀 때, 여러 단계를 거쳐서 생각을 이어가는 방식을 뜻해요. \n\n예를 들어, 수학 문제를 풀 때 그냥 정답만 생각하는 게 아니라, 문제를 읽고 이해하고, 어떤 방법이 있을지 고민하고, 그 방법을 적용해서 계산한 다음에 마지막으로 정답을 내는 거예요. 이렇게 여러 단계를 차례로 따라가면서 생각하는 걸 랭체인이라고 해요.\n\n이런 방식은 특히 컴퓨터나 인공지능이 문제를 더 잘 풀도록 도와줄 수 있답니다! 그래서 랭체인은 요즘 사람들이 인공지능을 만들 때 많이 사용하는 방법 중 하나예요. 이해가 좀 쉽게 되었나요?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 177, 'prompt_tokens': 48, 'total_tokens': 225, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw0yPDzAbVomMRCerdCupRK38iaZ', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--eb57bf87-ee26-417d-ad7a-dc66a71f6b7f-0', usage_metadata={'input_tokens': 4

### PromptTemplate

In [14]:
from langchain import PromptTemplate

# 어떤 상품에 대한 광고문구를 생성

prompt_template = PromptTemplate(
    template='{product}를 홍보하기 위한 신박한 광고문구를 작성해줘.',
    input_variables=['product']
)
prompt = prompt_template.format(product='초소형 카메라')
prompt = prompt_template.format(product='냉털전용 냉장고')

ai_message = llm.invoke(prompt)
print(ai_message.content)

"시원한 여름, 나만의 냉장고! 🌬️✨  
냉털전용 냉장고로 여름의 더위를 이기고, 신선함을 가득 담아보세요!  
차가운 음료, 신선한 과일 – 모든 것이 당신을 기다립니다!  
당신의 작은 공간에 큰 시원함을, 냉털의 새로운 세계로 초대합니다!"  

여름에도 걱정 없이 휘어지는 가격, 지금 경험해보세요! 🥶🍹


### ChatPromptTemplate

In [20]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate
)

system_msg_template = SystemMessagePromptTemplate.from_template("당신은 {domain}분야의 최고의 챗봇입니다.")
human_msg_template = HumanMessagePromptTemplate.from_template("{question}")
chat_template = ChatPromptTemplate.from_messages([
    system_msg_template, human_msg_template
])

prompt = chat_template.format_messages(domain='IT', question='LLM이 뭐야?')

llm.invoke(prompt).content

'LLM은 "Large Language Model"의 약자로, 대량의 텍스트 데이터를 기반으로 학습한 인공지능 모델을 의미합니다. 이러한 모델은 자연어 처리(NLP) 작업을 수행하는 데 사용되며, 텍스트 생성, 번역, 질문 응답, 요약 등 다양한 작업에 활용됩니다.\n\nLLM은 수십억 개의 매개변수를 가지고 있어 복잡한 언어 패턴과 의미를 이해하고 생성할 수 있는 능력을 가지고 있습니다. 대표적인 예로 OpenAI의 GPT(Generative Pre-trained Transformer) 시리즈와 Google의 BERT 모델 등이 있습니다. LLM은 강력하지만, 훈련 데이터의 편향을 반영할 수 있고, 항상 정확한 정보를 제공하지 않을 수 있다는 점에서 주의가 필요합니다.'

In [22]:
prompt = chat_template.format_messages(domain='육아', question='우리 아이가 밥을 잘 안먹어요')
print(llm.invoke(prompt).content)

아이의 식사 문제는 많은 부모들이 겪는 고민입니다. 아이가 밥을 잘 안 먹는 이유는 여러 가지가 있을 수 있는데, 몇 가지 해결 방법을 제안드릴게요.

1. **식사 환경 조성**: 아이가 편안하게 식사할 수 있는 환경을 만들어 주세요. 소음이 적고, 둘러앉아 식사하는 것이 좋습니다.

2. **작은 양으로 시작**: 아이가 한 번에 많이 먹는 것보다 작고 다양한 음식들을 조금씩 제공해 보세요.

3. **식사 시간 정하기**: 규칙적인 식사 시간을 정해 아이가 언제 식사할지 알 수 있도록 해 주세요. 

4. **아이의 취향 존중**: 아이가 좋아하는 음식과 싫어하는 음식을 파악하고 그에 맞춰 메뉴를 구성해 보세요. 

5. **즐겁게 먹기**: 음식을 재미있게 꾸미거나, 색깔 있는 채소를 사용해 보는 등 식사 시간을 흥미롭게 만들어 주세요.

6. **모델링**: 부모가 식사하는 모습을 보여주는 것도 중요합니다. 아이는 부모의 행동을 보고 배우기 때문에, 부모가 건강한 음식을 먹는 모습을 보여주세요.

7. **강요는 피하기**: 아이에게 압박을 주지 마세요. 음식은 긍정적인 경험이어야 하므로, 아이가 스스로 먹고 싶도록 유도하는 것이 좋습니다.

이 외에도 아이의 성장단계나 개별 상황에 따라 다양한 요인들이 있을 수 있으니, 필요한 경우 소아과 의사와 상담해 보시는 것도 좋은 방법입니다.


## FewshotPromptTemplate

In [34]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q': '2 + 2 = ?', 'a':'4'},
    {'q': '3 + 5 = ?', 'a':'8'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q', 'a']
)

fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix='다음 수학 문제를 풀어주세요: ',
    suffix='Q: {question} \nA:', # 사용자 입력값
    input_variables=['question']
)

prompt = fewshot_template.format(question='123+456 = ?')
print(prompt)


다음 수학 문제를 풀어주세요: 

Q: 2 + 2 = ?
A: 4

Q: 3 + 5 = ?
A: 8

Q: 123+456 = ? 
A:


In [35]:
print(llm.invoke(prompt).content)

123 + 456 = 579입니다.


## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [36]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = "사과, 바나나, 오렌지, 포도"

output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
output

['사과', '바나나', '오렌지', '포도']

In [51]:
# {야구}팀 {5}개 질문
# {축구}팀 {10}개 질문

prompt_template = PromptTemplate(
    template="{subject} {n}개의 팀을 보여주세요.\n{format_instruction}",
    input_variables=['subject', 'n'],
    partial_variables={
        'format_instruction': output_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject='대한민국 프로야구', n=5)
prompt = prompt_template.format(subject="프리미어리그", n=5)
prompt

'프리미어리그 5개의 팀을 보여주세요.\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [53]:
ai_message = llm.invoke(prompt)
output = ai_message.content
output = output_parser.parse(output)
output

['맨체스터 시티', '리버풀', '맨체스터 유나이티드', '첼시', '아스널']

In [76]:
chain = prompt_template | llm | output_parser   # |: chain 연산자
# prompt_template의 출력이 llm에 입력이 되고, llm의 출력이 output_parser에 입력되는 것.
chain.invoke(input={'subject':'국내 스트릿댄서', 'n':3})

['선미', '프라우드먼', '마스터피스']

### JSONOutputParser

In [80]:
from langchain_core.output_parsers import JsonOutputParser

model_output = '{"title": "GPT-5를 소개합니다.", "author": "OpenAI", "pages": 250}'

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions())

output = json_parser.parse(model_output) # json_str -> python object(list, dict)
output, type(output)

Return a JSON object.


({'title': 'GPT-5를 소개합니다.', 'author': 'OpenAI', 'pages': 250}, dict)

In [96]:
# AI 관련 책 3권을 보여주세요. (json)
# 요리 관련 책 5권을 보여주세요.
# PromptTemplate - LLM - JsonOutputParser

prompt_template = PromptTemplate(
    template="{subject} 관련 책 {n}권을 보여주세요.\n{format_instruction}",
    input_variables=['subject', 'n'],
    partial_variables={
        'format_instruction': json_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject='AI', n=3)
prompt = prompt_template.format(subject="요리", n=5)
prompt

'요리 관련 책 5권을 보여주세요.\nReturn a JSON object.'

In [97]:
ai_message = llm.invoke(prompt)
output = ai_message.content
output = json_parser.parse(output)
output

{'books': [{'title': 'The Joy of Cooking',
   'author': 'Irma S. Rombauer',
   'published_year': 1931,
   'description': 'A comprehensive cookbook that has been a staple in American kitchens for generations.'},
  {'title': 'Salt, Fat, Acid, Heat',
   'author': 'Samin Nosrat',
   'published_year': 2017,
   'description': 'A fundamental guide to mastering the elements of good cooking, with recipes and techniques.'},
  {'title': 'Kitchen Confidential',
   'author': 'Anthony Bourdain',
   'published_year': 2000,
   'description': 'An exploration of the world of restaurants and the culinary industry, filled with witty stories and insights.'},
  {'title': 'The Food Lab: Better Home Cooking Through Science',
   'author': 'J. Kenji López-Alt',
   'published_year': 2015,
   'description': 'A deep dive into the science of cooking with recipes that aim to demystify everyday cooking.'},
  {'title': 'Plenty',
   'author': 'Yotam Ottolenghi',
   'published_year': 2010,
   'description': 'A collectio

In [103]:
chain = prompt_template | llm | json_parser
chain.invoke(input={'subject':'이근삼', 'n':3})

{'books': [{'title': '이근삼의 프로그래밍 언어론',
   'author': '이근삼',
   'publication_year': 2020},
  {'title': '이근삼의 코딩 인사이트', 'author': '이근삼', 'publication_year': 2019},
  {'title': '소프트웨어 개발과 이근삼', 'author': '이근삼', 'publication_year': 2021}]}