# Model IO
<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [2]:
!pip install langchain langchain-openai langchain-community langchain-huggingface



In [3]:
from google.colab import userdata
import os

os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')

## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

### openai

In [4]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o')

llm.invoke('태국의 수도는 어디인가요?')

AIMessage(content='태국의 수도는 방콕입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 16, 'total_tokens': 26, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_07871e2ad8', 'id': 'chatcmpl-BmvrU53LZ00tVDmWmqvEqEj7GLsIV', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--0de41bd8-1451-4fd8-96c5-37c8058405ec-0', usage_metadata={'input_tokens': 16, 'output_tokens': 10, 'total_tokens': 26, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### huggingface

In [5]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace

llm = HuggingFaceEndpoint(
    repo_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)

chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

chat_model.invoke('Where is the capital of France?')

AIMessage(content='The capital of France is Paris.', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 8, 'prompt_tokens': 10, 'total_tokens': 18}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--73d37d89-64aa-4c0c-ab41-32dd31cdf632-0', usage_metadata={'input_tokens': 10, 'output_tokens': 8, 'total_tokens': 18})

In [None]:
from langchain_huggingface import HuggingFacePipeline

pipe = HuggingFacePipeline.from_model_id(
    model_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)
pipe.invoke('What is LLM?')

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/967 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

### ModelLaboratory
- 여러 LLM을 동시에 비교할 수 있는 실험도구

In [6]:
from langchain.model_laboratory import ModelLaboratory


llms = [
    ChatOpenAI(model_name='gpt-3.5-turbo'),
    ChatOpenAI(model_name='gpt-4.1'),
]

lab = ModelLaboratory.from_llms(llms)
lab.compare('파이썬의 장점이 무엇인가요?')

[1mInput:[0m
파이썬의 장점이 무엇인가요?

client=<openai.resources.chat.completions.completions.Completions object at 0x7d9437c95290> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7d943779c550> root_client=<openai.OpenAI object at 0x7d9437779950> root_async_client=<openai.AsyncOpenAI object at 0x7d9437734f10> model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3m1. 쉽고 간단한 문법: 파이썬은 다른 프로그래밍 언어에 비해 읽기 쉽고 이해하기 쉬운 문법을 제공하며, 초보자도 쉽게 배울 수 있습니다.

2. 다양한 라이브러리와 프레임워크: 파이썬은 수많은 라이브러리와 프레임워크를 제공하여 다양한 분야에서 사용할 수 있습니다. 데이터 분석, 인공지능, 웹 개발 등 다양한 분야에서 활용이 가능합니다.

3. 크로스 플랫폼 지원: 파이썬은 다양한 운영체제에서 사용할 수 있는 크로스 플랫폼 언어로, 윈도우, 맥, 리눅스 등 다양한 환경에서 동작합니다.

4. 커뮤니티와 생태계: 파이썬은 활발한 커뮤니티와 다양한 온라인 자료가 많이 있어서 학습이나 문제 해결 시 도움을 받기 쉽습니다.

5. 확장성과 활용도: 파이썬은 다른 언어와의 통합이 쉽고, C나 C++로 작성된 코드를 사용할 수 있는 확장성과 다른 프로그래밍 언어와의 혼용이 가능한 활용도가 높습니다.[0m

client=<openai.resources.chat.completions.completions.Completions object at 0x7d943779db10> async_client=<openai.resources.chat.completi

## Prompts

https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```

In [7]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o-mini')

llm.invoke('LLM이 뭔가요?')

AIMessage(content='LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 인공지능(AI) 분야에서 자연어 처리를 위해 설계된 알고리즘으로, 방대한 양의 텍스트 데이터를 학습하여 사람의 언어를 이해하고 생성할 수 있는 능력을 갖추고 있습니다.\n\nLLM의 주요 특징은 다음과 같습니다.\n\n1. **대규모 데이터 학습**: LLM은 수많은 문서, 책, 웹 페이지 등을 포함한 방대한 양의 텍스트 데이터를 통해 학습합니다.\n\n2. **언어 이해 및 생성**: 다양한 문맥에서 의미를 파악하고 적절한 응답을 생성할 수 있습니다. 이로 인해 질문에 답하거나 글을 작성하는 등의 작업을 수행할 수 있습니다.\n\n3. **응용 분야 다양성**: LLM은 챗봇, 자동 번역, 콘텐츠 생성, 문서 요약 등 다양한 응용 분야에 활용됩니다.\n\n대표적인 LLM으로는 OpenAI의 GPT(Generative Pre-trained Transformer) 시리즈, Google의 BERT, T5 등이 있습니다. 이러한 모델들은 산업과 연구 분야에서 활발히 사용되고 있습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 257, 'prompt_tokens': 15, 'total_tokens': 272, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae9

In [10]:
messages = [
    ('system', '당신은 친절한 초딩 전용 챗봇입니다. 초딩의 눈높이에 맞게 설명해주세요.'),
    ('human', '랭체인이 뭔가요?')
]
llm.invoke(messages)

AIMessage(content='랭체인은 "체인(연결된 것들)"과 "랭크(순서)"를 합친 말이에요. 쉽게 말해서, 여러 개의 정보를 연결해서 하나의 큰 이야기를 만드는 걸 말해요. \n\n예를 들어, 우리가 친구들에게 이야기할 때, 먼저 일어난 일이 있고 그 다음에 일어난 일을 차례대로 말하는 것처럼, 여러 정보를 순서대로 정리하는 거예요. 컴퓨터나 프로그램에서도 이런 식으로 정보를 정리하고 연결해서 사용할 수 있는 방법이 바로 랭체인이에요.\n\n이런 걸로 더 똑똑한 대화 로봇이나 프로그램을 만드는 데 도움을 줄 수 있어요! 너무 어렵지? 궁금한 점이 더 있으면 언제든지 물어봐!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 167, 'prompt_tokens': 47, 'total_tokens': 214, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw09zVjs5dZkuBUpZGD0XJGeXy08', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--38bc824a-cf02-4340-9656-ff822d89cc37-0', usage_metadata={'input_tokens': 47, 'output_tokens': 167, 'total_tokens': 

### PromptTemplate

In [15]:
from langchain import PromptTemplate

# 어떤 상품에 대한 광고문구를 생성
prompt_template = PromptTemplate(
    template='{product}를 홍보하기 위한 신박한 광고 문구를 작성해줘',
    input_variables=["product"]
)
prompt = prompt_template.format(product='초소형 카메라')
prompt = prompt_template.format(product='냉털전용 냉장고')

ai_message = llm.invoke(prompt)
print(ai_message.content)

"추위를 품은 당신의 비밀, 냉털전용 냉장고! 🍃

단순한 냉장고가 아닌, 당신의 소중한 냉털을 위한 특별한 공간!  신선함의 끝판왕, 냉털, 이젠 걱정 없이 보관하세요. 

한 번의 클릭으로 냉털의 세계로! 당신의 냉털이 가장 빠르고 안전하게 지켜지는 곳, 지금 만나보세요!"


### ChatPromptTemplate

In [18]:
from langchain.prompts import ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate

system_msg_template = SystemMessagePromptTemplate.from_template('당신은 {domain} 분야의 최고의 챗봇입니다.')
human_msg_template = HumanMessagePromptTemplate.from_template('{question}')
chat_template = ChatPromptTemplate.from_messages([system_msg_template, human_msg_template])

prompt = chat_template.format_messages(domain='IT', question='SLM이 뭐야?')

llm.invoke(prompt).content

'SLM은 주로 두 가지 의미로 사용될 수 있습니다.\n\n1. **Service Level Management (서비스 수준 관리)**: IT 서비스 관리(ITSM)의 한 부분으로, 서비스 제공자가 고객과의 서비스 수준 계약(SLA)을 정의하고 유지하는 프로세스를 포함합니다. SLM은 서비스의 품질을 보장하고 고객의 기대를 관리하는 데 중요한 역할을 합니다.\n\n2. **Sparse Linear Models (희소 선형 모델)**: 통계학 및 데이터 과학에서 사용되는 기법으로, 많은 변수 중에서 중요한 변수를 선택하고 모델의 복잡성을 줄이는 데 도움을 줍니다.\n\n어떤 의미로 SLM을 묻고 계신지 알려주시면, 더 구체적인 정보를 제공해 드리겠습니다!'

In [20]:
prompt = chat_template.format_messages(domain='육아', question='우리 애가 밥을 안먹어요. 어떻게 하면 좋을까요?')
print(llm.invoke(prompt).content)

아이가 식사를 거부하는 것은 일반적인 경우이며, 여러 가지 이유가 있을 수 있습니다. 다음은 몇 가지 방법입니다:

1. **식사 시간 규칙 준수**: 정해진 시간에 규칙적으로 식사를 하도록 하세요. 배고파지면 자연스럽게 음식을 찾게 될 것입니다.

2. **간단한 선택 제공**: 아이가 스스로 선택할 수 있는 간단한 음식을 제공해보세요. 예를 들어, 과일이나 야채, 고기 등의 옵션을 두 가지 이상 제시하면 좋습니다.

3. **식사 환경 개선**: 테이블이나 식사 분위기를 좀 더 즐겁고 편안하게 만들어 보세요. 가족과 함께 방해 요소 없이 식사하는 것이 중요합니다.

4. **음식에 대한 흥미 유도**: 시각적으로 매력적인 플레이팅, 다양한 색깔의 음식을 제공하는 것이 좋습니다. 아이의 호기심을 유도할 수 있습니다.

5. **모델링 효과**: 부모가 건강한 음식을 즐겁게 먹는 모습을 보여주는 것도 좋습니다. 아이는 부모의 행동을 관찰하며 배우기 때문입니다.

6. **강요하지 않기**: 식사 시간에 압박을 주거나 강제로 먹이려고 하면 반발심이 커질 수 있습니다. 아이가 스스로 시도할 기회를 주는 것이 중요합니다.

7. **전문가 상담**: 만약 지속적으로 식사를 거부한다면 소아과 의사나 영양사와 상담해보는 것도 좋은 방법입니다.

아이의 성장과 발달에 따라 먹는 양이 달라질 수 있으니, 너무 걱정하지 말고 다양한 접근 방식을 시도해 보세요!


### FewShotPromptTemplate

In [23]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q': '2 + 2 = ?', 'a': '4'},
    {'q': '3 + 5 = ?', 'a': '8'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q', 'a']
)

fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix='다음 수학문제를 풀어주세요(답변은 정답만 출력하세요):',
    suffix='Q: {question} \nA:', # 사용자입력값
    input_variables=['question']
)

prompt = fewshot_template.format(question='123 + 345 = ?')
print(prompt)

다음 수학문제를 풀어주세요(답변은 정답만 출력하세요):

Q: 2 + 2 = ?
A: 4

Q: 3 + 5 = ?
A: 8

Q: 123 + 345 = ? 
A:


In [24]:
print(llm.invoke(prompt).content)

468


## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [25]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = "사과, 바나나, 오렌지, 포도"
output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
output

['사과', '바나나', '오렌지', '포도']

In [29]:
# {야구}팀 {5}개 질문
# {축구}팀 {10}개 질문

prompt_template = PromptTemplate(
    template = "{subject} {n}개의 팀을 보여주세요\n{format_instrunction}",
    input_variables=["subject", "n"],
    partial_variables={
        # template 생성 시에 채워짐
        "format_instrunction": output_parser.get_format_instructions()}
)

prompt = prompt_template.format(subject='대한민국 프로야구', n=5)
prompt = prompt_template.format(subject='프리미어리그', n=5)
prompt

'프리미어리그 5개의 팀을 보여주세요\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [32]:
ai_message = llm.invoke(prompt)
output = ai_message.content

# 출력파서가 가공한 최종출력
output = output_parser.parse(output)
output

['맨체스터 유나이티드', '리버풀', '아스날', '첼시', '맨체스터 시티']

In [38]:
chain = prompt_template | llm | output_parser
chain.invoke(input={'subject':'프로농구', 'n':3})

['서울 삼성', '울산 현대모비스', '전주 KCC']

### JSONOutputParser

In [52]:
from langchain_core.output_parsers import JsonOutputParser

model_output = '{"title": "GPT-5를 소개합니다.", "author": "OpenAI", "pages": 250}'

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions())

output = json_parser.parse(model_output) # json_str -> python object(list, dict)
print(output)
print(type(output))

Return a JSON object.
{'title': 'GPT-5를 소개합니다.', 'author': 'OpenAI', 'pages': 250}
<class 'dict'>


In [63]:
# {AI} 관련 책 {3}권을 보여주세요. (json)
# {요리} 관련 책 {5}권을 보여주세요. (json)
# PromptTemplate - LLM - JsonOutputParser

json_parser = JsonOutputParser()

# 환각 주의!!!
prompt_template = PromptTemplate(
    template="{subject} 관련 한국어 책 {n}권을 보여주세요.\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': json_parser.get_format_instructions()
    }
)

llm = ChatOpenAI(model_name='gpt-4o-mini')

prompt = prompt_template.format(subject='AI', n=3)
ai_message = llm.invoke(prompt)
output = json_parser.parse(ai_message.content)
print(output)

{'books': [{'title': '인공지능, 기계학습 및 딥러닝', 'author': '마이클 지. 카니', 'publisher': '한빛미디어', 'published_year': 2020}, {'title': '파이썬으로 배우는 머신러닝', 'author': '세바스찬 라쉬카', 'publisher': '한빛미디어', 'published_year': 2019}, {'title': '인공지능 시대의 생존 전략', 'author': '박진형', 'publisher': '더퀘스트', 'published_year': 2021}]}


In [64]:
chain = prompt_template | llm | output_parser
output = chain.invoke(input={'subject':'AI', 'n':3})
print(output)

['```json', '{', 'books: [', '{', 'title: "인공지능', '학습의 모든 것"', '', 'author: "이상엽"', '', 'publisher: "한빛미디어"', '', 'year: 2020', '}', '', '{', 'title: "딥러닝을 이용한 자연어 처리"', '', 'author: "이상원"', '', 'publisher: "에이콘출판"', '', 'year: 2019', '}', '', '{', 'title: "인공지능의 미래"', '', 'author: "홍진표"', '', 'publisher: "경향미디어"', '', 'year: 2021', '}', ']', '}', '```']
