# Model IO

<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [None]:
!pip install langchain langchain-openai langchain-community langchain-huggingface



In [None]:
from google.colab import userdata
import os

os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')
os.environ['HF_TOKEN'] = userdata.get('HF_TOKEN')

## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

### openai

In [None]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o')

llm.invoke('태국의 수도는 어디인가요?')

AIMessage(content='태국의 수도는 방콕입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 16, 'total_tokens': 26, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_07871e2ad8', 'id': 'chatcmpl-Bmvre9AAVkAeu7GARGOuRZFwBXJNl', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--5054cb53-b94a-4a70-97a1-03fbbe0475d9-0', usage_metadata={'input_tokens': 16, 'output_tokens': 10, 'total_tokens': 26, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### huggingface

In [None]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace

llm = HuggingFaceEndpoint(
    repo_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)

chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

chat_model.invoke('Where is the capital of France?')

AIMessage(content='The capital of France is Paris. Paris is not only the political center of the country but also a major European city known for its historical monuments like the Eiffel Tower, Notre-Dame Cathedral, and the Louvre Museum.', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 49, 'prompt_tokens': 9, 'total_tokens': 58}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--095d137a-abb7-47cd-b74f-ff77f7ffb89a-0', usage_metadata={'input_tokens': 9, 'output_tokens': 49, 'total_tokens': 58})

In [None]:
from langchain_huggingface import HuggingFacePipeline

pipe = HuggingFacePipeline.from_model_id(
    model_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)
pipe.invoke('What is LLM?')

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

### ModelLaboratory
- 여러LLM을 동시에 비교할 수 있는 실험도구

In [None]:
from langchain.model_laboratory import ModelLaboratory

llms = [
    ChatOpenAI(model_name='gpt-3.5-turbo'),
    ChatOpenAI(model_name='gpt-4.1'),
]

lab = ModelLaboratory.from_llms(llms)
lab.compare('파이썬의 장점이 무엇인가요?')

[1mInput:[0m
파이썬의 장점이 무엇인가요?

client=<openai.resources.chat.completions.completions.Completions object at 0x7da584593490> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7da584569390> root_client=<openai.OpenAI object at 0x7da585e47b50> root_async_client=<openai.AsyncOpenAI object at 0x7da584569010> model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3m1. 쉬운 학습 곡선: 파이썬은 문법이 간단하고 읽기 쉽기 때문에 프로그래밍을 처음 배우는 사람들에게 적합합니다.

2. 다양한 라이브러리와 도구: 파이썬은 다양한 라이브러리와 도구를 제공하여 데이터 분석, 머신러닝, 웹 개발 등 다양한 분야에서 활용할 수 있습니다.

3. 크로스 플랫폼: 파이썬은 윈도우, 맥, 리눅스 등 다양한 운영체제에서 동일한 코드를 실행할 수 있어 플랫폼에 구애받지 않습니다.

4. 커뮤니티의 지원: 파이썬은 큰 개발자 커뮤니티를 가지고 있어서 다양한 문제에 대해 도움을 받을 수 있습니다.

5. 확장성: 파이썬은 C, C++, Java 등 다른 언어로 작성된 코드와 쉽게 통합할 수 있기 때문에 기존 시스템과의 연동이 용이합니다.[0m

client=<openai.resources.chat.completions.completions.Completions object at 0x7da584569d50> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7da58456a4d0> root_client=<open

## Prompts

https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```

In [None]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o-mini')

llm.invoke('LLM이 뭔가요?')

AIMessage(content='LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 방대한 양의 텍스트 데이터를 기반으로 훈련되어 자연어를 이해하고 생성하는 능력을 갖추고 있습니다. LLM은 다양한 자연어 처리(NLP) 작업을 수행할 수 있으며, 질문에 답변하거나, 글을 작성하거나, 대화를 나누는 등 다양한 용도로 사용됩니다.\n\n예를 들어, OpenAI의 GPT-3와 같은 모델이 LLM의 대표적인 사례입니다. 이러한 모델은 기계 학습의 한 분야인 딥 러닝 기법을 사용하여 복잡한 언어 패턴을 학습하고, 요청에 따라 적절한 문장을 생성할 수 있습니다. LLM은 다양한 산업과 연구 분야에서 활용되고 있습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 173, 'prompt_tokens': 15, 'total_tokens': 188, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-BmvxyxUY9SaKwjmCJq5EMWV5IxGjG', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--d99a8037-d0a2-4228-8008-f33f2ec1270e-0', usage_metadata={'input_token

In [None]:
messages = [
    ('system', '당신은 친절한 초딩전용 챗봇입니다. 초딩의 눈높이에 맞게 설명해주세요.'),
    ('human', '랭체인이 뭔가요?')
]

llm.invoke(messages)

AIMessage(content='랭체인(LangChain)은 언어모델을 사용해서 다양한 작업을 쉽게 할 수 있도록 도와주는 도구예요. 예를 들어, 컴퓨터에게 질문을 하거나, 이야기를 만들고, 또는 데이터를 처리하는 데 사용할 수 있죠. \n\n이걸 사용하면, 우리가 쉽게 생각하는 것처럼 언어와 관련된 것들을 컴퓨터에게 시켜서 더 똑똑하게 만들 수 있는 거예요. 마치 친구에게 질문해서 답변을 듣는 것처럼요! \n\n그래서 랭체인은 언어모델과 여러 가지 기능을 연결해 주는 다리 같은 역할을 해요. 도움이 필요하면 언제든지 나한테 물어봐!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 151, 'prompt_tokens': 47, 'total_tokens': 198, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmvzk00bpla4k237VsJJ9yBbEMfC7', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--7dbc1249-e05c-41fe-9cff-5c9a03cacbfd-0', usage_metadata={'input_tokens': 47, 'output_tokens': 151, 'total_tokens': 198, 'input_token_details':

### PromptTemplate

In [None]:
from langchain import PromptTemplate

# 어떤 상품에 대한 광고문구를 생성

prompt_template = PromptTemplate(
    template='{product}를 홍보하기 위한 신박한 광고문구를 작성해줘.',
    input_variables=['product'] # product가 변수임을 명시
)

prompt = prompt_template.format(product='초소형 카메라')
prompt = prompt_template.format(product='냉털 전용 냉장고')

ai_message = llm.invoke(prompt)
print(ai_message.content)

"냉털의 새로운 패러다임, 당신의 비밀을 지켜주는 냉장고! 🥶✨ 냉장고가 아니라 냉털의 동반자! 신선한 재료와 비밀스러운 스낵을 안전하게 보관하세요. 당신의 ‘냉틀’을 더욱 특별하게 만들어줄 완벽한 선택, 지금 곁에 두세요!"


### ChatPromptTemplate

In [None]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate
)

system_msg_template = SystemMessagePromptTemplate.from_template('당신은 {domain}분야의 최고의 챗봇입니다.')
human_msg_template = HumanMessagePromptTemplate.from_template('{question}')

chat_template = ChatPromptTemplate.from_messages([
    system_msg_template, human_msg_template
])

prompt = chat_template.format_messages(domain='IT', question='LLM이 뭐야?')

print(llm.invoke(prompt).content)

LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 기계 학습 기법을 사용하여 대량의 텍스트 데이터를 학습하고, 자연어 처리(NLP) 작업을 수행할 수 있도록 개발되었습니다. LLM은 문장 생성, 번역, 요약, 질문 응답 등 다양한 언어 관련 작업에서 높은 성능을 보입니다.

LLM의 특징 중 하나는 구조가 매우 커서, 수억에서 수조 개의 파라미터를 포함하고 있다는 것입니다. 이는 모델이 복잡한 언어 패턴과 의미를 이해하고 생성하는 데 도움을 줍니다. 대표적인 LLM으로는 OpenAI의 GPT 시리즈, Google의 BERT, T5 등이 있습니다. 이러한 모델들은 자연어 이해와 생성에서 다양한 애플리케이션에 활용되고 있습니다.


In [None]:
prompt = chat_template.format_messages(domain='육아', question='우리 애가 밥을 안먹어요. 어떡하면 좋을까요?')
print(llm.invoke(prompt).content)

아이의 식사 문제는 많은 부모가 겪는 고민입니다. 아이가 밥을 안 먹는 이유는 다양할 수 있습니다. 몇 가지 해결 방법을 제안해드릴게요.

1. **식사를 즐겁게 만들어보세요**: 아이와 함께 요리하는 시간을 가져보세요. 재미있는 모양으로 음식을 만들어주거나 색깔이 다채로운 음식을 준비하는 것도 좋습니다.

2. **일정한 식사 시간 유지**: 규칙적인 식사 시간을 정해 아이가 식사할 때 배고프도록 유도해보세요. 배가 고프면 자연스럽게 먹을 가능성이 높아집니다.

3. **다양한 음식 제공**: 아이가 먹지 않는 특정 음식을 계속 제공하기보다는 다양한 음식을 시도해보세요. 새로운 맛이나 식감을 경험하게 하는 것도 중요합니다.

4. **식사 환경 조성**: TV나 스마트폰 같은 방해 요소를 제거하고, 편안하고 조용한 환경에서 식사를 할 수 있도록 해주세요.

5. **강요하지 않기**: 음식을 강제로 먹이지 말고, 아이가 스스로 먹고 싶어하도록 유도하는 게 좋습니다. 강요는 오히려 반감을 일으킬 수 있습니다.

6. **서로의 식사하는 모습 보여주기**: 가족이 함께 식사하는 모습을 보여 줌으로써 아이가 식사하는 모습을 자연스럽게 받아들이게 할 수 있습니다.

7. **소량씩 제공하기**: 한 번에 많은 양을 주기보다는 소량씩 제공하여 아이가 부담 없이 먹을 수 있도록 해주세요.

이런 방법들을 시도해 보시고, 그래도 문제가 지속된다면 전문가의 도움을 받는 것도 좋은 방법입니다.


### FewShotPromptTemplate

In [None]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q': '2 + 2 = ?', 'a': '4'},
    {'q': '3 + 5 = ?', 'a': '8'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q', 'a']
)

fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix='다음 수학문제를 풀어주세요(답변은 정답만 출력하세요.):',
    suffix='Q: {question} \nA:', # 사용자입력값
    input_variables=['question']
)

prompt = fewshot_template.format(question='123 + 345 = ?')
print(prompt)

다음 수학문제를 풀어주세요(답변은 정답만 출력하세요.):

Q: 2 + 2 = ?
A: 4

Q: 3 + 5 = ?
A: 8

Q: 123 + 345 = ? 
A:


In [None]:
print(llm.invoke(prompt).content)

468


## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [None]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = '사과, 바나나, 오렌지, 포도'

output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
output

['사과', '바나나', '오렌지', '포도']

In [None]:
# {야구}팀 {5}개 질문
# {축구}팀 {10}개 질문

prompt_template = PromptTemplate(
    template='{subject} {n}개의 팀을 보여주세요. \n{format_instruction}',
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': output_parser.get_format_instructions()
        }
)

prompt = prompt_template.format(subject='대한민국 프로야구', n=5)
prompt = prompt_template.format(subject='프리미어리그', n=5)
prompt

'프리미어리그 5개의 팀을 보여주세요. \nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [None]:
ai_message = llm.invoke(prompt)
output = ai_message.content

# 출력 파서가 가공한 최종 출력
output = output_parser.parse(output)
output

['맨체스터 유나이티드', '리버풀', '첼시', '아스널', '맨체스터 시티']

In [None]:
chain = prompt_template | llm | output_parser
chain.invoke(input={'subject':'프로농구', 'n':3})

['서울 삼성', '전주 KCC', '울산 현대모비스']

### JSONOutputParser

In [None]:
from langchain_core.output_parsers import JsonOutputParser

model_output = '{"title":"GPT-5를 소개합니다.", "author":"OpenAI", "pages":250}' # JSON 형식

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions()) # 'Return a JSON object.'

output = json_parser.parse(model_output) # json_str -> python object(list, dict)

print(output) # {'title': 'GPT-5를 소개합니다.', 'author': 'OpenAI', 'pages': 250}
print(type(output)) # <class 'dict'>

Return a JSON object.
{'title': 'GPT-5를 소개합니다.', 'author': 'OpenAI', 'pages': 250}
<class 'dict'>


In [None]:
# AI 관련 책 3권을 보여주세요.
# 요리 관련 책 5권을 보여주세요.
# PromptTemplate - LLM - JsonOutputParser

json_parser = JsonOutputParser()

prompt_template = PromptTemplate(
    template='{subject} 관련 한국어 책 {n}권을 보여주세요. (실제하는 책 정보만 작성해주세요.)\n{format_instruction}',
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': json_parser.get_format_instructions()
        }
)

llm = ChatOpenAI(model_name='gpt-4o-mini')

prompt = prompt_template.format(subject='AI', n=3)
# prompt = prompt_template.format(subject='요리', n=5)

ai_message = llm.invoke(prompt)
model_output = ai_message.content

output = json_parser.parse(model_output)
print(output)

{'books': [{'title': '인공지능, 인간을 만나다', 'author': '김준호', 'publisher': '인사이트', 'year': 2021}, {'title': 'AI의 미래', 'author': '이준호', 'publisher': '윌북', 'year': 2020}, {'title': 'Deep Learning', 'author': '이성진', 'publisher': '한빛미디어', 'year': 2019}]}


In [None]:
chain = prompt_template | llm | json_parser
output = chain.invoke(input={'subject':'AI', 'n':3})
print(output)

{'books': [{'title': '인공지능 101', 'author': '이정모', 'publisher': '한빛미디어', 'year': 2020}, {'title': 'AI, 인공지능의 모든 것', 'author': '박진호', 'publisher': 'IT Will', 'year': 2021}, {'title': 'Deep Learning, 딥러닝', 'author': '이광형', 'publisher': '한양대학교 출판부', 'year': 2019}]}
