# Model IO
<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [1]:
!pip install langchain langchain-openai langchain-community langchain-huggingface



In [2]:
from google.colab import userdata
import os

os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')

## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

### openai

In [3]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4.1-nano')

llm.invoke('태국의 수도는 어디인가요?')

AIMessage(content='태국의 수도는 방콕입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 16, 'total_tokens': 26, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4.1-nano-2025-04-14', 'system_fingerprint': 'fp_38343a2f8f', 'id': 'chatcmpl-BmvrTXEyFDvrFFt1a1XYXYtGY7htl', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--6c99b162-c3bf-434f-8700-ba3fd89765f1-0', usage_metadata={'input_tokens': 16, 'output_tokens': 10, 'total_tokens': 26, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### hunggingface

In [4]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace

llm = HuggingFaceEndpoint(
    repo_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)

chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

chat_model.invoke('Where is the capital of France?')

AIMessage(content='The capital of France is Paris.', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 8, 'prompt_tokens': 10, 'total_tokens': 18}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--31204953-a7fb-4ef0-aa6d-4fe4a19d243c-0', usage_metadata={'input_tokens': 10, 'output_tokens': 8, 'total_tokens': 18})

In [None]:
from langchain_huggingface import HuggingFacePipeline

pipe = HuggingFacePipeline.from_model_id(
    model_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)
pipe.invoke('What is LLM?')

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/967 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

### ModelLaboratory
- 여러 LLM을 동시에 비교할 수 있는 실험도구

In [5]:
from langchain.model_laboratory import ModelLaboratory


llms = [
    ChatOpenAI(model_name='gpt-3.5-turbo'),
    ChatOpenAI(model_name='gpt-4.1-nano'),
]

lab = ModelLaboratory.from_llms(llms)
lab.compare('파이썬의 장점이 무엇인가요?')

[1mInput:[0m
파이썬의 장점이 무엇인가요?

client=<openai.resources.chat.completions.completions.Completions object at 0x7a4c54f5f810> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7a4c54f70510> root_client=<openai.OpenAI object at 0x7a4c54f452d0> root_async_client=<openai.AsyncOpenAI object at 0x7a4c54f707d0> model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3m파이썬의 장점은 다음과 같습니다:

1. 쉬운 문법: 파이썬은 배우기 쉬운 문법을 가지고 있어 초보자도 쉽게 프로그래밍을 시작할 수 있습니다.

2. 다양한 라이브러리와 모듈: 파이썬은 다양한 라이브러리와 모듈을 제공하여 다양한 작업을 쉽게 처리할 수 있습니다.

3. 크로스 플랫폼: 파이썬은 윈도우, 맥, 리눅스 등 다양한 운영체제에서 동일한 코드를 실행할 수 있습니다.

4. 업무 자동화: 파이썬은 반복적인 작업을 자동화하는 데 매우 유용하며, 스크립트 언어로서 다양한 작업을 자동으로 처리할 수 있습니다.

5. 커뮤니티와 생태계: 파이썬은 활발한 커뮤니티와 다양한 개발자들이 사용하고 있는 풍부한 생태계를 가지고 있어 필요한 정보나 도움을 얻기 쉽습니다.

6. 데이터 과학 및 인공지능: 파이썬은 데이터 과학 및 인공지능 분야에서 널리 사용되며, 데이터 처리 및 분석에 특화된 라이브러리들이 풍부하게 제공되어 있습니다.[0m

client=<openai.resources.chat.completions.completions.Completions object at 0x7a4c54f70ed0> async_client=<openai.reso

## Prompts

https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```

In [6]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4.1-nano')

llm.invoke('LLM이 뭔가요?')

AIMessage(content='LLM은 "대형 언어 모델" (Large Language Model)을 의미합니다. 이는 방대한 양의 텍스트 데이터를 학습하여 자연어를 이해하고 생성할 수 있는 인공지능 모델입니다. 대표적인 LLM에는 GPT(예: GPT-3, GPT-4), BERT, T5 등이 있으며, 이러한 모델들은 사람처럼 자연스럽게 문장을 이해하고 답변하거나 글을 작성하는 데 사용됩니다. 주로 챗봇, 번역, 텍스트 요약, 글쓰기 보조 등의 다양한 분야에서 활용되고 있습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 121, 'prompt_tokens': 15, 'total_tokens': 136, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4.1-nano-2025-04-14', 'system_fingerprint': 'fp_38343a2f8f', 'id': 'chatcmpl-BmvyIKZkw7SXZKagG2piTOGPJYgDl', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--36a80898-0bfd-455c-b34b-7c96b030109e-0', usage_metadata={'input_tokens': 15, 'output_tokens': 121, 'total_tokens': 136, 'input_token_details': {'audio': 0, 'cache_read': 0}

In [8]:
messages = [
    ('system', '당신은 친절한 초딩 전용 챗봇입니다. 초딩의 눈높이에 맞게 설명해주세요.'),
    ('human', '랭체인이 뭔가요?')
]
llm.invoke(messages)

AIMessage(content='안녕! 랭체인에 대해 궁금하구나? 랭체인(LangChain)은 컴퓨터가 사람처럼 이야기를 할 수 있게 도와주는 특별한 프로그램이야. 예를 들어, 친구랑 대화하는 것처럼 질문을 하면, 랭체인은 그 질문에 맞게 답을 만들 수 있어. 그리고 여러 가지 정보를 연결해서 더 똑똑하게 답하거나, 글을 쓰는 데도 도움을 줄 수 있어. 쉽게 말하면, 컴퓨터가 좋은 답변을 쉽게 만들어내게 도와주는 도구라고 생각하면 돼! 궁금한 게 더 있으면 언제든 말해줘!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 138, 'prompt_tokens': 47, 'total_tokens': 185, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4.1-nano-2025-04-14', 'system_fingerprint': 'fp_38343a2f8f', 'id': 'chatcmpl-BmvzsQKfL6MwHQyCqJwXXTTITR2WZ', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--06459427-3095-4c90-af2d-079b49dbfc92-0', usage_metadata={'input_tokens': 47, 'output_tokens': 138, 'total_tokens': 185, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'o

### PromptTemplate

In [9]:
from langchain import PromptTemplate

# 어떤 상품에 대한 광고문구를 생성

prompt_template = PromptTemplate(
    template='{product}를 홍보하기 위한 신박한 광고문구를 작성해줘.',
    input_variables=['product']
)
prompt = prompt_template.format(product='초소형 카메라')
prompt = prompt_template.format(product='냉털전용 냉장고')

ai_message = llm.invoke(prompt)
print(ai_message.content)

당신의 냉장고가 냉털의 전용 공간으로! 신선함을 지켜주는 특별한 냉장 기술, 이제 냉장고도 냉털전용으로 선택하세요!


### ChatPromptTemplate

In [10]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate
)

system_msg_template = SystemMessagePromptTemplate.from_template("당신은 {domain}분야의 최고의 챗봇입니다.")
human_msg_template = HumanMessagePromptTemplate.from_template("{question}")
chat_template = ChatPromptTemplate.from_messages([
    system_msg_template, human_msg_template
])

prompt = chat_template.format_messages(domain='IT', question='LLM이 뭐야?')

print(llm.invoke(prompt).content)

'LLM은 "대규모 언어 모델(Large Language Model)"의 약자로, 방대한 양의 텍스트 데이터를 학습하여 자연어 처리(NLP) 작업을 수행하는 인공지능 모델입니다. 대표적인 예로 OpenAI의 GPT 시리즈, Google의 BERT 등이 있습니다. LLM은 텍스트 생성, 번역, 요약, 질문-answering 등 다양한 언어 관련 작업에 활용됩니다.'

In [11]:
prompt = chat_template.format_messages(domain='육아', question='우리 애가 밥을 안 먹어요. 어떡하면 좋을까요?')
print(llm.invoke(prompt).content)

아이의 식습관이 걱정되시겠어요. 아이가 밥을 잘 먹지 않을 때는 여러 가지 이유가 있을 수 있는데요. 아래의 방법들을 시도해 보시면 도움이 될 수 있습니다.

1. **꾸준한 식사 시간 유지:** 매일 같은 시간에 식사를 하도록 하고, 규칙적인 일정이 아이에게 안정감을 줍니다.

2. **작고 다양한 음식 제공:** 한 번에 많은 양을 주기보다는 작은 양의 다양한 음식을 제공해서 아이의 흥미를 유발하세요.

3. **놀이와 결합된 식사:** 음식을 재미있게 만들어 먹는 동안 즐거운 경험이 되도록 하세요. 예를 들어, 모양을 예쁘게 하거나, 색깔이 다양한 음식을 제공하면 관심을 끌 수 있습니다.

4. **긍정적 분위기 조성:** 아이가 먹는 동안 칭찬하거나 격려를 아끼지 마세요. 스트레스 없이 식사 시간을 보내는 것이 중요합니다.

5. **식사 환경 정리:** TV 시청이나 장난감 등 다른 방해 요소를 피하고, 편안하고 차분한 분위기에서 식사하세요.

6. **아이의 식욕과 건강 상태 체크:** 만약 지속적으로 식사를 거부하거나 체중이 줄거나 건강에 이상이 느껴진다면, 소아과 전문의와 상담하는 것이 좋습니다.

아이마다 성장 속도와 식습관이 다르니 인내심을 가지고 지켜봐 주세요. 궁금하거나 걱정되는 점이 있으면 언제든 말씀해 주세요.


### FewShotPromptTemplate

In [15]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q': '2 + 2 = ?', 'a': '4'},
    {'q': '3 + 5 = ?', 'a': '8'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q', 'a']
)

fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix='다음 수학문제를 풀어주세요:(답변은 정답만 출력하세요.)',
    suffix='Q: {question} \nA:', # 사용자입력값
    input_variables=['question']
)

prompt = fewshot_template.format(question='123 + 345 = ?')
print(prompt)

다음 수학문제를 풀어주세요:(답변은 정답만 출력하세요.)

Q: 2 + 2 = ?
A: 4

Q: 3 + 5 = ?
A: 8

Q: 123 + 345 = ? 
A:


In [16]:
print(llm.invoke(prompt).content)

468


## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [17]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = "사과, 바나나, 오렌지, 포도"

output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
print(output)

['사과', '바나나', '오렌지', '포도']


In [18]:
# {야구}팀 {5}개 질문
# {축구}팀 {10}개 질문

prompt_template = PromptTemplate(
    template="{subject} {n}개의 팀을 보여주세요.\n{format_instruction}",
    input_bariables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성 시에 채워짐
        'format_instruction': output_parser.get_format_instructions()
    }
)
prompt = prompt_template.format(subject='대한민국 프로야구', n=5)
prompt = prompt_template.format(subject='프리미어리그', n=5)
prompt

'프리미어리그 5개의 팀을 보여주세요.\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [20]:
ai_message = llm.invoke(prompt)
output = ai_message.content

# 출력파서가 가공한 최종 출력
output = output_parser.parse(output)
output

['Manchester United', 'Liverpool', 'Arsenal', 'Chelsea', 'Manchester City']

In [23]:
chain = prompt_template | llm | output_parser
chain.invoke(input={'subject':'프로농구', 'n':3})

['서울 삼성', '인천 전자랜드', '창원 LG']

### JSONOutputParser

In [28]:
from langchain_core.output_parsers import JsonOutputParser

model_output = '{"title": "GPT-5를 소개합니다.", "author": "OpenAI", "pages": 250}'

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions())

output = json_parser.parse(model_output) # json_str -> python object(list, dict)
print(output)
print(type(output))

Return a JSON object.
{'title': 'GPT-5를 소개합니다.', 'author': 'OpenAI', 'pages': 250}
<class 'dict'>


In [41]:
# {AI} 관련 책 {3}권을 보여주세요. (json)
# {요리} 관련 책 {5}권을 보여주세요. (json)
# PromptTemplate - LLM - JsonOutputParser

json_parser = JsonOutputParser()

# 환각 주의!!!
prompt_template = PromptTemplate(
    template="{subject} 관련 한국어 책 {n}권을 보여주세요.(실제 존재하는 책정보만 작성하고, 절대 지어내지 마세요.)\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': json_parser.get_format_instructions()
    }
)

llm = ChatOpenAI(model_name='gpt-4o-mini')

prompt = prompt_template.format(subject='AI', n=3)
ai_message = llm.invoke(prompt)
output = json_parser.parse(ai_message.content)
print(output)

[{'title': '딥러닝: 인공지능의 미래', 'author': '이동훈', 'publisher': '한빛미디어', 'year': 2020, 'isbn': '978-8968485713'}, {'title': '파이썬 라이브러리를 활용한 머신러닝', 'author': '안드레아스 뮐러, 세바스찬 그루에스', 'translator': '김승범', 'publisher': '에이콘출판', 'year': 2016, 'isbn': '978-8960776112'}, {'title': '인공지능: 정복의 시대', 'author': '제프리 번스', 'translator': '홍지민', 'publisher': '제이펍', 'year': 2019, 'isbn': '978-1188046123'}]


In [42]:
chain = prompt_template | llm | json_parser
output = chain.invoke(input={'subject':'AI', 'n': 3})
print(output)

[{'title': '인공지능: 개념과 응용', 'author': '이재홍', 'publisher': '한빛미디어', 'year': 2020, 'isbn': '9791162241063'}, {'title': '딥러닝 입문 - 이론과 코드로 배우는', 'author': '박해선', 'publisher': '지식옷장', 'year': 2021, 'isbn': '9791188212020'}, {'title': 'AI와 함께하는 데이터 과학', 'author': '홍길동', 'publisher': '비제이퍼블릭', 'year': 2022, 'isbn': '9791158834973'}]
