# Model IO
<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [1]:
!pip install langchain langchain-openai langchain-community langchain-huggingface

Collecting langchain-openai
  Downloading langchain_openai-0.3.26-py3-none-any.whl.metadata (2.3 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.26-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-huggingface
  Downloading langchain_huggingface-0.3.0-py3-none-any.whl.metadata (996 bytes)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading 

In [1]:
from google.colab import userdata
import os

os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')

## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

### openai

In [2]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4.1-nano')

llm.invoke("태국의 수도는 어디인가요?")

AIMessage(content='태국의 수도는 방콕입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 16, 'total_tokens': 26, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4.1-nano-2025-04-14', 'system_fingerprint': 'fp_f12167b370', 'id': 'chatcmpl-BmvrOzEjZll6NsHgHiFZPBfA3kuvx', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--916a0f67-7888-4207-ae0b-316fec9eb420-0', usage_metadata={'input_tokens': 16, 'output_tokens': 10, 'total_tokens': 26, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### hugingface

In [3]:
from langchain_huggingface import ChatHuggingFace, HuggingFaceEndpoint

llm = HuggingFaceEndpoint(
    repo_id = 'microsoft/Phi-3-mini-4k-instruct',
    task = 'text-generation'
)

chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

chat_model.invoke('Where is the capital in France?')

AIMessage(content='The capital of France is Paris.', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 8, 'prompt_tokens': 10, 'total_tokens': 18}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--c6928191-0435-46a7-981e-885127103bd4-0', usage_metadata={'input_tokens': 10, 'output_tokens': 8, 'total_tokens': 18})

In [None]:
from langchain_huggingface import HuggingFacePipeline

pipe = HuggingFacePipeline.from_model_id(
    model_id = 'microsoft/Phi-3-mini-4k-instruct',
    task = 'text-generation'
)
pipe.invoke('What is LLM?')

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/967 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

### ModelLaboratory
- 여러 LLM을 동시에 비교할 수 있는 실험도구

In [4]:
from langchain.model_laboratory import ModelLaboratory

llms = [
    ChatOpenAI(model_name='gpt-3.5-turbo'),
    ChatOpenAI(model_name='gpt-4.1-nano'),
]

lab = ModelLaboratory.from_llms(llms)
lab.compare("What is the capital of France?")

[1mInput:[0m
What is the capital of France?

client=<openai.resources.chat.completions.completions.Completions object at 0x7c25f1324290> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7c25fa939290> root_client=<openai.OpenAI object at 0x7c25fa979f50> root_async_client=<openai.AsyncOpenAI object at 0x7c25fa9951d0> model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3mThe capital of France is Paris.[0m

client=<openai.resources.chat.completions.completions.Completions object at 0x7c25f12596d0> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7c25f125b750> root_client=<openai.OpenAI object at 0x7c25f1238c90> root_async_client=<openai.AsyncOpenAI object at 0x7c25f125b890> model_name='gpt-4.1-nano' model_kwargs={} openai_api_key=SecretStr('**********')
[33;1m[1;3mThe capital of France is Paris.[0m



## Prompts
https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```


In [5]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4.1-nano')

llm.invoke('What is LLM?')

AIMessage(content='LLM stands for "Large Language Model." It is a type of artificial intelligence (AI) model designed to understand, generate, and manipulate human language. LLMs are trained on vast amounts of textual data, allowing them to comprehend context, answer questions, translate languages, summarize texts, and perform other language-related tasks with high accuracy. Examples of LLMs include OpenAI\'s GPT series (like GPT-3 and GPT-4), Google\'s BERT, and others. These models are widely used in applications such as chatbots, virtual assistants, content creation, and natural language understanding.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 119, 'prompt_tokens': 12, 'total_tokens': 131, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4.1-nano-2025-04-14'

In [6]:
messages = [
    ('system','you are a kind chatbot for children. Explain for children quality'),
    ('human','What is langchain?')
]
llm.invoke(messages)

AIMessage(content="Hello! I see you're curious about Langchain. Well, Langchain is a special tool that helps computers understand and work with language, just like how you talk and read. Imagine if you had a super-smart robot friend who could help you find information, answer your questions, or tell stories—that's kind of what Langchain helps computers do! It makes it easier for computers to understand languages so they can help us better. Isn’t that cool?", additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 90, 'prompt_tokens': 28, 'total_tokens': 118, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4.1-nano-2025-04-14', 'system_fingerprint': 'fp_38343a2f8f', 'id': 'chatcmpl-Bmw048QqzUEZdjaCJ3iOeJMrzfTiL', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': 

### PromptTemplate

In [8]:
from langchain import PromptTemplate

# 어떤 상품에 대한 광고문구를 생성

prompt_template = PromptTemplate(
    template = '{product}를 홍보하기 위한 신박한 광고문구를 작성해줘!',
    input_varialbes = ['product']
)

prompt = prompt_template.format(product='초소형 카메라')
ai_message = llm.invoke(prompt)
print(ai_message.content)

작은 크기, 무한한 감시력! 초소형 카메라로 언제 어디서나 안전을 지키세요. 작지만 강렬한 퍼포먼스, 당신의 눈이 되어드립니다.


### ChatPromptTemplate

In [11]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate,
)

system_msg_template = SystemMessagePromptTemplate.from_template('당신은 {domain}분야의 최고의 챗봇입니다.')
human_msg_template = HumanMessagePromptTemplate.from_template('{question}')
chat_template = ChatPromptTemplate.from_messages([
    system_msg_template, human_msg_template
    ])

prompt = chat_template.format_messages(domain='IT', question='SLLM이 뭔가요?')
ai_message = llm.invoke(prompt)
print(ai_message.content)

SLLM은 일반적으로 "Self-Supervised Large Language Model"의 약자로, 자체 학습 방식을 통해 대규모 언어 모델을 개발하는 것을 의미합니다. 이는 대량의 비라벨 데이터(즉, 레이블이 없는 데이터를 활용하여) 자체적으로 학습하여 문장 이해, 생성, 번역 등 다양한 언어 처리 작업을 수행하는 모델입니다.

SLLM의 특징은 다음과 같습니다.
1. 대량의 비라벨 텍스트 데이터를 활용하여 사전학습 수행
2. 인간의 개입이나 명시적 레이블 없이도 의미를 이해하고 일반화 가능
3. 다양한 자연어 처리 작업에 적응력 우수

이러한 모델은 GPT, BERT 등과 같은 대형 언어 모델과 유사하며, AI의 자연어 이해와 생성 능력을 크게 향상시키는 데 기여합니다. 

혹시 더 구체적인 내용을 원하시거나 다른 의미의 약자일 경우 알려주세요!


### FewShotPromptTemplate

In [15]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q':'1 + 1 = ?','a':'2'},
    {'q':'4 + 8 = ?','a':'12'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q','a']
)

fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix ='다음  수학문제를 풀어주세요(답변은 정답만 출력해주세요)',
    suffix='Q:{question}\nA', # 사용자 입력값
    input_variables=['question']
)

prompt = fewshot_template.format(question='123 + 345 = ?')
print(prompt)

다음  수학문제를 풀어주세요(답변은 정답만 출력해주세요)

Q: 1 + 1 = ?
A: 2

Q: 4 + 8 = ?
A: 12

Q:123 + 345 = ?
A


In [16]:
print(llm.invoke(prompt).content)

468


## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [20]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = "사과, 바나나, 오렌지, 포도"

output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
output

['사과', '바나나', '오렌지', '포도']

In [27]:
from re import template
# {야구}팀 5개 질문
# {축구}팀 10개 질문

prompt_template = PromptTemplate(
    template="{subject} {n}개의 팀을 보여주세요.\n{format_instruction}",
    input_variables = ['subject','n'],  # 사용자 프롬프트로 채워질 변수
    partial_variables = {
        'format_instruction':output_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject='프리미어리그 축구팀 중 빅클럽', n=5)
prompt

'프리미어리그 축구팀 중 빅클럽 5개의 팀을 보여주세요.\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [28]:
ai_message = llm.invoke(prompt)
output = ai_message.content

output

'Manchester United, Liverpool, Arsenal, Chelsea, Manchester City'

In [26]:
chain = prompt_template | llm | output_parser
chain.invoke(input={'subject':'프로농구', 'n':3})

['서울 SK', '부산 kt', '인천 전자랜드']

### JSONOutputParser

In [30]:
from langchain_core.output_parsers import JsonOutputParser

model_output = '{"title":"GPT-5를 소개합니다", "author":"OpenAI","pages":250}'

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions())

output = json_parser.parse(model_output) # json_str -> python object(list, dict)
print(output)

Return a JSON object.
{'title': 'GPT-5를 소개합니다', 'author': 'OpenAI', 'pages': 250}


In [52]:
# AI 관련 책 3권을 보여주세요 json
# 요리 관련 책 5권을 보여주세요 json
# PromptTemplate - llm -jsonoutputparser

# PromptTemplate
json_parser = JsonOutputParser()

prompt_template = PromptTemplate(
    template="{book}관련 책 {n}권을 보여주세요.\n{format_instruction}",
    input_variables = ['book','n'],  # 사용자 프롬프트로 채워질 변수
    partial_variables = {
        'format_instruction':json_parser.get_format_instructions()
    }
)

llm = ChatOpenAI(model_name='gpt-4.1-nano')
prompt = prompt_template.format(book='AI', n=3)
ai_message = llm.invoke(prompt)
output = json_parser.parse(ai_message.content)
print(output)

{'books': [{'title': '인간 이해를 위한 AI', 'author': '이승원', 'description': '인공지능의 기초부터 실제 응용 사례까지 폭넓게 다루며, AI가 인간의 삶에 끼치는 영향을 쉽게 설명한 입문서입니다.'}, {'title': 'Artificial Intelligence: A Modern Approach', 'author': 'Stuart Russell, Peter Norvig', 'description': 'AI 분야의 대표적인 교과서로, 알고리즘, 기계 학습, 자연어 처리 등 다양한 주제를 포괄적으로 다루고 있습니다.'}, {'title': 'Deep Learning', 'author': 'Ian Goodfellow, Yoshua Bengio, Aaron Courville', 'description': '딥러닝의 핵심 원리와 최신 연구 동향을 상세히 설명하며, 인공 신경망과 딥러닝 모델 개발에 관심 있는 독자에게 추천됩니다.'}]}


In [53]:
chain = prompt_template | llm | output_parser
chain.invoke(input={'book':'AI', 'n':3})

['{',
 'books: [',
 '{',
 'title: "인공지능 이론과 실습"',
 '',
 'author: "이동훈"',
 '',
 'description: "인공지능의 기초부터 다양한 실습 사례까지 폭넓게 다루는 입문서입니다."',
 '}',
 '',
 '{',
 'title: "Deep Learning"',
 '',
 'author: "Ian Goodfellow',
 'Yoshua Bengio',
 'Aaron Courville"',
 '',
 'description: "딥러닝의 기본 원리와 최신 연구 내용을 체계적으로 소개하는 대표적인 책입니다."',
 '}',
 '',
 '{',
 'title: "인공지능 기계학습 실전"',
 '',
 'author: "김성훈"',
 '',
 'description: "머신러닝과 딥러닝을 실전 프로젝트에 적용하는 방법을 설명하는 실무 지침서입니다."',
 '}',
 ']',
 '}']