# Model IO
<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [1]:
!pip install langchain langchain-openai langchain-community langchain-huggingface

Collecting langchain-openai
  Downloading langchain_openai-0.3.26-py3-none-any.whl.metadata (2.3 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.26-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-huggingface
  Downloading langchain_huggingface-0.3.0-py3-none-any.whl.metadata (996 bytes)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading 

In [2]:
from google.colab import userdata
import os

os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')

## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

### openai

In [3]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o')

llm.invoke('태국의 수도는 어디인가요?')

AIMessage(content='태국의 수도는 방콕입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 16, 'total_tokens': 26, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_07871e2ad8', 'id': 'chatcmpl-Bmw4dfTxm3ftHzKv8vFyLGRi88nkt', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--1c1eeae2-e27c-4482-b8af-71c65622149f-0', usage_metadata={'input_tokens': 16, 'output_tokens': 10, 'total_tokens': 26, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### huggingface

In [14]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
from google.colab import userdata
import os

# Add your Hugging Face API token to the Colab secrets manager with the name 'HF_API_TOKEN'
os.environ['HF_TOKEN'] = userdata.get('HF_TOKEN')

llm = HuggingFaceEndpoint(
    repo_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)

chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

chat_model.invoke('Where is the capital of France?')

AIMessage(content='The capital of France is Paris.', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 8, 'prompt_tokens': 10, 'total_tokens': 18}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--2bdb77ae-d07c-41ca-9aae-0117c8fb91a5-0', usage_metadata={'input_tokens': 10, 'output_tokens': 8, 'total_tokens': 18})

In [6]:
#from langchain_huggingface import HuggingFacePipeline

# pipe = HuggingFacePipeline.from_model_id(
#     model_id='microsoft/Phi-3-mini-4k-instruct',
#     task='text-generation'
# )
# pipe.invoke('What is LLM?')

KeyboardInterrupt: 

### ModelLaboratory
- 여러LLM을 동시에 비교할 수 있는 실험도구

In [15]:
from langchain.model_laboratory import ModelLaboratory

llms = [
    ChatOpenAI(model_name='gpt-3.5-turbo'),
    ChatOpenAI(model_name='gpt-4.1'),
]

lab = ModelLaboratory.from_llms(llms)
lab.compare('파이썬의 장점이 무엇인가요?')

[1mInput:[0m
파이썬의 장점이 무엇인가요?

client=<openai.resources.chat.completions.completions.Completions object at 0x7fe856c81710> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7fe856c82050> root_client=<openai.OpenAI object at 0x7fe861d9bf50> root_async_client=<openai.AsyncOpenAI object at 0x7fe856c81b50> model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3m1. 쉽고 간단한 문법: 파이썬은 비교적 간단하고 직관적인 문법을 가지고 있어 학습이 쉽고 빠르게 가능하다.

2. 다양한 라이브러리와 모듈: 파이썬은 다양한 라이브러리와 모듈을 제공하여 다양한 작업을 쉽게 처리할 수 있다. 또한, 라이브러리는 다른 개발자들이 만들어놓은 것을 사용할 수 있어 개발 속도를 빠르게 할 수 있다.

3. 크로스 플랫폼 지원: 파이썬은 윈도우, 맥 OS, 리눅스 등 다양한 운영체제에서 동일한 코드를 사용하여 실행이 가능하다.

4. 다양한 응용 분야: 데이터 분석, 인공지능, 웹 개발, 네트워크 프로그래밍 등 다양한 분야에서 사용될 수 있다.

5. 커뮤니티 지원: 파이썬은 개발자들 사이의 활발한 커뮤니티가 형성되어 있어 도움을 받거나 다양한 정보를 얻을 수 있다.[0m

client=<openai.resources.chat.completions.completions.Completions object at 0x7fe856c82790> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7fe856c82f

## Prompts
https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```


In [16]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o-mini')

llm.invoke('LLM이 뭔가요?')

AIMessage(content='LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이 모델은 인공지능(AI) 기술을 기반으로 하여 자연어 처리를 수행하는 데 사용됩니다. LLM은 대량의 텍스트 데이터를 학습하여 언어의 패턴, 문맥, 의미 등을 이해하고 생성할 수 있는 능력을 갖추고 있습니다.\n\nLLM은 다양한 작업을 수행할 수 있습니다. 예를 들어, 글쓰기 보조, 번역, 질문 응답, 요약, 문서 분류 등 여러 자연어 처리 응용 프로그램에 활용됩니다. 최근 몇 년간 계량적 발전이 이루어져 다양한 LLM이 개발되었으며, 대표적인 예로 OpenAI의 GPT (Generative Pre-trained Transformer) 모델이 있습니다. 이러한 모델은 사람과 유사한 방식으로 언어를 이해하고 생성하는 데 도움을 줍니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 194, 'prompt_tokens': 15, 'total_tokens': 209, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-BmwD47zIzwAeluxgrOH52Qsl1LZNc', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--3b3a39ed-fd16

In [17]:
messages = [
    ('system', '당신은 친절한 초딩전용 챗봇입니다. 초딩의 눈높이에 맞게 설명해주세요.'),
    ('human', '랭체인이 뭔가요?')
]
llm.invoke(messages)

AIMessage(content='랭체인은 "Language Chain"의 줄임말이에요. 쉽게 말해서, 컴퓨터가 사람처럼 언어를 이해하고 대화할 수 있게 도와주는 기술인데요. 예를 들어, 사람들끼리 대화할 때 단어를 선택하고 문장을 만들듯이, 컴퓨터도 그런 과정을 거쳐서 자연스럽게 대화하는 거예요.\n\n그럼 랭체인을 어떻게 쓰느냐면, 질문을 하면 컴퓨터가 그 질문에 맞는 답을 찾아내고, 필요한 정보나 데이터를 연결해서 대답해 주는 거예요. 예를 들어, "고양이란 무엇인가요?" 하고 물어보면, 고양이에 대한 정보를 모아서 대답해 줄 수 있답니다! 그래서 랭체인은 인공지능에 아주 중요한 역할을 하고 있어요. 재미있죠?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 183, 'prompt_tokens': 47, 'total_tokens': 230, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-BmwDIvEej6J1EopUED1n8XAkNBtS1', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--7f247e57-bca6-4f49-b530-fbe5c9a533e4-0', usage_metadata={'input_tokens': 47, 'output_tokens': 18

### FewShotPromptTemplate

### PromptTemplate

In [19]:
from langchain import PromptTemplate

# 어떤 상품에 대한 광고문구를 생성

prompt_template = PromptTemplate(
    template='{product}를 홍보하기 위한 신박한 광고문구를 작성해줘',
    input_variables=["product"]
)
prompt = prompt_template.format(product='초소형 카메라')
prompt = prompt_template.format(product='냉털전용 냉장고')

ai_message = llm.invoke(prompt)
print(ai_message.content)

"냉털전용 냉장고! 당신의 소중한 재료를 더욱 신선하게, 더욱 안전하게! 🍏❄️  
이제 냉동실은 필요없어요! 매일매일 새로움을 보존하세요.  
'냉털'의 혁신을 경험하고, 맛의 차이를 느껴보세요!  
신선함이 담긴 한 점, 당신의 요리가 더욱 빛납니다!"  

"냉털전용 냉장고 – 신선함을 넘어, 맛의 진화를 이끌어냅니다!"


### ChatPromptTemplate

In [23]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate
)

system_msg_template = SystemMessagePromptTemplate.from_template("당신은 {domain}분야의 최고의 챗봇입니다.")
human_msg_template = HumanMessagePromptTemplate.from_template("{question}")
chat_template = ChatPromptTemplate.from_messages([
    system_msg_template, human_msg_template
])

prompt = chat_template.format_messages(domain='IT', question='LLM이 뭐야?')
print(llm.invoke(prompt).content)

LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이는 대량의 텍스트 데이터를 기반으로 학습하여 인간의 언어를 이해하고 생성할 수 있는 인공지능 모델입니다. LLM은 자연어 처리(NLP) 분야에서 사용되며, 질문에 대한 답변, 번역, 요약, 대화 생성 등 다양한 작업을 수행할 수 있습니다.

예를 들어, GPT(Generative Pre-trained Transformer) 시리즈는 대표적인 LLM 중 하나로, 대화 생성, 글쓰기 보조, 코드 작성 등의 다양한 용도로 사용됩니다. 이러한 모델들은 통계적 학습 방법과 심층 학습 기술을 기반으로 하여, 복잡한 언어 패턴을 인식하고 생성할 수 있는 능력을 갖추고 있습니다.


In [22]:
prompt = chat_template.format_messages(domain='육아', question='우리 애가 밥을 안먹어요. 어떻하면 좋을까요?')
print(llm.invoke(prompt).content)

아이의 식습관은 여러 가지 원인으로 영향을 받을 수 있습니다. 다음은 아이가 밥을 잘 먹도록 도와주는 몇 가지 방법입니다:

1. **식사 환경 조성**: 편안하고 화기애애한 분위기에서 식사할 수 있도록 하세요. TV나 장난감은 치우고, 가족과 함께 식사하는 것이 좋습니다.

2. **작은 양 제공**: 아이는 한 번에 많은 양을 먹기 어려울 수 있습니다. 적은 양을 제공하고, 필요할 경우 추가로 주는 것이 좋습니다.

3. **다양한 음식**: 다양한 음식과 색깔의 음식을 제공하여 흥미를 유발하세요. 아이가 좋아하는 음식과 새로운 음식을 조화롭게 섞어 보세요.

4. **모델링**: 부모가 건강한 식습관을 보여줌으로써 아이에게 긍정적인 영향을 미칠 수 있습니다. 함께 먹으면서 음식을 즐기는 모습을 보여주세요.

5. **아이의 의견 존중**: 무엇을 먹고 싶은지 아이에게 물어보고, 그에 따라 메뉴를 조정해보세요. 아이가 선택권을 가져가면 더 흥미를 느낄 수 있습니다.

6. **간식 조절**: 식사 전에 간식을 너무 많이 주지 않도록 하세요. 간식은 식사 전후에 적절하게 제공해야 합니다.

7. **일관성 유지**: 정해진 시간에 규칙적으로 식사하는 습관을 만들어 주세요. 일관된 식사 시간을 유지하면 아이도 식사 시간에 익숙해질 수 있습니다.

8. **인내심 가지기**: 아이가 음식을 거부한다고 해서 당황하거나 스트레스를 받지 마세요. 아이의 입맛에 맞는 음식을 찾는 데 시간이 걸릴 수 있습니다.

9. **전문가와 상담**: 만약 지속적으로 식사 거부가 문제가 된다면 소아과 의사나 영양사와 상담해보는 것도 좋은 방법입니다.

아이의 식습관은 자라면서 변할 수 있으니, 긍정적인 자세로 접근하는 것이 중요합니다.


### FewShotPromptTemplate

In [24]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q': '2 + 2 = ?', 'a': '4'},
    {'q': '3 + 5 = ?', 'a': '8'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q', 'a']
)

fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix='다음 수학문제를 풀어주세요:',
    suffix='Q: {question} \nA:', # 사용자입력값
    input_variables=['question']
)

prompt = fewshot_template.format(question='123 + 345 = ?')
print(prompt)

다음 수학문제를 풀어주세요:

Q: 2 + 2 = ?
A: 4

Q: 3 + 5 = ?
A: 8

Q: 123 + 345 = ? 
A:


In [25]:
print(llm.invoke(prompt).content)

A: 468


**bold text**## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [26]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = "사과, 바나나, 오렌지, 포도"

output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
output

['사과', '바나나', '오렌지', '포도']

In [27]:
# {야구}팀 {5}개 질문
# {축구}팀 {10}개 질문

prompt_template = PromptTemplate(
    template="{subject} {n}개의 팀을 보여주세요.\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': output_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject='대한민국 프로야구', n=5)
prompt = prompt_template.format(subject='프리미어리그', n=5)
prompt

'프리미어리그 5개의 팀을 보여주세요.\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [28]:
ai_message = llm.invoke(prompt)
output = ai_message.content

# 출력파서가 가공한 최종출력
output = output_parser.parse(output)
output

['맨체스터 유나이티드', '리버풀', '첼시', '아스널', '맨체스터 시티']

In [29]:
chain = prompt_template | llm | output_parser
chain.invoke(input={'subject':'프로농구', 'n':3})

['서울 SK', '안양 KGC', '원주 DB']

### JSONOutputParser

In [30]:
from langchain_core.output_parsers import JsonOutputParser

model_output = '{"title": "GPT-5를 소개합니다.", "author": "OpenAI", "pages": 250}'

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions())

output = json_parser.parse(model_output) # json_str -> python object(list, dict)
print(output)
print(type(output))

Return a JSON object.
{'title': 'GPT-5를 소개합니다.', 'author': 'OpenAI', 'pages': 250}
<class 'dict'>


In [31]:
# {AI} 관련 책 {3}권을 보여주세요. (json)
# {요리} 관련 책 {5}권을 보여주세요. (json)
# PromptTemplate - LLM - JsonOutputParser

json_parser = JsonOutputParser()

# 환각 주의!!!
prompt_template = PromptTemplate(
    template="{subject} 관련 한국어 책 {n}권을 보여주세요.(실제 존재하는 책정보만 작성하고, 절대 지어내지 마세요.)\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': json_parser.get_format_instructions()
    }
)

llm = ChatOpenAI(model_name='gpt-4o-mini')

prompt = prompt_template.format(subject='AI', n=3)
ai_message = llm.invoke(prompt)
output = json_parser.parse(ai_message.content)
print(output)

[{'title': 'AI, 인공지능의 미래', 'author': '이철희', 'publisher': '지식의날개', 'year': 2020, 'isbn': '9788991321030'}, {'title': '인공지능, 우리의 삶을 바꾸다', 'author': '전종화', 'publisher': '북스톤', 'year': 2021, 'isbn': '9788965045078'}, {'title': '파이썬으로 배우는 머신러닝', 'author': '세바스찬 라쉬카', 'translator': '김종민', 'publisher': '한빛미디어', 'year': 2019, 'isbn': '9788968483781'}]


In [32]:
chain = prompt_template | llm | json_parser
output = chain.invoke(input={'subject':'AI', 'n': 3})
print(output)

[{'title': '인공지능의 미래', 'author': '뱅상 다리', 'publisher': '한빛미디어', 'year': 2021}, {'title': '파이썬 머신러닝 완벽 가이드', 'author': '권철민', 'publisher': '에이콘출판', 'year': 2020}, {'title': '인공지능: 비즈니스에 혁신을 가져다주는 미래 기술', 'author': '김진수', 'publisher': '미래의창', 'year': 2022}]
