# Model IO
<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [1]:
!pip install langchain langchain-openai langchain-community langchain-huggingface



In [2]:
from google.colab import userdata
import os

os.environ["LANGSMITH_TRACING"] = userdata.get('LANGSMITH_TRACING')
os.environ["LANGSMITH_ENDPOINT"] = userdata.get('LANGSMITH_ENDPOINT')
os.environ["LANGSMITH_API_KEY"] = userdata.get('LANGSMITH_API_KEY')
os.environ["LANGSMITH_PROJECT"] = userdata.get('LANGSMITH_PROJECT')
os.environ["OPENAI_API_KEY"] = userdata.get('OPENAI_API_KEY')

## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

## openai

In [3]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o')

llm.invoke('태국의 수도는 어디인가요?')

AIMessage(content='태국의 수도는 방콕입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 16, 'total_tokens': 26, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-2024-08-06', 'system_fingerprint': 'fp_07871e2ad8', 'id': 'chatcmpl-BmvsD24F3G87KOllbEZ5jt1LBD6q6', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--03e7abb8-5c89-4bcf-8f6b-2fc2f7b03835-0', usage_metadata={'input_tokens': 16, 'output_tokens': 10, 'total_tokens': 26, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

## huggingface

In [4]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace

llm = HuggingFaceEndpoint(
    repo_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)

chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

chat_model.invoke('프랑스의 수도는 어디인가요?')

AIMessage(content='프랑스의 수도는 삼성전자주행항공장, 인천을 주지요. 귀사의 중점 지도는 다음과 같습니다.\n\n- 인천 국토주간간선\n- 특별 제로 기구\n- 혼합 지도으로 관광객을 수서으로 인생의 중요 지도로 의존\n\n또한, 수도는 인천 국토영향센터와 관련된 장소에 위치하고 있습니다.', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 214, 'prompt_tokens': 25, 'total_tokens': 239}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--55cb2485-8553-439f-9329-9c3f9fe1c279-0', usage_metadata={'input_tokens': 25, 'output_tokens': 214, 'total_tokens': 239})

In [5]:
# from langchain_huggingface import HuggingFacePipeline

# pipe = HuggingFacePipeline.from_model_id(
#     model_id='microsoft/Phi-3-mini-4k-instruct',
#     task='text-generation'
# )
# pipe.invoke('what is LLM?')

### ModelLaboratory
- 여러LLM을 동시에 비교할 수 있는 실험도구

In [7]:
from langchain.model_laboratory import ModelLaboratory

llms = [
    ChatOpenAI(model_name='gpt-3.5-turbo'),
    ChatOpenAI(model_name='gpt-4.1'),
]

lab = ModelLaboratory.from_llms(llms)
lab.compare('파이썬의 장점이 무엇인가요?')

[1mInput:[0m
파이썬의 장점이 무엇인가요?

client=<openai.resources.chat.completions.completions.Completions object at 0x7b449cf95890> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7b449cf95f90> root_client=<openai.OpenAI object at 0x7b44a5e2c990> root_async_client=<openai.AsyncOpenAI object at 0x7b44a410ea50> model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3m1. 쉬운 학습 곡선: 파이썬은 다른 프로그래밍 언어에 비해 문법이 간단하고 직관적이어서 초보자도 쉽게 학습할 수 있습니다.

2. 다양한 라이브러리와 모듈: 파이썬에는 다양한 라이브러리와 모듈이 내장되어 있어서 다양한 작업을 간편하게 수행할 수 있습니다.

3. 대중적인 프로그래밍 언어: 파이썬은 전 세계적으로 가장 인기 있는 프로그래밍 언어 중 하나이며, 커뮤니티와 도움자료가 풍부합니다.

4. 크로스 플랫폼 지원: 파이썬은 윈도우, 맥, 리눅스 등 다양한 운영체제에서 모두 사용할 수 있습니다.

5. 데이터 처리와 분석에 용이: 파이썬은 데이터 처리와 분석을 위한 라이브러리인 Pandas, NumPy, Scikit-learn 등을 제공하여 데이터 과학 및 인공지능 분야에서 널리 사용되고 있습니다.[0m

client=<openai.resources.chat.completions.completions.Completions object at 0x7b449cf96510> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x7b44

## Prompts
https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```


In [9]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o-mini')

llm.invoke('LLM이 뭔가요?')

AIMessage(content='LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 자연어 처리(NLP) 작업을 수행하기 위해 개발되었으며, 대량의 텍스트 데이터를 학습하여 언어의 패턴과 구조를 이해합니다. LLM은 텍스트 생성, 질문 응답, 번역, 요약 등 다양한 언어 관련 작업을 수행하는 데 사용됩니다.\n\n대표적인 LLM의 예로는 OpenAI의 GPT-3, GPT-4, Google의 BERT, T5 등이 있습니다. 이러한 모델들은 인공지능 기술 발전에 큰 영향을 미치고 있으며, 많은 기업과 연구자들이 LLM을 활용하여 다양한 응용 프로그램을 개발하고 있습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 157, 'prompt_tokens': 15, 'total_tokens': 172, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-BmvyUttVoum75nbjeBzhISo8DPOvg', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--2753ee76-bbfc-4879-8018-c53780a2f7f0-0', usage_metadata={'input_tokens': 15, 'output_tokens'

In [10]:
messages = [
    ('system', '당신은 친절한 초딩전용 챗봇입니다. 초딩의 눈높이에 맞게 설명해주세요.'),
    ('human', '랭체인이 뭔가요?')
]

llm.invoke(messages)

AIMessage(content='랭체인은 "Language Chain"의 줄임말로, 여러 가지 언어를 연결해주는 기술이나 기법이야. 주로 인공지능(AI)과 관련된 것인데, 언어를 서로 번역하거나 어떤 문장을 생성하는 데 도움을 줄 수 있어. 쉽게 말해서, 여러 언어를 사용할 수 있도록 도와주는 시스템이라고 생각하면 돼!\n\n예를 들어, 너가 한국어로 질문을 하면, AI가 그 질문을 영어로 바꿔서 답변할 수도 있고, 또 다른 언어로도 답변할 수 있는 거야. 이렇게 여러 언어를 연결하는 역할을 해주는 거지!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 142, 'prompt_tokens': 47, 'total_tokens': 189, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw0mmBQmlypOBeNVqI4nPr1TDldb', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--8bf7a3bb-f821-417d-bd02-6f09c21a57f5-0', usage_metadata={'input_tokens': 47, 'output_tokens': 142, 'total_tokens': 189, 'input_token_details': {'audio': 0, 'c

## PromptTemplate

In [16]:
from langchain import PromptTemplate

# 어떤 상품에 대한 광고문구를 생성

prompt_template = PromptTemplate(
    template='{product}를 홍보하기 위한 신박한 광고문구를 작성해줘',
    input_variables=["product"]
)
prompt = prompt_template.format(product='초소형 카메라')
prompt = prompt_template.format(product='냉털전용 냉장고')

ai_message = llm.invoke(prompt)
print(ai_message.content)

"신선함을 지켜주는 냉털전용 냉장고! 🌟 당신의 소중한 재료를 언제 어디서나 막강한 냉기로 지킵니다. 냉장고에서 펼쳐지는 신선한 세계, 이제 냉털이 아닌 냉장고에서 경험하세요! #신선함의끝판왕 #냉털전문가"


### ChatPromptTemplate

In [17]:
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate
)

system_msg_template = SystemMessagePromptTemplate.from_template("당신은 {domain}분야의 최고의 챗봇입니다.")
human_msg_template = HumanMessagePromptTemplate.from_template("{question}")
chat_template = ChatPromptTemplate.from_messages([
    system_msg_template, human_msg_template
])

prompt = chat_template.format_messages(domain='IT', question='LLM이 뭐야?')
print(llm.invoke(prompt).content)

LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 대량의 텍스트 데이터를 학습하여 언어를 이해하고 생성하는 능력을 갖춘 인공지능 시스템입니다. 주로 자연어 처리(NLP) 분야에서 사용되며, 질문에 답하거나 텍스트를 요약, 번역, 생성하는 등의 작업을 수행할 수 있습니다.

LLM의 예로는 OpenAI의 GPT(Generative Pre-trained Transformer) 시리즈, Google's BERT, T5 등이 있습니다. 이러한 모델들은 일반적으로 수십억 개의 매개변수를 가지고 있으며, 이를 통해 다양한 언어 관련 작업에서 높은 성능을 발휘할 수 있습니다.


In [18]:
prompt = chat_template.format_messages(domain='육아', question='우리 애가 밥을 안먹어요. 어떻하면 좋을까요?')
print(llm.invoke(prompt).content)

아이의 식사가 문제일 때는 여러 가지 접근 방법이 있습니다. 다음과 같은 방법을 시도해 보세요:

1. **식사 환경 조성**: 편안하고 긍정적인 분위기를 만들어 주세요. TV나 스마트폰을 멀리하고 함께 앉아 이야기하며 식사하는 것이 좋습니다.

2. **식사 시간 정하기**: 규칙적인 식사 시간을 설정하여 아이의 식습관을 형성해 주세요. 일정한 시간에 식사하면 배고픔을 느끼게 됩니다.

3. **신선한 재료 사용**: 다양한 색깔과 모양의 채소나 과일을 사용하여 시각적으로도 매력적으로 만들어 주세요. 아이들이 좋아하는 음식이 있다면 그것을 사용해 보는 것도 좋습니다.

4. **작은 양 제공**: 처음부터 많은 양을 주기보다는 작은 양으로 시작하고, 아이가 원할 경우 양을 늘려주세요.

5. **가족이 함께 먹기**: 가족 모두가 같은 음식을 먹는 것이 좋습니다. 아이는 부모의 식습관을 보고 배우기 때문입니다.

6. **요리 참여**: 아이에게 음식을 준비하게 하여 흥미를 유도하세요. 자신이 만든 음식을 더 먹고 싶어할 수 있습니다.

7. **강요하지 않기**: 식사 때 강제로 먹이려고 하지 마세요. 아이가 스스로 먹고 싶어할 때까지 기다리는 것도 중요합니다.

8. **의사와 상담**: 만약 지속적으로 식사가 불규칙하거나 체중 감소가 있다면 소아과 의사와 상담하는 것이 좋습니다.

아이의 먹는 습관은 시간이 지남에 따라 변할 수 있습니다. 인내심을 가지고 다양한 방법을 시도해 보세요!


### FewShotPromptTemplate

In [19]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q': '2 + 2 = ?', 'a': '4'},
    {'q': '3 + 5 = ?', 'a': '8'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q', 'a']
)

fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix='다음 수학문제를 풀어주세요:',
    suffix='Q: {question} \nA:', # 사용자입력값
    input_variables=['question']
)

prompt = fewshot_template.format(question='123 + 345 = ?')
print(prompt)

다음 수학문제를 풀어주세요:

Q: 2 + 2 = ?
A: 4

Q: 3 + 5 = ?
A: 8

Q: 123 + 345 = ? 
A:


In [20]:
print(llm.invoke(prompt).content)

A: 468


## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [22]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = "사과, 바나나, 오렌지, 포도"

output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
output

['사과', '바나나', '오렌지', '포도']

In [24]:
# {야구}팀 {5}개 질문
# {축구}팀 {10}개 질문

prompt_template = PromptTemplate(
    template="{subject} {n}개의 팀을 보여주세요.\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': output_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject='대한민국 프로야구', n=5)
prompt

'대한민국 프로야구 5개의 팀을 보여주세요.\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [25]:
# {야구}팀 {5}개 질문
# {축구}팀 {10}개 질문

prompt_template = PromptTemplate(
    template="{subject} {n}개의 팀을 보여주세요.\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': output_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject='대한민국 프로야구', n=5)
prompt = prompt_template.format(subject='프리미어리그', n=5)
prompt

'프리미어리그 5개의 팀을 보여주세요.\nYour response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`'

In [27]:
ai_message = llm.invoke(prompt)
output = ai_message.content

# 출력파서가 가공한 최종출력
output = output_parser.parse(output)
output

['맨체스터 시티', '리버풀', '맨체스터 유나이티드', '아스널', '첼시']

In [28]:
chain = prompt_template | llm | output_parser
chain.invoke(input={'subject':'프로농구', 'n':3})

['서울 SK 나이츠', '전주 KCC 이지스', '인천 전자랜드 엘리펀츠']

### JSONOutputParser

In [29]:
from langchain_core.output_parsers import JsonOutputParser

model_output = '{"title": "GPT-5를 소개합니다.", "author": "OpenAI", "pages": 250}'

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions())

output = json_parser.parse(model_output) # json_str -> python object(list, dict)
print(output)
print(type(output))

Return a JSON object.
{'title': 'GPT-5를 소개합니다.', 'author': 'OpenAI', 'pages': 250}
<class 'dict'>


In [32]:
# AI 관련 책 3권을 보여주세요. (json)
# 요리 관련 책 5권을 보여주세요. (json)
# PromptTemplate - LLM - JsonOutputParser

prompt_template = PromptTemplate(
    template="{subject} {n}개의 책을 보여주세요.\n{format_instruction}",
    input_variables=['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables={
        # template 생성시에 채워짐
        'format_instruction': output_parser.get_format_instructions()
    }
)

prompt1 = prompt_template.format(subject='요리', n=5)
prompt2 = prompt_template.format(subject='AI', n=3)
print(prompt1)
print(prompt2)

요리 5개의 책을 보여주세요.
Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`
AI 3개의 책을 보여주세요.
Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`


In [36]:
ai_message1 = llm.invoke(prompt1)
ai_message2 = llm.invoke(prompt2)
output1 = ai_message1.content
output2 = ai_message2.content

# 출력파서가 가공한 최종출력
output1 = output_parser.parse(output1)
output2 = output_parser.parse(output2)
print(output1)
print(output2)

['요리의 정석', '집밥 백선생', '맛있는 집밥', '고기 구이의 기술', '건강한 심플 레시피']
['인공지능의 정석', '딥러닝 입문', '인간과 기계의 미래']
