# Model IO
<img src="https://d.pr/i/Wy5B5B+" width="500"/>

- Language Model
- Prompt
- OutputParser

In [1]:
!pip install langchain langchain-openai langchain-community langchain-huggingface



In [2]:
# colab secret 모두 등록할 것
from google.colab import userdata
import os

"""
LANGSMITH_TRACING=true
LANGSMITH_ENDPOINT="https://api.smith.langchain.com"
LANGSMITH_API_KEY="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"
LANGSMITH_PROJECT="skn14_langchain"
OPENAI_API_KEY="<your-openai-api-key>"
"""

os.environ['LANGSMITH_TRACING'] = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY'] = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT'] = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')



## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

In [3]:
from langchain_openai import ChatOpenAI


llm = ChatOpenAI(model_name='gpt-4o', temperature=1)

print(llm.invoke('태국의 수도는 어디인가요?').content)

태국의 수도는 방콕입니다.


### huggingface

In [4]:
import os
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace

os.environ["HUGGINGFACEHUB_API_TOKEN"] = userdata.get('HUGGINGFACEHUB_API_TOKEN')

llm = HuggingFaceEndpoint(
    repo_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)

chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)

response = chat_model.invoke("프랑스의 수도는 어디인가요?")
print(response.content)


프랑스의 수도는 서울으로 위치함에도 불구하고 각 광역시 배면에 있습니다. 서울경 전경인 육지파 수도는 수도광역시인천에서 영천시의 인천고속도로와 연결되어 있습니다. 각 광역시의 수도는 기본적으로 관광학적 발전으로 활용되고 있으며 각 시에 따라 다양한 카페시간과 독특한 전문 이용장을 포함하고 있습니다.


In [1]:
from langchain_huggingface import HuggingFacePipeline

pipe = HuggingFacePipeline.from_model_id(
    model_id='microsoft/Phi-3-mini-4k-instruct',
    task='text-generation'
)
pipe.invoke('I love programmi')

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

KeyboardInterrupt: 

In [None]:
from langchain_anthropic import ChatAnthropic
from langchain_core.messages import HumanMessage

# 모델 초기화
model = ChatAnthropic(
    model="claude-3-opus-20240229",  # 또는 claude-3-sonnet, claude-3-haiku 등
    temperature=0,
    max_tokens=1024,
    api_key=ANTHROPIC_API_KEY,
)

# 메시지 구성
message = HumanMessage(content="프랑스의 수도는 어디인가요?")

# 응답 생성
response = model.invoke([message])
print(response.content)

### ModelLaboratory



In [13]:
from langchain.model_laboratory import ModelLaboratory

lims = [
    ChatOpenAI(model_name='gpt-4', temperature=1),
    ChatOpenAI(model_name='gpt-3.5-turbo', temperature=1)
]

  lab = ModelLaboratory.from_llms(lims)

lab.compare('파이썬의 장점이 무엇인가요?')

[1mInput:[0m
파이썬의 장점이 무엇인가요?

client=<openai.resources.chat.completions.completions.Completions object at 0x78c01bc4a050> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x78c01bc49850> root_client=<openai.OpenAI object at 0x78c01bc4bc50> root_async_client=<openai.AsyncOpenAI object at 0x78c01bc49310> model_name='gpt-4' temperature=1.0 model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3m1. 간결하고 읽기 쉬운 문법: 파이썬의 간결하고 명확한 문법은 이해하기 쉽고, 코드 작성 시간을 단축시켜줍니다. 또한 이로 인해 유지 보수가 쉽습니다.

2. 다양한 분야에 적용: 데이터 분석, 인공지능, 웹 개발, 자동화 스크립팅 등 여러분야에 효율적으로 적용할 수 있습니다.

3. 큰 표준 라이브러리 제공: 표준 라이브러리는 필요한 코드를 직접 작성하는 대신, 미리 만들어진 솔루션을 사용할 수 있도록 도와줍니다. 

4. 활발한 커뮤니티: 파이썬의 크고 활발한 커뮤니티는 많은 패키지들을 제공하며, 이들은 빠르게 진화하는 테크니컬 필드에서도 걸음을 따라잡을 수 있게 해줍니다.

5. 동적 타이핑: 파이썬은 런타임에서 타입을 체크하는 동적 타이핑을 지원합니다. 이는 개발 시간을 절약할 수 있습니다.

6. 멀티 패러다임: 파이썬은 절차적, 객체지향적, 함수형 프로그래밍을 포함한 여러 패러다임을 지원합니다.

7. 크로스 플랫폼: 파이썬은 대부분의 운영체제에서 작동할 수 있으며, 코드를 변경하지 않고도 여러 플랫폼에서 사용할 수 있습니다.

8. 인터프리터 언어: 인터프리터 

## Prompts
https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```


In [15]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name='gpt-4o-mini')

llm.invoke('LLM이 뭔가요?')

AIMessage(content='LLM은 "Large Language Model"의 약자로, 대량의 텍스트 데이터를 기반으로 훈련되어 자연어 처리(NLP) 작업을 수행할 수 있는 인공지능 모델을 의미합니다. 이러한 모델은 문장 생성, 번역, 질문 답변, 요약 등 다양한 작업에 활용될 수 있습니다.\n\nLLM은 일반적으로 많은 파라미터를 가지고 있으며, 복잡한 언어 패턴을 학습하여 사람과 유사한 방식으로 언어를 이해하고 생성할 수 있는 능력을 갖추고 있습니다. 예를 들어, OpenAI의 GPT 시리즈나 Google\'s BERT 등이 LLM의 대표적인 예입니다.\n\n이러한 모델들은 제너럴한 지식을 갖추고 있으며, 특정 분야에 대한 전문적인 지식이 필요할 경우 추가적인 학습이나 튜닝이 필요할 수 있습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 182, 'prompt_tokens': 15, 'total_tokens': 197, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw5zwPtRq43RyMF1kbDJxmd1PXHH', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--2ce5f5ba-026a-47ca-bb44-4bbc9ecf2fb9-0', usa

In [16]:
messages = [
    ('system', '당신은 친절한 초딩전용 챗봇입니다. 초딩의 눈높이에 맞게 설명해주세요.'),
    ('human', '랭체인이 뭔가요?')
]
llm.invoke(messages)

AIMessage(content='랭체인(RankChain)은 일반적으로 여러 데이터나 정보를 연결하고 정리하는 방법을 이야기해요. 쉽게 말해서, 여러 개의 블록(block)을 연결해서 하나의 줄로 나열하는 것과 비슷해요. 이 블록들은 정보를 담고 있고, 그 정보들은 서로 연결되어 있어요.\n\n가령, 만약 당신이 좋아하는 만화책의 내용을 단계별로 정리한다면, 첫 번째 책에서 두 번째 책으로 이어지는 이야기를 연결하는 거예요. 이렇게 하면 이야기를 이해하기 쉬워지죠! 랭체인은 이렇게 데이터를 잘 연결해서 정리하는 데 도움이 되는 도구라고 생각하면 돼요. \n\n어떤 질문이 더 궁금한지 물어봐도 좋아요!', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 162, 'prompt_tokens': 47, 'total_tokens': 209, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw64EVdDwKBOWIsfLjHaGv5kDu7w', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--44e5ccac-914f-412e-9a83-d156a93672d6-0', usage_metadata={'input_tokens': 47, 'output_tokens': 162, 'tota

### PromptTemplate

In [17]:
from langchain import PromptTemplate

# 어떤 상품에 대한 광고문구를 생성

prompt_template = PromptTemplate(
    template='{product}를 홍보하기 위한 신박한 광고문구를 작성해줘',
    input_variables=["product"]
)
prompt = prompt_template.format(product='초소형 카메라')
prompt = prompt_template.format(product='냉털전용 냉장고')

llm.invoke(prompt)

AIMessage(content='"여름의 열기를 잊게 해줄, 냉털전용 냉장고! 🥶✨  \n당신의 소중한 간식과 음료를 찜통 더위와 걱정 없이 시원하게!  \n이제 더 이상 냉장고에 고민은 NO!  \n차가운 행복, 한 입당 기분 UP!  \n당신의 여름을 시원하게 만드는 스마트한 선택!  \n냉털전용 냉장고와 함께 시원한 하루를 만드세요!"', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 116, 'prompt_tokens': 31, 'total_tokens': 147, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-Bmw6JaTsas5wIjLtlGjGwo1UGgKml', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--bbfdeb7c-3328-4f24-bd26-15e57542c675-0', usage_metadata={'input_tokens': 31, 'output_tokens': 116, 'total_tokens': 147, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### ChatPromptTemplate

In [18]:
from langchain.prompts.chat import (ChatPromptTemplate,
                                    SystemMessagePromptTemplate,
                                    HumanMessagePromptTemplate)

In [22]:

system_msg_template = SystemMessagePromptTemplate.from_template("당신은 {domain}분야의 최고의 챗봇입니다.")
human_msg_template = HumanMessagePromptTemplate.from_template("{question}")
chat_template = ChatPromptTemplate.from_messages([
    system_msg_template, human_msg_template
])

prompt = chat_template.format_messages(domain='IT', question='LLM이 뭐야?')

llm.invoke(prompt).content

'LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. 이러한 모델은 인공지능의 한 분야인 자연어 처리(NLP)에서 사용되며, 방대한 양의 텍스트 데이터를 기반으로 학습하여 인간과 비슷한 방식으로 언어를 이해하고 생성할 수 있는 능력을 갖추고 있습니다.\n\nLLM은 다음과 같은 주요 특징들을 가지고 있습니다:\n\n1. **규모**: LLM은 수억 또는 수십억 개의 매개변수를 가지고 있어 복잡한 언어 패턴과 규칙을 학습할 수 있습니다.\n2. **맥락 이해**: 이러한 모델은 문맥을 파악하는 데 뛰어난 능력을 가지고 있으며, 주어진 텍스트의 의미를 이해하고 관련된 응답을 생성할 수 있습니다.\n3. **다양한 작업**: LLM은 텍스트 생성, 질문 응답, 요약, 번역 등 다양한 자연어 처리 작업을 수행할 수 있습니다.\n4. **사전 학습과 미세 조정**: 대부분의 LLM은 대규모 데이터셋에서 사전 학습(Pre-training)된 후, 특정 작업에 맞게 미세 조정(Fine-tuning)됩니다.\n\n대표적인 LLM으로는 OpenAI의 GPT 시리즈, Google\'s BERT, T5 등이 있습니다. 이러한 모델들은 언어의 패턴을 이해하고 활용하는 데 매우 유용한 도구로 사용되고 있습니다.'

In [23]:
prompt = chat_template.format_messages(domain='육아', question='우리 애가 밥을 안 먹어요')

llm.invoke(prompt).content

'아이들이 식사를 거부하는 것은 흔한 일입니다. 여러 가지 이유가 있을 수 있는데, 이런 경우 몇 가지 방법을 시도해 볼 수 있습니다:\n\n1. **식사 환경 조성**: 편안하고 조용한 식사 공간을 만들어 주고, 아이가 좋아하는 장식이나 테이블 세팅을 활용해 보세요.\n\n2. **식사 시간 규칙 만들기**: 식사 시간을 정해주고, 그 시간에만 밥을 제공하면 아이가 배가 고플 때 자연스럽게 먹으려 할 수 있습니다.\n\n3. **다양한 음식**: 다양한 종류의 음식을 시도하여 아이가 좋아하는 맛을 찾는 것이 중요합니다. 색감이 화려한 채소나 고기를 작은 조각으로 잘라내면 아이가 더 관심을 가질 수 있습니다.\n\n4. **패턴 변화**: 매일 같은 음식을 주기보다는 새로운 레시피나 조리 방법을 시도해 보세요. 아이가 직접 음식 준비에 참여하게 하면 더 흥미를 느낄 수 있습니다.\n\n5. **간식 조절**: 식사 이외의 시간에 너무 많은 간식을 주지 않도록 하고, 식사 때에 배가 고프도록 유도하는 것이 좋습니다.\n\n6. **긍정적인 태도**: 아이가 음식을 먹을 때 칭찬하고 격려하는 것이 중요합니다. 압박감을 주기보다는 긍정적인 식습관을 밀어주는 것이 좋습니다.\n\n7. **건강 체크**: 만약 아이가 지속적으로 음식을 거부한다면, 건강 문제의 가능성도 고려해 보아야 합니다. pediatrician과 상담해 보는 것이 좋습니다.\n\n아이의 식사에 대한 집중과 인내가 필요할 수 있으니, 조금 더 시간을 갖고 기다려 보세요.'

### FewShotPromptTemplate

In [29]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {'q': '2 + 2 = ?', 'a': '4'},
    {'q': '3 + 5 = ?', 'a': '8'},
]

prompt_template = PromptTemplate(
    template='Q: {q}\nA: {a}',
    input_variables=['q', 'a']
)

fewshot_template = FewShotPromptTemplate(
    examples = examples,
    example_prompt = prompt_template,
    prefix = '다음 수학문제를 풀어주세요:',
    suffix = 'Q: {question} \nA:', # 사용자 입력값이 들어와야 할 자리
    input_variables = ['question']
)

prompt = fewshot_template.format(question='1 + 3 * 4')

print(prompt)

llm.invoke(prompt).content


다음 수학문제를 풀어주세요:

Q: 2 + 2 = ?
A: 4

Q: 3 + 5 = ?
A: 8

Q: 1 + 3 * 4 
A:


'주어진 수학 문제는 1 + 3 * 4입니다. 여기에서 곱셈이 덧셈보다 우선하므로, 먼저 3 * 4를 계산해야 합니다.\n\n3 * 4 = 12\n\n그 다음에 1을 더합니다:\n\n1 + 12 = 13\n\n따라서, 답은 13입니다.'

## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [33]:
from langchain.output_parsers import CommaSeparatedListOutputParser

output_parser = CommaSeparatedListOutputParser()

model_output = "사과, 바나나, 오렌지, 포도"

output = output_parser.parse(model_output) # 리스트로 변환해줌

output

['사과', '바나나', '오렌지', '포도']

In [39]:
# 야구팀 5개
# 축구팀 10개 질문

prompt_template = PromptTemplate(
    template = "{subject} {n}개의 팀을 보여주세요. \n{format_instruction}",
    input_variables = ['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables = {
        'format_instruction': output_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject='프리미어리그 축구팀', n=5)
print(prompt)

프리미어리그 축구팀 5개의 팀을 보여주세요. 
Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`


In [40]:
ai_message = llm.invoke(prompt)
output = ai_message.content

# 출력파서가 가공한 최종출력
output = output_parser.parse(output)
output

['맨체스터 유나이티드', '리버풀', '첼시', '아스널', '맨체스터 시티']

In [41]:
chain = prompt_template | llm | output_parser
chain.invoke({'subject': '한국프로야구 팀', 'n': 5})

['두산 베어스', '삼성 라이온즈', 'LG 트윈스', '키움 히어로즈', '한화 이글스']

###JSONOutputParser

In [46]:
from langchain_core.output_parsers import JsonOutputParser

json_parser = JsonOutputParser()

print(json_parser.get_format_instructions())

model_output = '{"title": "GPT-5를 소개합니다.", "author": "OpenAI", "pages": 250}'

type(json_parser.parse(model_output))

Return a JSON object.


dict

In [65]:
# AI 관련 책 3권을 보여주세요. (JSON)
# 요리 관련 책 5권을 보여주세요, (JSON)
# PromptTemplate - LLM - JsonOutputParser

prompt_template = PromptTemplate(
    template = "{subject}관련 책 {n}개를 보여주세요. \n{format_instruction}",
    input_variables = ['subject', 'n'], # 사용자 프롬프트로 채워질 변수
    partial_variables = {
        'format_instruction': json_parser.get_format_instructions()
    }
)

chain = prompt_template | llm | json_parser
print(chain.invoke({'subject': 'AI', 'n': 3}))
print(chain.invoke({'subject': '요리', 'n':5}))

{'books': [{'title': 'Artificial Intelligence: A Guide to Intelligent Systems', 'author': 'Michael Negnevitsky', 'publication_year': 2011, 'description': 'This book provides an introduction to the principles and methodologies of artificial intelligence, with a focus on practical applications.'}, {'title': 'Deep Learning', 'author': 'Ian Goodfellow, Yoshua Bengio, and Aaron Courville', 'publication_year': 2016, 'description': 'A comprehensive textbook on deep learning that covers the theory, practical applications, and future trends in the field.'}, {'title': 'Superintelligence: Paths, Dangers, Strategies', 'author': 'Nick Bostrom', 'publication_year': 2014, 'description': 'This book explores the potential future scenarios related to artificial superintelligence, discussing the implications and ethical considerations.'}]}
{'cooking_books': [{'title': 'The Joy of Cooking', 'author': 'Irma S. Rombauer', 'year': 1931, 'description': 'A comprehensive cookbook that covers a wide range of rec