# Model IO

(아래 그림에서 초록색 부분)
![](https://d.pr/i/Wy5B5B+)

파트를 세 개 로 나눠서
- Language Model
- Prompt
- OutputParser

이렇게 알아본다.

## Language Models

https://python.langchain.com/api_reference/reference.html#integrations

LangChain의 Integrations 섹션에서는 다양한 다운스트림 LLM 모델과의 연동을 지원하다.

이 섹션에서는 OpenAI, Hugging Face, GPT-4 등의 다양한 LLM 모델과 LangChain을 연결하는 방법을 다룬다.

In [1]:
!pip install langchain langchain-openai langchain-community langchain-huggingface

Collecting langchain-openai
  Downloading langchain_openai-0.3.26-py3-none-any.whl.metadata (2.3 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.26-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-huggingface
  Downloading langchain_huggingface-0.3.0-py3-none-any.whl.metadata (996 bytes)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading 

In [1]:
# colab secret 모두 등록할 것
from google.colab import userdata
import os

os.environ['LANGSMITH_TRACING']  = userdata.get('LANGSMITH_TRACING')
os.environ['LANGSMITH_ENDPOINT'] = userdata.get('LANGSMITH_ENDPOINT')
os.environ['LANGSMITH_API_KEY']  = userdata.get('LANGSMITH_API_KEY')
os.environ['LANGSMITH_PROJECT']  = userdata.get('LANGSMITH_PROJECT')
os.environ['OPENAI_API_KEY']     = userdata.get('OPENAI_API_KEY')

In [2]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name="gpt-4o-mini")
llm.invoke("라오스 여행경비 얼마나 나올까")

AIMessage(content='라오스 여행 경비는 여러 요소에 따라 달라지지만, 일반적인 예산을 기준으로 말씀드리겠습니다. 1일 기준으로 계산하면 대략 다음과 같은 항목들이 있습니다.\n\n1. **항공료**: 출발지에 따라 다르지만, 한국에서 라오스(비엔티안 등)까지의 왕복 항공료는 약 30만 원에서 70만 원 이상일 수 있습니다.\n\n2. **숙박비**: 라오스의 숙박비는 다양합니다. 저렴한 호스텔이나 게스트하우스는 1박에 약 10,000원부터 가능하고, 중급 호텔은 50,000원에서 100,000원 정도입니다. 고급 호텔은 더 비쌉니다.\n\n3. **식비**: 현지 식당에서 한 끼는 대략 2,000원에서 7,000원 정도 할 수 있으며, 고급 레스토랑에서는 10,000원 이상일 수 있습니다. 하루에 약 1만 원에서 3만 원 정도 잡으면 적당합니다.\n\n4. **교통비**: 국내 이동은 미니버스, 택시, 오토바이 대여 등을 이용할 수 있습니다. 대략 하루에 5,000원에서 2만 원 정도 예상하면 됩니다.\n\n5. **관광지 입장료 및 액티비티**: 유명 관광지의 입장료는 보통 1,000원에서 5,000원 정도이며, 투어 프로그램이나 액티비티는 별도의 비용이 발생합니다. 하루에 1만 원에서 5만 원 정도 쓸 수 있습니다.\n\n6. **기타 경비**: 쇼핑, 음료수, 간식 등을 고려해 하루에 약 1만 원 정도 추가하면 좋습니다.\n\n**종합적으로**: \n- 1일 평균 5만 원에서 10만 원 정도의 예산을 잡고, 여기에 항공료를 추가하여 여행하는 기간에 따라 총 경비를 계산하면 됩니다. 예를 들어, 5일 여행을 계획할 경우, 경비는 약 30만 원에서 70만 원 이상으로 예상할 수 있습니다.\n\n물가, 여행 스타일, 여행 시즌에 따라 다를 수 있으니 참고하시기 바랍니다. 더 구체적인 계획이 필요하시면 추가 질문해 주세요!', additional_kwargs={'refusal': None}, response_metadata={'token_usage

### huggingface

In [7]:
from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace

llm = HuggingFaceEndpoint(
    repo_id="microsoft/Phi-3-mini-4k-instruct"
)
chat_model = ChatHuggingFace(
    llm=llm,
    verbose=True
)
chat_model.invoke("식곤증을 해소하는 방법")

AIMessage(content='식곤증을 해소하는 방법은 다음과 같습니다:\n\n1. 채소 배출: 과일, 채소, 영양분 즉시 먹는다.\n2. 건강한 식단: 잘 소모되지 않은 단백질, 영양가가 큽니다. 고등어, 피자, 소금류 같은 고소많은 먹거리를 활용하도록 한다.\n3. 필요성 포함된 단백질 소비: 후라이트, 약성염, 염소운 양량이 포함된 단백질 소비.\n4. 커피 소비 제한: 많은 커피는 건강에 좋지 않으며, 기타 단백질 소비에 불과하다.\n5. 알코올 넓이 감소: 드럼 길이 약간 발동함을 보장하며, 발마르나더증, 혈압 감소도 발생함.\n6. 건강한 휴식: 휴식을 통해 균형을 바꾸고 건강의 조화를 유지하는 것.\n7. 커피 소비 제한 고려: 편성할 수 있는 커피 멤버를 기본으로, 특히 오랜조차 없는 단백질 소비.\n8. 부모에 의해 건강하게 생활하는 후: 다른 경험과 경험론을 통해 최선을 하면서 의료과의 관계를 갖는다.\n\n간단하게 말하면, 식곤증을 해소하는 것은 채식에 대한 계획을 세울 때까지 한 번 수정하고, 필요한 단백질들이 잘 필요한 영양과 정해진 용량을 내놓는 것을 목표로 삼는 것이며, 적절한 제조료들을 소비하는 것을 바탕으로 목표를 설정하고, 휴식을 적급함으로써 건강에 도움을 받는 것이 중요합니다.', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 936, 'prompt_tokens': 22, 'total_tokens': 958}, 'model_name': 'microsoft/Phi-3-mini-4k-instruct', 'system_fingerprint': '3.2.1-sha-4d28897', 'finish_reason': 'stop', 'logprobs': None}, id='run--0c1529dd-5190-4f0c-beb7-7b43aafe8809-0', usage_metadata={'input_tokens': 22, 'output_tokens':

In [8]:
from langchain_huggingface import HuggingFacePipeline

pipe = HuggingFacePipeline.from_model_id(
    model_id="microsoft/Phi-3-mini-4k-instruct",
    task="Text-generation"
)
pipe.invoke("What's the position of secretary in brazil?")

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/967 [00:00<?, ?B/s]

ValueError: Unrecognized configuration class <class 'transformers.models.phi3.configuration_phi3.Phi3Config'> for this kind of AutoModel: AutoModelForSeq2SeqLM.
Model type should be one of BartConfig, BigBirdPegasusConfig, BlenderbotConfig, BlenderbotSmallConfig, EncoderDecoderConfig, FSMTConfig, GPTSanJapaneseConfig, GraniteSpeechConfig, LEDConfig, LongT5Config, M2M100Config, MarianConfig, MBartConfig, MT5Config, MvpConfig, NllbMoeConfig, PegasusConfig, PegasusXConfig, PLBartConfig, ProphetNetConfig, Qwen2AudioConfig, SeamlessM4TConfig, SeamlessM4Tv2Config, SwitchTransformersConfig, T5Config, UMT5Config, XLMProphetNetConfig.

In [None]:
# 강사님 수업용 코드
from langchain_anthropic import ChatAnthropic
from langchain_core.messages import HumanMessage

# 모델 초기화
model = ChatAnthropic(
    model="claude-3-opus-20240229",  # 또는 claude-3-sonnet, claude-3-haiku 등
    temperature=0,
    max_tokens=1024,
    api_key=ANTHROPIC_API_KEY,
)

# 메시지 구성
message = HumanMessage(content="프랑스의 수도는 어디인가요?")

# 응답 생성
response = model.invoke([message])
print(response.content)

### ModelLaboratory
테스트를 위한 도구.
- 여러 LLM 을 동시에 비교할 수 있는 실험도구.

In [3]:
from langchain.model_laboratory import ModelLaboratory

llms = [
    ChatOpenAI(model_name="gpt-4o-mini"),
    ChatOpenAI(model_name="gpt-4o")
]
lab = ModelLaboratory.from_llms(llms)
lab.compare("자바에 비해서 파이썬의 장단점?")

[1mInput:[0m
자바에 비해서 파이썬의 장단점?

client=<openai.resources.chat.completions.completions.Completions object at 0x783e8e190b10> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x783e8d7d4cd0> root_client=<openai.OpenAI object at 0x783e8e17fd10> root_async_client=<openai.AsyncOpenAI object at 0x783e8d7d4710> model_name='gpt-4o-mini' model_kwargs={} openai_api_key=SecretStr('**********')
[36;1m[1;3m자바와 파이썬은 각각의 장단점이 있으며, 사용자의 필요에 따라 적합한 언어가 다를 수 있습니다. 아래에 두 언어의 주요 장단점을 정리해 보겠습니다.

### 파이썬의 장점:
1. **문법이 간결하다**: 파이썬은 읽기 쉽고 간결한 문법을 제공하여 배우기 쉽고, 코드 작성이 빠릅니다.
2. **빠른 프로토타입 작성**: 파이썬은 인터프리터 언어이기 때문에 빠르게 코드를 작성하고 테스트할 수 있어, 프로토타입 개발에 유리합니다.
3. **다양한 라이브러리**: 데이터 과학, 머신러닝, 웹 개발 등 다양한 분야를 위한 강력한 라이브러리가 많이 존재합니다. 예를 들어, NumPy, Pandas, TensorFlow, Django 등이 있습니다.
4. **활발한 커뮤니티**: 사용자 커뮤니티가 크고 활발하여 자료를 찾기가 쉽고, 문제 해결을 위한 도움을 받을 수 있습니다.

### 파이썬의 단점:
1. **속도가 느리다**: 인터프리터 언어로 실행되기 때문에 컴파일된 언어인 자바보다 실행 속도가 느린 경우가 많습니다.
2. **멀티스레딩 성능 한계**: 글로벌 인터프리터 락(GIL) 때문에 멀티스레

## Prompt

https://python.langchain.com/api_reference/core/prompts.html#langchain-core-prompts

`LangChain`의 API 문서에서 제공하는 **Prompts**에 대한 내용은 LangChain 프레임워크의 **핵심 구성 요소 중 하나**로, LLM(Large Language Model)과의 인터페이스를 설정하는 데 중요한 역할을 한다. Prompts는 LLM에 전달될 입력을 정의하고, 구조화하며, 이를 기반으로 원하는 응답을 얻기 위해 사용된다.

**주요 사용처**

1. **자동화된 입력 구성**
   - PromptTemplate을 사용하여 사용자 입력을 자동으로 구성.
   - 동일한 형식의 질문이나 대화를 대량으로 생성 가능.

2. **대화형 응답**
   - ChatPromptTemplate을 통해 대화형 AI의 문맥 유지를 지원.

3. **샘플 기반 학습**
   - Few-shot Prompt는 LLM에 구체적인 예제를 제공해 정확한 응답을 유도.

4. **결과 파싱**
   - Output Parsers를 통해 LLM의 출력을 특정 포맷으로 처리하여 후속 작업을 자동화.


**클래스 계층구조**
```
BasePromptTemplate
├─ PipelinePromptTemplate
├─ StringPromptTemplate
│  ├─ PromptTemplate
│  ├─ FewShotPromptTemplate
│  └─ FewShotPromptWithTemplates
└─ BaseChatPromptTemplate
   ├─ AutoGPTPrompt
   └─ ChatPromptTemplate
      └─ AgentScratchPadChatPromptTemplate

BaseMessagePromptTemplate
├─ MessagesPlaceholder
└─ BaseStringMessagePromptTemplate
   ├─ ChatMessagePromptTemplate
   ├─ HumanMessagePromptTemplate
   ├─ AIMessagePromptTemplate
   └─ SystemMessagePromptTemplate

```
~~ PromptTemplate
~~

In [4]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model_name="gpt-4o-mini"    # 원래 여기서 api_key 변수도 줘야 하는데, OS 레벨에서 환경변수 설정해놓은게 있어서 안줘도 동작하고 있음.
)
llm.invoke("랭체인이 대체 뭐야").content

'랭체인(Chain of Thought, CoT)은 일반적으로 인공지능의 추론 및 문제 해결 과정을 개선하기 위해 사용되는 접근 방식입니다. 이 방법은 AI 모델이 문제를 해결하기 위해 필요한 중간 단계를 명시적으로 나타내고, 이를 통해 더 복잡한 문제에 대한 답변을 도출하는 데 도움을 줍니다.\n\n랭체인 기술은 모델이 단순히 최종 답변을 제시하는 것이 아니라, 그 과정에서 어떤 사고 과정을 거쳤는지를 보여줍니다. 이렇게 하면 모델의 결정 과정이 더 투명해지고, 결과의 신뢰성을 높일 수 있습니다. 이는 특히 복잡한 논리 문제나 다단계 문제 해결 시 유용합니다.\n\n랭체인 접근 방식은 다수의 응용 분야에서 활용될 수 있으며, 자연어 처리(NLP), 로봇공학, 그리고 다양한 인공지능 시스템에서 문제 해결 능력을 향상시키는 데 기여할 수 있습니다.'

In [7]:
messages = [
    ("system", "당신은 친절하고 상세하면서, 초딩의 눈높이에 맞게 설명해주는 챗봇입니다."),
    ("human" , "랭체인이 대체 뭐야?")
]
llm.invoke(messages)

AIMessage(content="랭체인(RankChain)은 '랭킹(Rank)'과 '체인(Chain)'이 합쳐진 말로, 데이터나 정보를 순위에 따라 정리해서 연결하는 방식을 의미해요. 주로 웹사이트나 검색 엔진에서 어떤 내용이 더 중요한지 정할 때 쓰는 방법이에요.\n\n예를 들어, 우리가 인터넷에서 정보를 찾을 때, 검색 엔진은 수많은 웹페이지 중에서 어떤 페이지가 더 유용하고 중요한지를 판단해서 순위를 매겨요. 이 과정에서 랭체인이 사용될 수 있죠.\n\n쉽게 말하면, 정보를 정리해서 누가 1등인지, 2등인지, 3등인지를 정하는 시스템이라고 생각하면 돼요. 이런 방식으로 우리가 원하는 정보를 더 쉽게 찾을 수 있게 도와줘요! 이해가 되었나요?", additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 182, 'prompt_tokens': 46, 'total_tokens': 228, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_34a54ae93c', 'id': 'chatcmpl-BmvzpTnlsizB4InWIzrw2N6teq135', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--01adb4b5-2a89-4785-b7ff-bb380fc94fdf-0', usage_metadata={'input_tokens': 46, '

### PromptTemplate

In [9]:
from langchain import PromptTemplate

# 어떤 상품의 광고를 위한 카피라이트를 생성하는 작업 해보기
template = PromptTemplate(
    template="{product}를 홍보하기 위한 신박한 광고문구를 작성해줘.",
    input_variables=["product"]
)
template.format(product="신발")

prompt = prompt_template.format(product="초소형 카메라")
print(ai_message.content)

NameError: name 'prompt_template' is not defined

## ChatPromptTemplate

In [None]:
# 대화형을 위ㅐ 만드러거니까.
# 강사님 코드를 넣자.

### FewShotPromptTemplate

In [11]:
from langchain.prompts import FewShotPromptTemplate

examples = [
    {"q":"2 + 2 = ?", "a":"4"},   # 키 이름은 자유.
    {"q":"3 + 5 = ?", "a":"8"}
]

prompt_template = PromptTemplate(
    template="Q:{q}\nA:{a}",
    input_variables=["q", "a"]
)

# 둘이 합체
fewshot_template = FewShotPromptTemplate(
    examples=examples,
    example_prompt=prompt_template,
    prefix="다음 수학문제를 풀어주세요.",
    suffix="Q:{question}\nA:",   # 사용자 입력값
    input_variables=["question"]
)

prompt = fewshot_template.format(question="123 + 929 = ?")
print(prompt)
# 여기까지가 프롬프트를 만드는 기능. 아직 LLM 에 보내기 전.

다음 수학문제를 풀어주세요.

Q:2 + 2 = ?
A:4

Q:3 + 5 = ?
A:8

Q:123 + 929 = ?
A:


In [12]:
print(llm.invoke(prompt).content)

A: 1052


## Output Parsers

https://python.langchain.com/api_reference/langchain/output_parsers.html#module-langchain.output_parsers

LangChain의 Output Parsers는 LLM이 생성한 텍스트 출력을 특정 형식으로 변환하거나 처리하는 데 사용된다. 이는 모델의 응답을 해석하고, 이를 구조화된 데이터로 바꿔 후속 작업에 활용하기 위해 설계되었다. Output Parsers는 LangChain의 응답 처리 워크플로우에서 중요한 역할을 한다.

예를 들어, LLM 응답이 "Name: John, Age: 30"와 같은 텍스트라면, 이를 {"name": "John", "age": 30}과 같은 Python 딕셔너리로 변환 가능.

**사용 목적**
- 모델의 출력을 특정 애플리케이션에 맞게 처리해야 하는 경우가 많음.
- 응답을 해석하는 일관성과 정확성을 높이기 위해 필요.
- 텍스트 기반 응답을 JSON, 리스트 또는 숫자와 같은 특정 포맷으로 변환하여 후속 작업에 활용.

**종류**
1. **BaseOutputParser**: Output Parsers의 기본 클래스, 커스텀 파서 구현 시 사용.  
2. **CommaSeparatedListOutputParser**: 콤마로 구분된 문자열을 리스트로 변환.  
3. **RegexParser**: 정규식을 사용해 특정 패턴을 추출하고 키-값 형태로 반환.  
4. **StructuredOutputParser**: 출력의 JSON 또는 구조화된 형식을 강제.  
5. **PydanticOutputParser**: Pydantic 모델을 기반으로 출력 검증 및 변환.  
6. **MarkdownOutputParser**: 마크다운 형식의 텍스트에서 데이터를 추출.  

### CommaSeparatedListOutputParser

In [13]:
from langchain.output_parsers import CommaSeparatedListOutputParser

model_output = "사과, 바나나, 오렌지, 포도"   # LLM 결과가 이렇게 왔을 때,
output_parser = CommaSeparatedListOutputParser()
output = output_parser.parse(model_output)
output

['사과', '바나나', '오렌지', '포도']

In [19]:
# {야구팀}  {5} 개 질문
# {축구팀} {10} 개 질문
prompt_template = PromptTemplate(
    template="{subject} {n} 개의 팀을 보여주세요.\n{format_instruction}",
    input_variables=["subject", "n"],      # 사용자 프롬프트로 채워질 변수들
    partial_variables={                    # 템플릿 생성할 때 채워짐.
        "format_instruction" : output_parser.get_format_instructions()
    }
)

prompt = prompt_template.format(subject="대한민국 프로야구", n=5)
print(prompt)

prompt1 = prompt_template.format(subject="프리미어리그", n=5)
print(prompt1)

대한민국 프로야구 5 개의 팀을 보여주세요.
Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`
프리미어리그 5 개의 팀을 보여주세요.
Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`


In [21]:
ai_message = llm.invoke(prompt)
output = ai_message.content
print("가공 전 : ", output)

# 출력 parser 가 가공한 최종출력
output = output_parser.parse(output)
print("가공 후 : ", output)

가공 전 :  두산 베어스, LG 트윈스, 삼성 라이온즈, 키움 히어로즈, NC 다이노스
가공 후 :  ['두산 베어스', 'LG 트윈스', '삼성 라이온즈', '키움 히어로즈', 'NC 다이노스']


In [22]:
chain = prompt_template | llm | output_parser
chain.invoke({"subject": "프로농구", "n": 5})

['서울 SK', '안양 KGC', '창원 LG', '인천 전자랜드', '전주 KCC']

### JSONOutputParser

In [25]:
from langchain_core.output_parsers import JsonOutputParser

model_output = """{
  "title"  : "GPT-5 를 소개합니다.",
  "author" : "OpenAI",
  "pages"  : 250
}"""

json_parser = JsonOutputParser()
print(json_parser.get_format_instructions())

output = json_parser.parse(model_output)
print(output, type(output))

Return a JSON object.
{'title': 'GPT-5 를 소개합니다.', 'author': 'OpenAI', 'pages': 250} <class 'dict'>


In [28]:
# AI 관련 책 3 권을 보여주세요. (json)
# 요리 관련 책 3 권을 보여주세요. (json)
# PromptTemplate - LLM - JsonOutputParser

################################## Parser 선언
json_parser = JsonOutputParser()

################################## PromptTemplate 선언
params = {
    "template"          : "{subject} 관련 책 {n} 권을 보여주세요.\n{format_instruction}",
    "input_variables"   : ["subject", "n"],
    "partial_variables" : { "format_instruction" : json_parser.get_format_instructions() }
}
prompt_template = PromptTemplate(**params)

################################## Chaining 하고 invoke()
chain  = prompt_template | llm | json_parser
output = chain.invoke({"subject":"추리소설", "n":3})
output

# 위 코드와 동작방식 동일
# prompt = prompt_template.format(subject="추리소설", n=3)
# output = llm.invoke(prompt).content
# output = json_parser.parse(output)
# output

{'추리소설': [{'제목': '안나 카레니나',
   '저자': '레프 톨스토이',
   '출판연도': '1877',
   '설명': '사랑과 배신, 사회적 기대가 얽히는 복잡한 인간관계를 그린 고전 소설.'},
  {'제목': '셜록 홈즈 시리즈',
   '저자': '아서 코난 도일',
   '출판연도': '1887-1927',
   '설명': '세계적으로 유명한 탐정 셜록 홈즈의 사건을 다룬 단편 및 장편 소설.'},
  {'제목': '다섯 번째 계절',
   '저자': 'N.K. 제미신',
   '출판연도': '2015',
   '설명': '사회적 불평등과 마법이 얽힌 판타지 세계에서 이루어지는 충격적인 사건을 탐구하는 작품.'}]}