# 1-4. LangChain의 언어 모델(Model)

In [1]:
from langchain_community.chat_models import ChatOllama
llm = ChatOllama(model="Llama-3-Open-Ko-8B:latest")

llm.invoke("한국의 대표적인 관광지 3군데를 추천해주세요.")

  llm = ChatOllama(model="Llama-3-Open-Ko-8B:latest")


AIMessage(content='서울의 명동, 부산의 해운대, 제주의 성산일출봉이 있습니다.\r\n명동은 한국의 대표적인 쇼핑거리로 유명합니다.\r\n해운대는 아름다운 바다와 함께 다양한 레스토랑과 카페가 즐비한 곳입니다.\r\n성산일출봉은 일출을 보기 위해 많은 관광객들이 찾는 곳입니다.', additional_kwargs={}, response_metadata={'model': 'Llama-3-Open-Ko-8B:latest', 'created_at': '2025-01-07T06:44:26.808355Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 30767000600, 'load_duration': 18903378900, 'prompt_eval_count': 68, 'prompt_eval_duration': 983000000, 'eval_count': 90, 'eval_duration': 10459000000}, id='run-b9dc2096-0eec-4e9c-8cf4-ac234ee842c7-0')

1-1-4-2. Chat Model
- ChatPromptTemplate를 사용하여 대화형 프롬프트를 생성

Chat Model 인터페이스의 특징
- 대화형 입력과 출력
- 다양한 모델 제공 업체와의 통합
- 다양한 작동 모드 지원


In [2]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.chat_models import ChatOllama
chat = ChatOllama(model="Llama-3-Open-Ko-8B:latest")

chat_prompt = ChatPromptTemplate.from_messages([
    ("system","이 시스템은 여행 전문가입니다."),
    ("user","{user_input}"),
])

chain = chat_prompt | chat
chain.invoke({"user_input": "안녕하세요? 한국의 대표적인 관광지 3군데를 추천해주세요."})

AIMessage(content='한국에는 많은 관광지가 있지만, 가장 인기 있는 곳을 알려드리겠습니다. 먼저, 경복궁은 조선시대 왕이 살던 궁궐로, 우리나라의 전통 건축양식을 볼 수 있습니다. 다음으로, 남산은 서울 도심 한가운데에 위치한 산으로, 다양한 문화공간과 전망대가 있어 많은 관광객들이 찾고 있습니다. 마지막으로, 북촌 한옥마을은 조선시대의 가옥이 잘 보존되어 있는 곳으로, 한국의 전통문화를 체험할 수 있습니다.', additional_kwargs={}, response_metadata={'model': 'Llama-3-Open-Ko-8B:latest', 'created_at': '2025-01-07T06:47:57.9322584Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 14783490700, 'load_duration': 17125200, 'prompt_eval_count': 50, 'prompt_eval_duration': 516000000, 'eval_count': 125, 'eval_duration': 14248000000}, id='run-4124d450-d330-4a69-98ae-d40eae454884-0')

### 1-4-2. LangChain의 LLM 모델 파라미터 설정

- Temperature: 생성된 텍스트의 다양성을 조정. 값이 작으면 예측 가능하고 일관된 출력을 생성하는 반면, 값이 크면 다양하고 예측하기 어려운 출력을 생성
- Max Tokens (최대 토큰 수): 생성할 최대 토큰 수를 지정. 생성할 텍스트의 길이를 제한.
- Top P (Top Probability): 생성 과정에서 특정 확률 분포 내에서 상위 P% 토큰만을 고려하는 방식. 이는 출력의 다양성을 조정하는 데 도움이 됨.
- Frequency Penalty (빈도 패널티): 값이 클수록 이미 등장한 단어나 구절이 다시 등장할 확률을 감소. 이를 통해 반복을 줄이고 텍스트의 다양성을 증가시킬 수 있음. (0~1)
- Presence Penalty (존재 패널티): 텍스트 내에서 단어의 존재 유무에 따라 그 단어의 선택 확률을 조정. 값이 클수록 아직 텍스트에 등장하지 않은 새로운 단어의 사용이 장려. (0~1)
- Stop Sequences (정지 시퀀스): 특정 단어나 구절이 등장할 경우 생성을 멈추도록 설정. 이는 출력을 특정 포인트에서 종료하고자 할 때 사용.

In [3]:
from langchain_community.chat_models import ChatOllama

params = {
    "temperature": 0.7,         # 생성된 텍스트의 다양성 조정
    "max_tokens": 100,          # 생성할 최대 토큰 수    
}

kwargs = {
    "frequency_penalty": 0.5,   # 이미 등장한 단어의 재등장 확률
    "presence_penalty": 0.5,    # 새로운 단어의 도입을 장려
    "stop": ["\n"]              # 정지 시퀀스 설정

}

# 모델 인스턴스를 생성할 때 설정
model =  ChatOllama(model="Llama-3-Open-Ko-8B:latest")


# 모델 호출
question = "태양계에서 가장 큰 행성은 무엇인가요?"
response = model.invoke(input=question)

# 전체 응답 출력
print(response)

content='태양계의 행성 중 가장 크고 무거운 것은 목성이에요. 지구보다 10배나 더 큽니다. 목성은 태양계 전체 질량의 약 1/3을 차지하고 있어요.' additional_kwargs={} response_metadata={'model': 'Llama-3-Open-Ko-8B:latest', 'created_at': '2025-01-07T06:52:29.4184381Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 6079269200, 'load_duration': 17476000, 'prompt_eval_count': 65, 'prompt_eval_duration': 411000000, 'eval_count': 55, 'eval_duration': 5648000000} id='run-17c5d6c1-a998-4dbb-9198-7b1bc5504cd0-0'


In [4]:
# 모델 파라미터 설정
params = {
    "temperature": 0.7,         # 생성된 텍스트의 다양성 조정
    "max_tokens": 10,          # 생성할 최대 토큰 수    
}

# 모델 인스턴스를 호출할 때 전달
response = model.invoke(input=question, **params)

# 문자열 출력
print(response.content)


태양계의 행성을 크기 순으로 나열하면 다음과 같습니다. 지구, 화성, 목성, 토성, 천왕성, 해왕성이 있습니다.


### 1-4-2-2. LLM 모델 파라미터를 추가로 바인딩 (bind 메소드)

bind 메소드를 사용하여 모델 인스턴스에 파라미터를 추가로 제공   
장점은 특정 모델 설정을 기본값으로 사용하고자 할 때 유용하며, 특수한 상황에서 일부 파라미터를 다르게 적용하고 싶을 때 사용

In [5]:
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_messages([
    ("system", "이 시스템은 천문학 질문에 답변할 수 있습니다."),
    ("user", "{user_input}"),
])

model =  ChatOllama(model="Llama-3-Open-Ko-8B:latest",max_tokens=100)

messages = prompt.format_messages(user_input="태양계에서 가장 큰 행성은 무엇인가요?")

before_answer = model.invoke(messages)

print(before_answer)

chain = prompt | model.bind(max_tokens=10)

after_answer = chain.invoke({"user_input": "태양계에서 가장 큰 행성은 무엇인가요?"})

print(after_answer)

content='지구입니다. 지구는 태양계에서 가장 질량이 크고 밀도가 높은 행성이죠.' additional_kwargs={} response_metadata={'model': 'Llama-3-Open-Ko-8B:latest', 'created_at': '2025-01-07T06:56:52.5857204Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 2859352900, 'load_duration': 16853100, 'prompt_eval_count': 49, 'prompt_eval_duration': 366000000, 'eval_count': 26, 'eval_duration': 2475000000} id='run-13108894-3fec-40df-80fc-c4166ba7a1b0-0'
content='지구입니다. 지구는 태양계에서 네 번째로 크고, 목성보다 약 10배 더 무겁습니다.' additional_kwargs={} response_metadata={'model': 'Llama-3-Open-Ko-8B:latest', 'created_at': '2025-01-07T06:56:58.6331641Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 4016787400, 'load_duration': 16881300, 'prompt_eval_count': 49, 'prompt_eval_duration': 140000000, 'eval_count': 32, 'eval_duration': 3858000000} id='run-86ba4e80-0806-46d6-b5bb-c1bb5dc6d6c4-0'


# 1-5. 출력 파서(Output Parser)
- 출력 포맷 변경
- 정보 추출
- 결과 정제
- 조건부 로직 적용


출력 파서 (Output Parser)의 사용 사례
자연어 처리(NLP) 애플리케이션   
데이터 분석   
챗봇 개발   
콘텐츠 생성   

### 1-5-1. CSV Parser
- 랭체인의 CommaSeparatedListOutputParser를 사용하여, 모델이 생성한 텍스트에서 쉼표(,)로 구분된 항목을 추출하여 리스트 형태로 정리하여 파싱하는 과정
- 생성 모델의 출력을 구조화된 데이터 형태로 변환할 수 있으며, 이후 처리 과정에서 데이터를 더 편리하게 활용

In [6]:
from langchain_core.output_parsers import CommaSeparatedListOutputParser

output_parser = CommaSeparatedListOutputParser()
format_instructions = output_parser.get_format_instructions()

print(format_instructions)

Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`


PromptTemplate을 사용하여 사용자 입력(subject)에 기반한 프롬프트를 생성   
프롬프트에는 사용자가 지정한 주제(subject)와 모델에 전달할 포맷 지시사항(format_instructions)이 포함   
그리고 prompt, model, output_parser를 파이프(|) 연산자를 사용하여 연결하여 체인을 구성 -> 이 체인은 사용자의 입력을 받아 프롬프트를 생성하고, 생성된 프롬프트를 모델에 전달한 후, 모델의 출력을 파싱하는 과정을 순차적으로 수행

In [8]:
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate(
    template="List five {subject}.\n{format_instructions}",
    input_variables=["subject"],
    partial_variables={"format_instructions": format_instructions},
)

llm =ChatOllama(model="llama3:latest", temperature=0)

chain = prompt | llm | output_parser

chain.invoke({"subject": "popular Korean cusine"})


['Here are 5 popular Korean cuisines:',
 'Bibimbap',
 'Japchae',
 'Bulgogi',
 'Kimchi Stew',
 'Naengmyeon']

### 1-5-2.JSON Parser

- JsonOutputParser와 Pydantic을 사용하여, 모델 출력을 JSON 형식으로 파싱하고 Pydantic 모델로 구조화하는 과정을 설명
- JsonOutputParser는 모델의 출력을 JSON으로 해석하고, 지정된 Pydantic 모델(CusineRecipe 클래스)에 맞게 데이터를 구조화하여 제공

CusineRecipe 클래스를 Pydantic BaseModel을 사용하여 정의   
출력 파서로 JsonOutputParser 인스턴스를 생성하고, pydantic_object 매개변수로 CusineRecipe 클래스를 전달   
모델 출력을 해당 Pydantic 모델로 파싱하도록 설정   
output_parser.get_format_instructions() 메소드를 호출하여 모델에 전달할 포맷 지시사항을 얻음   
이 지시사항은 모델이 출력을 생성할 때 JSON 형식을 따르도록 안내하는 역할

In [9]:
from langchain_core.output_parsers import JsonOutputParser
from langchain_core.pydantic_v1 import BaseModel, Field

# 자료구조 정의 (pydantic)
class CusineRecipe(BaseModel):
    name: str = Field(description="name of a cusine")
    recipe: str = Field(description="recipe to cook the cusine")

# 출력 파서 정의
output_parser = JsonOutputParser(pydantic_object=CusineRecipe)

format_instructions = output_parser.get_format_instructions()

print(format_instructions)


The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"name": {"title": "Name", "description": "name of a cusine", "type": "string"}, "recipe": {"title": "Recipe", "description": "recipe to cook the cusine", "type": "string"}}, "required": ["name", "recipe"]}
```



For example, replace imports like: `from langchain_core.pydantic_v1 import BaseModel`
with: `from pydantic import BaseModel`
or the v1 compatibility namespace if you are working in a code base that has not been fully upgraded to pydantic 2 yet. 	from pydantic.v1 import BaseModel

  exec(code_obj, self.user_global_ns, self.user_ns)


다음 단계는 모델에 입력으로 전달할 프롬프트를 구성하는 것   
PromptTemplate을 사용하여 사용자 질문(query)을 기반으로 한 프롬프트를 생성  
프롬프트에는 사용자의 질문과 모델에 전달할 포맷 지시사항이 포함

In [10]:
# prompt 구성
prompt = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": format_instructions},
)

print(prompt)


input_variables=['query'] input_types={} partial_variables={'format_instructions': 'The output should be formatted as a JSON instance that conforms to the JSON schema below.\n\nAs an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}\nthe object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.\n\nHere is the output schema:\n```\n{"properties": {"name": {"title": "Name", "description": "name of a cusine", "type": "string"}, "recipe": {"title": "Recipe", "description": "recipe to cook the cusine", "type": "string"}}, "required": ["name", "recipe"]}\n```'} template='Answer the user query.\n{format_instructions}\n{query}\n'


In [12]:
model =ChatOllama(model="llama3:latest", temperature=0)
chain = prompt | model | output_parser

chain.invoke({"query": "Let me know how to cook Bibimbap"})


{'name': 'Bibimbap',
 'recipe': 'To cook Bibimbap, start by cooking white rice. Then, heat some oil in a pan and add your choice of vegetables (such as zucchini, carrots, mushrooms, and bean sprouts). Add cooked beef or tofu for protein. In a separate bowl, whisk together two eggs and season with salt and pepper. Pour the egg mixture over the vegetables and cook until the eggs are set. Finally, place a scoop of rice in a bowl, add the vegetable and egg mixture on top, and serve with your favorite dipping sauce.'}