# Setup

In [None]:
!pip -q install openai
!pip -q install langchain
!pip -q install langchain_openai # >= 0.1.0

In [3]:
!python -c "import openai; print('openai:', openai.__version__)"
!python -c "import langchain; print('langchain:', langchain.__version__)"

openai: 1.6.1
langchain: 0.1.0


In [4]:
#API KEY 저장을 위한 os 라이브러리 호출
import os
from google.colab import userdata

from langchain_openai import OpenAI # for >= 0.1.0
# from langchain_community.llms.openai import OpenAI # 공식 도움말 스타일
# from langchain_community.llms.openai import OpenAI # 둘다 됨

# 0.1.0에서 이렇게 하라는데 langchain_openai.OpenAI


#채팅 LLM 로드를 위한 라이브러리 호출
# from langchain_community.chat_models import ChatOpenAI
from langchain_openai import ChatOpenAI

In [5]:
#OPENAI API키 저장
os.environ["OPENAI_API_KEY"] = userdata.get('OPENAI_API_KEY')

-------

# 프롬프트 템플릿

프롬프트 템플릿 종류
- Prompt Template: 일반적인 prompt - completion 모델에 사용
- Chat Prompt Template: chat completion 모델에 사용



### PromptTemplate

In [6]:
# import
from langchain.prompts import PromptTemplate

In [7]:
#프롬프트 템플릿을 통해 매개변수 삽입 가능한 문자열로 변환
# {} 부분이 변수 처리됨
prompt_tpl = PromptTemplate.from_template("{category}에 대한 대표 브랜드를 알려주세요.")

#매개변수 삽입한 결과를 string_prompt_value에 할당
prompt = prompt_tpl.format_prompt(category="GPU")

# StringPromptValue() 객체
prompt


StringPromptValue(text='GPU에 대한 대표 브랜드를 알려주세요.')

In [8]:
# 일반 string
prompt.to_string()

'GPU에 대한 대표 브랜드를 알려주세요.'

### 모델에 적용

- Completion 모델 `gpt-3.5-turbo-instruct` 사용

- https://platform.openai.com/docs/models/gpt-3-5

In [9]:
# https://api.python.langchain.com/en/stable/llms/langchain_community.llms.openai.OpenAI.html#langchain_community.llms.openai.OpenAI

gpt_inst = OpenAI(
    model_name="gpt-3.5-turbo-instruct",
    # The maximum number of tokens to generate in the completion.
    # -1 returns as many tokens as possible given the prompt and the models maximal context size.
    max_tokens = 2000
)

- Template(string) -> Prompt Template(LangChain Object) -> Prompt(string)

In [10]:
tpl = """
당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.
사용자가 입력하는 재료는 ####로 구분됩니다.

제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.
답변은 한국어로 합니다.

출력은 다음 포맷으로 하세요.

추천요리: <여기 추천요리 이름>
레시피
1. 레시피 단계 1을 여기 적습니다.
2. 레시피 단계 2를 여기 적습니다.
레시피가 완료될때까지 번호를 매겨 출력합니다.

####
{ingredient}
####
"""

prompt_tpl = PromptTemplate(
    template = tpl,
    input_variables = ['ingredient'],
)

prompt_tpl

PromptTemplate(input_variables=['ingredient'], template='\n당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.\n사용자가 입력하는 재료는 ####로 구분됩니다.\n\n제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.\n답변은 한국어로 합니다.\n\n출력은 다음 포맷으로 하세요.\n\n추천요리: <여기 추천요리 이름>\n레시피\n1. 레시피 단계 1을 여기 적습니다.\n2. 레시피 단계 2를 여기 적습니다.\n레시피가 완료될때까지 번호를 매겨 출력합니다.\n\n####\n{ingredient}\n####\n')

In [11]:
prompt = prompt_tpl.format(ingredient="소세지, 계란, 밥, 참치, 대파")
print(prompt, type(prompt))


당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.
사용자가 입력하는 재료는 ####로 구분됩니다.

제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.
답변은 한국어로 합니다.

출력은 다음 포맷으로 하세요.

추천요리: <여기 추천요리 이름>
레시피
1. 레시피 단계 1을 여기 적습니다.
2. 레시피 단계 2를 여기 적습니다.
레시피가 완료될때까지 번호를 매겨 출력합니다.

####
소세지, 계란, 밥, 참치, 대파
####
 <class 'str'>


In [12]:
completion = gpt_inst.invoke(prompt)
# gpt_inst(prompt)도 되는데 0.2.0에서 사라질 예정
print(completion)

추천요리: 스팸덥밥
레시피
1. 밥을 준비합니다.
2. 소세지를 썰어서 준비합니다.
3. 계란을 풀어서 준비합니다.
4. 대파를 썰어서 준비합니다.
5. 참치를 준비합니다.
6. 팬에 밥을 넣고 볶습니다.
7. 소세지를 넣고 볶습니다.
8. 계란을 넣고 볶습니다.
9. 대파를 넣고 볶습니다.
10. 참치를 넣고 볶습니다.


### ChatPromptTemplate

In [13]:
from langchain.prompts import ChatPromptTemplate

In [14]:
prompt_tpl = ChatPromptTemplate.from_template("{category}에 대한 대표 브랜드를 알려주세요.")
prompt = prompt_tpl.format_prompt(category="GPU")

# ChatPromptValue 객체, 내부에 HumanMessage객체로 프롬프트가 생성
prompt

ChatPromptValue(messages=[HumanMessage(content='GPU에 대한 대표 브랜드를 알려주세요.')])

In [15]:
# 일반 string, 앞에 Human 말머리가 추가됨
prompt.to_string()

'Human: GPU에 대한 대표 브랜드를 알려주세요.'

### 모델에 적용

- Chat Completion 모델 `gpt-3.5-turbo-1106` 사용

- https://platform.openai.com/docs/models/gpt-3-5

-  ChatGPT와 프롬프트 템플릿을 활용하여 대화해보기

In [16]:
from langchain.prompts import SystemMessagePromptTemplate, HumanMessagePromptTemplate, AIMessagePromptTemplate
from langchain.schema import SystemMessage, HumanMessage, AIMessage

In [17]:
# gpt-3.5-turbo-1106 모델을 로드
gpt_chat = ChatOpenAI(model_name='gpt-3.5-turbo-1106', temperature=0)

In [18]:
system_tpl = """
당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.
사용자가 입력하는 재료는 ####로 구분됩니다.

제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.
답변은 한국어로 합니다.

출력은 다음 포맷으로 하세요.

추천요리: <여기 추천요리 이름>
레시피
1. 레시피 단계 1을 여기 적습니다.
2. 레시피 단계 2를 여기 적습니다.
레시피가 완료될때까지 번호를 매겨 출력합니다.
"""
system_message_prompt = SystemMessagePromptTemplate.from_template(system_tpl)

human_tpl = "####{ingredient}####"
human_message_prompt = HumanMessagePromptTemplate.from_template(human_tpl)

# ChatPromptTemplate에 system message와 human message 템플릿을 삽입
messages = [
    system_message_prompt,
    human_message_prompt
]

chat_prompt_tpl = ChatPromptTemplate.from_messages(messages)

chat_prompt_tpl

ChatPromptTemplate(input_variables=['ingredient'], messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], template='\n당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.\n사용자가 입력하는 재료는 ####로 구분됩니다.\n\n제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.\n답변은 한국어로 합니다.\n\n출력은 다음 포맷으로 하세요.\n\n추천요리: <여기 추천요리 이름>\n레시피\n1. 레시피 단계 1을 여기 적습니다.\n2. 레시피 단계 2를 여기 적습니다.\n레시피가 완료될때까지 번호를 매겨 출력합니다.\n')), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['ingredient'], template='####{ingredient}####'))])

In [19]:
# format_messages()도 있는데 확인하기
chat_prompt = chat_prompt_tpl.format_prompt(ingredient="소세지, 계란, 밥, 참치, 대파")
chat_prompt

ChatPromptValue(messages=[SystemMessage(content='\n당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.\n사용자가 입력하는 재료는 ####로 구분됩니다.\n\n제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.\n답변은 한국어로 합니다.\n\n출력은 다음 포맷으로 하세요.\n\n추천요리: <여기 추천요리 이름>\n레시피\n1. 레시피 단계 1을 여기 적습니다.\n2. 레시피 단계 2를 여기 적습니다.\n레시피가 완료될때까지 번호를 매겨 출력합니다.\n'), HumanMessage(content='####소세지, 계란, 밥, 참치, 대파####')])

In [20]:
chat_prompt.to_string()

'System: \n당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.\n사용자가 입력하는 재료는 ####로 구분됩니다.\n\n제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.\n답변은 한국어로 합니다.\n\n출력은 다음 포맷으로 하세요.\n\n추천요리: <여기 추천요리 이름>\n레시피\n1. 레시피 단계 1을 여기 적습니다.\n2. 레시피 단계 2를 여기 적습니다.\n레시피가 완료될때까지 번호를 매겨 출력합니다.\n\nHuman: ####소세지, 계란, 밥, 참치, 대파####'

In [21]:
messages = chat_prompt.to_messages()
messages

[SystemMessage(content='\n당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.\n사용자가 입력하는 재료는 ####로 구분됩니다.\n\n제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.\n답변은 한국어로 합니다.\n\n출력은 다음 포맷으로 하세요.\n\n추천요리: <여기 추천요리 이름>\n레시피\n1. 레시피 단계 1을 여기 적습니다.\n2. 레시피 단계 2를 여기 적습니다.\n레시피가 완료될때까지 번호를 매겨 출력합니다.\n'),
 HumanMessage(content='####소세지, 계란, 밥, 참치, 대파####')]

In [22]:
response = gpt_chat.invoke(messages) # chat_prompt.to_string()으로 입력해도 잘됨

print(response.content)

추천요리: 볶음밥

레시피
1. 먼저 대파를 썰고, 참치와 소세지를 잘게 썬 후 볼에 담습니다.
2. 팬에 식용유를 두르고 볶음밥 재료를 넣어 볶습니다.
3. 볶음밥이 익으면 흔들어서 계란을 풀어 넣고 볶아줍니다.
4. 밥과 재료가 골고루 섞이면 소금, 후추 등으로 간을 해주고 대파를 뿌려 완성합니다.


#### Chat 모델 추가 활용

In [23]:
# 응답으로 받은 메세지를 AIMessage로 추가하고
messages.append(AIMessage(content=response.content))

messages

[SystemMessage(content='\n당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.\n사용자가 입력하는 재료는 ####로 구분됩니다.\n\n제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.\n답변은 한국어로 합니다.\n\n출력은 다음 포맷으로 하세요.\n\n추천요리: <여기 추천요리 이름>\n레시피\n1. 레시피 단계 1을 여기 적습니다.\n2. 레시피 단계 2를 여기 적습니다.\n레시피가 완료될때까지 번호를 매겨 출력합니다.\n'),
 HumanMessage(content='####소세지, 계란, 밥, 참치, 대파####'),
 AIMessage(content='추천요리: 볶음밥\n\n레시피\n1. 먼저 대파를 썰고, 참치와 소세지를 잘게 썬 후 볼에 담습니다.\n2. 팬에 식용유를 두르고 볶음밥 재료를 넣어 볶습니다.\n3. 볶음밥이 익으면 흔들어서 계란을 풀어 넣고 볶아줍니다.\n4. 밥과 재료가 골고루 섞이면 소금, 후추 등으로 간을 해주고 대파를 뿌려 완성합니다.')]

In [24]:
# 후속 HumanMessage를 추가
messages.append(HumanMessage(content='다 괜찮은데 조금 매콤한게 먹고싶은데 고추장이 있으니까 이걸 활용하는쪽으로 살짝 바꿔줘.'))
messages

[SystemMessage(content='\n당신은 재료를 참고하여 적당한 요리와 요리의 레시피를 출력하는 요리 도우미입니다.\n사용자가 입력하는 재료는 ####로 구분됩니다.\n\n제공된 재료로 만들 수 있는 요리를 한가지 추천하고 레시피를 출력하세요.\n답변은 한국어로 합니다.\n\n출력은 다음 포맷으로 하세요.\n\n추천요리: <여기 추천요리 이름>\n레시피\n1. 레시피 단계 1을 여기 적습니다.\n2. 레시피 단계 2를 여기 적습니다.\n레시피가 완료될때까지 번호를 매겨 출력합니다.\n'),
 HumanMessage(content='####소세지, 계란, 밥, 참치, 대파####'),
 AIMessage(content='추천요리: 볶음밥\n\n레시피\n1. 먼저 대파를 썰고, 참치와 소세지를 잘게 썬 후 볼에 담습니다.\n2. 팬에 식용유를 두르고 볶음밥 재료를 넣어 볶습니다.\n3. 볶음밥이 익으면 흔들어서 계란을 풀어 넣고 볶아줍니다.\n4. 밥과 재료가 골고루 섞이면 소금, 후추 등으로 간을 해주고 대파를 뿌려 완성합니다.'),
 HumanMessage(content='다 괜찮은데 조금 매콤한게 먹고싶은데 고추장이 있으니까 이걸 활용하는쪽으로 살짝 바꿔줘.')]

In [25]:
response = gpt_chat.invoke(messages)

print(response.content)

추천요리: 고추장 볶음밥

레시피
1. 먼저 대파를 썰고, 참치와 소세지를 잘게 썬 후 볼에 담습니다.
2. 팬에 식용유를 두르고 볶음밥 재료를 넣어 볶습니다.
3. 볶음밥이 익으면 고추장을 넣고 골고루 섞어줍니다.
4. 계란을 풀어 넣고 볶아줍니다.
5. 밥과 재료가 골고루 섞이면 소금, 후추 등으로 간을 해주고 대파를 뿌려 완성합니다.


### FewShotPromptTemplate

- https://python.langchain.com/docs/modules/model_io/prompts/few_shot_examples

- Few-shot Learning: 프롬프트에 출력 예시를 넣어 LLM이 사용자가 원하는 형태의 출력을 하기 유도하는 방식


- 규칙이 있거나 구조화된 답변을 원할 경우, 결과물의 예시를 몇 개 제시함으로써 결과물의 품질을 향상

- 경험적으로 알려진 사실에 따르면 4~6개 내외

In [26]:
print(
    gpt_inst.invoke(
        """
INPUT: 2024-06-01
OUTPUT: !06!01!2024!
INPUT: 2024-12-31
OUTPUT: !12!31!2024!
INPUT: 2024-01-06
OUTPUT:
        """
    )
)

 !01!06!2024!


- 비슷한 예로 삼행시를 시도해보면 `gpt-3.5-turbo`모델은 한국어 삼행시에 대한 학습을 하지 못해서 제대로된 출력을 내지 못함

In [27]:
print( gpt_inst.invoke("안유진으로 삼행시 만들어줘") )



유진이는
매력 넘치는 여신
사랑도 넘치는
나의 소중한 사람


In [28]:
# 예제를 주면...
print(
    gpt_inst.invoke(
        f"""
다음은 삼행시를 만드는 예제입니다.

수: 수퍼맨이
퍼: 퍼런 하늘을 난다
맨: 맨날 날기만 한다.

안유진으로 삼행시 만들어줘

"""
    )
)


안: 안녕 안유진
유: 유죄한 사랑을
진: 진심으로 전하네.


In [29]:
from langchain.prompts.few_shot import FewShotPromptTemplate

In [30]:
examples = [
  {
    "prompt": "안유진으로 삼행시 만들어줘",
    "completion":
"""
안: 안유진은 명랑하군
유: 유쾌한 미소 가득한
진: 진심의 인간이다.
"""
  },
  {
    "prompt": "엄정화로 삼행시 만들어줘",
    "completion":
"""
엄: 엄청 예쁘구나!
정: 정말 예뻐!
화: 화장발이구나~
"""
  }
]

In [31]:
tpl = "{prompt}\n{completion}"

example_prompt_tpl = PromptTemplate(
    template=tpl,
    input_variables=["prompt", "completion"],
)

print(example_prompt_tpl.format(**examples[0]))

안유진으로 삼행시 만들어줘

안: 안유진은 명랑하군
유: 유쾌한 미소 가득한
진: 진심의 인간이다.



In [32]:
fewshot_prompt_tpl = FewShotPromptTemplate(
    examples=examples,
    example_prompt=example_prompt_tpl,
    suffix="----------------\n{input}",
    input_variables=["input"]
)

prompt = fewshot_prompt_tpl.format(input="장원영으로 삼행시 만들어줘")
print(prompt)

안유진으로 삼행시 만들어줘

안: 안유진은 명랑하군
유: 유쾌한 미소 가득한
진: 진심의 인간이다.


엄정화로 삼행시 만들어줘

엄: 엄청 예쁘구나!
정: 정말 예뻐!
화: 화장발이구나~


----------------
장원영으로 삼행시 만들어줘


In [33]:
print(gpt_inst.invoke(prompt))



장: 장난스러운 매력 넘치는
원: 원숭이처럼 장난을 좋아하는
영: 영원히 젊은 모습을 가진 소녀.


#### Example Selector를 이용한 동적 Few-shot 러닝

- 예제가 많을 경우 모든 예제를 프롬프트에 포함시키면
    - 토큰 초과 문제 발생
    - 길어진 토큰으로 비용 문제 발생

- SemanticSimilarityExampleSelector 클래스를 사용하여 입력과의 의미적 유사성에 따라 몇 개의 예시를 선택

- 이 클래스는 임베딩 모델을 사용하여 입력과 few-shot 예제 간의 유사도를 계산하고 벡터 저장소를 사용하여 가장 가까운 이웃 검색을 수행


    

In [38]:
from langchain.prompts.example_selector import SemanticSimilarityExampleSelector
from langchain.vectorstores import Chroma

from langchain_openai import OpenAIEmbeddings
# from langchain.embeddings import OpenAIEmbeddings

In [None]:
# SemanticSimilarityExampleSelector 가 사용하는 패키시 설치
!pip install chromadb
!pip install tiktoken

In [36]:
examples = [
    {
        "question": "무하마드 알리와 앨런 튜링 중 누가 더 오래 살았나요?",
        "answer": """
여기에서 후속 질문이 필요한가요? 예.
후속 질문: 무하마드 알리가 사망했을 때 그의 나이는 몇 살이었나요?
중간 답변: 무하마드 알리는 사망 당시 74세였습니다.
후속 질문: 앨런 튜링은 사망했을 때 몇 살이었나요?
중간 정답: 앨런 튜링은 사망 당시 41세였습니다.
최종 정답: 무하마드 알리
""",
    },
    {
        "question": "크레이그리스트의 창립자는 언제 태어났나요?",
        "answer": """
여기에서 후속 질문이 필요한가요? 예.
후속 질문: 크레이그리스트의 설립자는 누구인가요?
중간 답변: 크레이그리스트는 크레이그 뉴마크가 설립했습니다.
후속 질문: 크레이그 뉴마크는 언제 태어났나요?
중간 답변: 크레이그 뉴마크는 1952년 12월 6일에 태어났습니다.
최종 정답: 1952년 12월 6일
""",
    },
    {
        "question": "조지 워싱턴의 외할아버지는 누구였나요?",
        "answer": """
여기에서 후속 질문이 필요한가요? 예.
후속 질문: 조지 워싱턴의 어머니는 누구였나요?
중간 답변: 조지 워싱턴의 어머니는 메리 볼 워싱턴이었습니다.
후속 질문: 메리 볼 워싱턴의 아버지는 누구였습니까?
중간 다변: 메리 볼 워싱턴의 아버지는 조셉 볼입니다.
최종 정답: 조셉 볼
""",
    },
    {
        "question": "'죠스'와 '카지노 로얄'의 감독이 같은 나라 출신인가요?",
        "answer": """
여기에서 후속 질문이 필요한가요? 예.
후속 질문: 죠스의 감독은 누구인가요?
중간 답변: 죠스의 감독은 스티븐 스필버그입니다.
후속 질문: 스티븐 스필버그는 어디 출신인가요?
중간 답변: 미국입니다.
후속 질문: 카지노 로얄의 감독은 누구인가요?
중간 답변: 카지노 로얄의 감독은 마틴 캠벨입니다.
후속 질문: 마틴 캠벨은 어디 출신인가요?
중간 답변: 뉴질랜드: 뉴질랜드입니다.
최종 정답: 아니오.
""",
    },
]


In [39]:
example_selector = SemanticSimilarityExampleSelector.from_examples(
    # This is the list of examples available to select from.
    examples,
    # This is the embedding class used to produce embeddings which are used to measure semantic similarity.
    OpenAIEmbeddings(),
    # This is the VectorStore class that is used to store the embeddings and do a similarity search over.
    Chroma,
    # This is the number of examples to produce. 선택할 예제의 개수
    k=1
)

In [40]:
# Select the most similar example to the input.
question = "메리 볼 워싱턴의 아버지는 누구인가요?"
selected_examples = example_selector.select_examples({"question": question})

print(f"입력 질문과 의미상 가장 비슷한 예제: {question}")
for example in selected_examples:
    print("\n")
    for k, v in example.items():
        print(f"{k}: {v}")

입력 질문과 의미상 가장 비슷한 예제: 메리 볼 워싱턴의 아버지는 누구인가요?


answer: 
여기에서 후속 질문이 필요한가요? 예.
후속 질문: 조지 워싱턴의 어머니는 누구였나요?
중간 답변: 조지 워싱턴의 어머니는 메리 볼 워싱턴이었습니다.
후속 질문: 메리 볼 워싱턴의 아버지는 누구였습니까?
중간 다변: 메리 볼 워싱턴의 아버지는 조셉 볼입니다.
최종 정답: 조셉 볼

question: 조지 워싱턴의 외할아버지는 누구였나요?


In [41]:
example_prompt_tpl = PromptTemplate(
    template="Question: {question}\nAnswer: {answer}",
    input_variables=["question", "answer"]
)

print(example_prompt_tpl.format(**examples[0]))

Question: 무하마드 알리와 앨런 튜링 중 누가 더 오래 살았나요?
Answer: 
여기에서 후속 질문이 필요한가요? 예.
후속 질문: 무하마드 알리가 사망했을 때 그의 나이는 몇 살이었나요?
중간 답변: 무하마드 알리는 사망 당시 74세였습니다.
후속 질문: 앨런 튜링은 사망했을 때 몇 살이었나요?
중간 정답: 앨런 튜링은 사망 당시 41세였습니다.
최종 정답: 무하마드 알리



In [42]:
fewshot_prompt_tpl = FewShotPromptTemplate(
    # We provide an ExampleSelector instead of examples.
    example_selector=example_selector,
    example_prompt=example_prompt_tpl,
    suffix="Question: {input}",
    input_variables=["input"],
)

In [43]:
prompt = fewshot_prompt_tpl.format(input="메리 볼 워싱턴의 아버지는 누구인가요?")

print(prompt)

Question: 조지 워싱턴의 외할아버지는 누구였나요?
Answer: 
여기에서 후속 질문이 필요한가요? 예.
후속 질문: 조지 워싱턴의 어머니는 누구였나요?
중간 답변: 조지 워싱턴의 어머니는 메리 볼 워싱턴이었습니다.
후속 질문: 메리 볼 워싱턴의 아버지는 누구였습니까?
중간 다변: 메리 볼 워싱턴의 아버지는 조셉 볼입니다.
최종 정답: 조셉 볼


Question: 메리 볼 워싱턴의 아버지는 누구인가요?


In [44]:
prompt = fewshot_prompt_tpl.format(input="영화 죠스의 감독은 어느나라 사람인가요?")

print(prompt)

Question: '죠스'와 '카지노 로얄'의 감독이 같은 나라 출신인가요?
Answer: 
여기에서 후속 질문이 필요한가요? 예.
후속 질문: 죠스의 감독은 누구인가요?
중간 답변: 죠스의 감독은 스티븐 스필버그입니다.
후속 질문: 스티븐 스필버그는 어디 출신인가요?
중간 답변: 미국입니다.
후속 질문: 카지노 로얄의 감독은 누구인가요?
중간 답변: 카지노 로얄의 감독은 마틴 캠벨입니다.
후속 질문: 마틴 캠벨은 어디 출신인가요?
중간 답변: 뉴질랜드: 뉴질랜드입니다.
최종 정답: 아니오.


Question: 영화 죠스의 감독은 어느나라 사람인가요?


In [45]:
prompt = fewshot_prompt_tpl.format(input="메리 볼 워싱턴의 아버지는 누구인가요?")

gpt_inst.invoke(prompt)

'\nAnswer: 메리 볼 워싱턴의 아버지는 조셉 볼이었습니다.'

# 아웃풋 파서

- 언어 모델은 텍스트를 출력하는데 많은 경우 단순한 텍스트보다 더 구조화된 정보를 얻고 싶은 경우가 많음

- 이런 경우 Ouput Parser를 써서 LLM의 출력을 이후 프로그래밍하게 용이하게 만들기 위해 LLM의 답변을 원하는 형식으로 출력


- Output Parser 종류: https://python.langchain.com/docs/modules/model_io/output_parsers/types/

### CSV 파서

In [136]:
# davinci = OpenAI(model_name="text-davinci-003", temperature=0) # 예전 모델
gpt_inst = OpenAI(
    model_name="gpt-3.5-turbo-instruct",
    # The maximum number of tokens to generate in the completion.
    # -1 returns as many tokens as possible given the prompt and the models maximal context size.
    temperature=0 # 구조화된 출력을 다뤄야 하므로 온도는 0으로 다시 설정
)

gpt_inst

OpenAI(client=<openai.resources.completions.Completions object at 0x78d596caf610>, async_client=<openai.resources.completions.AsyncCompletions object at 0x78d596bb1300>, temperature=0.0, openai_api_key='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', openai_proxy='')

In [137]:
# 가장 간단한 CSV 파서
# https://python.langchain.com/docs/modules/model_io/output_parsers/types/csv
from langchain.output_parsers import CommaSeparatedListOutputParser

In [138]:
output_parser = CommaSeparatedListOutputParser()

In [139]:
format_instructions = output_parser.get_format_instructions()
format_instructions

'Your response should be a list of comma separated values, eg: `foo, bar, baz`'

In [140]:
tpl = "####로 구분된 사용자 요청에 답하세요.\n{format_instructions}\n####{genre} 영화 5개 추천하세요.####\n"

prompt_tpl = PromptTemplate(
    template=tpl,
    input_variables=["genre"],
    partial_variables={"format_instructions": format_instructions}
)

In [141]:
prompt = prompt_tpl.format(genre="헐리우드 공포")

print(prompt)

####로 구분된 사용자 요청에 답하세요.
Your response should be a list of comma separated values, eg: `foo, bar, baz`
####헐리우드 공포 영화 5개 추천하세요.####



In [142]:
response = gpt_inst.invoke(prompt)
response

'\nThe Conjuring, The Exorcist, The Shining, A Quiet Place, Hereditary'

In [143]:
# 결과가 정확하면 output_parser로 바로 파이썬 객체로 만들 수 있음
output = output_parser.parse(response)
print(output, type(output))

['The Conjuring', 'The Exorcist', 'The Shining', 'A Quiet Place', 'Hereditary'] <class 'list'>



- `ChatOpenAI`를 사용해서 재현해보기

In [144]:
prompt

'####로 구분된 사용자 요청에 답하세요.\nYour response should be a list of comma separated values, eg: `foo, bar, baz`\n####헐리우드 공포 영화 5개 추천하세요.####\n'

In [145]:
chat_gpt = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

response = chat_gpt.invoke(
    [
        HumanMessage(content=prompt)
    ]
)

response

AIMessage(content='조용한 장소, 겟 아웃, 사일런스 오브 더 램브, 셔터 아일랜드, 더 바이러스')

In [146]:
output_parser.parse(response.content)

['조용한 장소', '겟 아웃', '사일런스 오브 더 램브', '셔터 아일랜드', '더 바이러스']

In [147]:
# OpenAI API에서 파인튜닝 블로그
# https://lsjsj92.tistory.com/656

### JSON 파서

- 사용자가 임의의 JSON 스키마를 지정하고 해당 스키마를 준수하는 출력을 생성



In [168]:
from langchain_core.output_parsers import JsonOutputParser

In [170]:
json_parser = JsonOutputParser()

json_parser.get_format_instructions()

'Return a JSON object.'

In [179]:
joke_query = "Tell me a joke."

prompt_tpl = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": json_parser.get_format_instructions()},
)


prompt = prompt_tpl.format(query=joke_query)
prompt

'Answer the user query.\nReturn a JSON object.\nTell me a joke.\n'

In [180]:
response = gpt_inst.invoke(prompt)
response

'\n{\n  "joke": "Why couldn\'t the bicycle stand up by itself? Because it was two-tired."\n}'

In [181]:
json_parser.parse(response)

{'joke': "Why couldn't the bicycle stand up by itself? Because it was two-tired."}

### Pandas DataFrame 파서

- 기본적인 pandas 구문을 모를 때 다음 순서로 파서를 사용

- 파서에 판다스 데이터 프레임을 입력
- 모델은 파서의 지시대로 특정 판다스 명령과 매치되는 출력을 생성
- 모델이 생성한 출력을 파서가 구문분석하여 적절한 판다스 출력으로 변환

In [155]:
from langchain.output_parsers import PandasDataFrameOutputParser
import pandas as pd

In [184]:
# Define your desired Pandas DataFrame.
df = pd.DataFrame(
    {
        "num_legs": [2, 4, 8, 0],
        "num_wings": [2, 0, 0, 0],
        "num_specimen_seen": [10, 2, 1, 8],
    }
)

df

Unnamed: 0,num_legs,num_wings,num_specimen_seen
0,2,2,10
1,4,0,2
2,8,0,1
3,0,0,8


In [185]:
df['num_wings']

0    2
1    0
2    0
3    0
Name: num_wings, dtype: int64

In [186]:
df['num_specimen_seen'].mean()

5.25

In [190]:
df_parser = PandasDataFrameOutputParser(dataframe=df)

In [191]:
print(df_parser.get_format_instructions())

The output should be formatted as a string as the operation, followed by a colon, followed by the column or row to be queried on, followed by optional array parameters.
1. The column names are limited to the possible columns below.
2. Arrays must either be a comma-separated list of numbers formatted as [1,3,5], or it must be in range of numbers formatted as [0..4].
3. Remember that arrays are optional and not necessarily required.
4. If the column is not in the possible columns or the operation is not a valid Pandas DataFrame operation, return why it is invalid as a sentence starting with either "Invalid column" or "Invalid operation".

As an example, for the formats:
1. String "column:num_legs" is a well-formatted instance which gets the column num_legs, where num_legs is a possible column.
2. String "row:1" is a well-formatted instance which gets row 1.
3. String "column:num_legs[1,2]" is a well-formatted instance which gets the column num_legs for rows 1 and 2, where num_legs is a p

In [193]:
# Here's an example of a column operation being performed.
df_query = "num_wings 열을 가져오기"
# df_query = "Retrieve the num_wings column."

# Set up the prompt.
prompt_tpl = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": df_parser.get_format_instructions()},
)

prompt = prompt_tpl.format(query=df_query)
prompt

'Answer the user query.\nThe output should be formatted as a string as the operation, followed by a colon, followed by the column or row to be queried on, followed by optional array parameters.\n1. The column names are limited to the possible columns below.\n2. Arrays must either be a comma-separated list of numbers formatted as [1,3,5], or it must be in range of numbers formatted as [0..4].\n3. Remember that arrays are optional and not necessarily required.\n4. If the column is not in the possible columns or the operation is not a valid Pandas DataFrame operation, return why it is invalid as a sentence starting with either "Invalid column" or "Invalid operation".\n\nAs an example, for the formats:\n1. String "column:num_legs" is a well-formatted instance which gets the column num_legs, where num_legs is a possible column.\n2. String "row:1" is a well-formatted instance which gets row 1.\n3. String "column:num_legs[1,2]" is a well-formatted instance which gets the column num_legs for r

In [194]:
response = gpt_inst.invoke(prompt)
response # "\ncolumn:num_wings"

'\ncolumn:num_wings'

In [195]:
parser_output = df_parser.invoke(response)
parser_output

{'num_wings': 0    2
 1    0
 2    0
 3    0
 Name: num_wings, dtype: int64}

In [196]:
parser_output['num_wings']

0    2
1    0
2    0
3    0
Name: num_wings, dtype: int64

In [200]:
df_query = "num_specimen_seen 열의 평균 계산"

response = gpt_inst.invoke(prompt_tpl.format(query=df_query))
response # "\ncolumn:num_wings"

'\nmean:num_specimen_seen'

In [201]:
parser_output = df_parser.invoke(response)
parser_output

{'mean': 5.25}

### Pydantic 파서

In [202]:
from langchain.output_parsers import PydanticOutputParser
from langchain_core.pydantic_v1 import BaseModel, Field, validator

In [203]:
# Define your desired data structure.
class Joke(BaseModel):
    setup: str = Field(description="question to set up a joke")
    punchline: str = Field(description="answer to resolve the joke")

    # You can add custom validation logic easily with Pydantic.
    @validator("setup")
    def question_ends_with_question_mark(cls, field):
        if field[-1] != "?":
            raise ValueError("Badly formed question!")
        return field

In [205]:
# pydantic test

# Joke(setup="Why did the tomato turn red", punchline="Why did the tomato turn red")

Joke(setup="Why did the tomato turn red?", punchline="Why did the tomato turn red")

Joke(setup='Why did the tomato turn red?', punchline='Why did the tomato turn red')

In [207]:
# 각 농담 퀴즈와 답변을 변수로 구조화할 수 있음
joke1 = Joke(setup="Why did the tomato turn red?", punchline="Why did the tomato turn red")
joke2 = Joke(setup="Why did the tomato turn green?", punchline="Why did the tomato turn green")

joke1.setup, joke2.setup

('Why did the tomato turn red?', 'Why did the tomato turn green?')

In [208]:
# Set up a parser + inject instructions into the prompt template.
parser = PydanticOutputParser(pydantic_object=Joke)

print(parser.get_format_instructions())

The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"setup": {"title": "Setup", "description": "question to set up a joke", "type": "string"}, "punchline": {"title": "Punchline", "description": "answer to resolve the joke", "type": "string"}}, "required": ["setup", "punchline"]}
```


In [209]:
prompt_tpl = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

In [210]:
prompt = prompt_tpl.format(query="Tell me a joke.")

response = gpt_inst.invoke(prompt)
print(response)


{
    "setup": "Why did the tomato turn red?",
    "punchline": "Because it saw the salad dressing!"
}


In [211]:
joke_1 = parser.invoke(response)

print(type(joke_1))
joke_1

<class '__main__.Joke'>


Joke(setup='Why did the tomato turn red?', punchline='Because it saw the salad dressing!')

In [212]:
joke_1.setup

'Why did the tomato turn red?'