# [실습] LangChain 기초

LangChain(랭체인)은 LLM 어플리케이션을 효율적으로 개발할 수 있게 해주는 라이브러리입니다.   
공식 홈페이지는 https://python.langchain.com/docs/get_started/introduction 입니다.   


---
이번 실습에서는 OpenAI의 LLM 모델을 사용하지만, LangChain은 [다양한 LLM 모델](https://integrations.langchain.com/llms)과 연동됩니다.   

LangChain의 OpenAI도, 기능을 활용하기 위해서는 OpenAI API 키가 필요합니다.   
[여기](https://platform.openai.com/account/api-keys)를 클릭하여 키를 생성할 수 있습니다.   




In [1]:
!pip install langchain_community openai langchain langchain_openai # -q
# -q : 조용히 설치하기



In [23]:
import os
from dotenv import load_dotenv
from pathlib import Path

env_path = Path("/Users/blueno/UNO/SKALA/SKALA/.env")
load_dotenv(dotenv_path=env_path, override=True)

# 환경 변수 확인
openai_api_key = os.getenv("OPENAI_API_KEY")

## LLM

LangChain의 최신 버전에서는 OpenAI를 langchain_openai 라이브러리로 따로 분리해 두었습니다. <br> 
Token Limit : https://platform.openai.com/settings/organization/limits

chat 모델 사용을 위해 ChatOpenAI를 불러오겠습니다.

In [25]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model = 'gpt-4o-mini', temperature=0.5, max_tokens=1024)

LangChain의 구성 요소는 `invoke()`를 통해 실행합니다.

In [26]:
question = '''전 세계적으로 흥행한 영화에 나오는 유명한 명대사를 하나 알려주세요.
대사가 나온 배경과 의미도 설명해 주세요.'''

llm.invoke(question)
# print(llm.invoke(question))

AIMessage(content='영화 "타이타닉"에서 잭 도슨(레오나르도 디카프리오)이 로즈(케이트 윈슬렛)에게 말하는 유명한 대사, "I\'m the king of the world!"가 있습니다. \n\n### 배경\n이 대사는 영화의 클라이맥스 부분에서 잭이 로즈와 함께 타이타닉의 배가 항해 중인 상황에서, 배의 앞쪽에 서서 두 팔을 벌리고 외치는 장면에서 나옵니다. 이 장면은 자유와 젊음, 그리고 사랑의 상징으로 여겨지며, 잭이 인생의 정점에 서 있는 듯한 기분을 표현합니다.\n\n### 의미\n이 대사는 단순히 자신감과 행복을 표현하는 것 이상의 의미를 지닙니다. 잭은 로즈와의 사랑을 통해 새로운 삶의 가능성을 발견하고, 그 순간이 인생에서 가장 소중한 순간임을 깨닫습니다. 또한, 영화의 전반적인 주제인 사랑과 희망, 그리고 불행한 운명을 암시하는 상징적인 대사로 해석될 수 있습니다. 타이타닉호의 비극적 운명을 알고 있는 관객에게는 이 대사가 더욱 깊은 감동을 주며, 잭과 로즈의 사랑이 얼마나 순수하고 아름다운지를 강조합니다. \n\n이처럼 "I\'m the king of the world!"는 단순한 대사가 아니라, 인생의 순간적인 행복과 사랑의 힘을 상징하는 명대사로 기억됩니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 336, 'prompt_tokens': 39, 'total_tokens': 375, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024

출력 형식은 AIMessage 클래스로 정의됩니다.

In [27]:
question = '''울림을 주는 고전 영화 명대사를 하나 알려주세요.
대사가 나온 배경과 의미도 설명해 주세요.'''

# llm.invoke(question).content
print(llm.invoke(question).content)

고전 영화 "카사블랑카"에서 나온 명대사 중 하나는 "Here's looking at you, kid."입니다. 이 대사는 주인공 리ック 블레인(헨프리 보가트 분)이 일련의 사건을 겪으며 사랑하는 여성 일사(잉그리드 버그만 분)에게 하는 말입니다.

### 배경
"카사블랑카"는 제2차 세계대전 중의 모로코 카사블랑카를 배경으로 한 영화로, 다양한 인물들이 전쟁과 정치적 혼란 속에서 사랑과 희생, 선택의 갈등을 겪는 이야기를 담고 있습니다. 리크는 일사와의 과거 연애를 회상하며 그리움을 느끼고, 그들의 재회가 불가능함을 깨닫게 됩니다.

### 의미
이 대사는 단순히 상대방을 바라보는 것이 아니라, 그 사람의 존재와 그와의 관계에 대한 깊은 감정을 표현합니다. "Here's looking at you, kid."는 사랑과 애정, 그리고 상실감이 뒤섞인 복잡한 감정을 불러일으키며, 리크가 일사에게 보내는 애틋한 마음을 잘 드러냅니다. 이 대사는 영화의 상징적인 순간으로, 사람들 사이의 연결과 그리움의 의미를 상기시키는 강력한 메시지를 전달합니다. 

이처럼 "카사블랑카"는 단순한 사랑 이야기 이상의 깊이 있는 주제를 다루며, 이 대사는 그 핵심을 잘 요약하고 있습니다.


In [None]:
# 모두 llm.invoke로 업데이트 됨 
# 아래는 Deprecated 목록

# llm.predict(question)
# llm.run(question)
# llm(question)

OpenAI의 최신 모델 o1은 아래와 같이 사용합니다.

In [28]:
o1 = ChatOpenAI(model = 'o1-mini', temperature=1.0,
                model_kwargs={'max_completion_tokens':25000})
response = o1.invoke("BERT와 같은 인코더 기반 모델이 이후 어떻게 임베딩 모델로 진화했는지 알려주세요.")
print(response.content)

  if await self.run_code(code, result, async_=asy):


BERT(Bidirectional Encoder Representations from Transformers)와 같은 인코더 기반 모델은 자연어 처리(NLP) 분야에서 혁신적인 발전을 이끌었으며, 이후 다양한 방식으로 임베딩 모델로 진화해 왔습니다. 이러한 진화 과정을 몇 가지 주요 단계와 모델을 중심으로 설명드리겠습니다.

1. **기본 BERT 모델의 등장**
   
   BERT는 트랜스포머 인코더 구조를 기반으로 양방향 문맥을 학습하여 단어 및 문장 수준의 풍부한 임베딩을 생성합니다. 이 모델은 다양한 다운스트림 작업에서 뛰어난 성능을 보이며, 사전 학습된 임베딩을 통해 여러 NLP 과제에 효과적으로 활용될 수 있었습니다.

2. **Sentence-BERT (SBERT)의 개발**
   
   BERT는 주로 문장 쌍 간의 관계를 학습하는 데 최적화되어 있어, 단일 문장의 임베딩을 추출하는 데는 비효율적이었습니다. 이를 개선하기 위해 **Sentence-BERT(SBERT)**가 개발되었는데, 이는 문장 수준의 유사성 평가 및 군집화 작업에서 효율적이고 고품질의 임베딩을 생성할 수 있도록 BERT를 수정한 모델입니다. SBERT는 트리플렛 손실(triplet loss) 등을 활용하여 문장 간의 의미적 거리를 직접 학습함으로써, 문장 임베딩의 품질을 크게 향상시켰습니다.

3. **RoBERTa, ALBERT 등 BERT의 변형 모델**
   
   BERT의 기본 구조를 개선하거나 확장한 다양한 변형 모델들이 등장했습니다. 예를 들어:
   
   - **RoBERTa (Robustly optimized BERT approach)**: BERT의 사전 학습 과정을 최적화하고, 더 많은 데이터와 더 긴 학습 기간을 사용하여 모델의 성능을 향상시켰습니다.
   
   - **ALBERT (A Lite BERT)**: 파라미터 공유와 팩터라이즈드 임베딩 등을 도입하여 모델의 크기를 줄이면서도 성능을 유지하거나 향상시켰습니다.
   
   이러한 변형 모델들

실제 환경에서는 프롬프트의 형태를 사전에 설정하고,   
같은 형태로 입력 변수가 주어질 때마다 프롬프트를 작성하게 하는 것이 효율적입니다.

## Prompt Template

LangChain은 프롬프트의 템플릿을 구성할 수 있습니다.

In [29]:
from langchain.prompts import PromptTemplate
from langchain.prompts import ChatPromptTemplate


PromptTemplate을 이용하여, 프롬프트의 기본적인 형태를 만들 수 있습니다.   


In [30]:
explain_template = """당신은 어려운 용어를 초등학생 수준의 레벨로 쉽게 설명하는 챗봇입니다.
{term}에 대해 설명해 주세요."""
print(explain_template)

당신은 어려운 용어를 초등학생 수준의 레벨로 쉽게 설명하는 챗봇입니다.
{term}에 대해 설명해 주세요.


기본 라이브러리에서는 문자열 뒤에 .format()을 붙이고 필드의 정보를 입력하여 포맷팅을 수행합니다.

In [31]:
print(explain_template.format(term = '트랜스포머 네트워크'))

당신은 어려운 용어를 초등학생 수준의 레벨로 쉽게 설명하는 챗봇입니다.
트랜스포머 네트워크에 대해 설명해 주세요.


Langchain도 비슷한 방식으로 작동합니다.

In [32]:
explain_prompt = PromptTemplate.from_template(template = explain_template)

explain_prompt.format(term = "트랜스포머 네트워크")

'당신은 어려운 용어를 초등학생 수준의 레벨로 쉽게 설명하는 챗봇입니다.\n트랜스포머 네트워크에 대해 설명해 주세요.'

In [33]:
#lm.invoke(explain_prompt.format(term = "트랜스포머 네트워크")).content
print(llm.invoke(explain_prompt.format(term = "트랜스포머 네트워크")).content)

트랜스포머 네트워크는 컴퓨터가 언어를 이해하고, 번역하고, 글을 쓰는 데 도움을 주는 특별한 기술이에요. 이 기술은 마치 사람의 뇌처럼 정보를 처리하는 방법을 사용해요.

트랜스포머는 두 가지 중요한 부분으로 나눌 수 있어요:

1. **인코더(Encoder)**: 이 부분은 우리가 입력한 문장을 읽고, 그 문장의 의미를 이해하는 역할을 해요. 예를 들어, "나는 사과를 좋아해"라는 문장을 읽으면, 인코더는 이 문장에서 '나', '사과', '좋아하다'라는 단어들이 어떤 의미인지 파악해요.

2. **디코더(Decoder)**: 이 부분은 인코더가 이해한 내용을 바탕으로 새로운 문장을 만들어내요. 예를 들어, 영어로 번역해야 한다면, "I like apples"라는 문장을 만들어낼 수 있어요.

트랜스포머는 여러 단어들 사이의 관계를 잘 이해할 수 있도록 돕는 "주의(attention)"라는 방법을 사용해요. 이 방법은 문장 속에서 어떤 단어가 더 중요한지 판단하게 해줘요.

결국, 트랜스포머 네트워크는 컴퓨터가 사람처럼 언어를 잘 이해하고 사용할 수 있도록 도와주는 똑똑한 도구예요!


두 개의 매개변수를 받아 프롬프트를 만들어 보겠습니다.

In [34]:
translate_template = "{topic}에 대해 {language}로 설명하세요."

translate_prompt = PromptTemplate.from_template(template = translate_template)

translate_prompt.format(topic='torschlusspanik', language='한국어')

'torschlusspanik에 대해 한국어로 설명하세요.'

In [35]:
X = translate_prompt.format(topic='torschlusspanik', language='한국어')
# llm.invoke(X)
print(llm.invoke(X).content)

"Torschlusspanik"은 독일어에서 유래된 용어로, 직역하면 "문이 닫히는 공포"라는 의미입니다. 이 개념은 주로 인생의 특정 시점에서 기회를 놓칠까 두려워하는 심리적 상태를 설명합니다. 예를 들어, 젊은 시절에 결혼, 경력, 자녀 등 중요한 결정을 내리지 않으면 나중에 후회할 것이라는 불안감이 생기는 경우가 이에 해당합니다.

이 용어는 특히 중년이나 노년기에 접어들면서 느끼는 불안감과 관련이 깊습니다. 사람들은 시간이 흐를수록 선택할 수 있는 기회가 줄어든다고 느끼고, 이로 인해 조급함이나 불안감을 느끼게 됩니다. 이러한 심리는 개인의 삶의 질에 영향을 미칠 수 있으며, 때로는 비합리적인 결정으로 이어질 수도 있습니다. 

결국 "Torschlusspanik"은 인생의 중요한 기회를 놓칠까 두려워하는 감정을 나타내며, 이를 이해하고 적절히 대처하는 것이 중요합니다.


채팅 메시지의 경우, ChatPromptTemplate이라는 형태를 사용합니다.    
또한, format()이 아닌 format_messages()를 쓰는 것이 특징입니다.


In [37]:
prompt = ChatPromptTemplate.from_messages([
    ("system", '당신은 항상 부정적인 말만 하는 챗봇입니다. 첫 문장은 항상 사용자의 의견을 반박하세요.'),
    ("user", '{A}를 배우면 어떤 유용한 점이 있나요?')
]
)
# 'system', 'user' = 'human' , 'assistant' = 'ai' 5개 역할 가능
prompt.format_messages(A='LangChain')

[SystemMessage(content='당신은 항상 부정적인 말만 하는 챗봇입니다. 첫 문장은 항상 사용자의 의견을 반박하세요.', additional_kwargs={}, response_metadata={}),
 HumanMessage(content='LangChain를 배우면 어떤 유용한 점이 있나요?', additional_kwargs={}, response_metadata={})]

In [38]:
# 비교) 잘못된 예시
prompt.format(A='LangChain')

'System: 당신은 항상 부정적인 말만 하는 챗봇입니다. 첫 문장은 항상 사용자의 의견을 반박하세요.\nHuman: LangChain를 배우면 어떤 유용한 점이 있나요?'

In [39]:
llm.invoke(prompt.format_messages(A='LangChain')).content

'LangChain를 배우면 유용한 점이 많다고 생각하실 수 있지만, 실제로는 배우는 데 드는 시간과 노력이 그만한 가치를 제공하지 않을 수도 있습니다. 이 기술은 복잡하고, 실제로 활용하기 위해서는 많은 경험이 필요합니다. 게다가, 이미 다른 많은 도구들이 존재하기 때문에 LangChain를 배우는 것이 정말 필요한지 의문입니다.'

# LangChain으로 댓글 자동 분류하기

ChatOpenAI와 프롬프트 템플릿을 이용하여,    
댓글의 긍정/부정 여부를 분류하는 기능을 구현해 보겠습니다.   

In [23]:
!pip install pandas



In [36]:
import pandas as pd
reviews = pd.read_csv('./data/1_1.data_reviews.csv')
print(reviews.shape)
reviews.head()

(50, 3)


Unnamed: 0,Num,Review,Label
0,1,그닥 맛있고 좋은 고기인지는 모르겠내요 테이블 나누어서 두팀 받는데 옆 테이블 시끄...,-1
1,2,적당히 좋은 소고기를 싸지 않은 가격에 맛볼 수 있다. 하지만 인기나 리뷰에 비해선...,-1
2,3,기름진맛 역시맛있네요 많이먹긴 힘들지만 맛있는 소고기집인건 틀림없어요,1
3,4,"지인이 추천하고 짬뽕맛집이래서 찾아갔는데, 주차도 골목길에 해야되고 맛도 별로네요",-1
4,5,매운단계별짬뽕과 불향가득짜장 직접만든소스가별미인탕수육 제입맛에는딱맞아서자주찾게되요^^*,1


주어진 리뷰 데이터는 다음의 column으로 구성되어 있습니다.
- Num : 리뷰 인덱스 번호
- Review: 리뷰 텍스트
- Label: 긍정/부정 레이블 (-1:부정, 1:긍정)



가장 단순한 형태로 프롬프트를 만들어 보겠습니다.

- 지시사항이 먼저 입력되고, 줄바꿈 후 리뷰를 입력합니다.
- 리뷰의 분류 결과는 1(긍정)과 -1(부정) 중 하나로만 출력되게 합니다.

In [40]:
system_prompt='''
주어지는 입력이 긍정/부정 중 어떤 내용을 담고 있는지 분류하세요.

분류 결과: 부정, 혹은 분류 결과: 긍정 을 출력하면 됩니다.
위 형식을 지키고, 분류 결과 뒤에는 별도의 내용을 출력하지 마세요.
'''
prompt = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("user", '{review}')
]
)

# 분류 문제는 temprature를 0으로 넣는 것이 일반적
llm = ChatOpenAI(model = 'gpt-4o-mini', temperature=0, max_tokens=1024) 


In [41]:
correct = 0
incorrect = 0
for idx, review, label in zip(reviews['Num'],reviews['Review'], reviews['Label']):
    print(f'#{idx} : ({correct}/{incorrect})')
    print(review)
    response = llm.invoke(prompt.format_messages(review=review)).content
    print(response, '/', label)

    if label == -1:
        if '분류 결과: 부정' in response:
            correct+=1
        else:
            incorrect += 1
            print('Misclassification!')
    else:
        if '분류 결과: 긍정' in response:
            correct+=1
        else:
            incorrect += 1
            print('Misclassification!')
    print()

print('Correct:', correct)
print('Incorrect:', incorrect)
print('Accuracy:', correct / (correct + incorrect))


#1 : (0/0)
그닥 맛있고 좋은 고기인지는 모르겠내요 테이블 나누어서 두팀 받는데 옆 테이블 시끄러워서 짜증이 많이 나내요
분류 결과: 부정 / -1

#2 : (1/0)
적당히 좋은 소고기를 싸지 않은 가격에 맛볼 수 있다. 하지만 인기나 리뷰에 비해선 평범한 수준. 이런 맛과 가성비의 소고기집은 동네마다 아주아주 많다.
분류 결과: 부정 / -1

#3 : (2/0)
기름진맛 역시맛있네요 많이먹긴 힘들지만 맛있는 소고기집인건 틀림없어요
분류 결과: 긍정 / 1

#4 : (3/0)
지인이 추천하고 짬뽕맛집이래서 찾아갔는데, 주차도 골목길에 해야되고 맛도 별로네요
분류 결과: 부정 / -1

#5 : (4/0)
매운단계별짬뽕과 불향가득짜장 직접만든소스가별미인탕수육 제입맛에는딱맞아서자주찾게되요^^*
분류 결과: 긍정 / 1

#6 : (5/0)
신맛나지 않는 달콤한 탕수육도 맛있다 친절한 사장님도 추가 당분간 맛없는 배달짬뽕 먹을 생각하니 슬프다 사장님 쾌차하세요
분류 결과: 부정 / 1
Misclassification!

#7 : (5/1)
식당규모가조금작아서점심시간에는대기했다가식사를해야됨니다.짬봉맛이정말좋아요.
분류 결과: 긍정 / 1

#8 : (6/1)
미슐렝 가이드 원스타에 선정된 셰프의 세컨 브랜드. 음식들을 베어무는 순간 '신선하다'는 감탄사가 저절로 나왔던건 우연이 아니었던것. 너무 좋았던 곳.
분류 결과: 긍정 / 1

#9 : (7/1)
인스타에서 뇨끼 맛집이라고 갔으나.. 뭐 특출나게 맛있지는 않고 아직 홀이 정리가 안돼서 직원들이 우왕좌왕… 옆테이블이고 저테이블이고 컴플레인하느라 밥을 먹는건지 마는건지 뒤숭숭한 분위기. 1년 전에 방문했던 친구도 똑.같.은. 느낌을 받았다고 하니.. 음식은 나쁘지 않은데 이런부분은 개선이 필요함.
분류 결과: 부정 / -1

#10 : (8/1)
이탈리아 로마 까르보나라의 쿰쿰함까지 모두 구현한 집, 다른 것도 먹어보고싶어졌어요.
분류 결과: 긍정 / 1

#11 : (9/1)
크림파스타 너무 맛없었

전반적으로 잘 맞추지만, 가끔 틀리기도 합니다.    
앞에서 배운 프롬프트 엔지니어링을 고려하면, 성능을 올릴 수 있을까요?

# 실습) 프롬프트 엔지니어링으로 분류 성능 높이기   

리뷰를 분류하기 위한 프롬프트를 작성하여 분류 성능을 개선하세요.     
채점을 용이하게 하기 위해, 아래 내용을 반드시 마지막에 붙이세요.

```python
답변의 마지막에 분류 결과: 부정, 혹은 분류 결과: 긍정 을 출력하면 됩니다.
위 형식을 지키고, 분류 결과 뒤에는 별도의 내용을 출력하지 마세요.
```

**힌트**: 성능을 높이는 방법에는 두 가지가 있습니다.   
1. CoT(Chain-of-Thought) 방식의 출력 유도하기   
 - 추론 과정을 통해 분류 능력이 향상됩니다.
2. CoT 없이, 자세한 지시사항 프롬프트 작성하기   
 - 비용 효율적이지만, 프롬프트 구성이 어렵습니다.



In [42]:
good_system_prompt='''
식당에 대한 리뷰 결과를 보고 분류하는 문제입니다. 천천히 생각하세요. 이 평가 결과는 나에게 매우 중요한 일입니다.
너무 맛있을 때 기절했다고 표현하기도 합니다. 단어만 파악하지 말고 문맥을 보고 판단하세요.
맛에 대한 언급이 없더라도, 문맥에서 사장 또는 식당에 대해 전문성을 표현한다면 긍정입니다.
가격이 불만족스럽더라도, 문맥에서 맛이나 식당 전문성 등을 표현한다면 긍정입니다.

답변의 마지막에 분류 결과: 부정, 혹은 분류 결과: 긍정 을 출력하면 됩니다.
위 형식을 지키고, 분류 결과 뒤에는 별도의 내용을 출력하지 마세요.

'''

In [43]:
# 채점 간략화를 위해, 어려운 리뷰만 분리

hard_reviews = reviews.iloc[[1,5,6,13,16,34,38,45,46]]
hard_reviews

Unnamed: 0,Num,Review,Label
1,2,적당히 좋은 소고기를 싸지 않은 가격에 맛볼 수 있다. 하지만 인기나 리뷰에 비해선...,-1
5,6,신맛나지 않는 달콤한 탕수육도 맛있다 친절한 사장님도 추가 당분간 맛없는 배달짬뽕 ...,1
6,7,식당규모가조금작아서점심시간에는대기했다가식사를해야됨니다.짬봉맛이정말좋아요.,1
13,14,떡볶이 두 입 먹고 기절했습니다. 다시 깨어나서 쫄면 한 입 먹고 다시 기절했습니다...,1
16,17,이제 여기아닌 다른데서 탕수육 못먹겠음..,1
34,35,좋은점. 중급 뷔페의 미덕을 충분히 갖췄다. 카테고리 위치가 적절해 동선이 꼬이지 ...,1
38,39,칵테일 덕후 사장님께서 운영하시는 칵테일 바. 좋은 말로 얘기하면 알아서 해주는 칵...,1
45,46,주인이 거만하지만 음식을 보니 좀 이해됨,1
46,47,이 식당 알바 쓰는 듯,-1


In [44]:
def evaluate(system_prompt, reviews):

    prompt = ChatPromptTemplate.from_messages([
        ("system", system_prompt),
        ("user", '{review}')
    ])
    correct = 0
    incorrect = 0
    for idx, review, label in zip(reviews['Num'],reviews['Review'], reviews['Label']):
        print(f'#{idx} : ({correct}/{incorrect})')
        print(review)
        response = llm.invoke(prompt.format_messages(review=review)).content
        print(response, '/', label)

        if label == -1:
            if '분류 결과: 부정' in response:
                correct+=1
            else:
                incorrect += 1
                print('Misclassification!')
        else:
            if '분류 결과: 긍정' in response:
                correct+=1
            else:
                incorrect += 1
                print('Misclassification!')
        print()

    print('Correct:', correct)
    print('Incorrect:', incorrect)
    print('Accuracy:', correct / (correct + incorrect))


In [45]:
evaluate(good_system_prompt, hard_reviews)

#2 : (0/0)
적당히 좋은 소고기를 싸지 않은 가격에 맛볼 수 있다. 하지만 인기나 리뷰에 비해선 평범한 수준. 이런 맛과 가성비의 소고기집은 동네마다 아주아주 많다.
분류 결과: 부정 / -1

#6 : (1/0)
신맛나지 않는 달콤한 탕수육도 맛있다 친절한 사장님도 추가 당분간 맛없는 배달짬뽕 먹을 생각하니 슬프다 사장님 쾌차하세요
이 리뷰는 탕수육의 맛에 대한 긍정적인 언급이 있으며, 사장님에 대한 친절함도 언급하고 있습니다. 배달짬뽕에 대한 불만이 있지만, 전반적으로 긍정적인 요소가 더 많습니다. 

분류 결과: 긍정 / 1

#7 : (2/0)
식당규모가조금작아서점심시간에는대기했다가식사를해야됨니다.짬봉맛이정말좋아요.
짬뽕의 맛이 정말 좋다는 긍정적인 언급이 있습니다. 식당 규모가 작아 대기해야 하는 불편함이 있지만, 맛에 대한 긍정적인 평가가 있으므로 전체적으로 긍정적인 리뷰로 판단할 수 있습니다. 

분류 결과: 긍정 / 1

#14 : (3/0)
떡볶이 두 입 먹고 기절했습니다. 다시 깨어나서 쫄면 한 입 먹고 다시 기절했습니다. 사장님 들숨에 건강을 날숨에 재물을 기원합니다
분류 결과: 긍정 / 1

#17 : (4/0)
이제 여기아닌 다른데서 탕수육 못먹겠음.. 
이 리뷰는 탕수육에 대한 강한 애정을 표현하고 있으며, 다른 곳에서는 그 맛을 느낄 수 없다는 점에서 긍정적인 감정을 나타냅니다. 따라서 이 리뷰는 긍정적으로 분류할 수 있습니다. 

분류 결과: 긍정 / 1

#35 : (5/0)
좋은점. 중급 뷔페의 미덕을 충분히 갖췄다. 카테고리 위치가 적절해 동선이 꼬이지 않는다. 광어와 연어, 젤라또가 훌륭했다. 개선할점. 와인 무제한에 화이트 와인도 서빙해야한다고 봄. 육류 중 한가지라도 구우면서 서빙되면 좋겠음.
분류 결과: 긍정 / 1

#39 : (6/0)
칵테일 덕후 사장님께서 운영하시는 칵테일 바. 좋은 말로 얘기하면 알아서 해주는 칵테일, 다른 말로 하면 얼마인지 모르고 나중에 계산할 때 깜놀
이 리뷰는 칵테일 바의 사장님이

In [46]:
# 임의의 리뷰를 분석하고 싶다면?
prompt = ChatPromptTemplate.from_messages([
    ("system", good_system_prompt),
    ("user", '{review}')
])
sample_review = '''리뷰 내용'''

llm.invoke(prompt.format_messages(review = sample_review))

AIMessage(content='리뷰 내용을 제공해 주시면, 그에 따라 긍정 또는 부정으로 분류해 드리겠습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 26, 'prompt_tokens': 178, 'total_tokens': 204, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_06737a9306', 'finish_reason': 'stop', 'logprobs': None}, id='run-d9a70c9a-8a13-443f-ad37-98ef9bc70e39-0', usage_metadata={'input_tokens': 178, 'output_tokens': 26, 'total_tokens': 204, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

<br><br><br><br>

<br><br><br><br>

In [47]:
# 좋은 프롬프트 예시
example_system_prompt='''
음식점에 대한 리뷰가 주어지면, 사용자의 의도를 파악하여
50자 이내로 설명하고, 음식점에 대한 긍정/부정 여부를 분류하여 출력하세요.

답변의 마지막에 분류 결과: 부정, 혹은 분류 결과: 긍정 을 출력하면 됩니다.
위 형식을 지키고, 분류 결과 뒤에는 별도의 내용을 출력하지 마세요.
---

'''


In [48]:
# 좋은 프롬프트 예시
example_system_prompt2='''
음식점에 대한 리뷰가 주어지면, 아래의 요소에 대한 견해를 각각 30자 이내로 출력하고,
이를 바탕으로 '긍정/부정'중 하나로 최종 분류 결과를 출력하세요.
각 요소에 대한 언급이 없는 경우 생략하세요.
일반적으로, 부정에서 긍정으로 끝나는 경우 긍정 리뷰입니다.
긍정에서 부정으로 끝나는 경우 부정 리뷰입니다.
답변의 마지막에 분류 결과: 부정, 혹은 분류 결과: 긍정 을 출력하면 됩니다.
위 형식을 지키고, 분류 결과 뒤에는 별도의 내용을 출력하지 마세요.
---
1. 음식
2. 서비스
3. 가격 대비 만족도
4. 다른 식당과의 비교
5. 분위기와 음악 등
6. 분류 결과
'''

## 부록) GPT-4 VS GPT-3.5


<img src="https://github.com/NotoriousH2/img_container/assets/4037207/de39d8d4-e3bf-4a81-9a60-969fa240334f" height="80%" width="80%">
<br><br>

## Few-Shot Prompting
Few-Shot Prompt Template은 example을 쉽게 추가할 수 있도록 도와줍니다.

In [35]:
# 예시 : Prompt Example 2개

from langchain.prompts.few_shot import FewShotPromptTemplate

examples = [
    {
        "question": "Who lived longer, Muhammad Ali or Alan Turing?",
        "answer": """
Are follow up questions needed here: Yes.
Follow up: How old was Muhammad Ali when he died?
Intermediate answer: Muhammad Ali was 74 years old when he died.
Follow up: How old was Alan Turing when he died?
Intermediate answer: Alan Turing was 41 years old when he died.
So the final answer is: Muhammad Ali
""",
    },
    {
        "question": "Are both the directors of Jaws and Casino Royale from the same country?",
        "answer": """
Are follow up questions needed here: Yes.
Follow up: Who is the director of Jaws?
Intermediate Answer: The director of Jaws is Steven Spielberg.
Follow up: Where is Steven Spielberg from?
Intermediate Answer: The United States.
Follow up: Who is the director of Casino Royale?
Intermediate Answer: The director of Casino Royale is Martin Campbell.
Follow up: Where is Martin Campbell from?
Intermediate Answer: New Zealand.
So the final answer is: No
""",
    },
]

Example 데이터를 구성할 템플릿을 만듭니다.

In [36]:
example_prompt = PromptTemplate.from_template(
    template="Question: {question}\n{answer}")

print(example_prompt.format(**examples[0]))

Question: Who lived longer, Muhammad Ali or Alan Turing?

Are follow up questions needed here: Yes.
Follow up: How old was Muhammad Ali when he died?
Intermediate answer: Muhammad Ali was 74 years old when he died.
Follow up: How old was Alan Turing when he died?
Intermediate answer: Alan Turing was 41 years old when he died.
So the final answer is: Muhammad Ali



위에서 만든 Examples와 템플릿, prefix와 suffix를 이용해 전체 템플릿을 만들 수 있습니다.

In [37]:
prompt = FewShotPromptTemplate(

    examples=examples,
    example_prompt=example_prompt,

    prefix="질문-답변 형식의 예시가 주어집니다. 같은 방식으로 답변하세요.",
    suffix="Question: {input}",
    #prefix, suffix : Optional

    input_variables=["input"]
)

print(prompt.format(input="This is Nov 2024. What is the current age of the director of a movie which got a best international film in Oscar in 2010?"))

질문-답변 형식의 예시가 주어집니다. 같은 방식으로 답변하세요.

Question: Who lived longer, Muhammad Ali or Alan Turing?

Are follow up questions needed here: Yes.
Follow up: How old was Muhammad Ali when he died?
Intermediate answer: Muhammad Ali was 74 years old when he died.
Follow up: How old was Alan Turing when he died?
Intermediate answer: Alan Turing was 41 years old when he died.
So the final answer is: Muhammad Ali


Question: Are both the directors of Jaws and Casino Royale from the same country?

Are follow up questions needed here: Yes.
Follow up: Who is the director of Jaws?
Intermediate Answer: The director of Jaws is Steven Spielberg.
Follow up: Where is Steven Spielberg from?
Intermediate Answer: The United States.
Follow up: Who is the director of Casino Royale?
Intermediate Answer: The director of Casino Royale is Martin Campbell.
Follow up: Where is Martin Campbell from?
Intermediate Answer: New Zealand.
So the final answer is: No


Question: This is Nov 2024. What is the current age of the d

In [38]:
llm = ChatOpenAI(model = 'gpt-4o', temperature=0, max_tokens=1024)

question = "This is Nov 2024. What is the current age of the director of a movie which got a best international film in Oscar in 2010?\n"
X = prompt.format(input=question)
print(llm.invoke(X).content)

Are follow up questions needed here: Yes.
Follow up: Which movie won the Best International Film Oscar in 2010?
Intermediate answer: The movie "The Secret in Their Eyes" (El Secreto de Sus Ojos) won the Best International Film Oscar in 2010.
Follow up: Who is the director of "The Secret in Their Eyes"?
Intermediate answer: The director of "The Secret in Their Eyes" is Juan José Campanella.
Follow up: When was Juan José Campanella born?
Intermediate answer: Juan José Campanella was born on July 19, 1959.
Follow up: What is the current age of Juan José Campanella in November 2024?
Intermediate answer: Juan José Campanella is 65 years old in November 2024.
So the final answer is: 65 years old.


In [39]:
question = "스티븐 스필버그의 영화 중 가장 많은 상을 받은 영화의 주연 배우는?"
X = prompt.format(input=question)
print(llm.invoke(X).content)

Are follow up questions needed here: Yes.
Follow up: Which Steven Spielberg movie has won the most awards?
Intermediate answer: "Schindler's List" is the Steven Spielberg movie that has won the most awards.
Follow up: Who is the lead actor in "Schindler's List"?
Intermediate answer: The lead actor in "Schindler's List" is Liam Neeson.
So the final answer is: Liam Neeson
