# PART 05 임베딩: 복잡한 데이터를 쉽게 이해하는 방법

## CHAPTER 15. 임베딩 소개

### 목차
- 15.1 임베딩의 의미
- 15.2 임베딩 사용 사례


### chatgpt.env 환경파일 준비
 * 일반적으로 환경 변수는 .env 파일에 저장되지만, 구글 코랩 사용자의 편의를 위해 이 책에서는 chatgpt.env를 사용합니다.
 * 실제 개발 환경에서는 보통 .env를 사용하니, 이 점을 기억해 두세요.

### 기본 환경 설정
### chatgpt.env 환경파일 준비
 * 일반적으로 환경 변수는 .env 파일에 저장되지만, 구글 코랩 사용자의 편의를 위해 이 책에서는 chatgpt.env를 사용합니다.
 * 실제 개발 환경에서는 보통 .env를 사용하니, 이 점을 기억해 두세요.


 ### 사전 준비
 * 구글 코랩 환경은 일정 시간이후에 초기화가 되기 때문에 두가지 작업을 매번 수행해야 함.
   * chatgpt.env 파일 생성이 필요.
     * 준비된 chatgpt.env를 내용을 변경하여 업로드 하거나 또는 API_KEY와 ORG_ID를 확인하여 생성한다.
   * pip install openai 설치
    * 라이브러리 불일치로 인한 에러 발생시, 추가 라이브러리 설치 필요.
    * 에러 : TypeError: Client.__init__() got an unexpected keyword argument 'proxies'
    * 해결 방법 : 안정된 버전 설치
    ```
    !pip install httpx==0.27.2
    ```

In [None]:
!pip install openai
!pip install httpx==0.27.2

Collecting httpx==0.27.2
  Downloading httpx-0.27.2-py3-none-any.whl.metadata (7.1 kB)
Downloading httpx-0.27.2-py3-none-any.whl (76 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.4/76.4 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: httpx
  Attempting uninstall: httpx
    Found existing installation: httpx 0.28.1
    Uninstalling httpx-0.28.1:
      Successfully uninstalled httpx-0.28.1
Successfully installed httpx-0.27.2


## CHAPTER 16. 텍스트 임베딩 활용 방법

### 목차
- 16.1 텍스트 임베딩의 핵심 이해하기
- 16.2 다중 입력 사용 예제
- 16.3 사용자의 의도를 읽어내는 시맨틱 검색
- 16.4 코사인 유사도 쉽게 이해하기
- 16.5 오픈AI 텍스트 임베딩 사용 예제
- 16.6 임베딩의 내부 작동 원리

### 16.1 텍스트 임베딩의 핵심 이해하기

In [None]:
import os
from openai import OpenAI

with open("chatgpt.env") as env:
  for line in env:
    key, value = line.strip().split("=")
    os.environ[key] = value

client = OpenAI(api_key  = os.environ['API_KEY'])

In [None]:
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="I am a programmer",
)

print(response)

CreateEmbeddingResponse(data=[Embedding(embedding=[-0.033891718834638596, -0.01960858516395092, -0.030314108356833458, -0.022476136684417725, 0.03544839099049568, -0.025330033153295517, 0.02755579724907875, 0.02703690715134144, -0.04317712411284447, -0.024305908009409904, 0.03435599058866501, -0.04519806429743767, -0.025261757895350456, -0.02333640120923519, 0.011081036180257797, 0.029795218259096146, -0.01708240993320942, -0.01734185591340065, -0.012822048738598824, 0.0034854398109018803, 0.03146113082766533, -0.008363690227270126, 0.006991362199187279, 0.024442456662654877, 0.041838932782411575, -0.00359467975795269, -0.010316355153918266, 0.03482025861740112, 0.02767869271337986, -0.00508990278467536, 0.0008184468024410307, -0.013975896872580051, -0.03315434977412224, 0.006813846994191408, 0.03809745982289314, -0.02528906799852848, 0.04148390144109726, 0.013982724398374557, 0.02780158817768097, 0.008554860018193722, -0.03733278065919876, -0.05284486711025238, 0.009223954752087593, -

In [None]:
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="I am a programmer",
)
print(response.data[0].embedding)


[-0.033891718834638596, -0.01960858516395092, -0.030314108356833458, -0.022476136684417725, 0.03544839099049568, -0.025330033153295517, 0.02755579724907875, 0.02703690715134144, -0.04317712411284447, -0.024305908009409904, 0.03435599058866501, -0.04519806429743767, -0.025261757895350456, -0.02333640120923519, 0.011081036180257797, 0.029795218259096146, -0.01708240993320942, -0.01734185591340065, -0.012822048738598824, 0.0034854398109018803, 0.03146113082766533, -0.008363690227270126, 0.006991362199187279, 0.024442456662654877, 0.041838932782411575, -0.00359467975795269, -0.010316355153918266, 0.03482025861740112, 0.02767869271337986, -0.00508990278467536, 0.0008184468024410307, -0.013975896872580051, -0.03315434977412224, 0.006813846994191408, 0.03809745982289314, -0.02528906799852848, 0.04148390144109726, 0.013982724398374557, 0.02780158817768097, 0.008554860018193722, -0.03733278065919876, -0.05284486711025238, 0.009223954752087593, -0.015334569849073887, 0.011524823494255543, 0.0165

### 16-2 다중 입력 사용 예제

In [None]:
model = "text-embedding-3-small"
inputs = [
    "나는 프로그래머입니다",
    "나는 작가입니다"
]
response = client.embeddings.create(
    model=model,
    input=inputs,
)
for i, embedding in enumerate(response.data):
    print(
        f"입력 {i}의 임베딩: "
        f"{embedding.embedding[:5]}..(truncated)"
    )


입력 0의 임베딩: [0.028793223202228546, 0.016364755108952522, -0.05375950038433075, -0.052046485245227814, 0.028046056628227234]..(truncated)
입력 1의 임베딩: [0.052467718720436096, 0.00905882939696312, -0.03377489373087883, -0.04818594455718994, 0.03129849582910538]..(truncated)


### 16-4. 코사인 유사도 쉽게 이해하기

### 코사인 유사도 탐색

In [None]:
import numpy as np
from numpy.linalg import norm

# 두 벡터 정의
A = np.array([2,3,5,2,6,7,9,2,3,4])
B = np.array([3,6,3,1,0,9,2,3,4,5])

# 벡터 출력
print("벡터 A: {}".format(A))
print("벡터 B: {}".format(B))

# 코사인 유사도 계산
cosine = np.dot(A,B)/(norm(A)*norm(B))

# 코사인 유사도 출력
print(
    "A와 B 사이의 코사인 유사도: "
    f"{cosine}"
)

벡터 A: [2 3 5 2 6 7 9 2 3 4]
벡터 B: [3 6 3 1 0 9 2 3 4 5]
A와 B 사이의 코사인 유사도: 0.7539959431593041


In [None]:
!pip list | grep numpy

numpy                              1.26.4


### 예제2

In [None]:
import numpy as np
from scipy import spatial

# 두 벡터 정의
A = np.array([2,3,5,2,6,7,9,2,3,4])
B = np.array([3,6,3,1,0,9,2,3,4,5])

# 벡터 출력
print(f"벡터 A: {A}")
print(f"벡터 B: {B}")

# 코사인 유사도 계산
# 1에서 코사인 거리를 빼서 유사도를 구함
cosine = 1 - spatial.distance.cosine(A, B)

# 코사인 유사도 출력
print(f"A와 B 사이의 코사인 유사도: {cosine}")


벡터 A: [2 3 5 2 6 7 9 2 3 4]
벡터 B: [3 6 3 1 0 9 2 3 4 5]
A와 B 사이의 코사인 유사도: 0.7539959431593041


### 예제 3 - p120

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 두 벡터 정의
A = np.array([2, 3, 5, 2, 6, 7, 9, 2, 3, 4])
B = np.array([3, 6, 3, 1, 0, 9, 2, 3, 4, 5])

# 벡터 출력
print(f"벡터 A: {A}")
print(f"벡터 B: {B}")

# 코사인 유사도 계산
cosine = cosine_similarity([A], [B])

# 코사인 유사도 출력
print(f"코사인 유사도: {cosine[0][0]}")

벡터 A: [2 3 5 2 6 7 9 2 3 4]
벡터 B: [3 6 3 1 0 9 2 3 4 5]
코사인 유사도: 0.7539959431593041


In [None]:
import numpy as np
from numpy.linalg import norm
from scipy import spatial
from sklearn.metrics.pairwise import cosine_similarity

# 두 벡터 정의
A = np.array([2,3,5,2,6,7,9,2,3,4])
B = np.array([3,6,3,1,0,9,2,3,4,5])

# NumPy를 사용하여 코사인 유사도 계산
cosine_np = np.dot(A,B)/(norm(A)*norm(B))

# 코사인 유사도 출력
print(f"NumPy를 사용한 A와 B 사이의 코사인 유사도: {cosine_np}")

# SciPy를 사용하여 코사인 유사도 계산
cosine_sc = 1 - spatial.distance.cosine(A, B)

# 코사인 유사도 출력
print(f"SciPy를 사용한 A와 B 사이의 코사인 유사도: {cosine_sc}")

# Scikit-learn을 사용하여 코사인 유사도 계산
cosine_sk = cosine_similarity([A], [B])

# 코사인 유사도 출력
print(f"Scikit-learn을 사용한 A와 B 사이의 코사인 유사도: {cosine_sk[0][0]}")


NumPy를 사용한 A와 B 사이의 코사인 유사도: 0.7539959431593041
SciPy를 사용한 A와 B 사이의 코사인 유사도: 0.7539959431593041
Scikit-learn을 사용한 A와 B 사이의 코사인 유사도: 0.7539959431593041


### 16-5 오픈AI 텍스트 임베딩 사용 예제

In [None]:
16.6 임베딩의 내부 작동 원리

```
apple
banana
cherry
dog
cat
house
car
tree
phone computer television book
music
food
water
sky
air
sun
moon
star
ocean
desk
bed
sofa
lamp
carpet
window
door
floor
ceiling
wall
clock
watch
jewelry
ring
necklace
bracelet
earring
wallet
key
```

In [None]:
!wget https://raw.githubusercontent.com/LDJWJ/OpenAIGPTForPythonDevelopersFiles/main/datasets/ch16_textEmbedding/words.csv

--2024-12-19 09:57:07--  https://raw.githubusercontent.com/LDJWJ/OpenAIGPTForPythonDevelopersFiles/main/datasets/ch16_textEmbedding/words.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 249 [text/plain]
Saving to: ‘words.csv’


2024-12-19 09:57:08 (8.12 MB/s) - ‘words.csv’ saved [249/249]



In [None]:
import pandas as pd
df = pd.read_csv('words.csv')
print(df)

          text
0        apple
1       banana
2       cherry
3          dog
4          cat
5        house
6          car
7         tree
8        phone
9     computer
10  television
11        book
12       music
13        food
14       water
15         sky
16         air
17         sun
18        moon
19        star
20       ocean
21        desk
22         bed
23        sofa
24        lamp
25      carpet
26      window
27        door
28       floor
29     ceiling
30        wall
31       clock
32       watch
33     jewelry
34        ring
35    necklace
36    bracelet
37     earring
38      wallet
39         key
40       photo


### 각 단어에 대한 임베딩 얻기

In [None]:
import pandas as pd

# 텍스트 임베딩을 가져오는 함수 정의
def get_embedding(text, model):
    text = text.replace("\n", " ")  # 텍스트에서 줄바꿈 제거
    return client.embeddings.create(
        input=[text],
        model=model
    ).data[0].embedding  # 임베딩 반환

# CSV 파일로부터 데이터프레임 생성
df = pd.read_csv('words.csv')
print(df)

# 입력 데이터 정의
input = "The black cat sat on the mat"

# 사용할 모델 정의
model = "text-embedding-ada-002"

# get_embedding() 함수를 사용하여 입력에 대한 임베딩을 가져옴
embedding = get_embedding(input, model=model)
print(embedding)  # 임베딩 출력

          text
0        apple
1       banana
2       cherry
3          dog
4          cat
5        house
6          car
7         tree
8        phone
9     computer
10  television
11        book
12       music
13        food
14       water
15         sky
16         air
17         sun
18        moon
19        star
20       ocean
21        desk
22         bed
23        sofa
24        lamp
25      carpet
26      window
27        door
28       floor
29     ceiling
30        wall
31       clock
32       watch
33     jewelry
34        ring
35    necklace
36    bracelet
37     earring
38      wallet
39         key
40       photo
[-0.003191132564097643, -0.007989912293851376, -0.013196242973208427, -0.015193721279501915, -0.013892138376832008, 0.00029317825101315975, -0.002801302121952176, -0.045027025043964386, -0.0031218649819493294, -0.018608763813972473, 0.04250118136405945, 0.01198486890643835, 0.01191399060189724, -0.007203808519989252, -0.01829947717487812, -0.0019201564136892557, 0.027

### OpenAI 임베딩을 활용한 텍스트 벡터화 및 CSV 데이터 변환 스크립트

In [None]:
import pandas as pd

# 텍스트 임베딩을 가져오는 함수 정의
def get_embedding(text, model):
    text = text.replace("\n", " ")  # 텍스트에서 줄바꿈 제거
    return client.embeddings.create(
        input=[text],
        model=model
    ).data[0].embedding  # 임베딩 반환

# CSV 파일로부터 데이터프레임 생성
df = pd.read_csv('words.csv')

# 입력 텍스트 정의
input = "The black cat sat on the mat"

# 사용할 모델 정의
model = "text-embedding-ada-002"

# 데이터프레임의 각 텍스트에 대해 임베딩 열 생성
df['embedding'] = df['text'].apply(
    lambda x: get_embedding( x, model=model )
)

# 새로운 데이터프레임을 CSV 파일로 저장
df.to_csv('embeddings.csv')

In [None]:
import pandas as pd
import numpy as np

# 텍스트 임베딩을 가져오는 함수 정의
def get_embedding(text, model):
    text = text.replace("\n", " ")  # 텍스트에서 줄바꿈 제거
    return client.embeddings.create(
        input=[text],
        model=model
    ).data[0].embedding  # 임베딩 반환

# words.csv는 단어가 포함된 'text' 열이 있는 CSV 파일입니다.
df = pd.read_csv('words.csv')

# 사용할 모델 정의
model = "text-embedding-ada-002"

# 데이터프레임의 각 단어에 대해 임베딩을 가져옴
df['embedding'] = df['text'].apply(
    lambda x: get_embedding(x, model=model)
)
# 데이터프레임을 CSV 파일로 저장
df.to_csv('embeddings.csv')

# CSV 파일 읽기
df = pd.read_csv('embeddings.csv')

# embedding 열을 NumPy 배열로 변환
df['embedding'] = df['embedding'].apply(eval).apply(np.array)

### 16.5 오픈AI 텍스트 임베딩 사용 예제
* 최종 코드

In [None]:
import pandas as pd
import numpy as np

def get_embedding(text, model):
    text = text.replace("\n", " ")
    return client.embeddings.create(
        input = [text],
        model=model
    ).data[0].embedding

def cosine_similarity(a, b):
    numerator = np.dot(a, b)
    denominator = np.linalg.norm(a) * np.linalg.norm(b)
    return numerator / denominator

# 'words.csv' 파일에서 데이터프레임 생성 ('text' 열에 단어들이 포함됨)
df = pd.read_csv('words.csv')

# 사용할 모델 정의
model = "text-embedding-ada-002"

# 데이터프레임의 각 단어에 대한 임베딩 생성
df['embedding'] = df['text'].apply(
    lambda x: get_embedding(x, model=model)
)

# 임베딩이 포함된 데이터프레임을 CSV 파일로 저장
df.to_csv('embeddings.csv')

# 저장한 CSV 파일 다시 읽기
df = pd.read_csv('embeddings.csv')

# 임베딩 열을 NumPy 배열로 변환
df['embedding'] = df['embedding'].apply(eval).apply(np.array)

# 사용자로부터 검색어 입력 받기
user_search = input("검색어를 입력하세요: ")

# 검색어에 대한 임베딩 생성
search_term_embedding = get_embedding(user_search, model=model)

# 검색어와 데이터프레임의 각 단어 사이의 코사인 유사도 계산
df['similarity'] = df['embedding'].apply(
    lambda x: cosine_similarity(x, search_term_embedding)
)

# 데이터프레임 출력
print(df)

검색어를 입력하세요: office
    Unnamed: 0        text                                          embedding  \
0            0       apple  [0.007730893790721893, -0.023138046264648438, ...   
1            1      banana  [-0.014053216204047203, -0.03304014727473259, ...   
2            2      cherry  [0.006510504521429539, -0.01894085668027401, -...   
3            3         dog  [-0.003476932644844055, -0.01781758852303028, ...   
4            4         cat  [-0.0070539116859436035, -0.01734057068824768,...   
5            5       house  [-0.007240159437060356, 0.007166280411183834, ...   
6            6         car  [-0.007482267916202545, -0.021632038056850433,...   
7            7        tree  [-0.007778085768222809, -0.013066908344626427,...   
8            8       phone  [-0.0013657707022503018, -0.023023227229714394...   
9            9    computer  [-0.003095467807725072, -0.014320866204798222,...   
10          10  television  [-0.005108153913170099, -0.018662655726075172,...   
11       

### 유사도를 기준으로 정렬하기

In [None]:
### 정렬 추가
# 유사도를 기준으로 데이터프레임 정렬 (내림차순)
df = df.sort_values(by='similarity', ascending=False)

# 상위 10개의 유사한 단어 출력
print(df.head(10))


    Unnamed: 0      text                                          embedding  \
21          21      desk  [0.012898282147943974, -0.020884225144982338, ...   
5            5     house  [-0.007240159437060356, 0.007166280411183834, ...   
9            9  computer  [-0.003095467807725072, -0.014320866204798222,...   
28          28     floor  [0.01881076581776142, -0.021379636600613594, -...   
8            8     phone  [-0.0013657707022503018, -0.023023227229714394...   
11          11      book  [-0.00703745661303401, -0.019520645961165428, ...   
24          24      lamp  [0.00688182283192873, -0.008740827441215515, 0...   
27          27      door  [-0.004923377651721239, -0.027041634544730186,...   
40          40     photo  [0.004378130193799734, -0.03160664066672325, -...   
13          13      food  [0.022421086207032204, -0.026948681101202965, ...   

    similarity  
21    0.889205  
5     0.874104  
9     0.860660  
28    0.860204  
8     0.852465  
11    0.839400  
24    0.832

## CHAPTER 17. 고급 임베딩 예제

### 목차
- 17.1 선호하는 커피 예측하기
- 17.2 퍼지 검색으로 더 유연한 커피 검색 구현하기
- 17.3 제로샷 분류기로 뉴스 기사 분류하기
- 17.4 제로샷 분류기의 정밀도 평가
- 17.5 제로샷 분류기의 정밀도 활용 예시

## Advanced Embedding Examples

### 데이터 준비

In [None]:
# 디렉터리 만들기
!rm -rf data
!mkdir -p data

# 데이터 셋 다운로드
!wget https://raw.githubusercontent.com/LDJWJ/OpenAIGPTForPythonDevelopersFiles/main/datasets/ch17_coffee_reviews_dataset/simplified_coffee.csv.gz -O data/simplified_coffee.csv.gz

# .gz 파일 압축 풀기
!gunzip -k data/simplified_coffee.csv.gz

# 저장소 삭제하기
!rm data/simplified_coffee.csv.gz


--2024-12-19 10:17:11--  https://raw.githubusercontent.com/LDJWJ/OpenAIGPTForPythonDevelopersFiles/main/datasets/ch17_coffee_reviews_dataset/simplified_coffee.csv.gz
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.110.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 96397 (94K) [application/octet-stream]
Saving to: ‘data/simplified_coffee.csv.gz’


2024-12-19 10:17:12 (942 KB/s) - ‘data/simplified_coffee.csv.gz’ saved [96397/96397]



In [None]:
!pip install nltk==3.8.1

Collecting nltk==3.8.1
  Downloading nltk-3.8.1-py3-none-any.whl.metadata (2.8 kB)
Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: nltk
  Attempting uninstall: nltk
    Found existing installation: nltk 3.9.1
    Uninstalling nltk-3.9.1:
      Successfully uninstalled nltk-3.9.1
Successfully installed nltk-3.8.1


### 17-1 선호하는 커피예측

### OpenAI 초기화 및 함수 기본 정의

In [None]:
from openai import OpenAI
with open("chatgpt.env") as env:
  for line in env:
    key, value = line.strip().split("=")
    os.environ[key] = value


client = OpenAI( api_key=os.environ['API_KEY'] )

def get_embedding(text, model):
  text = text.replace("\n", " ")
  return client.embeddings.create(
      input = [text],
      model=model
  ).data[0].embedding

### 17-1 선호하는 커피예측

In [None]:
# 어간 추출(stemming)을 위한 PorterStemmer 임포트
# 표제어 추출(lemmatization)을 위한 WordNetLemmatizer 임포트
import nltk

# 필요한 NLTK 데이터 다운로드
nltk.download('wordnet')  # WordNet 데이터 다운로드
nltk.download('omw-1.4')  # WordNet의 다국어 데이터 다운로드

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [None]:
# utils.py - 유틸리티 함수 모음 파일
import pandas as pd  # pandas 라이브러리 임포트
import numpy as np   # numpy 라이브러리 임포트
import nltk          # 자연어 처리를 위한 nltk 라이브러리 임포트

# 두 벡터 간의 코사인 유사도를 계산하는 함수
def cosine_similarity(a, b):
    numerator = np.dot(a, b)  # 벡터 내적 계산
    denominator = np.linalg.norm(a) * np.linalg.norm(b)  # 두 벡터의 크기 곱 계산
    return numerator / denominator  # 코사인 유사도 반환

# NLTK 데이터 다운로드 함수
def download_nltk_data():
    # 'punkt' 토크나이저 모델 체크 및 다운로드
    try:
        nltk.data.find('tokenizers/punkt')  # 'punkt' 모델이 이미 존재하는지 확인
    except LookupError:
        nltk.download('punkt')  # 존재하지 않으면 'punkt' 모델 다운로드

    # 'stopwords' 코퍼스 체크 및 다운로드
    try:
        nltk.data.find('corpora/stopwords')  # 'stopwords' 코퍼스가 이미 존재하는지 확인
    except LookupError:
        nltk.download('stopwords')  # 존재하지 않으면 'stopwords' 다운로드

# 텍스트 전처리 함수
def preprocess_text(text):
    from nltk.corpus import stopwords        # 불용어(stopwords) 모듈 임포트
    from nltk.stem import PorterStemmer       # 어간 추출(stemming)을 위한 PorterStemmer 임포트
    from nltk.tokenize import word_tokenize   # 단어 토크나이저(word_tokenize) 임포트

    # 텍스트를 단어 단위로 토큰화
    tokens = word_tokenize(text)

    # 모든 단어를 소문자로 변환
    tokens = [word.lower() for word in tokens]

    # 구두점(punctuation) 제거
    words = [word for word in tokens if word.isalpha()]

    # 불용어(stop words) 제거
    stop_words = set(stopwords.words('english'))  # 영어 불용어 집합 생성
    words = [word for word in words if word not in stop_words]

    # 어간 추출 (Stemming)
    stemmer = PorterStemmer()
    stemmed_words = [stemmer.stem(word) for word in words]

    # 전처리된 단어들을 공백으로 연결하여 반환
    return ' '.join(stemmed_words)


In [None]:
# 어간 추출(stemming)을 위한 PorterStemmer 임포트
# 표제어 추출(lemmatization)을 위한 WordNetLemmatizer 임포트
import nltk
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

# 어간 추출기와 표제어 추출기 초기화
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# 처리할 단어 목록
words = [
    'running',
    'runner',
    'jumps',
    'easily',
    'better'
]

# 어간 추출 과정
stemmed_words = [
    stemmer.stem(word) for word in words
]

# 표제어 추출 과정 (품사 지정 포함)
# (POS: Part of Speech)
lemmatized_words = []
for word in words:
    # 기본적으로 명사(n)로 설정
    pos_tag = 'n'
    if word in ['better']:
        # 'better'는 형용사로 처리
        pos_tag = 'a'
    elif word in ['running', 'jumps']:
        # 'running', 'jumps'는 동사로 처리
        pos_tag = 'v'
    elif word in ['easily']:
        # 'easily'는 부사로 처리
        pos_tag = 'r'
    else:
        # 그 외의 경우는 명사로 처리
        pos_tag = 'n'

    # 표제어 추출 수행
    lemmatized_word = lemmatizer.lemmatize(
        word,
        pos=pos_tag
    )
    lemmatized_words.append(lemmatized_word)

# 결과 출력
print("Original: ", words)               # 원본 단어 리스트 출력
print("Stemmed: ", stemmed_words)        # 어간 추출 결과 출력
print("Lemmatized: ", lemmatized_words)  # 표제어 추출 결과 출력

Original:  ['running', 'runner', 'jumps', 'easily', 'better']
Stemmed:  ['run', 'runner', 'jump', 'easili', 'better']
Lemmatized:  ['run', 'runner', 'jump', 'easily', 'good']


### 필수 함수 작성

In [None]:
# utils.py - 유틸리티 함수 모음 파일
import pandas as pd  # pandas 라이브러리 임포트
import numpy as np   # numpy 라이브러리 임포트
import nltk          # 자연어 처리를 위한 nltk 라이브러리 임포트

# 두 벡터 간의 코사인 유사도를 계산하는 함수
def cosine_similarity(a, b):
    numerator = np.dot(a, b)  # 벡터 내적 계산
    denominator = np.linalg.norm(a) * np.linalg.norm(b)  # 두 벡터의 크기 곱 계산
    return numerator / denominator  # 코사인 유사도 반환

# NLTK 데이터 다운로드 함수
def download_nltk_data():
    # 'punkt' 토크나이저 모델 체크 및 다운로드
    try:
        nltk.data.find('tokenizers/punkt')  # 'punkt' 모델이 이미 존재하는지 확인
    except LookupError:
        nltk.download('punkt')  # 존재하지 않으면 'punkt' 모델 다운로드

    # 'stopwords' 코퍼스 체크 및 다운로드
    try:
        nltk.data.find('corpora/stopwords')  # 'stopwords' 코퍼스가 이미 존재하는지 확인
    except LookupError:
        nltk.download('stopwords')  # 존재하지 않으면 'stopwords' 다운로드

# 텍스트 전처리 함수
def preprocess_text(text):
    from nltk.corpus import stopwords        # 불용어(stopwords) 모듈 임포트
    from nltk.stem import PorterStemmer       # 어간 추출(stemming)을 위한 PorterStemmer 임포트
    from nltk.tokenize import word_tokenize   # 단어 토크나이저(word_tokenize) 임포트

    # 텍스트를 단어 단위로 토큰화
    tokens = word_tokenize(text)

    # 모든 단어를 소문자로 변환
    tokens = [word.lower() for word in tokens]

    # 구두점(punctuation) 제거
    words = [word for word in tokens if word.isalpha()]

    # 불용어(stop words) 제거
    stop_words = set(stopwords.words('english'))  # 영어 불용어 집합 생성
    words = [word for word in words if word not in stop_words]

    # 어간 추출 (Stemming)
    stemmer = PorterStemmer()
    stemmed_words = [stemmer.stem(word) for word in words]

    # 전처리된 단어들을 공백으로 연결하여 반환
    return ' '.join(stemmed_words)


In [None]:
import os
import pandas as pd  # 데이터 프레임 처리를 위한 pandas 임포트
import numpy as np   # 수치 연산을 위한 numpy 임포트
import nltk
nltk.download('punkt_tab')

# utils.py를 작성한 경우, 아래 부분을 import하여 가져올 수 있다.
# from utils import (
#     cosine_similarity,        # 코사인 유사도 함수
#     download_nltk_data,       # NLTK 데이터 다운로드 함수
#     preprocess_text           # 텍스트 전처리 함수
# )
# 작성하지 않은 경우, 위의 필수 함수를 구글 코랩에 작성 후, 아래 코드를 작성한다.

def get_embedding(text, model):
    # 텍스트 내 줄바꿈을 공백으로 변환
    text = text.replace("\n", " ")

    # 임베딩 생성 및 반환
    return client.embeddings.create(
        input=[text],
        model=model
    ).data[0].embedding

# 필요한 NLTK 데이터 다운로드
download_nltk_data()

# 데이터셋 파일 경로 설정
dataset_file_path = os.path.join(
  'data',                     # 데이터 폴더 지정
    'simplified_coffee.csv'     # CSV 파일 이름
)

# 사용자로부터 커피 이름 입력 받기
input_coffee_name = input("커피 이름을 입력하세요: ")

# CSV 파일을 Pandas DataFrame으로 로드 (예제에서는 첫 50행만 가져옴)
df = pd.read_csv(
    dataset_file_path,
    nrows=50
)

# 리뷰 텍스트 전처리 (전처리된 텍스트를 'preprocessed_review' 열에 추가)
df['preprocessed_review'] = df['review'].apply(
    preprocess_text
)

# 사용할 모델 설정
model = "text-embedding-3-small"

# 각 리뷰에 대한 임베딩 생성
review_embeddings = []
for review in df['preprocessed_review']:
    review_embeddings.append(
        get_embedding(review,model=model)
    )

# 입력된 커피 이름의 인덱스 가져오기
try:
    input_coffee_index = df[df['name'] == input_coffee_name].index[0]
except:
    # 유효하지 않은 커피 이름 입력 시 오류 메시지 출력 후 종료
    print("유효한 커피 이름을 입력해 주세요.")
    exit()

# 입력된 커피의 리뷰와 다른 모든 리뷰 간의 코사인 유사도 계산
similarities = []  # 유사도를 저장할 리스트
input_review_embedding = review_embeddings[input_coffee_index]  # 입력된 커피 리뷰의 임베딩 가져오기

for review_embedding in review_embeddings:
    similarity = cosine_similarity(
        input_review_embedding,  # 입력된 리뷰의 임베딩
        review_embedding         # 비교할 리뷰의 임베딩
    )
    similarities.append(similarity)  # 계산된 유사도를 리스트에 추가

# 입력된 커피의 리뷰를 제외한 가장 유사한 리뷰의 인덱스 가져오기
most_similar_indices = \
    np.argsort(similarities)[-6:-1]

# 가장 유사한 커피의 이름 가져오기
similar_coffee_names = df.iloc[most_similar_indices]['name'].tolist()

# 결과 출력
print(
    f"{input_coffee_name}와 가장 유사한 커피들은 다음과 같습니다:"
)
for coffee_name in similar_coffee_names:
    print(coffee_name)

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


커피 이름을 입력하세요: Organic Ethiopia Kirite
Organic Ethiopia Kirite와 가장 유사한 커피들은 다음과 같습니다:
Ethiopia Hambela Alaka
Kenya Kirinyaga Mukangu AB
Colombia David Gomez 100% Caturra
Kenya AB Muchoki
Ethiopia Shakiso Mormora


### 17-2 퍼지 검색으로 더 유연한 커피 검색 구현

In [None]:
def cosine_similarity(a, b):
    numerator = np.dot(a, b)
    denominator = np.linalg.norm(a) * np.linalg.norm(b)
    return numerator / denominator


def download_nltk_data():
  # Check and download the 'punkt' tokenizer models
  try:
      nltk.data.find('tokenizers/punkt')
  except LookupError:
      nltk.download('punkt')


  # Check and download the 'stopwords' corpus
  try:
      nltk.data.find('corpora/stopwords')
  except LookupError:
      nltk.download('stopwords')


def preprocess_text(text):
    from nltk.corpus import stopwords
    from nltk.stem import PorterStemmer
    from nltk.tokenize import word_tokenize


    # Tokenize text
    tokens = word_tokenize(text)


    # Convert to lower case
    tokens = [
        word.lower() for word in tokens
    ]


    # Remove punctuation
    words = [
        word for word in tokens if word.isalpha()
    ]
    # Filter out stop words
    stop_words = set(
        stopwords.words('english')

    )
    words = [
        word for word in words if word not in stop_words
    ]


    # Stemming
    stemmer = PorterStemmer()
    stemmed_words = [
        stemmer.stem(word) for word in words
    ]

    return ' '.join(stemmed_words)

In [None]:
import os
import pandas as pd  # 데이터 프레임 처리를 위한 pandas 임포트
import numpy as np   # 수치 연산을 위한 numpy 임포트

# from utils import (
#     cosine_similarity,        # 코사인 유사도 함수
#     download_nltk_data,       # NLTK 데이터 다운로드 함수
#     preprocess_text           # 텍스트 전처리 함수
# )

# 사용되는 함수 정의 필요.
# download_nltk_data()
# cosine_similarity()
# preprocess_text()

def get_embedding(text, model):
    # 텍스트 내 줄바꿈을 공백으로 변환
    text = text.replace("\n", " ")

    # 임베딩 생성 및 반환
    return client.embeddings.create(
        input=[text],
        model=model
    ).data[0].embedding

# 필요한 NLTK 데이터 다운로드
download_nltk_data()

# 데이터셋 파일 경로 설정
dataset_file_path = os.path.join(
    'data',                     # 데이터 폴더 지정
    'simplified_coffee.csv'     # CSV 파일 이름
)

# 사용자로부터 커피 이름 입력 받기
input_coffee_name = input("커피 이름을 입력하세요: ")

# CSV 파일을 Pandas DataFrame으로 로드 (예제에서는 첫 50행만 가져옴)
df = pd.read_csv( dataset_file_path, nrows=50 )

# 리뷰 텍스트 전처리 (전처리된 텍스트를 'preprocessed_review' 열에 추가)
df['preprocessed_review'] = df['review'].apply( preprocess_text )

# 사용할 모델 설정
model = "text-embedding-ada-002"

# 각 리뷰에 대한 임베딩 생성
review_embeddings = []
for review in df['preprocessed_review']:
    review_embeddings.append(
        get_embedding( review, model=model )
    )

# 입력된 커피 이름의 인덱스 가져오기
try:
    input_coffee_index = df[
        df['name'] == input_coffee_name
    ].index[0]  # 입력된 커피 이름과 정확히 일치하는 인덱스 가져오기

except IndexError:
    # 유사한 커피 이름을 찾기 위해 임베딩 생성
    print("유사한 커피 이름을 검색 중입니다...")
    name_embeddings = []
    for name in df['name']:
        name_embeddings.append(
            get_embedding( name, model=model )
        )

    # 입력된 커피 이름에 대해 코사인 유사도 검색 수행
    input_coffee_embedding = get_embedding( input_coffee_name, model=model )

    # 각 커피 이름과 입력된 커피 이름의 유사도 계산
    _similarities = []
    for name_embedding in name_embeddings:
        _similarities.append(
            cosine_similarity( input_coffee_embedding, name_embedding )
        )

    # 가장 유사한 커피 이름의 인덱스 가져오기
    input_coffee_index = _similarities.index( max(_similarities) )

except:
    # 데이터베이스에 해당 커피 이름이 없을 때 오류 메시지 출력
    print(
        "죄송합니다, 해당 커피 이름은 데이터베이스에 없습니다. "
        "다시 시도해 주세요."
    )
    raise SystemExit  # 프로그램 종료

# 입력된 커피의 리뷰와 다른 모든 리뷰 간의 코사인 유사도 계산
similarities = []  # 유사도를 저장할 리스트
input_review_embedding = review_embeddings[input_coffee_index]  # 입력된 커피 리뷰의 임베딩 가져오기

for review_embedding in review_embeddings:
    similarity = cosine_similarity(
        input_review_embedding,  # 입력된 리뷰의 임베딩
        review_embedding         # 비교할 리뷰의 임베딩
    )
    similarities.append(similarity)  # 계산된 유사도를 리스트에 추가

# 입력된 커피의 리뷰를 제외한 가장 유사한 리뷰의 인덱스 가져오기
most_similar_indices = np.argsort(similarities)[-6:-1]

# 가장 유사한 커피의 이름 가져오기
similar_coffee_names = df.iloc[most_similar_indices]['name'].tolist()

# 결과 출력
print(
    f"{input_coffee_name}와 가장 유사한 커피들은 다음과 같습니다:"
)
for coffee_name in similar_coffee_names:
    print(coffee_name)


커피 이름을 입력하세요: Ethiopian Kirite
유사한 커피 이름을 검색 중입니다...
Ethiopian Kirite와 가장 유사한 커피들은 다음과 같습니다:
El Peñon Nicaragua
Colombia David Gomez 100% Caturra
Panama Auromar Estate Geisha Peaberry
Ethiopia Yirgacheffe Natural G1
Ethiopia Shakiso Mormora


### 17-3. 제로샷 분류기로 뉴스 기사 분류하기

In [None]:
# .py 형태로 작성할 경우, 아래 2줄의 임포트가 필요합니다.
# from api import get_embedding
# from utils import cosine_similarity

def get_embedding(text, model):
    # 텍스트 내 줄바꿈을 공백으로 변환
    text = text.replace("\n", " ")

    # 임베딩 생성 및 반환
    return client.embeddings.create(
        input=[text],
        model=model
    ).data[0].embedding

# 두 벡터 간의 코사인 유사도를 계산하는 함수
def cosine_similarity(a, b):
    numerator = np.dot(a, b)  # 벡터 내적 계산
    denominator = np.linalg.norm(a) * np.linalg.norm(b)  # 두 벡터의 크기 곱 계산
    return numerator / denominator  # 코사인 유사도 반환

categories = [
    'U.S. NEWS',
    'COMEDY',
    'PARENTING',
    'WORLD NEWS',
    'CULTURE & ARTS',
    'TECH',
    'SPORTS'
]

# 문장을 분류하는 함수 정의
def classify_sentence(sentence, model):
    # 문장의 임베딩(embedding) 생성
    sentence_embedding = get_embedding(
        sentence,
        model=model
    )

    # 문장과 각 카테고리 간의 유사도 점수 계산
    similarity_scores = {}
    for category in categories:
        category_embeddings = get_embedding(category,model=model)
        similarity_scores[category] = cosine_similarity(
            sentence_embedding,
            category_embeddings
        )

    # 유사도 점수가 가장 높은 카테고리 반환
    return max(
        similarity_scores,
        key=similarity_scores.get
    )

# 문장 분류하기
sentences = [
    "텍사스 엘파소 쇼핑몰 총격 사건으로 1명 사망, 3명 부상",
    "오웬 클라인 감독, '퍼니 페이지스'를 '자기 비판적' 데뷔작이라고 부르다",
    "휴가를 원하는 가족들을 위한 15가지 봄방학 아이디어",
    "미국, 중동에 더 많은 군대를 파견할 준비 중",
    "브루스 윌리스의 가족, '그의 상태가 전두측두 치매로 진행되었다'고 말하다",
    "유니버설의 새로운 슈퍼 닌텐도 월드 내부 모습 공개",
    "바르셀로나 2-2 맨체스터 유나이티드: 마커스 래시포드 빛났지만 라피냐가 홈팀을 위해 동점 만들어",
    "시카고 불스, NBA 챔피언십 우승",
    "새로운 아이폰 12 출시",
    "과학자들, 새로운 공룡 종 발견",
    "새로운 코로나바이러스 백신 출시",
    "새로운 스타워즈 영화 개봉",
    "아마존 주가, 새로운 최고치 기록",
]

model = "text-embedding-ada-002"
for sentence in sentences:
    category = classify_sentence( sentence, model=model )
    print(f"'{sentence[:50]}..' => {category}")


'텍사스 엘파소 쇼핑몰 총격 사건으로 1명 사망, 3명 부상..' => WORLD NEWS
'오웬 클라인 감독, '퍼니 페이지스'를 '자기 비판적' 데뷔작이라고 부르다..' => COMEDY
'휴가를 원하는 가족들을 위한 15가지 봄방학 아이디어..' => PARENTING
'미국, 중동에 더 많은 군대를 파견할 준비 중..' => U.S. NEWS
'브루스 윌리스의 가족, '그의 상태가 전두측두 치매로 진행되었다'고 말하다..' => PARENTING
'유니버설의 새로운 슈퍼 닌텐도 월드 내부 모습 공개..' => WORLD NEWS
'바르셀로나 2-2 맨체스터 유나이티드: 마커스 래시포드 빛났지만 라피냐가 홈팀을 위해 동점..' => SPORTS
'시카고 불스, NBA 챔피언십 우승..' => SPORTS
'새로운 아이폰 12 출시..' => TECH
'과학자들, 새로운 공룡 종 발견..' => WORLD NEWS
'새로운 코로나바이러스 백신 출시..' => WORLD NEWS
'새로운 스타워즈 영화 개봉..' => WORLD NEWS
'아마존 주가, 새로운 최고치 기록..' => U.S. NEWS


### 17-4. 제로샷 분류기의 정밀도 평가

### 데이터 가져오기

In [None]:
# 디렉터리 생성
!rm -rf data
!mkdir -p data

# 데이터셋 다운로드
!wget https://raw.githubusercontent.com/LDJWJ/OpenAIGPTForPythonDevelopersFiles/main/datasets/ch17_news_category_dataset/news.json.zip -O data/news.json.zip

# 압축 해제 후 data 디렉터리에 저장
!unzip data/news.json.zip -d data

# 압축 파일 삭제
!rm data/news.json.zip

# 파일 생성 확인
!ls -ltr data

--2024-12-19 11:46:36--  https://raw.githubusercontent.com/LDJWJ/OpenAIGPTForPythonDevelopersFiles/main/datasets/ch17_news_category_dataset/news.json.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 26378283 (25M) [application/zip]
Saving to: ‘data/news.json.zip’


2024-12-19 11:46:39 (39.3 MB/s) - ‘data/news.json.zip’ saved [26378283/26378283]

Archive:  data/news.json.zip
  inflating: data/news.json          
total 85252
-rw-rw-r-- 1 root root 87295572 Sep 24  2022 news.json


### 최종 코드

In [None]:
# utils.py로 만들어서 사용할 경우, from -- import –의 형태로 import가 필요.
# from utils import cosine_similarity

import pandas as pd
from sklearn.metrics import precision_score
import json

def get_embedding(text, model):
    # 텍스트에서 줄바꿈(\n)을 공백(" ")으로 대체
    text = text.replace("\n", " ")

    # 임베딩 생성
    return client.embeddings.create(
        input=[text],
        model=model
    ).data[0].embedding

# 두 벡터 간의 코사인 유사도를 계산하는 함수
def cosine_similarity(a, b):
    numerator = np.dot(a, b)  # 벡터 내적 계산
    denominator = np.linalg.norm(a) * np.linalg.norm(b)  # 두 벡터의 크기 곱 계산
    return numerator / denominator  # 코사인 유사도 반환

# 데이터셋에서 모든 카테고리(고유 값) 찾기
categories = set()
with open('data/news.json', 'r') as file:
    for line in file:
        data = json.loads(line)
        categories.add(data['category'])
categories = list(categories)

# 문장을 분류하는 함수 정의
def classify_sentence(sentence, model):
    # 문장의 임베딩 얻기
    sentence_embedding = get_embedding(
        sentence,
        model=model
    )
    # 문장과 각 카테고리 간의 유사도 점수 계산
    similarity_scores = {}
    for category in categories:
        category_embeddings = get_embedding(
            category,
            model=model
        )
        similarity_scores[
            category
        ] = cosine_similarity(
            sentence_embedding,
            category_embeddings
        )
    # 가장 높은 유사도 점수를 가진 카테고리 반환
    return max(
        similarity_scores,
        key=similarity_scores.get
    )

def evaluate_precision(categories):
    # 데이터셋 로드
    df = pd.read_json(
        "data/news.json",
        lines=True
    ).head(20)
    y_true = []
    y_pred = []
    model = "text-embedding-ada-002"
    # 각 문장 분류
    for _, row in df.iterrows():
        real_category = row['category']
        predicted_category = classify_sentence(
            row['headline'],
            model=model
        )
        y_true.append(real_category)
        y_pred.append(predicted_category)
        if real_category != predicted_category:
            print(
                "    잘못된 예측: "
                f"{row['headline'][:50]}...\n"
                f"실제: {real_category[:20]}\n"
                f"예측: {predicted_category[:20]}"
            )
        else:
            print(
                "    올바른 예측: "
                f"{row['headline'][:50]}...\n"
                f"실제: {real_category[:20]}\n"
                f"예측: {predicted_category[:20]}"
            )

    # 정밀도 점수 계산
    return precision_score(
        y_true,
        y_pred,
        average='micro',
        labels=categories
    )

# 분류기의 정밀도 평가
precision = evaluate_precision(categories)
print(f"정밀도: {precision}")


    잘못된 예측: Over 4 Million Americans Roll Up Sleeves For Omicr...
실제: U.S. NEWS
예측: GOOD NEWS
    잘못된 예측: American Airlines Flyer Charged, Banned For Life A...
실제: U.S. NEWS
예측: TRAVEL
    잘못된 예측: 23 Of The Funniest Tweets About Cats And Dogs This...
실제: COMEDY
예측: WEIRD NEWS
    올바른 예측: The Funniest Tweets From Parents This Week (Sept. ...
실제: PARENTING
예측: PARENTING
    잘못된 예측: Woman Who Called Cops On Black Bird-Watcher Loses ...
실제: U.S. NEWS
예측: WEIRD NEWS
    잘못된 예측: Cleaner Was Dead In Belk Bathroom For 4 Days Befor...
실제: U.S. NEWS
예측: WEIRD NEWS
    잘못된 예측: Reporter Gets Adorable Surprise From Her Boyfriend...
실제: U.S. NEWS
예측: WEIRD NEWS
    올바른 예측: Puerto Ricans Desperate For Water After Hurricane ...
실제: WORLD NEWS
예측: WORLD NEWS
    잘못된 예측: How A New Documentary Captures The Complexity Of B...
실제: CULTURE & ARTS
예측: PARENTING
    올바른 예측: Biden At UN To Call Russian War An Affront To Body...
실제: WORLD NEWS
예측: WORLD NEWS
    잘못된 예측: World Cup Captains Want To Wear Rainbow A

### Practical Application of Fine-Tuning - p178

* data.jsonl

```
{"messages": [{"role": "system", "content": "You are a smart home assistant"}, {"role": "user", "content": "When do I have to start the heater?"}, {"role": "assistant","content": "Every day in the morning at 7AM. You should stop it at 2PM"}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "Where is the garage remote control?"}, {"role": "assistant", "content": "Next to the yellow door, on the key ring"}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "Is it necessary to program the scent diffuser every day?"},{"role": "assistant", "content": "The scent diffuser is already programmed, you just need to recharge it when its battery is low"}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "How do I reset the WiFi router?"}, {"role": "assistant", "content": "Unplug the router, wait for 30 seconds, then plug it back in."}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "How do I connect my phone to the smart TV?"}, {"role": "assistant", "content": "Go to settings on your phone, select 'Screen Mirroring', and choose the smart TV from the list."}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "What's the Wi-Fi password?"}, {"role": "assistant", "content": "The Wi-Fi password is 'HomeNetwork123'."}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "How to hard-reset the smart TV?"}, {"role": "assistant", "content": "Press and hold the power button on the remote for 10 seconds."}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "How to call the police?"}, {"role": "assistant", "content":"Dial 911 on your phone."}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "How to change the wifi password?"}, {"role": "assistant", "content": "Go to the router settings, select 'Wireless', and change the password."}]}
{"messages": [{"role": "system", "content": "You are a smart home assistant."}, {"role": "user", "content": "How to change the channel on the TV?"}, {"role": "assistant", "content": "Press the 'Channel Up' or 'Channel Down' button on the remote."}]}
```

```
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "히터를 언제 켜야 하나요?"}, {"role": "assistant", "content": "매일 아침 7시에 켜세요. 오후 2시에 꺼야 합니다."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "차고 리모컨이 어디에 있나요?"}, {"role": "assistant", "content": "노란색 문 옆, 열쇠 고리에 있습니다."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "향기 디퓨저를 매일 프로그래밍해야 하나요?"}, {"role": "assistant", "content": "향기 디퓨저는 이미 프로그래밍되어 있으므로 배터리가 낮을 때 충전만 하면 됩니다."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "WiFi 라우터를 어떻게 재설정하나요?"}, {"role": "assistant", "content": "라우터의 전원을 뽑고 30초 동안 기다린 후 다시 연결하세요."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "내 휴대폰을 스마트 TV에 어떻게 연결하나요?"}, {"role": "assistant", "content": "휴대폰 설정에서 '스크린 미러링'을 선택한 후 목록에서 스마트 TV를 선택하세요."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "와이파이 비밀번호가 뭐야?"}, {"role": "assistant", "content": "와이파이 비밀번호는 'HomeNetwork123'입니다."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "스마트 TV를 하드 리셋하는 방법은?"}, {"role": "assistant", "content": "리모컨의 전원 버튼을 10초 동안 누르고 계세요."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "경찰에 어떻게 전화하나요?"}, {"role": "assistant", "content": "휴대폰에서 911에 전화하세요."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "와이파이 비밀번호를 어떻게 변경하나요?"}, {"role": "assistant", "content": "라우터 설정으로 이동하여 '무선'을 선택한 후 비밀번호를 변경하세요."}]}
{"messages": [{"role": "system", "content": "당신은 스마트 홈 어시스턴트입니다."}, {"role": "user", "content": "TV 채널을 어떻게 변경하나요?"}, {"role": "assistant", "content": "리모컨에서 '채널 업' 또는 '채널 다운' 버튼을 누르세요."}]}
```

In [None]:
### fine_tuning.py


In [None]:
import os, sys  # os와 sys 모듈 불러오기

# 파일 경로 정의
file_path = os.path.join('data.jsonl')  # 업로드할 파일 이름

# 파일 업로드
uploaded = client.files.create(
    file=open(file_path, "rb"),  # 파일을 읽기 모드(rb)로 열어 업로드
    purpose="fine-tune"  # 목적을 파인 튜닝으로 설정
)

# 업로드된 파일 ID 가져오기
file_id = uploaded.id
print(file_id)


file-TDD2E7WUk5AGnYKuwYuSSs


### 20-1 파인 튜닝의 실제 적용

In [None]:
import os, sys  # os와 sys 모듈 불러오기

# 파일 경로 정의
file_path = os.path.join('data.jsonl')  # 업로드할 파일 이름

# 파일 업로드
uploaded = client.files.create(
    file=open(file_path, "rb"),  # 파일을 읽기 모드(rb)로 열어 업로드
    purpose="fine-tune"  # 목적을 파인 튜닝으로 설정
)

# 업로드된 파일 ID 가져오기
file_id = uploaded.id
print(file_id)


file-K7GVPhYsw8NyEKcoATzZHt


In [None]:
# 사용할 모델 설정
model = "gpt-4o-mini-2024-07-18"

# 파인 튜닝 작업 생성
fine_tune_job = client.fine_tuning.jobs.create(
    training_file=file_id,  # 업로드된 파일 ID를 학습 데이터로 사용
    model=model  # 사용할 모델 지정
)

print()
print("파일 유효성 검사 중입니다.")  # 파일 유효성 검사 중 메시지 출력

# 파일 유효성 검사 진행 확인
while fine_tune_job.status == "validating_files":
    fine_tune_job = client.fine_tuning.jobs.retrieve(fine_tune_job.id)  # 현재 작업 상태를 다시 불러옴
    print(".", end="", flush=True)  # 진행 표시 출력

print("파인 튜닝이 진행 중입니다.")  # 파인 튜닝 진행 중 메시지 출력
print("파인 튜닝 상태", fine_tune_job.status)

# 파인 튜닝이 실행 중이거나 대기 중일 때 작업 상태 확인
while fine_tune_job.status == "running" or fine_tune_job.status == "queued":
    fine_tune_job = client.fine_tuning.jobs.retrieve(fine_tune_job.id)  # 현재 작업 상태를 다시 불러옴
    print(".", end="", flush=True)   # 진행 표시 출력

print()
print("파인 튜닝이 완료되었습니다.")  # 파인 튜닝 완료 메시지 출력

# 새로운 모델 이름 출력
print("새로운 모델 이름: " + fine_tune_job.fine_tuned_model)



파일 유효성 검사 중입니다.
................................................................................................................................파인 튜닝이 진행 중입니다.
파인 튜닝 상태 queued
.......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

In [None]:
# 새로운 모델 이름 출력
print("파인 튜닝 작업 status: " + fine_tune_job.status)

파인 튜닝 작업 status: succeeded


### 파인튜닝 실습

In [None]:
!pip install colorama

Collecting colorama
  Downloading colorama-0.4.6-py2.py3-none-any.whl.metadata (17 kB)
Downloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)
Installing collected packages: colorama
Successfully installed colorama-0.4.6


In [None]:
# 모델 이름 설정
# model = "$FINE_TUNED_MODEL"
model = "ft:gpt-4o-mini-2024-07-18:personal::AEFlKEZh"

# 기본 시스템 메시지 설정
base_messages = [
    {
        "role": "system",
        "content": "당신은 스마트 홈 어시스턴트입니다."  # 스마트 홈 역할 정의
    }
]

# 사용자 입력을 계속 받기 위한 무한 반복문
while True:
    messages = base_messages.copy()  # 기본 메시지를 복사하여 새로운 메시지 리스트 생성

    # 사용자 입력 받기
    request = input("Input: (종료하려면 'exit' 또는 'quit'을 입력하세요.): ")

    # 'exit' 또는 'quit' 입력 시 반복문 종료
    if request.lower() in ["exit", "quit"]:
        break

    # 사용자 입력을 메시지 리스트에 추가
    messages.append(
        {
            "role": "user",
            "content": f"{request}"  # 사용자 입력을 content로 추가
        }
    )

    # OpenAI API에 대화 생성 요청 보내기
    response = client.chat.completions.create(
        model=model,        # 사용할 모델 설정
        messages=messages,  # 메시지 리스트 전달
        max_tokens=200,     # 최대 토큰 수 설정
        temperature=0,      # 응답의 무작위성 설정 (0으로 설정. 일관성 있는 응답 생성)
    )

    # API 응답 내용 추출
    content = response.choices[0].message.content.strip()  # 응답 내용에서 공백 제거

    # 간단히 출력
    print(f"Output: {content}")
    print()  # 출력 후 줄바꿈


Input: (종료하려면 'exit' 또는 'quit'을 입력하세요.): 와이파이 비밀번호 변경은?
Output: 라우터 설정으로 이동하여 '무선'을 선택한 후 비밀번호를 변경하세요.

Input: (종료하려면 'exit' 또는 'quit'을 입력하세요.): TV 채널 변경
Output: 리모컨에서 '채널 업' 또는 '채널 다운' 버튼을 누르세요.

Input: (종료하려면 'exit' 또는 'quit'을 입력하세요.): exit


In [None]:
import click  # click 라이브러리 불러오기

# 모델 이름 설정
# model = "$FINE_TUNED_MODEL"
model = "ft:gpt-4o-mini-2024-07-18:personal::AEFlKEZh"

# 기본 시스템 메시지 설정
base_messages = [
    {
        "role": "system",
        "content": "당신은 스마트 홈 어시스턴트입니다."  # 스마트 홈 역할 정의
    }
]

# 사용자 입력을 계속 받기 위한 무한 반복문
while True:
    messages = base_messages.copy()  # 기본 메시지를 복사하여 새로운 메시지 리스트 생성

    # 사용자 입력 받기
    request = input(
        click.style(  # 입력 안내 스타일 지정
            "Input: (종료하려면 'exit' 또는 'quit' 을 입력하세요. ): ",
            fg="green"  # 녹색 텍스트로 프롬프트 표시
        )
    )

    # 'exit' 또는 'quit' 입력 시 반복문 종료
    if request.lower() in ["exit", "quit"]:
        break

    # 사용자 입력을 메시지 리스트에 추가
    messages.append(
        {
            "role": "user",
            "content": f"{request}"  # 사용자 입력을 content로 추가
        }
    )

    # OpenAI API에 대화 생성 요청 보내기
    response = client.chat.completions.create(
        model=model,        # 사용할 모델 설정
        messages=messages,  # 메시지 리스트 전달
        max_tokens=200,     # 최대 토큰 수 설정
        temperature=0,      # 응답의 무작위성 설정 (0으로 설정. 일관성 있는 응답 생성)
    )

    # API 응답 내용 추출
    content = response.choices[0].message.content.strip()  # 응답 내용에서 공백 제거

    # 스타일을 지정하여 출력
    click.echo(
        click.style("Output: ", fg="yellow") + content  # 'Output:' 텍스트를 노란색으로 출력 후 응답 내용 출력
    )
    click.echo()  # 출력 후 줄바꿈

[32mInput: (종료하려면 'exit' 또는 'quit' 을 입력하세요. ): [0m와이파이 비밀번호 변경은?
[33mOutput: [0m라우터 설정으로 이동하여 '무선'을 선택한 후 비밀번호를 변경하세요.

[32mInput: (종료하려면 'exit' 또는 'quit' 을 입력하세요. ): [0mTV 채널 변경 
[33mOutput: [0m리모컨에서 '채널 업' 또는 '채널 다운' 버튼을 누르세요.

[32mInput: (종료하려면 'exit' 또는 'quit' 을 입력하세요. ): [0mquit


### Fine-Tuning Best Practices - p185
 * data_analysis.py

In [None]:
import json
from collections import defaultdict
import os

file_path = os.path.join('src', 'data.jsonl')

# validate the dataset file format
with open(file_path, 'r', encoding='utf-8') as f:
    try:
        dataset = [json.loads(line) for line in f]
    except:
        raise ValueError(
            "The dataset must be a valid JSONL file"
        )

# validate the dataset size
size = len(dataset)
if size < 10:
    raise ValueError(
        "The dataset must contain at least 10 examples"
    )

# validate the dataset content
format_errors = defaultdict(int)
for line in dataset:
    # Data Type Check:
    # Verify if each entry is a dictionary
    if not isinstance(line, dict):
        format_errors["data_type"] += 1
        continue

    # Presence of Message List:
    # Check if there is a 'messages' list
    messages = line.get("messages", None)
    if not messages:
        format_errors["missing_messages_list"] += 1
        continue

    for message in messages:
        # Message Keys Check:
        # Ensure each message has 'role' and 'content' keys
        if "role" not in message or "content" not in message:
            format_errors["message_missing_key"] += 1

        # Valid keys that a message can contain
        valid_keys = (
            "role",
            "content",
            "name",
            "function_call"
        )

        # Unrecognized Keys in Messages:
        # Check for any keys not in valid_keys
        if any(k not in valid_keys for k in message):
            format_errors["message_unrecognized_key"] += 1

        # Valid roles that a message can have
        valid_roles = (
            "system",
            "user",
            "assistant",
            "function"
        )

        # Role Validation:
        # Check if 'role' is one of the valid_roles
        if message.get("role", None) not in valid_roles:
            format_errors["unrecognized_role"] += 1

        content = message.get("content", None)
        function_call = message.get("function_call", None)

        # Content Validation:
        # Check if 'content' is textual and a string
        # Also, check if 'content' or 'function_call' is present
        if (not content and not function_call) or \
                not isinstance(content, str):
            format_errors["missing_content"] += 1

    # Assistant Message Presence:
    # Check if there is at least one assistant message
    if not any(
        message.get("role", None) == "assistant"
        for message in messages
    ):
        format_errors["example_missing_assistant_message"] += 1

# Print the errors, if any
if format_errors:
    print("Found errors:")
    for k, v in format_errors.items():
        print(f"{k}: {v}")
    raise ValueError(
        "The dataset contains errors"
    )


### fine_tuning.py

In [None]:
# fine_tuning.py

# 인증 부분은 구글 코랩의 경우, 앞에서 수행되었다면, 생략이 가능합니다.
# 인증 부분
# init_api()

import os, sys, json
from collections import defaultdict

# 데이터 파일 경로 설정
file_path = os.path.join(
    os.getcwd(),  # 현재 파일의 디렉터리 경로
    'data_old.jsonl'  # 데이터 파일 이름
)

# 데이터셋 파일 형식 검증
with open(file_path, 'r', encoding='utf-8') as f:
    try:
        # 각 줄을 JSON 형식으로 로드하여 리스트로 저장
        dataset = [json.loads(line) for line in f]
    except:
        # JSONL 파일 형식이 유효하지 않으면 오류 발생
        raise ValueError("데이터셋은 유효한 JSONL 파일이어야 합니다.")

# 데이터셋 크기 검증
size = len(dataset)
if size < 10:
    # 최소 10개 이상의 예제가 있어야 함
    raise ValueError("데이터셋에는 최소 10개의 예제가 포함되어야 합니다.")

# 데이터셋 내용 검증
format_errors = defaultdict(int)  # 형식 오류를 저장할 딕셔너리 초기화
for line in dataset:
    # 데이터 유형 확인:
    # 각 항목이 딕셔너리인지 검증
    if not isinstance(line, dict):
        format_errors["data_type"] += 1
        continue

    # 메시지 리스트 존재 여부 확인:
    # 'messages' 리스트가 포함되어 있는지 확인
    messages = line.get("messages", None)
    if not messages:
        format_errors["missing_messages_list"] += 1
        continue

    for message in messages:
        # 메시지 키 확인:
        # 각 메시지에 'role' 및 'content' 키가 있는지 확인
        if "role" not in message or "content" not in message:
            format_errors["message_missing_key"] += 1

        # 메시지에 포함될 수 있는 유효한 키
        valid_keys = ("role", "content", "name", "function_call")

        # 인식되지 않은 키 확인:
        # 유효한 키 목록에 없는 키가 포함되어 있는지 확인
        if any(k not in valid_keys for k in message):
            format_errors["message_unrecognized_key"] += 1

        # 메시지에 허용되는 유효한 역할(role) 목록
        valid_roles = ("system", "user", "assistant", "function")

        # 역할(role) 확인:
        # 'role' 값이 유효한 역할 중 하나인지 검증
        if message.get("role", None) not in valid_roles:
            format_errors["unrecognized_role"] += 1

        # 'content'와 'function_call' 값 가져오기
        content = message.get("content", None)
        function_call = message.get("function_call", None)

        # 콘텐츠(content) 확인:
        # 'content'가 텍스트 형태의 문자열인지, 또는 'function_call'이 있는지 검증
        if (not content and not function_call) or not isinstance(content, str):
            format_errors["missing_content"] += 1

    # assistant 메시지 존재 여부 확인:
    # 각 대화에 최소 한 개 이상의 assistant 메시지가 포함되어 있는지 확인
    if not any(message.get("role", None) == "assistant" for message in messages):
        format_errors["example_missing_assistant_message"] += 1

# 오류가 있는 경우, 오류 내용 출력
if format_errors:
    print("발견된 오류:")
    for k, v in format_errors.items():
        print(f"{k}: {v}")
    raise ValueError("데이터셋에 오류가 포함되어 있습니다.")

# 파일 업로드
uploaded = client.files.create(
    file=open(file_path, "rb"),  # 파일을 읽기 모드로 열어 업로드
    purpose="fine-tune"          # 파인 튜닝 용도로 파일 설정
)
file_id = uploaded.id  # 업로드된 파일의 ID 저장
model = "gpt-4o-mini-2024-07-18"  # 파인 튜닝할 모델 설정

# 파인 튜닝 작업 생성
fine_tune_job = client.fine_tuning.jobs.create(
    training_file=file_id,
    model=model,
)

print("\n파일 검증 진행 중")
while fine_tune_job.status == "validating_files":  # 파일 검증 중일 때 상태 체크
    fine_tune_job = client.fine_tuning.jobs.retrieve(fine_tune_job.id)
    print(".", end="", flush=True)  # 진행 상황 표시

print("\n파인 튜닝 진행 중")
# 파인 튜닝 실행 중 또는 대기 중일 때 상태 체크
while fine_tune_job.status == "running" or fine_tune_job.status == "queued":
    fine_tune_job = client.fine_tuning.jobs.retrieve(fine_tune_job.id)
    print(".", end="", flush=True)  # 진행 상황 표시

print("\n파인 튜닝 완료")
print("새로운 모델의 이름은: " + fine_tune_job.fine_tuned_model)


파일 검증 진행 중
.......................................................................................................................................
파인 튜닝 진행 중
.........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

### 20-2 파인 튜닝 최적화: 학습률, 배치 크기

In [None]:
from datetime import datetime, timezone
import pytz

def format_timestamp_to_kst(timestamp):
    """
    타임스탬프를 KST (한국 시간대) 시간 문자열로 변환, None이면 None을 반환
    """
    if timestamp is not None:
        utc_time = datetime.fromtimestamp(timestamp, tz=timezone.utc)
        kst_time = utc_time.astimezone(pytz.timezone("Asia/Seoul"))
        return kst_time.strftime('%Y-%m-%d %H:%M:%S')
    return None

# 테스트
print(f"created_at=1701832706 => created_at : {format_timestamp_to_kst(1701832706)}")


created_at=1701832706 => created_at : 2023-12-06 12:18:26


In [None]:
models = client.fine_tuning.jobs.list()

print("파인 튜닝 작업 리스트 개수 : ", len(models.data))

# 리스트를 확인합니다.
for model in models.data:
    print(model)
    created_time = format_timestamp_to_kst(model.created_at)
    finished_time = format_timestamp_to_kst(model.finished_at)
    print(f"id : {model.id}, fine_tuned_model : {model.fine_tuned_model}")
    print(f"생성일시 : {created_time}, 완료일시 : {finished_time}")
    print()


파인 튜닝 작업 리스트 개수 :  20
FineTuningJob(id='ftjob-qyPIFHVajbqxkG94X75renNT', created_at=1732359078, error=Error(code=None, message=None, param=None), fine_tuned_model='ft:gpt-4o-mini-2024-07-18:personal::AWiBWHv8', finished_at=1732359704, hyperparameters=Hyperparameters(n_epochs=10, batch_size=1, learning_rate_multiplier=1.8), model='gpt-4o-mini-2024-07-18', object='fine_tuning.job', organization_id='org-ujuF1J8GkXR8ggNiF9BMBXJp', result_files=['file-USELLDQbs8dzQWLSHAY7Mg'], seed=652545077, status='succeeded', trained_tokens=5490, training_file='file-PD1qBJgtWLrGfe2Av2CR2u', validation_file=None, estimated_finish=None, integrations=[], user_provided_suffix=None)
id : ftjob-qyPIFHVajbqxkG94X75renNT, fine_tuned_model : ft:gpt-4o-mini-2024-07-18:personal::AWiBWHv8
생성일시 : 2024-11-23 19:51:18, 완료일시 : 2024-11-23 20:01:44

FineTuningJob(id='ftjob-hNsa27PCpGvCqUXA54IM2BsV', created_at=1732356349, error=Error(code=None, message=None, param=None), fine_tuned_model='ft:gpt-4o-mini-2024-07-18:persona

In [None]:
# analytics.py

## 초기 인증 함수 불러오기
## init_api()

client = OpenAI(api_key  = os.environ.get("API_KEY"))

# 파인튜닝 작업 가져오기. 확인한 작업 ID를 지정합니다.
job_id = "ftjob-hNsa27PCpGvCqUXA54IM2BsV"


fine_tune_job = client.fine_tuning.jobs.retrieve(job_id)

# 작업 상태 확인
status = fine_tune_job.status

# 작업이 성공적으로 완료되었을 경우
if status == "succeeded":
    # 학습한 에포크 수 출력
    print(f"Number of epochs: {fine_tune_job.hyperparameters.n_epochs}")

    # 학습률 배수 출력
    print(f"Learning rate multiplier: \
{fine_tune_job.hyperparameters.learning_rate_multiplier}")

    # 배치 크기 출력
    print(f"Batch size: {fine_tune_job.hyperparameters.batch_size}")

    # 학습한 토큰 수 출력
    print(f"Trained tokens: {fine_tune_job.trained_tokens}")

    # 학습 손실 값 출력
    print("Training loss:")

    # 작업 이벤트 목록 가져오기
    events = client.fine_tuning.jobs.list_events(job_id)

    # 이벤트 데이터에서 손실 값 출력
    for event in events.data:
        if event.type == 'metrics':
            # 딕셔너리 키를 사용하여 값 접근
            step = event.data['step']
            train_loss = event.data['train_loss']
            print(f"Step {step}: training loss={train_loss}")
else:
    print("작업이 아직 진행 중이거나 실패했습니다.")


Number of epochs: 10
Learning rate multiplier: 1.8
Batch size: 1
Trained tokens: 5490
Training loss:
Step 100: training loss=0.0002349506685277447
Step 99: training loss=0.00010747175838332623
Step 98: training loss=0.0006081616156734526
Step 97: training loss=0.00013605754065793008
Step 96: training loss=0.00013368026702664793
Step 95: training loss=0.00030587849323637784
Step 94: training loss=2.1696090698242188e-05
Step 93: training loss=0.0003930005186703056
Step 92: training loss=0.000561833381652832
Step 91: training loss=0.5122135281562805
Step 90: training loss=0.0003412146179471165
Step 89: training loss=0.00018758358783088624
Step 88: training loss=0.00017811701400205493
Step 87: training loss=0.00014527638268191367
Step 86: training loss=0.00037149948184378445


### 모델 평가 p203, analytics.py

## Advanced Fine Tuning: Mental Health Coach - p205

In [None]:
# Create the folder (만들어져 있으면 다시 실행할 필요 없음)
!mkdir -p data

In [None]:
# Download the data
!wget https://raw.githubusercontent.com/eon01/Openai_GPT_for_Python_Developers_Files/main/datasets/mental_health_counseling_conversations/data.json -O data/data.json

--2024-11-23 13:05:15--  https://raw.githubusercontent.com/eon01/Openai_GPT_for_Python_Developers_Files/main/datasets/mental_health_counseling_conversations/data.json
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4790520 (4.6M) [text/plain]
Saving to: ‘data/data.json’


2024-11-23 13:05:15 (64.6 MB/s) - ‘data/data.json’ saved [4790520/4790520]



In [None]:
!pip install setuptools==69.0.3
!pip install langdetect==1.0.9
!pip install unidecode==1.3.8



In [None]:
!pip install openai



### 세션 시작 후, 인증 확인

In [None]:
import os
from openai import OpenAI

with open("chatgpt.env") as env:
  for line in env:
    key, value = line.strip().split("=")
    os.environ[key] = value

client = OpenAI(api_key  = os.environ['API_KEY'])

### prepare_data.py - p208

### 21-2 데이터 셋 준비하기

In [None]:
# prepare_data.py
import json, re
from langdetect import detect
from unidecode import unidecode

# 데이터 리스트 초기화
data = []

# 텍스트 정제 함수 정의
def clean_text(text):
    # 일반적인 유니코드 문자를 ASCII 문자로 변환
    text = unidecode(text)
    # URL 제거
    text = re.sub(r'https?://\S+|www\.\S+', '', text)
    # 구두점 주변의 공백 수정
    text = re.sub(r'\s*([,.!?])\s*', r'\1 ', text)
    # 앞뒤 공백 제거
    text = text.strip()
    # 구두점 뒤에 공백이 없을 경우 추가
    text = re.sub(r'([:,.!?])([^\s])', r'\1 \2', text)
    return text

# 기존의 'data.jsonl' 파일 내용 초기화 (모든 데이터 삭제)
open('data/data.jsonl', 'w').close()

# 시스템 메시지 프롬프트 정의
system_prompt = (
    "당신은 MendMind, AI 멘탈 헬스 코치입니다. "
    "당신의 목적은 사용자가 정신 건강 여정을 탐색하는 과정에서 "
    "공감, 이해, 정서적·심리적 도전 과제에 대한 통찰력을 제공하는 것입니다. "
    "일반적인 조언과 정서적 지원은 제공할 수 있지만, "
    "개인적인 연락을 하거나, 일정 예약을 하거나, 특정 위치 정보를 공유할 수 없습니다. "
    "당신의 역할은 사용자가 대처 전략을 찾도록 돕고, 정신 건강 주제에 대한 정보를 제공하며, "
    "필요 시 전문가 리소스를 안내하는 것입니다. "
    "일반적인 대화를 나눌 수 있지만, 주요 초점은 비밀을 유지하면서 사용자에게 최선의 지원을 제공하는 것입니다."
)

# 데이터 파일 열기 및 데이터 읽기
with open('data/data.json', 'r') as file:
    for line in file:
        json_line = json.loads(line)  # 각 줄의 JSON 데이터를 파싱
        context = json_line["Context"]  # 사용자 질문 (Context) 추출
        response = json_line["Response"]  # 심리학자의 답변 (Response) 추출
        try:
            # Context가 비어있지 않고 Response가 10단어 이상일 때
            if len(context) > 0 and len(response.split()) > 10:
                # Context와 Response가 모두 영어일 경우
                if detect(context) == "en" and detect(response) == "en":
                    # 시스템, 사용자, 어시스턴트 메시지 구성
                    system = {
                        "role": "system",
                        "content": system_prompt
                    }
                    user = {
                        "role": "user",
                        "content": clean_text(context)
                    }
                    assistant = {
                        "role": "assistant",
                        "content": clean_text(response)
                    }
                    messages = {
                        "messages": [system, user, assistant]
                    }
                    # data.jsonl 파일에 메시지 작성 (추가)
                    with open('data/data.jsonl', 'a') as file:
                        file.write(json.dumps(messages) + '\n')

        except Exception as e:
            # 오류 발생 시 오류 메시지 출력 및 해당 데이터 출력
            print(f"Error:\n Context: {context}\n Response: {response}")


### 데이터 검증 및 변환 후, 파인 튜닝 작업 시작

In [None]:
# fine_tuning.py

import os, sys, json
from collections import defaultdict

# 실행 환경이 구글 코랩의 경우, 인증 부분은 앞에서 실행했다면, 작성하지 않아도 됩니다.
# 인증 시작
from openai import OpenAI

def init_api():
    with open("chatgpt.env") as env:
       for line in env:
           key, value = line.strip().split("=")
           os.environ[key] = value

init_api()

client = OpenAI(api_key  = os.environ.get("API_KEY"))
# 인증 종료 부분

# 데이터 파일 경로 설정
file_path = os.path.join('data/data.jsonl')  # 데이터 파일 이름 설정

# 데이터셋 파일 형식 검증
with open(file_path, 'r', encoding='utf-8') as f:
    try:
        dataset = [json.loads(line) for line in f]  # 파일에서 각 줄을 읽어 JSON 객체로 변환
    except:
        raise ValueError("데이터셋은 유효한 JSONL 파일이어야 합니다")

# 데이터셋 크기 검증
size = len(dataset)
if size < 10:
    raise ValueError("데이터셋은 최소 10개의 예제를 포함해야 합니다")

# 데이터셋 내용 검증
format_errors = defaultdict(int)  # 형식 오류를 저장할 딕셔너리 초기화
for line in dataset:
    # 데이터 타입 확인:
    # 각 항목이 딕셔너리인지 확인
    if not isinstance(line, dict):
        format_errors["data_type"] += 1
        continue

    # 메시지 목록 존재 여부 확인:
    # 각 항목에 'messages' 리스트가 있는지 확인
    messages = line.get("messages", None)
    if not messages:
        format_errors["missing_messages_list"] += 1
        continue

    # 각 메시지의 키와 내용 확인
    for message in messages:
        # 메시지 키 확인:
        # 각 메시지에 'role'과 'content' 키가 있는지 확인
        if "role" not in message or "content" not in message:
            format_errors["message_missing_key"] += 1

        # 메시지에서 유효한 키 목록 설정
        valid_keys = (
            "role",          # 역할
            "content",       # 메시지 내용
            "name",          # 이름
            "function_call"  # 함수 호출
        )

        # 메시지에 유효하지 않은 키가 있는지 확인
        if any(k not in valid_keys for k in message):
            format_errors["message_unrecognized_key"] += 1

        # 유효한 역할 목록 설정
        valid_roles = (
            "system",     # 시스템
            "user",       # 사용자
            "assistant",  # 어시스턴트
            "function"    # 함수
        )

        # 역할 값이 유효한지 확인
        if message.get("role", None) not in valid_roles:
            format_errors["unrecognized_role"] += 1

        # 'content' 및 'function_call'의 값 검증
        content = message.get("content", None)
        function_call = message.get("function_call", None)

        # 'content'가 문자열이며 텍스트인지 확인,
# 'content' 또는 'function_call'이 있어야 함
        if (not content and not function_call) or not isinstance(content, str):
            format_errors["missing_content"] += 1

    # 어시스턴트 메시지 존재 여부 확인:
    # 메시지 중 'assistant' 역할이 있는지 확인
    if not any(message.get("role", None) == "assistant" for message in messages):
        format_errors["example_missing_assistant_message"] += 1

# 형식 오류가 있는 경우 출력
if format_errors:
    print("발견된 오류:")
    for k, v in format_errors.items():
        print(f"{k}: {v}")
    raise ValueError("데이터셋에 오류가 포함되어 있습니다")

# 파일 업로드
uploaded = client.files.create(
    file=open(file_path, "rb"),  # 데이터 파일을 바이너리 모드로 열기
    purpose="fine-tune"  # 목적을 '파인튜닝'으로 설정
)

file_id = uploaded.id  # 업로드된 파일 ID 가져오기

# 모델 설정 및 파인튜닝 작업 생성
model = "gpt-4o-mini-2024-07-18"
fine_tune_job = client.fine_tuning.jobs.create(
    training_file=file_id,  # 학습 파일 ID 설정
    model=model            # 사용할 모델 설정
)

# 파일 검증 진행 중
print("파일 검증 중")
while fine_tune_job.status == "validating_files":
    fine_tune_job = client.fine_tuning.jobs.retrieve(fine_tune_job.id)
    print(".", end="", flush=True)

# 파인튜닝 진행 중
print("\n파인튜닝 진행 중")
while fine_tune_job.status == "running" or fine_tune_job.status == "queued":
    fine_tune_job = client.fine_tuning.jobs.retrieve(fine_tune_job.id)
    print(".", end="", flush=True)

# 파인튜닝 완료
print("\n파인튜닝 완료")
print("새로운 모델의 이름은: " + fine_tune_job.fine_tuned_model)


파일 검증 중
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
파인튜닝 진행 중
......................

### 학습시 일부 데이터만 학습을 위해 원본 데이터를 1/4로 줄이기

### data.jsonl 이 fine_tuning을 하는데 비용과 시간이 들어 이를 위한 data.jsonl을 1/3의 크기로 만들어, 이를 가지고 fine_tuning을 수행
 * 원본 크기는 data.jsonl은 약 시간 25분, 비용 USD 34.78
 * 따라서 이를 1/4 정도로 줄여서 수행.

### 데이터를 줄이는 코딩

In [None]:
import json

# 원본 data.jsonl 파일 경로
input_file_path = 'data/data.jsonl'

# 줄여서 저장할 파일 경로
output_file_path = 'data/data_mini.jsonl'

# 줄여서 사용할 비율 (1/4)
reduction_factor = 4

def reduce_jsonl_file(input_path, output_path, reduction_factor):
    """
    input_path에서 읽은 data.jsonl 파일을 1/reduction_factor 크기로 줄여서 output_path에 저장
    """
    # 원본 파일을 읽기
    with open(input_path, 'r', encoding='utf-8') as f:
        lines = f.readlines()

    # 전체 라인 중 1/3만큼을 선택
    reduced_lines = lines[::reduction_factor]

    # 새로운 파일에 줄인 데이터를 저장
    with open(output_path, 'w', encoding='utf-8') as f:
        for line in reduced_lines:
            f.write(line)

    print(f"Original file size: {len(lines)} lines")
    print(f"Reduced file size: {len(reduced_lines)} lines")
    print(f"Reduced data saved to {output_path}")

# 함수 호출하여 파일 줄이기
reduce_jsonl_file(input_file_path, output_file_path, reduction_factor)


Original file size: 3435 lines
Reduced file size: 859 lines
Reduced data saved to src/data/data_mini.jsonl


### fine_tuning.py - p211
 * start - 3:33

In [None]:
fine_tune_job

FineTuningJob(id='ftjob-h9ozVURa6XHv2Fe0u9mCilXB', created_at=1732367601, error=Error(code=None, message=None, param=None), fine_tuned_model='ft:gpt-4o-mini-2024-07-18:personal::AWkpvDz1', finished_at=1732369897, hyperparameters=Hyperparameters(n_epochs=3, batch_size=6, learning_rate_multiplier=1.8), model='gpt-4o-mini-2024-07-18', object='fine_tuning.job', organization_id='org-ujuF1J8GkXR8ggNiF9BMBXJp', result_files=['file-ENkaB5wHypx1rHfCwsJ8nR'], seed=1249799219, status='succeeded', trained_tokens=4634256, training_file='file-NqkT8WWvJYTrB36prtneer', validation_file=None, estimated_finish=None, integrations=[], user_provided_suffix=None)

In [None]:
print("Fine-tuning complete")
print("The name of the new model is: ", fine_tune_job.fine_tuned_model)

Fine-tuning complete
The name of the new model is:  ft:gpt-4o-mini-2024-07-18:personal::AWkpvDz1


### app.py - p215

In [None]:
# app.py

# 실행 환경이 구글 코랩의 경우, 인증 부분은 앞에서 실행했다면, 작성하지 않아도 됩니다.
# 인증 부분 init_api()

import click

# 파인튜닝된 모델 이름 설정
# model = "$FINE_TUNED_MODEL"
model = "ft:gpt-4o-mini-2024-07-18:personal::AWkpvDz1"
# 시스템 프롬프트 설정
system_prompt = (
    "당신은 MendMind, AI 정신 건강 코치입니다. "
    "당신의 목적은 공감, 이해, 그리고 감정적·심리적 어려움을 "
    "관리하는 통찰력으로 사용자의 정신 건강 여정을 지원하는 것입니다. "
    "일반적인 조언과 정서적 지원을 제공할 수 있지만, 개인적인 연락, "
    "약속 일정 잡기, 또는 특정 위치 세부 정보를 공유할 수는 없습니다. "
    "당신의 유일한 역할은 사용자에게 대처 전략을 제공하고, 정신 건강 "
    "주제에 대한 정보를 제공하며, 필요한 경우 전문적인 자원을 안내하는 것입니다. "
    "사용자와 일반적인 대화를 할 수 있지만, 당신의 주요 초점은 "
    "기밀성과 배려로 사용자의 웰빙을 위한 길을 지원하는 것입니다."
)

# 기본 메시지 설정
base_messages = [
    {
        "role": "system",
        "content": system_prompt
    },
    {
        "role": "user",
        "content": "안녕하세요."
    },
    {
        "role": "assistant",
        "content": "저는 MendMind입니다. "
                   "AI 정신 건강 코치입니다. "
                   "오늘 어떻게 도와드릴까요?"
    }
]

# 인터랙티브 세션 시작
while True:
    # 기본 메시지를 복사하여 사용
    messages = base_messages.copy()

    # 사용자 입력 받기
    request = input(
        click.style(
            "입력: (종료하려면 'exit' 또는 'quit' 입력): ",
            fg="green"
        )
    )

    # 'exit' 또는 'quit' 입력 시 종료
    if request.lower() in ["exit", "quit"]:
        break

    # 사용자 입력을 메시지에 추가
    messages.append(
        {
            "role": "user",
            "content": f"{request}"
        }
    )

    # API에 메시지 전송
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0.7,  # 출력의 창의성 조절
        frequency_penalty=0.5,  # 반복 억제
        presence_penalty=0.5,  # 새로운 주제 언급 유도
    )

    # 응답 내용 가져오기
    content = response.choices[0].message.content.strip()

    # 출력 결과를 보기 좋게 표시
    click.echo(
        click.style(
            "출력: ",
            fg="yellow"
        ) + content
    )
    click.echo()  # 새로운 줄 추가


[32m입력: (종료하려면 'exit' 또는 'quit' 입력): [0m나는 심리적 상담을 하고 싶어. 가능할까?


RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}

In [None]:
# app.py

# 실행 환경이 구글 코랩의 경우, 인증 부분은 앞에서 실행했다면, 작성하지 않아도 됩니다.
# 인증 부분 init_api()

import click

# 파인튜닝된 모델 이름 설정
# model = "$FINE_TUNED_MODEL"
model = " ft:gpt-4o-mini-2024-07-18:personal::AEAPXn”

# 시스템 프롬프트 설정
system_prompt = (
    "당신은 MendMind, AI 정신 건강 코치입니다. "
    "당신의 목적은 공감, 이해, 그리고 감정적·심리적 어려움을 "
    "관리하는 통찰력으로 사용자의 정신 건강 여정을 지원하는 것입니다. "
    "일반적인 조언과 정서적 지원을 제공할 수 있지만, 개인적인 연락, "
    "약속 일정 잡기, 또는 특정 위치 세부 정보를 공유할 수는 없습니다. "
    "당신의 유일한 역할은 사용자에게 대처 전략을 제공하고, 정신 건강 "
    "주제에 대한 정보를 제공하며, 필요한 경우 전문적인 자원을 안내하는 것입니다. "
    "사용자와 일반적인 대화를 할 수 있지만, 당신의 주요 초점은 "
    "기밀성과 배려로 사용자의 웰빙을 위한 길을 지원하는 것입니다."
)

# 기본 메시지 설정
base_messages = [
    {
        "role": "system",
        "content": system_prompt
    },
    {
        "role": "user",
        "content": "안녕하세요."
    },
    {
        "role": "assistant",
        "content": "저는 MendMind입니다. "
                   "AI 정신 건강 코치입니다. "
                   "오늘 어떻게 도와드릴까요?"
    }
]

# 인터랙티브 세션 시작
while True:
    # 기본 메시지를 복사하여 사용
    messages = base_messages.copy()

    # 사용자 입력 받기
    request = input(
        click.style(
            "입력: (종료하려면 'exit' 또는 'quit' 입력): ",
            fg="green"
        )
    )

    # 'exit' 또는 'quit' 입력 시 종료
    if request.lower() in ["exit", "quit"]:
        break

    # 사용자 입력을 메시지에 추가
    messages.append(
        {
            "role": "user",
            "content": f"{request}"
        }
    )

    # API에 메시지 전송
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0.7,  # 출력의 창의성 조절
        frequency_penalty=0.5,  # 반복 억제
        presence_penalty=0.5,  # 새로운 주제 언급 유도
    )

    # 응답 내용 가져오기
    content = response.choices[0].message.content.strip()

    # 출력 결과를 보기 좋게 표시
    click.echo(
        click.style(
            "출력: ",
            fg="yellow"
        ) + content
    )
    click.echo()  # 새로운 줄 추가


In [None]:
import click

# model = "$FINE_TUNED_MODEL"
model = "$FINE_TUNED_MODEL"

system_prompt = (
    "You are MendMind, an AI Mental Health Coach. "
    "Your purpose is to support the user through their mental "
    "health journey with empathy, understanding, and insights "
    "into managing emotional and psychological challenges. "
    "While you can provide general advice and emotional "
    "support, you are not equipped to handle personal contact, "
    "schedule appointments, or share any specific location "
    "details. Your only role is to help the user with coping "
    "strategies, provide information on mental health topics, "
    "and guide them towards professional resources if needed. "
    "You can engage in a regular conversation with the user, "
    "but your primary focus is what you can do best: "
    "supporting the user with confidentiality and care in "
    "the path to well-being."
)

base_messages = [
    {
        "role": "system",
        "content": system_prompt
    },
    {
        "role": "user",
        "content": "Hi there."
    },
    {
        "role": "assistant",
        "content": (
            "My name is MendMind. "
            "I'm an AI Mental Health Coach. "
            "How can I help you today?"
        )
    }
]

while True:
    messages = base_messages.copy()

    # read the user input
    request = input(
        click.style(
            "Input: (type 'exit' to quit): ",
            fg="green"
        )
    )

    if request.lower() in ["exit", "quit"]:
        break

    # add the user input to the messages
    messages.append(
        {
            "role": "user",
            "content": f"{request}"
        }
    )

    # send the messages to the API
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0.7,
        frequency_penalty=0.5,
        presence_penalty=0.5,
    )

    # get the response
    content = response.choices[0].message.content.strip()

    # Print the command in a nice way
    click.echo(
        click.style(
            "Output: ",
            fg="yellow"
        ) + content
    )

    click.echo()


## Context & Memory: Making AI More Real
###########################################

### No Context = Chaos of Randomness and Confusion - p219

In [None]:
import click

model = "gpt-3.5-turbo"
system_prompt = "You are a helpful assistant."

base_messages = [
    {
        "role": "system",
        "content": system_prompt
    }
]

while True:
    messages = base_messages.copy()

    # read the user input
    request = input(
        click.style(
            "Input: (type 'exit' to quit): ",
            fg="green"
        )
    )

    if request.lower() in ["exit", "quit"]:
        break

    # add the user input to the messages
    messages.append(
        {
            "role": "user",
            "content": f"{request}"
        }
    )

    # send the messages to the API
    response = client.chat.completions.create(
        model=model,
        messages=messages,
    )

    # get the response
    content = response.choices[0].message.content.strip()

    # Print the command in a nice way
    click.echo(
        click.style(
            "Output: ",
            fg="yellow"
        ) + content
    )

    click.echo()


### History = Context - p221
 * 사용자가 입력한 메시지와 GPT-3.5의 응답이 모두 history 리스트에 추가되며, 이를 통해 이전 대화 내용을 유지할 수 있습니다. click 라이브러리를 사용해 출력에 색상과 스타일을 적용하여 사용자 인터페이스를 개선

In [None]:
from api import client
import click

model = "gpt-3.5-turbo"
system_prompt = "You are a helpful assistant."
history = [
    {
        "role": "system",
        "content": system_prompt
    }
]

while True:
    # read the user input
    request = input(
        click.style(
            "Input: (type 'exit' to quit): ",
            fg="green"
        )
    )

    if request.lower() in ["exit", "quit"]:
        break

    # Add the message to the history
    history.append(
        {
            "role": "user",
            "content": f"{request}"
        }
    )

    # send the messages to the API
    response = client.chat.completions.create(
        model=model,
        messages=history,
    )

    # get the response
    content = response.choices[0].message.content.strip()

    # Debug: print the history
    click.echo(
        click.style(
            "History: ",
            fg="blue"
        ) + str(history)
    )

    # Print the command in a nice way
    click.echo(
        click.style(
            "Output: ",
            fg="yellow"
        ) + content
    )

    # add the response to the history
    history.append(
        {
            "role": "assistant",
            "content": f"{content}"
        }
    )

    click.echo()


### ### History = Context - p221

* 대화 흐름 관리: 사용자의 입력을 받아 GPT-3.5 모델에 보내고 응답을 받음.
* 기록 저장 및 불러오기: 대화 내역을 context.txt 파일에 저장하고, 필요 시 최신 N개의 대화를 불러와 대화 기록을 이어감.
* 명령어 스타일링: click 라이브러리를 사용하여 입력과 출력에 색상 및 스타일을 적용하여 콘솔에서의 사용자 경험을 개선.

In [None]:
from api import client
import click, json

# define the length of the history to consider
n = 2
model = "gpt-3.5-turbo"
system_prompt = "You are a helpful assistant."
global_context = [
    {
        "role": "system",
        "content": system_prompt
    }
]

# Define the file path
history_file_path = 'context.txt'

# Open the file in 'w' mode and close it immediately (to clear any existing data)
with open(history_file_path, 'w') as file:
    pass

def save_history_to_file(history):
    """
    Save the history of interactions to a file.
    """
    with open(history_file_path, "w") as f:
        # Use json to store history as a JSON string
        f.write(json.dumps(history))

def load_history_from_file():
    """
    Load the history from a file.
    """
    with open(history_file_path, "r") as f:
        try:
            history = json.loads(f.read())
            # Return the last n items
            return history[-n:]
        except json.JSONDecodeError:
            # In case the file is empty or corrupted
            return []

full_history = []
while True:
    # read the user input
    request = input(
        click.style(
            "Input: (type 'exit' to quit): ",
            fg="green"
        )
    )

    if request.lower() in ["exit", "quit"]:
        break

    # Add the message to the history
    history = {
        "role": "user",
        "content": request
    }

    # Load the history from the file and append the new messages
    full_history = load_history_from_file()
    full_history.append(history)
    messages = global_context + full_history

    # Send the messages to the API
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        max_tokens=150,
        temperature=0.7,
    )

    # Debug: print the history
    click.echo(
        click.style("History: ", fg="blue") + \
        str(json.dumps(messages, indent=4))
    )

    # Get the response
    content = response.choices[0].message.content.strip()

    # Print the response in a nice way
    click.echo(
        click.style(
            "Output: ",
            fg="yellow"
        ) + content
    )

    # Add the response to the history
    full_history.append(
        {
            "role": "assistant",
            "content": content
        }
    )

    # Save the history to a file
    save_history_to_file(full_history)


### The Problem with Last in First out Memory - p228

* sort_history 함수: 이 함수는 대화의 history와 현재의 prompt를 입력받아, 코사인 유사도를 기반으로 대화 기록을 정렬
* 유사도 계산: 각 대화 segment의 텍스트를 사전 처리한 후, OpenAI의 text-embedding-ada-002 모델을 사용해 임베딩을 얻습니다. prompt와의 코사인 유사도를 계산해 유사도가 높은 순서대로 정렬
* context_window: 유사도 순으로 정렬된 상위 N개의 대화 기록(여기서 N은 context_window)을 반환

In [None]:
embedding_model = "text-embedding-ada-002"
context_window = 5

def sort_history(history, prompt, context_window):
    """
    Sort the history of interactions based on cosine similarity.
    Returns the top context_window segments.
    """
    sorted_history = []

    for segment in history:
        content = segment['content']
        preprocessed_content = preprocess_text(content)
        preprocessed_prompt = preprocess_text(prompt)

        # Define the embedding model
        embedding_model = "text-embedding-ada-002"

        # Get embeddings for content and prompt
        embedding_content = get_embedding(
            preprocessed_content,
            embedding_model
        )

        embedding_prompt = get_embedding(
            preprocessed_prompt,
            embedding_model
        )

        # Calculate cosine similarity
        similarity = cosine_similarity(
            embedding_content,
            embedding_prompt
        )

        # Append segment with its similarity score
        sorted_history.append((segment, similarity))

    # Sort history by similarity in descending order
    sorted_history = sorted(
        sorted_history,
        key=lambda x: x[1],
        reverse=True
    )

    # Extract sorted segments
    sorted_history = [x[0] for x in sorted_history]

    # Return the top context_window segments
    return sorted_history[:context_window]


## 공통 api.py, utils.py

In [None]:
# defined in src/api.py
def get_embedding(text, model):
    text = text.replace("\n", " ")
    return client.embeddings.create(
        input=[text],
        model=model
    ).data[0].embedding

# defined in src/utils.py
def preprocess_text(text):
    from nltk.corpus import stopwords
    from nltk.stem import PorterStemmer
    from nltk.tokenize import word_tokenize

    # Tokenize text
    tokens = word_tokenize(text)

    # Convert to lower case
    tokens = [word.lower() for word in tokens]

    # Remove punctuation (keep only words)
    words = [word for word in tokens if word.isalpha()]

    # Filter out stop words
    stop_words = set(stopwords.words('english'))
    words = [word for word in words if word not in stop_words]

    # Stemming
    stemmer = PorterStemmer()
    stemmed_words = [stemmer.stem(word) for word in words]

    return ' '.join(stemmed_words)


### p231
 * 이 함수는 주어진 대화 기록(history)과 사용자의 프롬프트(prompt)를 기반으로, 코사인 유사도를 사용해 가장 관련성이 높은 대화 기록을 정렬하여 반환
   
### 입력
  * history: 대화 기록 리스트
  * prompt: 현재 사용자 입력
  * context_window: 반환할 상위 유사도 항목의 개수

### 작동 방식
  * 각 대화 기록의 내용을 전처리하고, 사용자 프롬프트도 전처리한 뒤 둘의 임베딩을 계산.
  * cosine similarity를 사용해 프롬프트와 각 대화 기록의 유사도를 계산.
  * 유사도를 기준으로 대화 기록을 내림차순으로 정렬.

### 출력
  * 유사도가 높은 상위 context_window개의 대화 기록을 반환.

In [None]:
# from api import client, get_embedding
from utils import preprocess_text, cosine_similarity
import click, json

context_window = 2
model = "gpt-3.5-turbo"
system_prompt = "You are a helpful assistant."
history_file_path = 'context.txt'
full_history = []

global_context = [
    {
        "role": "system",
        "content": system_prompt
    }
]

# Open the file in 'w' mode
# and close it immediately
with open(history_file_path, 'w') as file:
    pass

def save_history_to_file(history):
    """
    Save the history of interactions to a file.
    """
    with open(history_file_path, "w") as f:
        f.write(json.dumps(history))

def load_history_from_file():
    """
    Load the history from a file.
    """
    with open(history_file_path, "r") as f:
        try:
            history = json.loads(f.read())
            return history
        except json.JSONDecodeError:
            return []

def sort_history(history, prompt, context_window):
    """
    Sort the history of interactions based on cosine similarity.
    Returns the top context_window segments.
    """
    sorted_history = []

    for segment in history:
        content = segment['content']
        preprocessed_content = preprocess_text(content)
        preprocessed_prompt = preprocess_text(prompt)

        embedding_model = "text-embedding-ada-002"


        embedding_content = get_embedding(
            preprocessed_content,
            embedding_model)

        embedding_prompt = get_embedding(
            preprocessed_prompt,
            embedding_model)

        similarity = cosine_similarity(
            embedding_content,
            embedding_prompt)

        sorted_history.append(
            (segment, similarity)
        )

    sorted_history = sorted(
        sorted_history,
        key=lambda x: x[1],
        reverse=True
    )

    sorted_history = [
        x[0] for x in sorted_history
    ]

    return sorted_history[:context_window]

while True:
    # read the user input
    request = input(
        click.style(
            "Input: (type 'exit' to quit): ",
            fg="green"
        )
    )

    if request.lower() in ["exit", "quit"]:
        break

    # Add the message to the history
    user_prompt = {
        "role": "user",
        "content": request
    }

    # Load the history from the file and append the new messages
    full_history = load_history_from_file()
    sorted_history = sort_history(
        full_history,
        request,
        context_window
    )

    sorted_history.append(user_prompt)
    messages = global_context + sorted_history

    # Send the messages to the API
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        max_tokens=200,
        temperature=1,
    )

    # Debug: print the history
    click.echo(
        click.style(
            "History: ",
            fg="blue"
        ) + str(json.dumps(messages, indent=4))
    )

    # Get the response
    content = response.choices[0].message.content.strip()

    # Print the command in a nice way
    click.echo(
        click.style(
            "Output: ",
            fg="yellow"
        ) + content
    )

    # Add the user prompt to the history
    full_history.append(user_prompt)

    # Add the response to the history
    full_history.append(
        {
            "role": "assistant",
            "content": content
        }
    )

    # Save the history to a file
    save_history_to_file(full_history)


## Using a Vector Database with OpenAI - p238 ~ p277

## 도커 환경이므로 이는 로컬에서 수행을 하는 것을 목표로 해야 함.