# Embedding
OpenAI의 텍스트 임베딩은 텍스트 문자열의 관련성을 측정합니다. 임베딩은 일반적으로 다음 용도로 사용됩니다.

- 두 텍스트 사이의 관련성을 측정하는 데 사용할 수 있는 텍스트의 숫자 표현  
- 검색, 클러스터링, 추천, 이상 탐지 및 분류 작업에 유용

    - 검색 (쿼리 문자열과의 관련성을 기준으로 결과 순위 지정)  
    - 클러스터링 (텍스트 문자열이 유사성을 기준으로 그룹화)  
    - 추천 (관련 문자열이 포함된 항목을 추천)  
    - 이상 탐지 (관련성이 거의 없는 이상값이 식별되는 경우)  
    - 다양성 측정 (유사성 분포를 분석)
    - 분류 (텍스트 문자열이 가장 유사한 레이블로 분류)
  
임베딩은 부동 소수점 숫자의 벡터(목록)입니다. 두 벡터 사이의 거리는 관련성 을 측정합니다. 거리가 작을수록 관련성이 높음을 나타내고, 거리가 멀면 관련성이 낮다는 것을 나타냅니다.

In [1]:
import os
import openai
import sys
sys.path.append('./')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

In [2]:
import pandas as pd
import numpy as np
from openai import OpenAI 
client = OpenAI()  # OpenAI 클라이언트 생성

Model = "gpt-4o"
embedding_model = "text-embedding-3-small"  # 사용할 텍스트 임베딩 모델

## API 사용 방법

- 기본적으로 임베딩 벡터의 길이는 text-embedding-3-small의 경우 1536이고 text-embedding-3-large의 경우 3072입니다. 차원 매개변수를 전달하면 임베딩이 개념을 나타내는 속성을 잃지 않고  임베딩의 차원을 줄일 수 있습니다.

In [3]:
# 텍스트 임베딩 생성 요청
response = client.embeddings.create(
    input="Your text string goes here",  # 임베딩을 생성할 텍스트 입력
    model=embedding_model  # 사용할 모델 설정
)

# 응답에서 임베딩 데이터의 처음 10개 요소를 출력
print(len(response.data[0].embedding))
print()
print(response.data[0].embedding[:10])
print()
print(response.to_dict())

1536

[0.005172153003513813, 0.017217181622982025, -0.018686940893530846, -0.01854696311056614, -0.047256264835596085, -0.03026304580271244, 0.027659472078084946, 0.003663900075480342, 0.011233161203563213, 0.006396952550858259]

{'data': [{'embedding': [0.005172153003513813, 0.017217181622982025, -0.018686940893530846, -0.01854696311056614, -0.047256264835596085, -0.03026304580271244, 0.027659472078084946, 0.003663900075480342, 0.011233161203563213, 0.006396952550858259, -0.0016980969812721014, 0.01585940271615982, -0.0012702919775620103, -0.007873711176216602, 0.05991019308567047, 0.05030776187777519, -0.02751949429512024, 0.00991037767380476, -0.040397386997938156, 0.04999981448054314, -0.00041380725451745093, 0.0302350502461195, -0.013717753812670708, 0.03295060619711876, 0.01728717051446438, 0.016783252358436584, -0.0017374654999002814, 0.02042265608906746, 0.040789321064949036, -0.03773782029747963, -0.026119723916053772, -0.05002781003713608, 0.0241740420460701, -0.0551229752600

## Amazon 고급 음식 리뷰를 이용한 Text Search

데이터 세트에는 2012년 10월까지 Amazon 사용자가 남긴 총 568,454개의 음식 리뷰가 포함되어 있습니다. 이 중 가장 최근 리뷰 1,000개로 구성된 이 데이터 세트의 하위 세트를 사용합니다. 리뷰는 영어로 작성되며 긍정적이거나 부정적입니다. 각 리뷰에는 ProductId, UserId, 점수, 리뷰 제목(요약) 및 리뷰 본문(텍스트)이 있습니다.

리뷰 요약과 리뷰 텍스트를 하나의 결합 텍스트로 결합합니다. 모델은 이 결합된 텍스트를 인코딩하고 단일 벡터 임베딩을 출력합니다.

In [26]:
import pandas as pd

def get_embedding(text: str, model="text-embedding-3-small", **kwargs):
    # 성능에 부정적인 영향을 줄 수 있는 개행 문자를 space로 바꿉니다.
    text = text.replace("\n", " ")

    response = client.embeddings.create(input=[text], model=model, **kwargs)

    return response.data[0].embedding

def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

In [16]:
embedding_encoding = "cl100k_base"
max_tokens = 8000  # the maximum for text-embedding-3-small is 8191

In [17]:
#데이터세트 로드 및 검사
input_datapath = "data/fine_food_reviews_1k.csv"  # 공간을 절약하기 위해 사전 필터링된 데이터세트를 제공합니다.
df = pd.read_csv(input_datapath, index_col=0)
df = df[["Time", "ProductId", "UserId", "Score", "Summary", "Text"]]
df = df.dropna()
df["combined"] = (
    "Title: " + df.Summary.str.strip() + "; Content: " + df.Text.str.strip()
)
df.head(2)

Unnamed: 0,Time,ProductId,UserId,Score,Summary,Text,combined
0,1351123200,B003XPF9BO,A3R7JR3FMEBXQB,5,where does one start...and stop... with a tre...,Wanted to save some to bring to my Chicago fam...,Title: where does one start...and stop... wit...
1,1351123200,B003JK537S,A3JBPC3WFUT5ZP,1,Arrived in pieces,"Not pleased at all. When I opened the box, mos...",Title: Arrived in pieces; Content: Not pleased...


In [18]:
# 비용 절약을 위해 1,000개의 최신 리뷰로 서브샘플링하고 너무 긴 샘플을 제거합니다.
top_n = 1000
df = df.sort_values("Time").tail(top_n * 2)  # 먼저 절반 미만이 필터링된다고 가정하여 처음 2,000개 항목으로 잘라냅니다.
df.drop("Time", axis=1, inplace=True)

encoding = tiktoken.get_encoding(embedding_encoding)

# 너무 길어서 포함할 수 없는 리뷰는 생략합니다.
df["n_tokens"] = df.combined.apply(lambda x: len(encoding.encode(x)))
df = df[df.n_tokens <= max_tokens].tail(top_n)
len(df)

1000

-  임베딩을 나중에 재사용할 수 있도록 저장합니다.

In [19]:
%%time
# 수분 정도 소요됩니다.
df["embedding"] = df.combined.apply(lambda x: get_embedding(x, model=embedding_model))
df.to_csv("data/fine_food_reviews_with_embeddings_1k.csv")

In [27]:
# hi의 embedding
a = get_embedding("hi", model=embedding_model)
len(a)

1536

- 가장 관련성이 높은 문서를 검색하기 위해 쿼리의 임베딩 벡터와 각 문서 간의 코사인 유사성을 사용하고 가장 높은 점수를 받은 문서를 반환합니다.

In [25]:
def search_reviews(df, product_description, n=3, pprint=True):
    # 주어진 제품 설명에 대한 임베딩 생성
    embedding = get_embedding(product_description, model='text-embedding-3-small')
    
    # 데이터프레임의 각 임베딩과 제품 설명 임베딩 간의 유사도 계산
    df['similarities'] = df.embedding.apply(lambda x: cosine_similarity(x, embedding))
    
    # 유사도를 기준으로 내림차순 정렬하고 상위 n개의 리뷰 선택
    res = df.sort_values('similarities', ascending=False).head(n)
    return res

# 'delicious beans'라는 제품 설명과 유사한 상위 3개의 리뷰 검색
res = search_reviews(df, 'delicious beans', n=3)

res

Unnamed: 0,ProductId,UserId,Score,Summary,Text,combined,n_tokens,embedding,similarities
88,B000E3ZFDU,A1PQDL14230X6U,5,Delicious!,"I enjoy this white beans seasoning, it gives a...",Title: Delicious!; Content: I enjoy this white...,93,"[0.04776562377810478, 0.0026392238214612007, -...",0.573561
927,B000Y2CT6M,A4QPC05GM1H32,5,Fantastic Instant Refried beans,Fantastic Instant Refried Beans have been a st...,Title: Fantastic Instant Refried beans; Conten...,47,"[-0.0294660497456789, -0.0017459801165387034, ...",0.558101
217,B000SDKDM4,A2LJZOZHTOKBOB,5,Delicious,While there may be better coffee beans availab...,Title: Delicious; Content: While there may be ...,111,"[-0.02834850177168846, -0.046897195279598236, ...",0.509789


### 임베딩 기반 검색을 사용한 질문 답변

In [11]:
import requests
from bs4 import BeautifulSoup

# Wikipedia 페이지의 URL
url = "https://en.wikipedia.org/wiki/Curling_at_the_2022_Winter_Olympics"
url = "https://namu.wiki/w/2022%20%EB%B2%A0%EC%9D%B4%EC%A7%95%20%EB%8F%99%EA%B3%84%EC%98%AC%EB%A6%BC%ED%94%BD/%EC%BB%AC%EB%A7%81"

# 페이지 내용 가져오기
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 페이지 내용 중에서 필요한 부분 추출 (예시로 본문 전체를 가져옵니다)
wikipedia_article_on_curling = soup.get_text()

In [12]:
query = f"""다음 질문에 답하려면 2022년 동계 올림픽에 관한 아래 기사를 사용하세요. 답을 찾을 수 없으면 "모르겠어요."라고 답하세요.

Article:
\"\"\"
{wikipedia_article_on_curling}
\"\"\"

질문: 2022년 동계 올림픽 컬링 금메달을 획득한 선수는 누구인가요?"""

response = client.chat.completions.create(
    messages=[
        {'role': 'system', 'content': '2022년 동계올림픽에 관한 질문에 답변합니다..'},
        {'role': 'user', 'content': query},
    ],
    model=Model,
    temperature=0,
)

print(response.choices[0].message.content)

2022년 동계 올림픽 컬링 금메달을 획득한 선수는 다음과 같습니다:

- 믹스더블: 스테파니아 콘스탄티니, 아모스 모사네르 (이탈리아)
- 남자: 니클라스 에딘, 오스카르 에릭손, 라스무스 브라노, 크리스토페르 순드그렌, 다니엘 망누손 (스웨덴)
- 여자: 이브 뮤어헤드, 비키 라이트, 제니퍼 도즈, 헤일리 더프, 밀리 스미스 (영국)


### Embedding을 특성으로 사용하여 별점 예측 Machine Learning model 작성

In [3]:
# 데이터셋 로드 및 검사
input_datapath = "data/fine_food_reviews_1k.csv"  # space 절약을 위해 사전에 필터링된 데이터셋 제공
df = pd.read_csv(input_datapath, index_col=0)

df = df[["Time", "ProductId", "UserId", "Score", "Summary", "Text"]]
df = df.dropna()  # 결측치 제거

df.head(2)

Unnamed: 0,Time,ProductId,UserId,Score,Summary,Text
0,1351123200,B003XPF9BO,A3R7JR3FMEBXQB,5,where does one start...and stop... with a tre...,Wanted to save some to bring to my Chicago fam...
1,1351123200,B003JK537S,A3JBPC3WFUT5ZP,1,Arrived in pieces,"Not pleased at all. When I opened the box, mos..."


In [4]:
print(df.Summary.values[5:10])  # Text 내용의 요약
print()
print(df.Text.values[5:10])

['Good Sauce' 'Blackcat' 'Excellent product' 'Bulk k-Cups' "It's Okay"]

["This is a good all purpose sauce.  Has good flavor that the heat doesn't overpower.  Not really that spicy unless you use a whole bunch.  10 good drops is about enough to add a little heat to a pot of soup, but a lot more is needed if you want a lingering burn.  Heat isn't quite up to par with other products out there, (such as Spontaneous Combustion) but this has the true aged cayenne hot sauce flavor."
 'Great coffee!  Love all Green Mountain coffee and all the wonderful flavors.  Would and do recommend this coffee to all my friends.'
 'After scouring every store in town for orange peels and not finding anything satisfactory I turned to the online options.<br /><br /> I received the candied orange peels today and I found exactly what I was looking for. The peels are perfect for the fruit cake I plan to bake. The peels are not crystallized with sugar which is great  I like the texture and the taste of the peels

In [5]:
# Summary와 Text를 결합하여 새로운 컬럼 생성
df["combined"] = (
    "Summary: " + df.Summary.str.strip() + "; Text: " + df.Text.str.strip()
)  

print(df.shape)
df.head(2) 

(1000, 7)


Unnamed: 0,Time,ProductId,UserId,Score,Summary,Text,combined
0,1351123200,B003XPF9BO,A3R7JR3FMEBXQB,5,where does one start...and stop... with a tre...,Wanted to save some to bring to my Chicago fam...,Summary: where does one start...and stop... w...
1,1351123200,B003JK537S,A3JBPC3WFUT5ZP,1,Arrived in pieces,"Not pleased at all. When I opened the box, mos...",Summary: Arrived in pieces; Text: Not pleased ...


In [6]:
df['Score'].value_counts()

Score
5    651
4    138
1     87
3     75
2     49
Name: count, dtype: int64

- combined text를 embedding vector로 변환하여 저장 (유료 API 이므로 반복 작업을 최소화하기 위해)

In [None]:
%%time
def get_embedding(text, model):
   text = text.replace("\n", " ")
   return client.embeddings.create(input=text, model=model).data[0].embedding

df['embedding'] = df.combined.apply(lambda x: get_embedding(x, model=embedding_model))
df.to_csv('output/embedded_reviews.csv', index=False)

- 저장한 embedding 불러오기

In [8]:
df = pd.read_csv('output/embedded_reviews.csv')

print(df.shape)
df.head(2)

(1000, 8)


Unnamed: 0,Time,ProductId,UserId,Score,Summary,Text,combined,embedding
0,1351123200,B003XPF9BO,A3R7JR3FMEBXQB,5,where does one start...and stop... with a tre...,Wanted to save some to bring to my Chicago fam...,Summary: where does one start...and stop... w...,"[0.018290109932422638, -0.0036717557813972235,..."
1,1351123200,B003JK537S,A3JBPC3WFUT5ZP,1,Arrived in pieces,"Not pleased at all. When I opened the box, mos...",Summary: Arrived in pieces; Text: Not pleased ...,"[0.004616600461304188, 0.04938524216413498, -0..."


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Time       1000 non-null   int64 
 1   ProductId  1000 non-null   object
 2   UserId     1000 non-null   object
 3   Score      1000 non-null   int64 
 4   Summary    1000 non-null   object
 5   Text       1000 non-null   object
 6   combined   1000 non-null   object
 7   embedding  1000 non-null   object
dtypes: int64(2), object(6)
memory usage: 62.6+ KB


## Machine Learning 학습을 위한 Text Feature Encoder로서의 Embedding 사용

### 회귀 모델 작성에 사용

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error

# 'ada_embedding' 열의 값을 문자열에서 리스트로 변환
matrix = df.embedding.apply(eval).to_list()
# 변환된 리스트를 numpy 배열로 변환
matrix_np = np.array(matrix)

X_train, X_test, y_train, y_test = train_test_split(
    matrix_np,
    df.Score.values,
    test_size = 0.2,
    random_state=42
)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((800, 1536), (200, 1536), (800,), (200,))

리뷰 텍스트를 기반으로 리뷰어의 별점을 예측합니다. 점수는 1과 5 사이의 연속 변수라고 가정하고 알고리즘이 부동 소수점 값을 예측할 수 있도록 합니다

In [11]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)
preds = lr.predict(X_test)

In [12]:
bmse = mean_squared_error(y_test, preds)
bmae = mean_absolute_error(y_test, preds)
print(
    f"Amazon 리뷰의 평균 예측 성능:: mse={bmse:.2f}, mae={bmae:.2f}"
)

Amazon 리뷰의 평균 예측 성능:: mse=0.64, mae=0.50


ML 알고리즘은 예측된 값과 실제 점수의 거리를 최소화하고 0.51의 평균 절대 오차를 달성합니다. 이는 평균적으로 예측이 별표의 절반 미만만큼 벗어났음을 의미합니다.

### 분류 모델 작성에 사용

이번에는 알고리즘이 1에서 5 사이의 값을 예측하도록 하는 대신 리뷰에 대한 정확한 별 수를 별 1에서 5개 범위의 5개 버킷으로 분류하려고 합니다.

훈련 후 모인해 미묘한 리뷰(별 2~4개)보다 별 1개 및 5개 리뷰를 훨씬 더 잘 예측하는 방법을 학습합니다.

In [13]:
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.neighbors import KNeighborsClassifier

# train random forest classifier
clf = KNeighborsClassifier(n_neighbors=5)
clf.fit(X_train, y_train)
preds = clf.predict(X_test)

print(accuracy_score(y_test, preds))
cm = confusion_matrix(y_test, preds)
print(cm)

0.78
[[ 14   1   1   0   2]
 [  6   4   2   1   4]
 [  1   0   2   2   3]
 [  2   2   2   9  11]
 [  1   0   0   3 127]]
