In [1]:
import os
import openai
import sys
sys.path.append('./')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

# Embedding

- 두 텍스트 사이의 관련성을 측정하는 데 사용할 수 있는 텍스트의 숫자 표현  
- 검색, 클러스터링, 권장 사항, 이상 탐지 및 분류 작업에 유용

In [2]:
from openai import OpenAI 
client = OpenAI()  # OpenAI 클라이언트 생성

embedding_model = "text-embedding-3-small"  # 사용할 텍스트 임베딩 모델

### Embedding을 특성으로 사용하여 Naver 영화평 예측 Machine Learning model 작성

In [3]:
import pandas as pd
import numpy as np

DATA_TRAIN_PATH = "https://github.com/ironmanciti/NLP_lecture/raw/master/data/naver_movie/ratings_train.txt"
DATA_TEST_PATH = "https://github.com/ironmanciti/NLP_lecture/raw/master/data/naver_movie/ratings_test.txt"

In [4]:
train_data = pd.read_csv(DATA_TRAIN_PATH, delimiter='\t')
print(train_data.shape)
train_data.head()

(150000, 3)


Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [5]:
test_data = pd.read_csv(DATA_TEST_PATH, delimiter='\t')
print(test_data.shape)
test_data.head()

(50000, 3)


Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


- OpenAI API 가 유료 서비스이므로 학습 데이터 건수 축소

In [20]:
# 샘플링할 데이터 수
n_train_samples = 500
n_test_samples = 100

# 긍정 및 부정 리뷰 필터링 (학습 데이터)
train_positive = train_data[train_data['label'] == 1]
train_negative = train_data[train_data['label'] == 0]

# 긍정 및 부정 리뷰 필터링 (테스트 데이터)
test_positive = test_data[test_data['label'] == 1]
test_negative = test_data[test_data['label'] == 0]

# 긍정 및 부정 리뷰에서 각각 n_train_samples 수만큼 무작위 추출 (학습 데이터)
train_positive_sample = train_positive.sample(n=n_train_samples, random_state=42)
train_negative_sample = train_negative.sample(n=n_train_samples, random_state=42)

# 긍정 및 부정 리뷰에서 각각 n_test_samples 수만큼 무작위 추출 (테스트 데이터)
test_positive_sample = test_positive.sample(n=n_test_samples, random_state=42)
test_negative_sample = test_negative.sample(n=n_test_samples, random_state=42)

# 추출한 샘플 데이터 결합 (학습 데이터)
train_sample = pd.concat([train_positive_sample, train_negative_sample], ignore_index=True)

# 추출한 샘플 데이터 결합 (테스트 데이터)
test_sample = pd.concat([test_positive_sample, test_negative_sample], ignore_index=True)

# 학습 샘플 데이터 분포 출력
print("Train Sample Distribution:")
print(train_sample['label'].value_counts())

# 테스트 샘플 데이터 분포 출력
print("\nTest Sample Distribution:")
print(test_sample['label'].value_counts())

Train Sample Distribution:
label
1    500
0    500
Name: count, dtype: int64

Test Sample Distribution:
label
1    100
0    100
Name: count, dtype: int64


In [22]:
%%time
# 텍스트 임베딩을 생성하는 함수 정의
def get_embedding(text, model):
    # 주어진 텍스트를 사용하여 임베딩 생성 요청을 보내고 결과를 반환
    return client.embeddings.create(input=text, model=model).data[0].embedding

# 학습 데이터에 대한 임베딩 생성
train_sample['embedding'] = train_sample.document.apply(lambda x: get_embedding(x, model=embedding_model))
# 테스트 데이터에 대한 임베딩 생성
test_sample['embedding'] = test_sample.document.apply(lambda x: get_embedding(x, model=embedding_model))

# 임베딩 결과 확인
print(train_sample[['document', 'embedding']].head())
print(test_sample[['document', 'embedding']].head())

                                        document  \
0    운이가 살았으면 더 좋았을 꺼 같아요! 넘 재미있게 잘 봤습니다. 수고하셨어요   
1                            스크림 표정 대박 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ   
2                                              굿   
3  너무 공감도 되고.. 예쁜 영화라고 느꼈음 ㅠㅠ 특히 알렉스 캐릭터가 진짜 매력적   
4               힘든 시기를 겪고있는 지금, 내게 많은 위로가 되어준 영화   

                                           embedding  
0  [0.044488899409770966, -0.03607461228966713, -...  
1  [0.01893804781138897, -0.026783980429172516, -...  
2  [-0.005274930503219366, -0.01909022405743599, ...  
3  [0.026312414556741714, 0.020976195111870766, -...  
4  [0.0034560193307697773, -0.016391253098845482,...  
                                            document  \
0                                              Good!   
1  톰 행크스 영화는 믿고 보는데, 이 영화는 그 중에서도 정말 최고네요. 진심으로 추...   
2                            뭔가 보는내내 아련하고 여운에 남는다...   
3                            아이들은 열광해. 모두 한번더라고 외치네.   
4                                         말이 필요 없다..   

                    

In [23]:
train_sample.head(2)

Unnamed: 0,id,document,label,embedding
0,5783305,운이가 살았으면 더 좋았을 꺼 같아요! 넘 재미있게 잘 봤습니다. 수고하셨어요,1,"[0.044488899409770966, -0.03607461228966713, -..."
1,4028446,스크림 표정 대박 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ,1,"[0.01893804781138897, -0.026783980429172516, -..."


In [24]:
test_sample.head(2)

Unnamed: 0,id,document,label,embedding
0,4346958,Good!,1,"[0.008779301308095455, 0.0031113270670175552, ..."
1,9613528,"톰 행크스 영화는 믿고 보는데, 이 영화는 그 중에서도 정말 최고네요. 진심으로 추...",1,"[-0.04521473869681358, 0.03877118229866028, -0..."


In [25]:
train_sample.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         1000 non-null   int64 
 1   document   1000 non-null   object
 2   label      1000 non-null   int64 
 3   embedding  1000 non-null   object
dtypes: int64(2), object(2)
memory usage: 31.4+ KB


## Machine Learning 학습을 위한 Text Feature Encoder로서의 Embedding 사용

In [27]:
# 리스트 형태의 임베딩을 numpy 배열로 변환
X_train = np.array(train_sample.embedding.tolist())
y_train = train_sample.label.values

X_test = np.array(test_sample.embedding.tolist())
y_test = test_sample.label.values

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((1000, 1536), (200, 1536), (1000,), (200,))

### 이진 분류 모델 작성에 사용

In [29]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(X_train, y_train)

preds = lr.predict(X_test)

print(accuracy_score(y_test, preds))
cm = confusion_matrix(y_test, preds)
print(cm)

0.735
[[79 21]
 [32 68]]
