## 임베딩을 사용한 회귀 분석

회귀란 카테고리 중 하나가 아닌 숫자를 예측하는 것을 의미합니다. 여기서는 리뷰 텍스트의 임베딩을 기반으로 점수를 예측합니다. 보이지 않는 데이터에 대한 성능을 현실적으로 평가할 수 있도록 다음 모든 작업에 대해 데이터 세트를 학습 세트와 테스트 세트로 나눕니다. 데이터 세트는 [데이터 세트 가져오기 노트북](Obtain_dataset.ipynb)에서 생성됩니다.

리뷰의 점수는 1에서 5 사이의 숫자로 예측합니다(별 1개는 부정적, 별 5개는 긍정적).

-----

Regression means predicting a number, rather than one of the categories. We will predict the score based on the embedding of the review's text. We split the dataset into a training and a testing set for all of the following tasks, so we can realistically evaluate performance on unseen data. The dataset is created in the [Obtain_dataset Notebook](Obtain_dataset.ipynb).

We're predicting the score of the review, which is a number between 1 and 5 (1-star being negative and 5-star positive).

In [1]:
import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error

datafile_path = "data/fine_food_reviews_with_embeddings_1k.csv"

df = pd.read_csv(datafile_path)
df["embedding"] = df.embedding.apply(eval).apply(np.array)

X_train, X_test, y_train, y_test = train_test_split(list(df.embedding.values), df.Score, test_size=0.2, random_state=42)

rfr = RandomForestRegressor(n_estimators=100)
rfr.fit(X_train, y_train)
preds = rfr.predict(X_test)

mse = mean_squared_error(y_test, preds)
mae = mean_absolute_error(y_test, preds)

print(f"ada-002 embedding performance on 1k Amazon reviews: mse={mse:.2f}, mae={mae:.2f}")


ada-002 embedding performance on 1k Amazon reviews: mse=0.61, mae=0.53


In [2]:
bmse = mean_squared_error(y_test, np.repeat(y_test.mean(), len(y_test)))
bmae = mean_absolute_error(y_test, np.repeat(y_test.mean(), len(y_test)))
print(
    f"Dummy mean prediction performance on Amazon reviews: mse={bmse:.2f}, mae={bmae:.2f}"
)


Dummy mean prediction performance on Amazon reviews: mse=1.73, mae=1.03


임베딩이 점수 예측당 평균 0.53의 오차로 점수를 예측할 수 있음을 알 수 있습니다. 이는 대략 리뷰의 절반을 완벽하게 예측하고 절반은 별 1개 차이로 예측하는 것과 같습니다.

----

We can see that the embeddings are able to predict the scores with an average error of 0.53 per score prediction. This is roughly equivalent to predicting half of reviews perfectly, and half off by one star.

분류기를 학습시켜 레이블을 예측하거나 기존 ML 모델 내의 임베딩을 사용하여 자유 텍스트 기능을 인코딩할 수도 있습니다.

---

You could also train a classifier to predict the label, or use the embeddings within an existing ML model to encode free text features.