<a href="https://colab.research.google.com/github/zx878/AI/blob/main/embeddings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 安裝需要的套件
* `openai`
* `transformers`
* `tiktoken`

In [None]:
!pip install openai -U # 安裝 OpenAI 套件
!pip install transformers -U # 安裝 Transformers 套件
!pip install tiktoken # 安裝 tiktoken 套件

### 引入需要的套件
這邊使用`openai`的`get_embedding`將文字資料轉成文字嵌入

In [None]:
import pandas as pd #匯入 pandas 套件，並將其別名設定為 pd
import tiktoken #匯入 tiktoken 套件

from openai.embeddings_utils import get_embedding #從 openai.embeddings_utils 模組中匯入 get_embedding 函式
import openai #匯入 openai 套件

### 選擇要使用的embedding模型
* 使用最新版的`ada`
* 選擇encoding的方式，就是tokenizer
* 將最大token值設為8000，預設最大值為8191

In [None]:
# embedding model parameters
embedding_model = "text-embedding-ada-002"
embedding_encoding = "cl100k_base"  # this the encoding for text-embedding-ada-002
max_tokens = 8000  # the maximum for text-embedding-ada-002 is 8191

### 上傳資料並且合併文字和評論
* 上傳amazon food review，資料量太大，所以只使用前1000筆。
* 將資料從`csv`讀入`df`中，並且只要固定欄位
* 使用`dropna`將空白欄位移除
* 新增一個欄位，將`"Sumarry"`和`"Text"`合併，稱之為`"Combined"`

In [None]:
input_datapath = "fine_food_reviews_1k.csv"  # to save space, we provide a pre-filtered dataset
df = pd.read_csv(input_datapath, index_col=0)
df = df[["Time", "ProductId", "UserId", "Score", "Summary", "Text"]]
df = df.dropna()
df["combined"] = (
    "Title: " + df.Summary.str.strip() + "; Content: " + df.Text.str.strip()
)
df.head(2)

## 只取得1000個，並且將太長的文字去除
* 取得最新的前1000個
* 將較舊的drop掉
* 使用`tiktoken`將文字encoding成需要的何式
* trncate掉太長的


In [None]:
# subsample to 1k most recent reviews and remove samples that are too long
top_n = 1000
df = df.sort_values("Time").tail(top_n * 2)  # first cut to first 2k entries, assuming less than half will be filtered out
df.drop("Time", axis=1, inplace=True)

encoding = tiktoken.get_encoding(embedding_encoding)

# omit reviews that are too long to embed
df["n_tokens"] = df.combined.apply(lambda x: len(encoding.encode(x)))
df = df[df.n_tokens <= max_tokens].tail(top_n)
len(df)

In [None]:
openai.api_key = "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"

### 將文字轉成embedding
* 使用`get_embedding`方法
* 這個動作會要花個十分鐘

In [None]:
# Ensure you have your API key set in your environment per the README: https://github.com/openai/openai-python#usage

# This may take a few minutes

df["embedding"] = df.combined.apply(lambda x: get_embedding(x, engine=embedding_model))
df.to_csv("data/fine_food_reviews_with_embeddings_1k.csv")

### 將Embedding的結果繪製出來
* 先降維

In [None]:
import pandas as pd #匯入 pandas 套件，並將其別名設定為 pd
from sklearn.manifold import TSNE #從 sklearn.manifold 模組中匯入 TSNE 類別
import numpy as np #匯入 numpy 套件，並將其別名設定為 np

# Load the embeddings
datafile_path = "data/fine_food_reviews_with_embeddings_1k.csv" #指定嵌入檔案的路徑
df = pd.read_csv(datafile_path) #使用 pandas 的 read_csv 函式從 CSV 檔案中讀取資料，並將其儲存到 DataFrame 物件 df 中

# Convert to a list of lists of floats
matrix = np.array(df.embedding.apply(eval).to_list())#將 DataFrame 中的嵌入資料轉換成浮點數的列表列表。使用 eval 函式將嵌入資料的字串表示轉換成對應的 Python 物件，然後使用 to_list 函式將 DataFrame 轉換為嵌入矩陣

# Create a t-SNE model and transform the data
#建立一個 t-SNE（t-Distributed Stochastic Neighbor Embedding）模型，設定相應的參數。n_components 表示嵌入的維度，這裡設為 2。perplexity 控制 t-SNE 的困惑度，random_state 是隨機數生成的種子，init 是初始化嵌入的方法，learning_rate 是學習速率。
tsne = TSNE(n_components=2, perplexity=15, random_state=42, init='random', learning_rate=200)
vis_dims = tsne.fit_transform(matrix)
vis_dims.shape

### 將Embedding的結果繪製出來
* 再畫出來

In [None]:
import matplotlib.pyplot as plt #匯入 matplotlib.pyplot 套件，並將其別名設定為 plt
import matplotlib #匯入 matplotlib 套件，用於設置顏色映射
import numpy as np #匯入 numpy 套件，並將其別名設定為 np
#定義了一個顏色列表，包含了不同分數類別的顏色
colors = ["red", "darkorange", "gold", "turquoise", "darkgreen"]
x = [x for x,y in vis_dims]
y = [y for x,y in vis_dims]
color_indices = df.Score.values - 1

colormap = matplotlib.colors.ListedColormap(colors)
#繪製散點圖，x 和 y 是散點的坐標，c 是顏色，使用先前定義的顏色映射和索引，alpha 是散點的透明度。
plt.scatter(x, y, c=color_indices, cmap=colormap, alpha=0.3)
for score in [0,1,2,3,4]:
    avg_x = np.array(x)[df.Score-1==score].mean()
    avg_y = np.array(y)[df.Score-1==score].mean()
    color = colors[score]
    plt.scatter(avg_x, avg_y, marker='x', color=color, s=100)
#設置圖表的標題
plt.title("Amazon ratings visualized in language using t-SNE")

### 換成另一個embedding型態
* 此程式常常會當

In [None]:
def get_embedding2(text, model="text-embedding-ada-002"):
   text = text.replace("\n", " ")
   return openai.Embedding.create(input = [text], model=model)['data'][0]['embedding']

df['ada_embedding'] = df.combined.apply(lambda x: get_embedding2(x, model='text-embedding-ada-002'))
df.to_csv('output/embedded_1k_reviews.csv', index=False)

### 重新畫一個圖，用新的程式

In [None]:
import pandas as pd
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import matplotlib

df = pd.read_csv('output/embedded_1k_reviews.csv')
matrix = np.array(df.ada_embedding.apply(eval).to_list())

# Create a t-SNE model and transform the data
tsne = TSNE(n_components=2, perplexity=15, random_state=42, init='random', learning_rate=200)

vis_dims = tsne.fit_transform(matrix)

colors = ["red", "darkorange", "gold", "turquoise", "darkgreen"]
x = [x for x,y in vis_dims]
y = [y for x,y in vis_dims]
color_indices = df.Score.values - 1

colormap = matplotlib.colors.ListedColormap(colors)
plt.scatter(x, y, c=color_indices, cmap=colormap, alpha=0.3)
for score in [0,1,2,3,4]:
    avg_x = np.array(x)[df.Score-1==score].mean()
    avg_y = np.array(y)[df.Score-1==score].mean()
    color = colors[score]
    plt.scatter(avg_x, avg_y, marker='x', color=color, s=100)

plt.title("Amazon ratings visualized in language using t-SNE")

### 使用這個embedding來做regression

In [None]:
import pandas as pd #匯入 pandas 套件，並將其別名設定為 pd
import numpy as np #匯入 numpy 套件，並將其別名設定為 np

from sklearn.ensemble import RandomForestRegressor #從 scikit-learn 的 ensemble 模組中匯入 RandomForestRegressor 類別
from sklearn.model_selection import train_test_split #從 scikit-learn 的 model_selection 模組中匯入 train_test_split 函式
from sklearn.metrics import mean_squared_error, mean_absolute_error #從 scikit-learn 的 metrics 模組中匯入 mean_squared_error 和 mean_absolute_error 函式

datafile_path = "data/fine_food_reviews_with_embeddings_1k.csv" #指定資料檔案的路徑

df = pd.read_csv(datafile_path) #使用 pandas 的 read_csv 函式從 CSV 檔案中讀取資料，並將其儲存到 DataFrame 物件 df 中。
df["embedding"] = df.embedding.apply(eval).apply(np.array) #將 DataFrame 中的嵌入資料轉換成 numpy 陣列 並將結果儲存在 DataFrame 的 "embedding" 欄位中

X_train, X_test, y_train, y_test = train_test_split(list(df.embedding.values), df.Score, test_size=0.2, random_state=42)

rfr = RandomForestRegressor(n_estimators=100)
rfr.fit(X_train, y_train)
preds = rfr.predict(X_test)

mse = mean_squared_error(y_test, preds) #計算測試集的均方誤差
mae = mean_absolute_error(y_test, preds) #計算測試集的平均絕對誤差

print(f"ada-002 embedding performance on 1k Amazon reviews: mse={mse:.2f}, mae={mae:.2f}") #輸出模型在測試集上的性能指標

In [None]:
bmse = mean_squared_error(y_test, np.repeat(y_test.mean(), len(y_test)))
bmae = mean_absolute_error(y_test, np.repeat(y_test.mean(), len(y_test)))
print(
    f"Dummy mean prediction performance on Amazon reviews: mse={bmse:.2f}, mae={bmae:.2f}"
)

### 用這個embedding來作分類

In [None]:
# imports
import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

# load data
datafile_path = "data/fine_food_reviews_with_embeddings_1k.csv"#指定資料檔案的路徑

df = pd.read_csv(datafile_path)#使用 pandas 的 read_csv 函式從 CSV 檔案中讀取資料，並將其儲存到 DataFrame 物件 df 中。
df["embedding"] = df.embedding.apply(eval).apply(np.array)  # convert string to array 

# split data into train and test
#將嵌入資料和分數資料分割為訓練集和測試集。X_train 和 X_test 是嵌入資料的訓練集和測試集，y_train 和 y_test 是相應的分數資料的訓練集和測試集。test_size 參數設定測試集的大小，random_state 是隨機數生成的種子
X_train, X_test, y_train, y_test = train_test_split(
    list(df.embedding.values), df.Score, test_size=0.2, random_state=42
)

# train random forest classifier
clf = RandomForestClassifier(n_estimators=100) #建立一個隨機分類器
clf.fit(X_train, y_train) 
preds = clf.predict(X_test) #使用訓練好的分類器對測試集進行預測，獲取預測結果。
probas = clf.predict_proba(X_test) #使用訓練好的分類器對測試集進行概率預測，獲取預測概率。

report = classification_report(y_test, preds) #根據測試集的真實標籤和預測結果，計算分類器的性能報告
print(report) #輸出分類器的性能報告

### 繪製圖型

In [None]:
from openai.embeddings_utils import plot_multiclass_precision_recall

plot_multiclass_precision_recall(probas, y_test, [1, 2, 3, 4, 5], clf)

### 使用這個embedding來作zero-shot分類任務

In [None]:
import pandas as pd
import numpy as np

from sklearn.metrics import classification_report

# parameters
EMBEDDING_MODEL = "text-embedding-ada-002"

# load data
datafile_path = "data/fine_food_reviews_with_embeddings_1k.csv"

df = pd.read_csv(datafile_path)
df["embedding"] = df.embedding.apply(eval).apply(np.array)

# convert 5-star rating to binary sentiment
df = df[df.Score != 3]
df["sentiment"] = df.Score.replace({1: "negative", 2: "negative", 4: "positive", 5: "positive"})

In [None]:
from openai.embeddings_utils import cosine_similarity, get_embedding
from sklearn.metrics import PrecisionRecallDisplay

def evaluate_embeddings_approach(
    labels = ['negative', 'positive'], 
    model = EMBEDDING_MODEL,
):
    label_embeddings = [get_embedding(label, engine=model) for label in labels]

    def label_score(review_embedding, label_embeddings):
        return cosine_similarity(review_embedding, label_embeddings[1]) - cosine_similarity(review_embedding, label_embeddings[0])

    probas = df["embedding"].apply(lambda x: label_score(x, label_embeddings))
    preds = probas.apply(lambda x: 'positive' if x>0 else 'negative')

    report = classification_report(df.sentiment, preds)
    print(report)

    display = PrecisionRecallDisplay.from_predictions(df.sentiment, probas, pos_label='positive')
    _ = display.ax_.set_title("2-class Precision-Recall curve")

evaluate_embeddings_approach(labels=['negative', 'positive'], model=EMBEDDING_MODEL)

In [None]:
evaluate_embeddings_approach(labels=['An Amazon review with a negative sentiment.', 'An Amazon review with a positive sentiment.'])


In [None]:
evaluate_embeddings_approach(labels=['An Amazon review with a negative sentiment.', 'An Amazon review with a positive sentiment.'])


### 做clustering

In [None]:
# imports 匯入 numpy 和 pandas 套件，用於數值計算和資料處理。
import numpy as np
import pandas as pd

# load data 
datafile_path = "./data/fine_food_reviews_with_embeddings_1k.csv" #設定評論資料檔案的路徑。

df = pd.read_csv(datafile_path) #使用 pd.read_csv 函式讀取 CSV 檔案並將資料儲存到 DataFrame df 中。
df["embedding"] = df.embedding.apply(eval).apply(np.array)  # convert string to numpy array /將 DataFrame 中的嵌入向量資料從字串形式轉換為 numpy 陣列形式。
matrix = np.vstack(df.embedding.values) #將嵌入向量的 numpy 陣列堆疊為一個二維矩陣
matrix.shape #計算嵌入矩陣的形狀，即矩陣的行數和列數。

In [None]:
from sklearn.cluster import KMeans #從 sklearn.cluster 模組中匯入 KMeans 類別，用於執行 K-means 聚類。

n_clusters = 4 #設定聚類的群集數量。
#建立一個 K-means 聚類器
kmeans = KMeans(n_clusters=n_clusters, init="k-means++", random_state=42) 
kmeans.fit(matrix) #對嵌入矩陣進行聚類，訓練 K-means 聚類器。
labels = kmeans.labels_ #獲取每個樣本的聚類標籤
df["Cluster"] = labels #將聚類標籤儲存在 DataFrame 的 "Cluster" 欄位中

df.groupby("Cluster").Score.mean().sort_values() #根據聚類標籤進行分組，計算每個群集的平均分數，然後按照平均分數進行排序。

In [None]:
from sklearn.manifold import TSNE #從 sklearn.manifold 模組中匯入 TSNE 類別，用於執行 t-SNE 降維。
import matplotlib #匯入 matplotlib 和 pyplot 模組，用於繪圖。
import matplotlib.pyplot as plt
#建立一個 t-SNE 降維器
tsne = TSNE(n_components=2, perplexity=15, random_state=42, init="random", learning_rate=200)
vis_dims2 = tsne.fit_transform(matrix) #將嵌入矩陣進行 t-SNE 降維，獲得降維後的二維表示。
#將降維後的二維表示分別儲存在 x 和 y 中。
x = [x for x, y in vis_dims2]
y = [y for x, y in vis_dims2]
#選擇每個群集的索引和顏色。
for category, color in enumerate(["purple", "green", "red", "blue"]):
    xs = np.array(x)[df.Cluster == category]
    ys = np.array(y)[df.Cluster == category]
    plt.scatter(xs, ys, color=color, alpha=0.3)

    avg_x = xs.mean()
    avg_y = ys.mean()

    plt.scatter(avg_x, avg_y, marker="x", color=color, s=100)
plt.title("Clusters identified visualized in language 2d using t-SNE")#設定圖表標題

### 使用embedding做語義搜尋

In [None]:
import pandas as pd #匯入 pandas 套件，並將其別名設定為 pd
import numpy as np #匯入 numpy 套件，並將其別名設定為 np

datafile_path = "data/fine_food_reviews_with_embeddings_1k.csv" #指定資料檔案的路徑

df = pd.read_csv(datafile_path)
df["embedding"] = df.embedding.apply(eval).apply(np.array)

In [None]:
#從 openai.embeddings_utils 模組中匯入 get_embedding 和 cosine_similarity
from openai.embeddings_utils import get_embedding, cosine_similarity

# search through the reviews for a specific product
def search_reviews(df, product_description, n=3, pprint=True): #：定義了一個名為 search_reviews 的函式
     #使用 get_embedding 函式獲取產品描述的嵌入向量。engine 參數指定了要使用的嵌入模型。
    product_embedding = get_embedding( 
        product_description,
        engine="text-embedding-ada-002"
    )
    #將 DataFrame 中的每個嵌入向量與產品描述的嵌入向量計算餘弦相似度，並將結果儲存在 "similarity" 欄位中。
    df["similarity"] = df.embedding.apply(lambda x: cosine_similarity(x, product_embedding))
    #選擇相似度最高的前 n 個評論，並將結果儲存在 results 中
    results = ( 
        df.sort_values("similarity", ascending=False)
        .head(n)
        .combined.str.replace("Title: ", "")
        .str.replace("; Content:", ": ")
    )
    if pprint: #如果 pprint 參數為 True，則遍歷結果並進行輸出。
        for r in results:
            print(r[:200])
            print()
    return results #返回結果


results = search_reviews(df, "delicious beans", n=3)

In [None]:
results = search_reviews(df, "whole wheat pasta", n=3)

In [None]:
results = search_reviews(df, "bad delivery", n=1)

In [None]:
results = search_reviews(df, "spoilt", n=1)

In [None]:
results = search_reviews(df, "pet food", n=2)