In [None]:
# Colab 進行matplotlib繪圖時顯示繁體中文
# 下載台北思源黑體並命名taipei_sans_tc_beta.ttf，移至指定路徑
!wget -O TaipeiSansTCBeta-Regular.ttf https://drive.google.com/uc?id=1eGAsTN1HBpJAkeVM57_C7ccp7hbgSz3_&export=download

import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.font_manager import fontManager

fontManager.addfont('TaipeiSansTCBeta-Regular.ttf')
mpl.rc('font', family='Taipei Sans TC Beta')

In [None]:
from IPython import get_ipython
from IPython.display import display
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 定義文件集合
docs = [
    "Love the country you live in,",
    "Live in the country you love",
    "Ask not what your country can do for you.",
    "Ask what you can do for your country."
]

# 這裡只是為了讓圖表更美觀，看不懂沒關係
def truncate_text(index, text, max_length=20):
    label = f"文件{index + 1}: "  # 文檔截斷並加上標籤
    """
    截斷長文本，超過指定長度的句子中間以...表示
    """
    if len(text) <= max_length:
        return f"{label}{text}"

    # 計算前後保留字數
    half_length = (max_length - 3) // 2
    return f"{label}{text[:half_length]}...{text[-half_length:]}"

# 製作用於顯示的截斷文件標籤(依據上一段程式生成包含句子頭尾的文件標籤)
display_docs = [truncate_text(idx, doc) for idx, doc in enumerate(docs)]

# 建立 TF-IDF 向量化器（基於 2-GRAM）
# 此處的ngram_range指的是範圍，若要計算其他N-GRAM，請...自行嚐試^_^
vectorizer = TfidfVectorizer(ngram_range=(2, 2))  # 設定 ngram_range 為 2-GRAM

# 生成 TF-IDF 矩陣熱圖
tfidf_matrix = vectorizer.fit_transform(docs)

# 獲取特徵名稱（2-GRAM 詞彙）
feature_names = vectorizer.get_feature_names_out()

# 輸出每個文件的向量值
print("各文件的向量值 (基於 2-GRAM):")
for idx, doc in enumerate(docs):
    vector = tfidf_matrix[idx].toarray().flatten()  # 提取文件的 TF-IDF 向量並轉為一維陣列
    print(f"文件 {idx + 1}:")
    print(f"內容: {doc}")
    print(f"向量: {vector}\n")

# 熱圖視覺化 TF-IDF 矩陣（基於 2-GRAM）
plt.figure(figsize=(12, 3))
sns.heatmap(tfidf_matrix.toarray(),  # 不再轉置矩陣
            xticklabels=feature_names,
            yticklabels=display_docs,
            cmap='YlGnBu',
            annot=True,
            fmt='.1f',
            cbar_kws={'label': 'Bigram 權重'})

#plt.title('2-GRAM 矩陣熱圖', fontsize=14)
#plt.xlabel('2-GRAM', fontsize=12)
#plt.ylabel('文件', fontsize=12)
plt.xticks(rotation=90, ha='right')  # 旋轉 x 軸標籤
plt.yticks(rotation=0)  # 保持 y 軸標籤水平
plt.tight_layout()
plt.show()
