# 英文部分

In [1]:
# 匯入套件
import sys
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# 設定 numpy 顯示完整內容
np.set_printoptions(threshold=sys.maxsize)

# 詞袋模型
docs = [
    "Hey Jude, don't make it bad. Take a sad song and make it better.",
    "Hey Jude, don't be afraid. You were made to go out and get her."
]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(docs)
print(vectorizer.get_feature_names_out())
print(X.toarray())

['afraid' 'and' 'bad' 'be' 'better' 'don' 'get' 'go' 'her' 'hey' 'it'
 'jude' 'made' 'make' 'out' 'sad' 'song' 'take' 'to' 'were' 'you']
[[0 1 1 0 1 1 0 0 0 1 2 1 0 2 0 1 1 1 0 0 0]
 [1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 0 0 0 1 1 1]]


In [3]:
# 顯示 dataframe 所有欄位
pd.set_option('display.max_columns', None)

# 透過 pandas 來預覽結果
'''
補充：
每一列代表一個文件 (document)，
它是詞頻向量 (term frequency vector)，
是一種稀疏向量表示（sparse vector representation），
稀疏、高維度、不捕捉語意，只記「這些詞出現了幾次」，
與大家常聽到大型語言模型中的 vector/embedding 概念不同。
'''
df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
df

Unnamed: 0,afraid,and,bad,be,better,don,get,go,her,hey,it,jude,made,make,out,sad,song,take,to,were,you
0,0,1,1,0,1,1,0,0,0,1,2,1,0,2,0,1,1,1,0,0,0
1,1,1,0,1,0,1,1,1,1,1,0,1,1,0,1,0,0,0,1,1,1


# 中文部分

In [4]:
# 匯入套件
import jieba

  import pkg_resources


In [5]:
# 輸入文本
text = '''羅傑費德勒，已退役的瑞士男子職業網球運動員，費德勒總共贏得20座大滿貫冠軍，單打世界排名第一累計310周，其中包括連續237周世界排名第一的男子網壇紀錄，為網球史上最佳的男子選手之一。'''

# 分詞 (cut 是用於回傳 generator 的斷詞函式，lcut 是將斷詞以 list 格式回傳)
tokens = jieba.lcut(text)

# 去除停用詞，這邊為了簡化，我們預先定義一個停用詞列表
stop_words = ['和', '的', '是', '這']
tokens = [word for word in tokens if word not in stop_words]; tokens

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\darren\AppData\Local\Temp\jieba.cache
Loading model cost 0.912 seconds.
Prefix dict has been built successfully.


['羅',
 '傑費',
 '德勒',
 '，',
 '已',
 '退役',
 '瑞士',
 '男子',
 '職業',
 '網球',
 '運動員',
 '，',
 '費',
 '德勒',
 '總共贏',
 '得',
 '20',
 '座大滿',
 '貫冠',
 '軍',
 '，',
 '單打',
 '世界排名',
 '第一',
 '累計',
 '310',
 '周',
 '，',
 '其中',
 '包括',
 '連續',
 '237',
 '周',
 '世界排名',
 '第一',
 '男子',
 '網壇',
 '紀錄',
 '，',
 '為',
 '網球史',
 '上',
 '最佳',
 '男子',
 '選手',
 '之一',
 '。']

In [6]:
# 轉換為詞向量，這裡使用詞袋模型
vectorizer = CountVectorizer()

# 轉換為詞向量矩陣
# ' '.join(tokens) 將 tokens 列表中的詞彙以空格連接成一個字串
# 因為 CountVectorizer 預期輸入是一個包含空格分隔詞彙的字串列表
li_doc = [' '.join(tokens)]
X = vectorizer.fit_transform(li_doc)

# 顯示詞彙名稱與對應的詞向量矩陣
print(vectorizer.get_feature_names_out())
print(X.toarray())

['20' '237' '310' '世界排名' '之一' '傑費' '其中' '包括' '單打' '座大滿' '德勒' '最佳' '瑞士'
 '男子' '第一' '紀錄' '累計' '網壇' '網球' '網球史' '總共贏' '職業' '貫冠' '退役' '連續' '運動員' '選手']
[[1 1 1 2 1 1 1 1 1 1 2 1 1 3 2 1 1 1 1 1 1 1 1 1 1 1 1]]


In [7]:
# 透過 pandas 來預覽結果
df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
df

Unnamed: 0,20,237,310,世界排名,之一,傑費,其中,包括,單打,座大滿,德勒,最佳,瑞士,男子,第一,紀錄,累計,網壇,網球,網球史,總共贏,職業,貫冠,退役,連續,運動員,選手
0,1,1,1,2,1,1,1,1,1,1,2,1,1,3,2,1,1,1,1,1,1,1,1,1,1,1,1
