# 英文部分

In [None]:
# 安裝套件
!pip install scikit-learn pandas

In [1]:
# 匯入套件
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# 為了預覽 array 結果，匯入必要的套件，以及設定環境
import sys
import numpy
numpy.set_printoptions(threshold=sys.maxsize)

# 詞袋模型
docs = [
    "Hey Jude, don't make it bad. Take a sad song and make it better. Remember to let her into your heart. Then you can start to make it better.",
    "Hey Jude, don't be afraid. You were made to go out and get her. The minute you let her under your skin. Then you begin to make it better."
]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(docs)
print(vectorizer.get_feature_names_out())
print(X.toarray())

['afraid' 'and' 'bad' 'be' 'begin' 'better' 'can' 'don' 'get' 'go' 'heart'
 'her' 'hey' 'into' 'it' 'jude' 'let' 'made' 'make' 'minute' 'out'
 'remember' 'sad' 'skin' 'song' 'start' 'take' 'the' 'then' 'to' 'under'
 'were' 'you' 'your']
[[0 1 1 0 0 2 1 1 0 0 1 1 1 1 3 1 1 0 3 0 0 1 1 0 1 1 1 0 1 2 0 0 1 1]
 [1 1 0 1 1 1 0 1 1 1 0 2 1 0 1 1 1 1 1 1 1 0 0 1 0 0 0 1 1 2 1 1 3 1]]


In [3]:
# 透過 pandas 來預覽結果
df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out()); df

Unnamed: 0,afraid,and,bad,be,begin,better,can,don,get,go,...,song,start,take,the,then,to,under,were,you,your
0,0,1,1,0,0,2,1,1,0,0,...,1,1,1,0,1,2,0,0,1,1
1,1,1,0,1,1,1,0,1,1,1,...,0,0,0,1,1,2,1,1,3,1


# 中文部分

In [None]:
# 安裝套件
!pip install jieba

In [4]:
# 匯入套件
import jieba

In [5]:
# 自定義字詞
jieba.add_word('網球史上')
jieba.add_word('網球運動員')
jieba.add_word('單打冠軍')
jieba.add_word('冠軍')
jieba.add_word('大滿貫')
jieba.add_word('總決賽')
jieba.add_word('大師賽')

# 輸入文本
text = '''羅傑費德勒，已退役的瑞士男子職業網球運動員，費德勒總共贏得20座大滿貫冠軍，單打世界排名第一累計310周，其中包括連續237周世界排名第一的男子網壇紀錄，為網球史上最佳的男子選手之一。費德勒生涯贏得103個ATP單打冠軍，含20座大滿貫冠軍和6座ATP年終總決賽冠軍，以及28座大師賽冠軍。'''

# 分詞 (cut 是用於回傳 generator 的斷詞函式，lcut 是將斷詞以 list 格式回傳)
tokens = jieba.lcut(text)

# 去除停用詞，這邊為了簡化，我們預先定義一個停用詞列表
stop_words = ['和', '的', '是', '這']
tokens = [word for word in tokens if word not in stop_words]; tokens

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\darren\AppData\Local\Temp\jieba.cache
Loading model cost 0.642 seconds.
Prefix dict has been built successfully.


['羅',
 '傑費',
 '德勒',
 '，',
 '已',
 '退役',
 '瑞士',
 '男子',
 '職業',
 '網球運動員',
 '，',
 '費',
 '德勒',
 '總共贏',
 '得',
 '20',
 '座',
 '大滿貫',
 '冠軍',
 '，',
 '單打',
 '世界排名',
 '第一',
 '累計',
 '310',
 '周',
 '，',
 '其中',
 '包括',
 '連續',
 '237',
 '周',
 '世界排名',
 '第一',
 '男子',
 '網壇',
 '紀錄',
 '，',
 '為',
 '網球史上',
 '最佳',
 '男子',
 '選手',
 '之一',
 '。',
 '費',
 '德勒',
 '生涯',
 '贏得',
 '103',
 '個',
 'ATP',
 '單打冠軍',
 '，',
 '含',
 '20',
 '座',
 '大滿貫',
 '冠軍',
 '6',
 '座',
 'ATP',
 '年終',
 '總決賽',
 '冠軍',
 '，',
 '以及',
 '28',
 '座',
 '大師賽',
 '冠軍',
 '。']

In [6]:
# 轉換為詞向量，這裡使用詞袋模型
vectorizer = CountVectorizer()
X = vectorizer.fit_transform([' '.join(tokens)])
print(vectorizer.get_feature_names_out())
print(X.toarray())

['103' '20' '237' '28' '310' 'atp' '世界排名' '之一' '以及' '傑費' '其中' '冠軍' '包括'
 '單打' '單打冠軍' '大師賽' '大滿貫' '年終' '德勒' '最佳' '瑞士' '生涯' '男子' '第一' '紀錄' '累計' '網壇'
 '網球史上' '網球運動員' '總共贏' '總決賽' '職業' '贏得' '退役' '連續' '選手']
[[1 2 1 1 1 2 2 1 1 1 1 4 1 1 1 1 2 1 3 1 1 1 3 2 1 1 1 1 1 1 1 1 1 1 1 1]]


In [7]:
# 透過 pandas 來預覽結果
df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out()); df

Unnamed: 0,103,20,237,28,310,atp,世界排名,之一,以及,傑費,...,網壇,網球史上,網球運動員,總共贏,總決賽,職業,贏得,退役,連續,選手
0,1,2,1,1,1,2,2,1,1,1,...,1,1,1,1,1,1,1,1,1,1
