### 10.3.1 分詞工具

In [1]:
%%writefile a.txt

去參觀 100 v

Overwriting a.txt


In [2]:
import jieba
print(' '.join(jieba.cut('今天我去參觀展覽館', cut_all=True))) # 全模式
print(' '.join(jieba.cut('今天我去參觀展覽館', cut_all=False))) # 精確模式

jieba.load_userdict('a.txt')
print(jieba.lcut('今天我去參觀展覽館'))

import jieba.posseg as pseg
words = pseg.cut("今天我去參觀展覽館")
for w in words:
    print("%s %s" %(w.word, w.flag))

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.998 seconds.
Prefix dict has been built succesfully.


今天 我 去 參觀 觀展 展覽 展覽館
今天 我 去 參觀 展覽館
['今天', '我', '去參觀', '展覽館']
今天 t
我 r
去參觀 v
展覽館 n


### 10.3.2 TF-IDF逆文本頻率指數

In [3]:
import jieba
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer 
from sklearn.feature_extraction.text import TfidfTransformer  

arr = ['第一天我參觀了美術館',
       '第二天我參觀了博物館',
       '第三天我參觀了動物園',]

arr = [' '.join(jieba.lcut(i)) for i in arr] # 分詞
print(arr)

['第一天 我 參觀 了 美術館', '第二天 我 參觀 了 博物館', '第三天 我 參觀 了 動物園']


In [4]:
vectorizer = CountVectorizer() 
X = vectorizer.fit_transform(arr) 
word = vectorizer.get_feature_names() 
df = pd.DataFrame(X.toarray(), columns=word)
print(df)

   動物園  博物館  參觀  第一天  第三天  第二天  美術館
0    0    0   1    1    0    0    1
1    0    1   1    0    0    1    0
2    1    0   1    0    1    0    0


In [5]:
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)
weight = tfidf.toarray()
for i in range(len(weight)): # 訪問每一句
    print("第{}句：".format(i))
    for j in range(len(word)):  # 訪問每個詞
        if weight[i][j] > 0.05:  # 只顯示重要關鍵字
            print(word[j],round(weight[i][j],2))  # 保留兩位小數

第0句：
參觀 0.39
第一天 0.65
美術館 0.65
第1句：
博物館 0.65
參觀 0.39
第二天 0.65
第2句：
動物園 0.65
參觀 0.39
第三天 0.65


In [6]:
# 寫程序實現TF-IDF方法

from collections import Counter
import numpy as np

countlist = []
for i in range(len(arr)):
    count = Counter(arr[i].split(' ')) # 用空格將字串切分成字符串列表，統計每個詞出現次數
    countlist.append(count)
print(countlist)

def tf(word, count): 
    return count[word] / sum(count.values())
def contain(word, count_list): # 統計包含關鍵詞word的句子數量
    return sum(1 for count in count_list if word in count)
def idf(word, count_list):
    return np.log(len(count_list) / (contain(word, count_list)) + 1)  #爲避免分母爲0，分母加1
def tfidf(word, count, count_list):
    return tf(word, count) * idf(word, count_list)
for i, count in enumerate(countlist):
    print("第{}句：".format(i))
    scores = {word: tfidf(word, count, countlist) for word in count}
    for word, score in scores.items():
        print(word, round(score, 2))

[Counter({'第一天': 1, '我': 1, '參觀': 1, '了': 1, '美術館': 1}), Counter({'第二天': 1, '我': 1, '參觀': 1, '了': 1, '博物館': 1}), Counter({'第三天': 1, '我': 1, '參觀': 1, '了': 1, '動物園': 1})]
第0句：
第一天 0.28
我 0.14
參觀 0.14
了 0.14
美術館 0.28
第1句：
第二天 0.28
我 0.14
參觀 0.14
了 0.14
博物館 0.28
第2句：
第三天 0.28
我 0.14
參觀 0.14
了 0.14
動物園 0.28
