In [1]:
# coding: utf-8
import math
import pandas as pd
from sklearn.preprocessing import normalize


# Documents
doc_0 = 'Today is a sunny day'
doc_1 = 'Today is a windy day'
doc_2 = 'I want to play all day'
doc_3 = 'I went to play all day yesterday'
doc_4 = 'Yesterday was a rainy day'

doc_all = [doc_0, doc_1, doc_2, doc_3, doc_4]
doc_all = [[word.lower() for word in doc.split() if len(word) >= 2] for doc in doc_all] #轉換成小寫
doc_all

[['today', 'is', 'sunny', 'day'],
 ['today', 'is', 'windy', 'day'],
 ['want', 'to', 'play', 'all', 'day'],
 ['went', 'to', 'play', 'all', 'day', 'yesterday'],
 ['yesterday', 'was', 'rainy', 'day']]

In [2]:
# TF
tf = dict()
for n in range(len(doc_all)):
    for word in doc_all[n]:
        if word not in tf: 
            tf[word] = [0 for _ in doc_all] # 如果沒有那個詞 設為0
        tf[word][n] = sum([1 for term in doc_all[n] if term == word])/len(doc_all[n]) 

#特定單詞出現在整個文件的次數/該文件中所有單詞的數量
tf

{'today': [0.25, 0.25, 0, 0, 0],
 'is': [0.25, 0.25, 0, 0, 0],
 'sunny': [0.25, 0, 0, 0, 0],
 'day': [0.25, 0.25, 0.2, 0.16666666666666666, 0.25],
 'windy': [0, 0.25, 0, 0, 0],
 'want': [0, 0, 0.2, 0, 0],
 'to': [0, 0, 0.2, 0.16666666666666666, 0],
 'play': [0, 0, 0.2, 0.16666666666666666, 0],
 'all': [0, 0, 0.2, 0.16666666666666666, 0],
 'went': [0, 0, 0, 0.16666666666666666, 0],
 'yesterday': [0, 0, 0, 0.16666666666666666, 0.25],
 'was': [0, 0, 0, 0, 0.25],
 'rainy': [0, 0, 0, 0, 0.25]}

In [3]:
# IDF
total_D = len(doc_all) #所有文件的數目
idf = dict()
for doc in doc_all:
    for word in doc:
        if word not in idf:
            word_idf = math.log10(total_D/sum([1 for doc in doc_all if word in doc])+1) 
#Log (所有文件的數目/包含這個單詞的文件數目) 記得加1
            idf[word] = word_idf
idf

{'today': 0.5440680443502757,
 'is': 0.5440680443502757,
 'sunny': 0.7781512503836436,
 'day': 0.3010299956639812,
 'windy': 0.7781512503836436,
 'want': 0.7781512503836436,
 'to': 0.5440680443502757,
 'play': 0.5440680443502757,
 'all': 0.5440680443502757,
 'went': 0.7781512503836436,
 'yesterday': 0.5440680443502757,
 'was': 0.7781512503836436,
 'rainy': 0.7781512503836436}

In [6]:
# TF-IDF
sorted_word = sorted(set([word for word in tf])) 
tfidf = list()
for word in sorted_word:
    value = tf[word]
    value = [v*idf[word] for v in value] #TF * IDF
    tfidf.append(value)
tfidf

[[0.0, 0.0, 0.10881360887005515, 0.09067800739171261, 0.0],
 [0.0752574989159953,
  0.0752574989159953,
  0.06020599913279624,
  0.050171665943996864,
  0.0752574989159953],
 [0.13601701108756892, 0.13601701108756892, 0.0, 0.0, 0.0],
 [0.0, 0.0, 0.10881360887005515, 0.09067800739171261, 0.0],
 [0.0, 0.0, 0.0, 0.0, 0.1945378125959109],
 [0.1945378125959109, 0.0, 0.0, 0.0, 0.0],
 [0.0, 0.0, 0.10881360887005515, 0.09067800739171261, 0.0],
 [0.13601701108756892, 0.13601701108756892, 0.0, 0.0, 0.0],
 [0.0, 0.0, 0.15563025007672873, 0.0, 0.0],
 [0.0, 0.0, 0.0, 0.0, 0.1945378125959109],
 [0.0, 0.0, 0.0, 0.1296918750639406, 0.0],
 [0.0, 0.1945378125959109, 0.0, 0.0, 0.0],
 [0.0, 0.0, 0.0, 0.09067800739171261, 0.13601701108756892]]

In [7]:
#TF-IDF
tfidf = normalize(tfidf, norm='l2') #標準化
results = dict()
for n in range(len(sorted_word)):
    results[sorted_word[n]] = tfidf[n]

print(pd.DataFrame(results).transpose())

                  0         1         2         3         4
all        0.000000  0.000000  0.768221  0.640184  0.000000
day        0.494804  0.494804  0.395843  0.329870  0.494804
is         0.707107  0.707107  0.000000  0.000000  0.000000
play       0.000000  0.000000  0.768221  0.640184  0.000000
rainy      0.000000  0.000000  0.000000  0.000000  1.000000
sunny      1.000000  0.000000  0.000000  0.000000  0.000000
to         0.000000  0.000000  0.768221  0.640184  0.000000
today      0.707107  0.707107  0.000000  0.000000  0.000000
want       0.000000  0.000000  1.000000  0.000000  0.000000
was        0.000000  0.000000  0.000000  0.000000  1.000000
went       0.000000  0.000000  0.000000  1.000000  0.000000
windy      0.000000  1.000000  0.000000  0.000000  0.000000
yesterday  0.000000  0.000000  0.000000  0.554700  0.832050


In [10]:
# 使用Scikit-Learn計算TF-IDF：
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
# TF-IDF
# Documents
doc_0 = 'Today is a sunny day'
doc_1 = 'Today is a windy day'
doc_2 = 'I want to play all day'
doc_3 = 'I went to play all day yesterday'
doc_4 = 'Yesterday was a rainy day'

doc_all = [doc_0, doc_1, doc_2, doc_3, doc_4]
# max_df=0.5 單詞如果在50%以上的文件出現就不考慮
# min_df=5 單詞如果出現次數少於5次就不考慮, min_df=0.1 單詞如果在10%以下的文件中出現就不考慮
vectorizer = TfidfVectorizer(smooth_idf = True)
tfidf = vectorizer.fit_transform(doc_all)
result = pd.DataFrame(tfidf.toarray(), columns=vectorizer.get_feature_names())
print('Scikit-Learn:')
print(pd.DataFrame(result).transpose())

Scikit-Learn:
                  0         1         2         3         4
all        0.000000  0.000000  0.452441  0.412213  0.000000
day        0.299642  0.299642  0.267219  0.243460  0.280882
is         0.507338  0.507338  0.000000  0.000000  0.000000
play       0.000000  0.000000  0.452441  0.412213  0.000000
rainy      0.000000  0.000000  0.000000  0.000000  0.589463
sunny      0.628833  0.000000  0.000000  0.000000  0.000000
to         0.000000  0.000000  0.452441  0.412213  0.000000
today      0.507338  0.507338  0.000000  0.000000  0.000000
want       0.000000  0.000000  0.560789  0.000000  0.000000
was        0.000000  0.000000  0.000000  0.000000  0.589463
went       0.000000  0.000000  0.000000  0.510928  0.000000
windy      0.000000  0.628833  0.000000  0.000000  0.000000
yesterday  0.000000  0.000000  0.000000  0.412213  0.475575


# 測試

## Q:請將中文文本分詞之後，計算出 TF-IDF

In [12]:
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer 

text = """我是一個想要轉職的軟體工程師！
我閱讀了機器學習，
我閱讀了深度學習，
我閱讀了自然語言處理，
我閱讀了所有軟體方面的書籍，
我已經不是原本的我了！"""
sentences = text.split()
sentences

['我是一個想要轉職的軟體工程師！',
 '我閱讀了機器學習，',
 '我閱讀了深度學習，',
 '我閱讀了自然語言處理，',
 '我閱讀了所有軟體方面的書籍，',
 '我已經不是原本的我了！']

In [None]:
# jieba.cut生成的是一个生成器
# jieba.lcut 直接生成的就是一个list

In [14]:
sent_words = [jieba.lcut(sent_) for sent_ in sentences]
document = [" ".join(sent_) for sent_ in sent_words]
print(document)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\vvvcc\AppData\Local\Temp\jieba.cache
Loading model cost 0.448 seconds.
Prefix dict has been built successfully.


['我 是 一個 想要 轉職 的 軟體 工程 師 ！', '我 閱讀 了 機器 學習 ，', '我 閱讀 了 深度 學習 ，', '我 閱讀 了 自然 語言 處理 ，', '我 閱讀 了 所有 軟體 方面 的 書籍 ，', '我 已經 不是 原本 的 我 了 ！']


In [16]:
# token_pattern這個參數使用正則表達式來分詞，其默認參數為r"(?u)\b\w\w+\b"，其中的兩個\w決定了其匹配長度至少為2的單詞，但是在短文本中任何一個字都可能十分重要，比如“去／到”等，所以要想讓CountVectorizer也支持單字符的詞，需要加上參數token_pattern='\\b\\w+\\b'
# max_df=0.5 單詞如果在50%以上的文件出現就不考慮
# min_df=5 單詞如果出現次數少於5次就不考慮, min_df=0.1 單詞如果在10%以下的文件中出現就不考慮

vectoerizer = CountVectorizer(min_df=1, max_df=1.0, token_pattern='\\b\\w+\\b') #初始化一個向量化工具
vectoerizer.fit(document)
bag_of_words = vectoerizer.get_feature_names() #取得詞的名稱
print("Bag of words:")
print(bag_of_words)

Bag of words:
['一個', '不是', '了', '原本', '學習', '工程', '已經', '師', '想要', '我', '所有', '方面', '是', '書籍', '機器', '深度', '的', '自然', '處理', '語言', '軟體', '轉職', '閱讀']


In [17]:
print("詞彙數量:")
print(len(bag_of_words))

詞彙數量:
23


In [18]:
X = vectoerizer.transform(document) #將文本轉換成詞袋向量
print("詞袋模型的結果:")
print(X.toarray())

詞袋模型的結果:
[[1 0 0 0 0 1 0 1 1 1 0 0 1 0 0 0 1 0 0 0 1 1 0]
 [0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1]
 [0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1]
 [0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 1 0 0 1]
 [0 0 1 0 0 0 0 0 0 1 1 1 0 1 0 0 1 0 0 0 1 0 1]
 [0 1 1 1 0 0 1 0 0 2 0 0 0 0 0 0 1 0 0 0 0 0 0]]


In [19]:
print("'自然'的index是 : {}".format(vectoerizer.vocabulary_.get('自然')))

'自然'的index是 : 17


In [20]:
print("字典索引對照表:")
print(vectoerizer.vocabulary_)

字典索引對照表:
{'我': 9, '是': 12, '一個': 0, '想要': 8, '轉職': 21, '的': 16, '軟體': 20, '工程': 5, '師': 7, '閱讀': 22, '了': 2, '機器': 14, '學習': 4, '深度': 15, '自然': 17, '語言': 19, '處理': 18, '所有': 10, '方面': 11, '書籍': 13, '已經': 6, '不是': 1, '原本': 3}


In [21]:
tfidf_transformer = TfidfTransformer() #初始化一個Tfidf向量化工具
tfidf_transformer.fit(X.toarray())  #根據文本的詞袋向量計算 TF-IDF
print("每個不同詞的TFIDF:")
for idx, word in enumerate(vectoerizer.get_feature_names()):
    print("{}\t{}".format(word, tfidf_transformer.idf_[idx]))

每個不同詞的TFIDF:
一個	2.252762968495368
不是	2.252762968495368
了	1.1541506798272583
原本	2.252762968495368
學習	1.8472978603872037
工程	2.252762968495368
已經	2.252762968495368
師	2.252762968495368
想要	2.252762968495368
我	1.0
所有	2.252762968495368
方面	2.252762968495368
是	2.252762968495368
書籍	2.252762968495368
機器	2.252762968495368
深度	2.252762968495368
的	1.5596157879354227
自然	2.252762968495368
處理	2.252762968495368
語言	2.252762968495368
軟體	1.8472978603872037
轉職	2.252762968495368
閱讀	1.336472236621213


In [22]:
print("將詞袋向量轉成TF-IDF向量:")
tfidf = tfidf_transformer.transform(X)
print(tfidf.toarray())

將詞袋向量轉成TF-IDF向量:
[[0.36888651 0.         0.         0.         0.         0.36888651
  0.         0.36888651 0.36888651 0.16374848 0.         0.
  0.36888651 0.         0.         0.         0.25538471 0.
  0.         0.         0.30249222 0.36888651 0.        ]
 [0.         0.         0.32507196 0.         0.52030012 0.
  0.         0.         0.         0.2816547  0.         0.
  0.         0.         0.63450127 0.         0.         0.
  0.         0.         0.         0.         0.37642368]
 [0.         0.         0.32507196 0.         0.52030012 0.
  0.         0.         0.         0.2816547  0.         0.
  0.         0.         0.         0.63450127 0.         0.
  0.         0.         0.         0.         0.37642368]
 [0.         0.         0.26242191 0.         0.         0.
  0.         0.         0.         0.22737231 0.         0.
  0.         0.         0.         0.         0.         0.51221593
  0.51221593 0.51221593 0.         0.         0.30387678]
 [0.         0.