## TF-IDF 範例(一)
- concept http://www.cc.ntu.edu.tw/chinese/epaper/0031/20141220_3103.html
- http://bruce3557.logdown.com/posts/291096/jieba-sklearn-calculation-of-chinese-tfidf

### load library

In [1]:
#-*- coding:utf-8 -*-
import jieba
import sys
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfVectorizer

### read data

In [2]:
# Take each line in target_txt as an unique document
# Cut each line for trarget_txt, and collect it in corpus.

corpus = []
target_txt = './files/tfidf_test.txt'
with open(target_txt, 'r') as f:
    for line in f:
        corpus.append(" ".join(jieba.cut(line.split(',')[0], cut_all=False)))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\asus\AppData\Local\Temp\jieba.cache
Loading model cost 0.761 seconds.
Prefix dict has been built succesfully.


In [3]:
corpus

['不要 說 你 愛我 你 想 我     如果 你 的 心裡 沒有 這麼 做 \n',
 '只是 勉強 的 敷衍 我     我 知道 了 會 很 難受 \n',
 '我要 你 默默 走 不 回頭     我會 清楚 明白 你 要 的 是 什麼 \n',
 '不許 勉強 的 安慰 我     說 奇怪 的 理由 \n',
 '我會 好好 的     花還 香香的     時間 一直 去     回憶 真美麗 \n',
 '我 是 想 著 你     一直 想著 你     你 在 我 心底     變成 了 秘密 \n',
 '到現 在 還是     深深 的 深深 的 愛著 你     是 愛情 的 友情 的 都 可以 \n',
 '那 是 我 心中 的 幸福     我 知道 他 苦苦 的']

### tfidf function 

In [4]:
# tfidf
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)

### check results

In [5]:
words = vectorizer.get_feature_names()
print("len(words): ", len(words))

len(words):  43


In [6]:
print("tfidf.shape: ", tfidf.shape)
tfidf

tfidf.shape:  (8, 43)


<8x43 sparse matrix of type '<class 'numpy.float64'>'
	with 47 stored elements in Compressed Sparse Row format>

In [7]:
# check each document
for i in range(len(corpus)):
    print('----Document {0}----'.format(i))
    for j in range(len(words)):
        if tfidf[i,j] > 0.4:
              print(words[j], tfidf[i,j], i ,j)

----Document 0----
不要 0.408248290464 0 1
如果 0.408248290464 0 13
心裡 0.408248290464 0 18
愛我 0.408248290464 0 21
沒有 0.408248290464 0 28
這麼 0.408248290464 0 38
----Document 1----
只是 0.476474196877 1 7
敷衍 0.476474196877 1 25
難受 0.476474196877 1 40
----Document 2----
----Document 3----
不許 0.461149114352 3 2
奇怪 0.461149114352 3 11
安慰 0.461149114352 3 14
理由 0.461149114352 3 31
----Document 4----
----Document 5----
心底 0.461149114352 5 17
想著 0.461149114352 5 19
秘密 0.461149114352 5 34
變成 0.461149114352 5 37
----Document 6----
深深 0.632455532034 6 29
----Document 7----
幸福 0.519708486736 7 15
心中 0.519708486736 7 16
知道 0.435556272419 7 33
苦苦 0.519708486736 7 36


---

## TF-IDF 範例(二)
http://pingweishang.com/chinese-text-similarity-calculation

In [8]:
import os
import sys
import jieba
import jieba.analyse
import scipy as sp
from sklearn.feature_extraction.text import TfidfVectorizer

### jieba setting

In [9]:
jieba.set_dictionary('./files/dict.txt') # 繁體字詞庫
jieba.load_userdict("./files/dict_test.txt") # 自訂字詞庫
jieba.analyse.set_stop_words('./files/stop_test.txt') #自訂停止詞

Building prefix dict from C:\Users\asus\Documents\github repository\106-2PythonSampleCode\week_5\course_5\files\dict.txt ...
Dumping model to file cache C:\Users\asus\AppData\Local\Temp\jieba.uc643c58cbfabcb2e88ffb1272deb26a7.cache
Loading model cost 1.363 seconds.
Prefix dict has been built succesfully.


### testing_use data

In [10]:
# testing data
article_1 = "這是一篇關於機器學習的文章，實際上他沒有多少有趣的知識，小孩!。"
article_2 = "圖像數據庫會變得非常巨大，小孩!"
article_3 = "大火車快飛哈哈哈哈哈，小孩!"
article_4 = "圖像數據庫可以存儲圖像，小孩!"
article_5 = "圖像數據庫可以存儲圖像，圖像數據庫可以存儲圖像，小孩!"

articles = [article_1, article_2, article_3, article_4, article_5]

### preprocess data

In [11]:
# cut and join 
seg_list = [" ".join(jieba.cut(article)) for article in articles ]

In [12]:
seg_list

['這是 一篇 關於 機器學習 的 文章 ， 實際 上 他 沒有 多少 有趣 的 知識 ， 小孩 ! 。',
 '圖像 數據庫 會 變得 非常 巨大 ， 小孩 !',
 '大 火車 快飛 哈哈 哈哈 哈 ， 小孩 !',
 '圖像 數據庫 可以 存儲 圖像 ， 小孩 !',
 '圖像 數據庫 可以 存儲 圖像 ， 圖像 數據庫 可以 存儲 圖像 ， 小孩 !']

### tfidf

In [13]:
# stop words for tfidf
stop_word_list = ['多少', '可以', '沒有']

In [14]:
# tfidf
vectorizer = TfidfVectorizer(min_df=1, stop_words = stop_word_list)
tfidf = vectorizer.fit_transform(seg_list)

### check results

In [15]:
print('停用詞:', vectorizer.get_stop_words())
print('tfidf_shape:', tfidf.shape)

停用詞: frozenset({'多少', '沒有', '可以'})
tfidf_shape: (5, 18)


In [16]:
words = vectorizer.get_feature_names()
print('詞語序列:', words)

詞語序列: ['一篇', '哈哈', '圖像', '存儲', '實際', '小孩', '巨大', '快飛', '數據庫', '文章', '有趣', '機器學習', '火車', '知識', '變得', '這是', '關於', '非常']


In [17]:
# check the tf-idf array
tfidf.toarray()

array([[ 0.34864042,  0.        ,  0.        ,  0.        ,  0.34864042,
         0.16612903,  0.        ,  0.        ,  0.        ,  0.34864042,
         0.34864042,  0.34864042,  0.        ,  0.34864042,  0.        ,
         0.34864042,  0.34864042,  0.        ],
       [ 0.        ,  0.        ,  0.32977981,  0.        ,  0.        ,
         0.23464105,  0.4924206 ,  0.        ,  0.32977981,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.4924206 ,
         0.        ,  0.        ,  0.4924206 ],
       [ 0.        ,  0.80147238,  0.        ,  0.        ,  0.        ,
         0.19095294,  0.        ,  0.40073619,  0.        ,  0.        ,
         0.        ,  0.        ,  0.40073619,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.75823328,  0.45671733,  0.        ,
         0.26974461,  0.        ,  0.        ,  0.37911664,  0.        ,
         0.        ,  0.        ,  0.        ,  0.   

In [18]:
# check each document
for i in range(len(articles)):
    print('----Article {0}----'.format(i))
    for j in range(len(words)):
        if tfidf[i,j] > 0.5:
              print(words[j], tfidf[i,j], i ,j)

----Article 0----
----Article 1----
----Article 2----
哈哈 0.801472384089 2 1
----Article 3----
圖像 0.758233277044 3 2
----Article 4----
圖像 0.779809501259 4 2


### test a new article with the exist vectorizer!

In [19]:
# new_article
new_article = "圖像數據庫"
new_seg = " ".join(jieba.cut(new_article))

print(new_seg)

圖像 數據庫


In [20]:
# test it 
new_vec = vectorizer.transform([new_seg])
print("new_article's vector")
print(new_vec.toarray())

new_article's vector
[[ 0.          0.          0.70710678  0.          0.          0.          0.
   0.          0.70710678  0.          0.          0.          0.          0.
   0.          0.          0.          0.        ]]


### 文章相似度?
- http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
- https://plushunter.github.io/2017/07/07/机器学习算法系列（23）：TF-IDF与余弦相似度/
