## 文本特徵提取 CountVectorizer TfidfVectorizer 文字處理

### jieba使用
* 精確模式 ：將句子最精確地切開，叫適合文本分析。 寫法:words = jieba.cut(content, cut_all=False)
* 全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度快。 寫法:words = jieba.cut(content, cut_all=True)
* 搜索引擎模式：在精確模式的基礎上對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。 寫法:jieba.cut_for_search(Content)

In [4]:
import jieba

sentence = "足球運動需要大家一起來推廣，歡迎加入我們的行列！"
print("輸入： {}".format(sentence))
words1 = jieba.cut(sentence, cut_all=False)
words2 = jieba.cut(sentence, cut_all=True)
words3 = jieba.cut_for_search(sentence)

print("全模式：", end=' ')
for word in words2:
    print(word+'/', end='')

print('')

print("搜索引擎模式：", end=' ')
for word in words3:
    print(word+'/', end='')

print('')    
print("精確模式：", end=' ')
for word in words1:
    print(word+'/', end='')


輸入： 足球運動需要大家一起來推廣，歡迎加入我們的行列！
全模式： 足球/運/動/需要/大家/一起/來/推/廣/，/歡/迎/加入/我/們/的/行列/！/
搜索引擎模式： 足球/運動/需要/大家/一起/來/推廣/，/歡迎/加入/我們/的/行列/！/
精確模式： 足球/運動/需要/大家/一起/來/推廣/，/歡迎/加入/我們/的/行列/！/

# 實作bag of words

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
bards_words =["The fool doth think he is wise,",
              "but the wise man knows himself to be a fool"]

# CountVectorizer(stop_words="english")
vect = CountVectorizer()
vect.fit(bards_words)

print("Vocabulary size: {}\n".format(len(vect.vocabulary_)))
print("Vocabulary content:\n {}\n".format(vect.vocabulary_))

bag_of_words = vect.transform(bards_words)
print("Features name:\n{}\n".format(vect.get_feature_names()))
print("Dense representation of bag_of_words:\n{}\n".format(bag_of_words.toarray()))

Vocabulary size: 13

Vocabulary content:
 {'the': 9, 'fool': 3, 'doth': 2, 'think': 10, 'he': 4, 'is': 6, 'wise': 12, 'but': 1, 'man': 8, 'knows': 7, 'himself': 5, 'to': 11, 'be': 0}

Features name:
['be', 'but', 'doth', 'fool', 'he', 'himself', 'is', 'knows', 'man', 'the', 'think', 'to', 'wise']

Dense representation of bag_of_words:
[[0 0 1 1 1 0 1 0 0 1 1 0 1]
 [1 1 0 1 0 1 0 1 1 1 0 1 1]]



### 對中文數據進行分詞處理，創建停用詞列表,文本轉化爲逆文檔詞頻的特徵向量（矩陣）

In [11]:
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

a ="自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學"
b = "因此，這一領域的研究將涉及自然語言，即人們日常使用的語言，所以它與語言學的研究有着密切的聯繫，但又有重要的區別。自然語言處理並不是一般地研究自然語言，而在於研製能有效地實現自然語言通信的計算機系統，特別是其中的軟件系統。"
c ="因而它是計算機科學的一部分。自然語言處理（NLP）是計算機科學，人工智能，語言學關注計算機和人類（自然）語言之間的相互作用的領域。"
all_list= ['  '.join(jieba.cut(s,cut_all = False)) for s in [a,b,c]]

#從文件導入停用詞表
stpwrdpath ="./中文停用詞庫.txt"
with open(stpwrdpath, 'rb') as fp:
    stopword = fp.read().decode('utf-8')  # 停用詞提取
    
#將停用詞表轉換爲list  
stopwordlist = stopword.splitlines()
tfidf=TfidfVectorizer(stop_words=stopwordlist)
weight=tfidf.fit_transform(all_list).toarray()
word=tfidf.get_feature_names()
print ('IFIDF詞頻矩陣:\n')
print (weight) 

for i in range(len(weight)): # 打印每個文本的tf-idf詞語權重，第一個for遍歷所有文本，第二個遍歷某一個文本下的詞語權重
    print ("\n---輸出第", i, "個文本的詞語tf-idf權重---\n")
    for j in range(len(word)):
        print(word[j], weight[i][j]) #第i個文本中，第j個詞的tfidf值

IFIDF詞頻矩陣:

[[0.         0.18516263 0.         0.18516263 0.18516263 0.18516263
  0.14082095 0.         0.         0.         0.         0.
  0.         0.18516263 0.18516263 0.18516263 0.18516263 0.
  0.14082095 0.         0.28164191 0.         0.         0.
  0.         0.         0.18516263 0.         0.14082095 0.18516263
  0.         0.3280801  0.28164191 0.21872006 0.18516263 0.3280801
  0.         0.14082095 0.         0.         0.         0.
  0.14082095 0.18516263 0.14082095 0.21872006]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.17054985 0.17054985 0.17054985 0.17054985
  0.17054985 0.         0.         0.         0.         0.17054985
  0.12970755 0.17054985 0.         0.17054985 0.         0.17054985
  0.17054985 0.17054985 0.         0.         0.38912266 0.
  0.17054985 0.40291795 0.         0.10072949 0.         0.40291795
  0.         0.12970755 0.         0.17054985 0.17054985 0.17054985
  0.12970755 0.         0.12970755 0.1