# jieba
參考自: https://github.com/fxsjy/jieba

## 目錄
1. 模式簡介
2. import jieba
3. 字典增改
    1. 載入字典
    2. 調整字典
4. 分詞
    1. jieba.cut
5. 基於TF-IDF算法的關鍵字提取
    1. import jieba.analyse
    2. analyse.extract_tags()

## 1. 模式簡介
* 精確模式: 試圖將句子最精確地切開, 適合文本分析.
* 全模式: 把句子可以成詞的詞語全都掃描出來.
* 搜索引擎模式: 在精確模式的基礎上, 對長詞再次切分.

## 2. import jieba

In [31]:
import jieba

## 3. 字典增改

**字典格式**: 一個詞一行, 一行分三部分用空格隔開: 詞語, 詞頻(可省略), 詞性(可省略)

### 3.A 載入字典
**jieba.load_userdict(file_name)**

In [32]:
jieba.load_userdict("userdict.txt")
# 字典參考自: http://tekibrain.blogspot.tw/2015/12/python-jieba-google.html

### 3.B 調整辭典
* **add_word(word, freq=None, tag=None)**
* **del_word(word)**
* **suggest_freq(segment, tune=True)**: 調節詞頻.

## 4. 分詞
* **jieba.cut(self, cut_all, HMM)**: 
    * 默認參數分別為: (str)需分詞的資料, (boolean)是否開啟全模式, (boolean)是否使用HMM模型
* **jieba.lcut(self, cut_all, HMM)**: 
    * 同上, 但直接返回list.
* **jieba.cut_for_search()**:
    * 用於搜索模式.
* **jieba.lcut_for_search()**:
    * 同上, 但直接返回list.
* **jieba.Tokenizer(dictionary=DEFAULT_DICT)**:
    * 新建自定義分詞器, 可用於同時使用不同字典.

### 4.A jieba.cut

In [33]:
seg_list = jieba.cut("我來到臺灣的臺灣大學", cut_all=True, HMM=False)
print("Full Mode: " + "/".join(seg_list))

seg_list = jieba.cut("我來到臺灣的臺灣大學", cut_all=False, HMM=True)
print("Full Mode: " + "/".join(seg_list))

seg_list = jieba.cut("阿明碩士畢業於台灣大學生物機電所，後來在家撿牛糞。")
print("精確模式: " + ", ".join(seg_list))

seg_list = jieba.cut_for_search("阿明碩士畢業於台灣大學生物機電所，後來在家撿牛糞。")
print("搜尋引擎模式: " + ", ".join(seg_list))

Full Mode: 我來/來到/臺灣/的/臺灣/臺灣大學/大學
Full Mode: 我/來到/臺灣/的/臺灣大學
精確模式: 阿明, 碩士, 畢業, 於, 台灣大學, 生物, 機電, 所, ，, 後來, 在家, 撿, 牛糞, 。
搜尋引擎模式: 阿明, 碩士, 畢業, 於, 台灣, 大學, 台灣大學, 生物, 機電, 所, ，, 後來, 在家, 撿, 牛糞, 。


會發現在搜尋引擎模式中, 台灣大學又被分成更細的兩項: 台灣, 大學.

## 5. 基於TF-IDF算法的關鍵字提取
**analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())**:
    * sentence: 待分詞的文本.
    * topK: 決定返回多少個權重值最大的關鍵詞.
    * withWeight: 是否返回權重值.
    * allowPOS: 設定僅包括指定詞性的詞.

### 5.A import jieba.analyse

In [34]:
import jieba.analyse

### 5.B jieba.analyse.extract_tags()

In [35]:
data = "對酒當歌，人生幾何？譬如朝露，去日苦多。慨當以慷，憂思難忘。何以解憂？唯有杜康。青青子衿，悠悠我心。但為君故，沉吟至今。呦呦鹿鳴，食野之苹。我有嘉賓，鼓瑟吹笙。明明如月，何時可掇？憂從中來，不可斷絕。越陌度阡，枉用相存。契闊談讌，心念舊恩。月明星稀，烏鵲南飛。繞樹三匝，何枝可依？山不厭高，海不厭深。周公吐哺，天下歸心。"
tags = jieba.analyse.extract_tags(data, topK=10, withWeight=True)
for tag, weight in tags:
    print(tag + "," + str(int(weight * 10000)))

不厭,4879
周公吐哺,2612
對酒當歌,2439
幾何,2439
日苦,2439
慨當,2439
憂思,2439
難忘,2439
解憂,2439
為君,2439
