## NLP

Natural Language Processing

- Advanced - 深度學習 Deep Learning
- Basic - 機器學期 Machine Learning </br>

 Step 1 : 前處理 Pre-Process </br>
 > 1. 中文分詞 Tokenization
 > 2. 詞性標註 Parts of Speech Tagging
 > 3. 命名實體識別 NER
 > 4. 去除停用詞

 Step 2 : 特徵工程 Feature Engineering </br>
 Step 3 : 機器學習








# 1.分詞 – Tokenization

分詞是 NLP 的基本且重要步驟。</br> 分詞就是將句子、段落、文章這種長文本，分解為以`字詞`為單位的數據結構，方便後續的處理分析工作。

- Input
```
有天小明搭公車，不小心把健保卡當作悠遊卡。健保卡就對小明說： 你為什麼要這樣嗶我？
```

- Output
```
有天 小明 搭 公車 不 小心 把 健保卡 當作 悠遊卡 健保卡 就 對 小 明說 你 為什麼 要 這樣 嗶 我
```
</br>

繁中斷詞工具：
1. 結巴(Jieba)
 > https://github.com/fxsjy/jieba
2. 中研院的繁體中文斷詞系統 CKIPtagger
 > https://github.com/ckiplab/ckiptagger/wiki/Chinese-README


## jieba
1. 基本斷詞用法：預設詞庫
2. 進階：自定詞庫

#### 特點
支持四种分词模式：
1. 精確模式：试图将句子最精确地切开，适合文本分析。預設精確模式
2. 全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
3. 搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
4. paddle模式：利用 PaddlePaddle 深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注

Reference : 
> [如何使用 jieba 結巴中文分詞程式](https://blog.fukuball.com/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8-jieba-%E7%B5%90%E5%B7%B4%E4%B8%AD%E6%96%87%E5%88%86%E8%A9%9E%E7%A8%8B%E5%BC%8F/)


In [2]:
#@title import library { form-width: "150px"}

# !pip install jieba
import jieba

## jieba.cut

- output token

In [4]:
sentence = "日本疫苗及時雨！101、圓山飯店點燈感謝「千里送暖 友誼長存」"
jieba.cut(sentence)

# output : Tokenizer.cut

<generator object Tokenizer.cut at 0x7fba35e2edd0>

In [3]:
# use .join to concat words
output = jieba.cut(sentence)

print( ','.join(output))

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 1.104 seconds.
Prefix dict has been built successfully.


日本,疫苗,及,時雨,！,101,、,圓山飯,店點,燈,感謝,「,千里,送暖, ,友誼長,存,」


## jieba.lcut

- output 形式為 list


In [4]:
sentence = "日本疫苗及時雨！101、圓山飯店點燈感謝「千里送暖 友誼長存」"

jieba.lcut(sentence)

['日本',
 '疫苗',
 '及',
 '時雨',
 '！',
 '101',
 '、',
 '圓山飯',
 '店點',
 '燈',
 '感謝',
 '「',
 '千里',
 '送暖',
 ' ',
 '友誼長',
 '存',
 '」']

### 預設詞庫

In [5]:
sentence = "日本疫苗及時雨！101、圓山飯店點燈感謝「千里送暖 友誼長存」"


# **預設精確：精確模式並套用 HMM：使用隱藏式馬可夫鍊（HMM）模型，試圖找出不在字典檔裡面的字。
seg_list = jieba.lcut(sentence)
print('【精確模式】　', seg_list )


# 精確：關閉隱藏式馬可夫鍊（HMM）模型
seg_list = jieba.lcut(sentence, HMM = False)
print('【偽精確模式】', seg_list )


# 全模式：把句子中可以成詞的詞語都掃瞄出來，速度非常快但不保證有意義。
seg_list = jieba.lcut(sentence, cut_all=True)
print('【全模式】　　', seg_list )


# 搜索引擎模式：可能的詞再次切分
seg_list = jieba.lcut_for_search(sentence)
print('【搜索引擎】　' , seg_list)


# Paddle：
jieba.enable_paddle()

seg_list = jieba.lcut(sentence, use_paddle=True)
print('【paddle】 　', seg_list)

Installing paddle-tiny, please wait a minute......


【精確模式】　 ['日本', '疫苗', '及', '時雨', '！', '101', '、', '圓山飯', '店點', '燈', '感謝', '「', '千里', '送暖', ' ', '友誼長', '存', '」']
【偽精確模式】 ['日本', '疫苗', '及', '時', '雨', '！', '101', '、', '圓', '山', '飯', '店', '點', '燈', '感', '謝', '「', '千里', '送暖', ' ', '友', '誼', '長', '存', '」']
【全模式】　　 ['日本', '疫苗', '及', '時', '雨', '！', '101', '、', '圓', '山', '飯', '店', '點', '燈', '感', '謝', '「', '千里', '送暖', '', ' ', '', '友', '誼', '長', '存', '」']
【搜索引擎】　 ['日本', '疫苗', '及', '時雨', '！', '101', '、', '圓山飯', '店點', '燈', '感謝', '「', '千里', '送暖', ' ', '友誼長', '存', '」']


Paddle enabled successfully......


【paddle】 　 ['日本', '疫苗', '及', '時雨！101、圓山飯店點燈感謝「千里送暖 友誼長', '存', '」']


### 繁體詞庫

可以自行添加自訂義的詞句，以便辨識 jieba 預設詞庫裡沒有詞 。雖然 jieba 能識別新的詞彙，但自行新增詞彙可以保證更高的正確率

``` python 
jieba.load_userdict(file_path) 
```
1. file_path 須為儲存在 local 端的 txt 檔案
> 繁中詞彙：https://raw.githubusercontent.com/fxsjy/jieba/master/extra_dict/dict.txt.big

2. 格式：一個詞占一行；每一行分三部分：詞語、頻率（可省略）、詞性（可省略），空格分隔，順序不可改變
> 墓誌銘 67 n </br>
> 座右銘 54 nr </br>
> 有氧 95 vn </br>
> 美麗 3036 ns </br>

3. 詞頻省略時使用自動計算的能保證分出該詞的詞頻

In [6]:
#@title set_dictionary { form-width: "150px"}
# 授權 colab 能存取用戶的 google drive 檔案
from google.colab import drive
drive.mount('/content/drive')


# 讀 dict.txt 檔案
file_path = '/content/drive/MyDrive/Colab Notebooks/jieba/dict.txt'
jieba.set_dictionary(file_path)

Mounted at /content/drive


In [7]:
# sentence = "日本疫苗及時雨！101、圓山飯店點燈感謝「千里送暖 友誼長存」"
sentence = '爾俸爾祿，民膏民脂，下民易虐，上天難欺，遲刻魔，藍瘦香菇，哈利波特'

seg_list = jieba.lcut(sentence)
print( seg_list )

Building prefix dict from /content/drive/MyDrive/Colab Notebooks/jieba/dict.txt ...
Dumping model to file cache /tmp/jieba.u4e0deaaf5fdff1da756b309039a2d83e.cache
Loading model cost 2.434 seconds.
Prefix dict has been built successfully.


['爾', '俸爾祿', '，', '民膏民脂', '，', '下民易虐', '，', '上天', '難', '欺', '，', '遲刻', '魔', '，', '藍瘦', '香菇', '，', '哈利波', '特']


### 自訂詞庫


``` python 
jieba.load_userdict(file_path) 
```


1. file_path 須為儲存在 local 端的 txt 檔案
> 範例：https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big

2. 格式：一個詞占一行；每一行分三部分：詞語、頻率（可省略）、詞性（可省略），空格分隔，順序不可改變
> 墓誌銘 67 n </br>
> 座右銘 54 nr </br>
> 有氧 95 vn </br>
> 美麗 3036 ns </br>

3. 詞頻省略時使用自動計算的能保證分出該詞的詞頻

In [8]:
#@title load_userdict { form-width: "150px"}
file_path = '/content/drive/MyDrive/Colab Notebooks/jieba/userdict.txt'
jieba.load_userdict(file_path)

In [9]:
sentence = '爾俸爾祿，民膏民脂，下民易虐，上天難欺，遲刻魔，藍瘦香菇，哈利波特，港湖胖虎，台中'

seg_list = jieba.lcut(sentence)
print(seg_list)

['爾俸爾祿', '，', '民膏民脂', '，', '下民易虐', '，', '上天難欺', '，', '遲刻魔', '，', '藍瘦香菇', '，', '哈利波特', '，', '港湖', '胖虎', '，', '台', '中']


In [10]:
#@title add_word { form-width: "150px"}
jieba.add_word('港湖胖虎', freq=None, tag=None)

seg_list = jieba.lcut(sentence)
print(seg_list)

['爾俸爾祿', '，', '民膏民脂', '，', '下民易虐', '，', '上天難欺', '，', '遲刻魔', '，', '藍瘦香菇', '，', '哈利波特', '，', '港湖胖虎', '，', '台', '中']


In [11]:
#@title suggest_freq { form-width: "150px"}
jieba.suggest_freq('台中', tune=True)

seg_list = jieba.lcut(sentence)
print(seg_list)

['爾俸爾祿', '，', '民膏民脂', '，', '下民易虐', '，', '上天難欺', '，', '遲刻魔', '，', '藍瘦香菇', '，', '哈利波特', '，', '港湖胖虎', '，', '台中']


In [12]:
#@title del_word { form-width: "150px"}
word = '今天天氣不錯'
print( jieba.lcut(word) )


jieba.del_word('今天天氣')
print(jieba.lcut(word))

['今天天氣', '不錯']
['今天', '天氣', '不錯']


# 2.詞性標註 Parts of Speech

大部份的斷詞系統都可以列出斷詞的詞性，jieba 也有這個功能，但結果可能不是那麼好，這其實是跟所使用的語料庫有關係


其中詞性標籤 24 個（小寫字母），專名類別標籤 4 個（大寫字母）

標籤|	詞性	|標籤	|詞性	|標籤	|詞性|	標籤	|詞性
----|:----------|:-----:|-----:| ----:|-------|:--------|:---------
n	|普通名词	|f	|方位名词	|s	|处所名词	|t	|时间
nr	|人名	   |ns	|地名	|nt	|机构名	|nw	|作品名
nz	|其他专名	|v	|普通动词	|vd	|动副词	|vn	|名动词
a	|形容词    |ad	|副形词	|an	|名形词	|d	|副词
m	|数量词	   |q     |量词	|r	|代词	|p	|介词
c	|连词	  |u	|助词	|xc	|其他虚词	|w	|标点符号
PER	|人名	  |LOC	|地名|	ORG	|机构名	|TIME	|时间


In [13]:
#@title pseg.cut {form-width: "150px"}

import jieba.posseg as pseg

content = '遲刻魔 藍瘦香菇 哈利波特 港湖胖虎 台中'

words = pseg.cut(content)

for word, flag in words:
    print( 'word = ', word ,'; flag = ', flag )

word =  遲刻魔 ; flag =  n
word =    ; flag =  x
word =  藍瘦香菇 ; flag =  an
word =    ; flag =  x
word =  哈利波特 ; flag =  n
word =    ; flag =  x
word =  港湖胖虎 ; flag =  x
word =    ; flag =  x
word =  台中 ; flag =  s


#3.取出關鍵詞 

jieba 支援 TF-IDF 和 TextRank 兩種找出關鍵詞的功能

```python
jieba.analyse.extract_tags(content, topK=20, withWeight=True, allowPOS=())
```

```python
jieba.analyse.textrank(content, topK=20, withWeight=True, allowPOS=())
```

> content：待提取關鍵詞的文本 </br>
> topK：返回關鍵詞的數量，重要性從高到低排序 </br>
> withWeight：是否同時回傳每個關鍵詞的權重 </br>
> allowPOS：詞性過濾，預設為空值，回差全不詞性，若提供則僅回傳符合詞性的關鍵詞 </br>


In [14]:
#@title extract_tags {form-width: "150px"}

import jieba.analyse

content = '請問，設定商品時 若我有多規格比如紅色SML+白色SML那我希望某規格比如紅色S庫存售完後 只有該規格顯示為"開放預購" 其他有貨的規格還是正常顯示 有辦法這樣設定嗎?因為我有看了教學文章。但都只有主商品直接全部都變成預購'
tags = jieba.analyse.extract_tags(content, 10 , withWeight=True)

for word, weight in tags:
    print(word, weight)

規格 1.2583965792526315
設定 0.6291982896263157
紅色 0.6291982896263157
SML 0.6291982896263157
顯示 0.6291982896263157
預購 0.6291982896263157
請問 0.31459914481315787
庫存 0.31459914481315787
開放 0.31459914481315787
有貨 0.31459914481315787


In [15]:
#@title textrank {form-width: "150px"}

import jieba.analyse

content = '請問，設定商品時 若我有多規格比如紅色SML+白色SML那我希望某規格比如紅色S庫存售完後 只有該規格顯示為"開放預購" 其他有貨的規格還是正常顯示 有辦法這樣設定嗎?因為我有看了教學文章。但都只有主商品直接全部都變成預購'
tags = jieba.analyse.textrank(content, 10 , withWeight=True)

for word, weight in tags:
    print(word, weight)

規格 1.0
紅色 0.761781606128585
比如 0.7577944077261477
預購 0.6382506757077487
商品 0.5947352086339321
顯示 0.5876558413535816
文章 0.4904912570896341
教學 0.4870045813997485
設定 0.47083215909522097
變成 0.42407684529093725


# 4.去除停用字 - Stopwords

``` python 
jieba.analyse.set_stop_words(file_path)
```


1. file_path 須為儲存在 local 端的 txt 檔案
> 範例：https://github.com/goto456/stopwords

2. 格式：一個詞占一行；每一行一個詞語
> 我</br>
> 的</br>
> 所以</br>
> 後來 </br>

In [16]:
#@title set_stop_words {form-width: "150px"}
import jieba.analyse

file_path = '/content/drive/MyDrive/Colab Notebooks/jieba/stoped.txt'
jieba.analyse.set_stop_words(file_path)


content = '值此疫情艱難，且全球疫苗產能供不應求之際，對於日本即時提供這批COVID-19疫苗，給予臺灣國內疫情防治極大幫助，指揮中心謹向日本政府與人民表達誠摯謝忱與感佩。'

seg_list = jieba.lcut(content)
print(len(seg_list))
print(seg_list)

keywords = jieba.analyse.extract_tags(content,40, withWeight=True)
for word , flag in keywords:
    print( word, round( flag ,4) )

40
['值此', '疫情', '艱難', '，', '且', '全球', '疫苗', '產能', '供不應求', '之際', '，', '對於', '日本', '即時', '提供', '這批', 'COVID', '-', '19', '疫苗', '，', '給予', '臺灣', '國內', '疫情', '防治', '極大', '幫助', '，', '指揮中心', '謹向', '日本政府', '與', '人民', '表達', '誠摯', '謝忱', '與', '感佩', '。']
疫情 0.7032
疫苗 0.6305
艱難 0.5198
產能 0.5198
供不應求 0.5198
COVID 0.5198
19 0.5198
臺灣 0.5198
國內 0.5198
幫助 0.5198
指揮中心 0.5198
表達 0.5198
誠摯 0.5198
謝忱 0.5198
感佩 0.4741
日本政府 0.3645
防治 0.3256
人民 0.2265
日本 0.2177
全球 0.2131
提供 0.2037


# Use Case

- Issue : 部分店家當初沒有填類別，是否能幫他們找出可被分類的商店類別?

- Methodology : 利用商品名稱找出比較相似的商店，藉此得知適合的類別 tags

**BoW (Bag of Words) 與詞彙數量-文件矩陣**
- https://taweihuang.hpd.io/2017/03/01/tfidf/ 

假設現在有 D 篇文件 (document)，而所有文件中總共使用了 T 個詞彙 (term)，我們就可以將文章轉換成以下類型的矩陣，其中第一欄第一列的「12」代表的是「文件 1」 中出現了12個「文字 1」。如此一來，我們可以用 [12, 0, 3,...,2] 這個向量來代表「文件 1」，同理也可用「文件 D」也可以用 [0,2,8,...,0] 來表示。

<img src="https://taweihuang.hpd.io/wp-content/uploads/2017/03/%E5%9C%96%E7%89%871.png" alt="drawing" width="600"/>

**TF-IDF 演算法**

<img src="https://1.bp.blogspot.com/-tnzPA6dDtTU/Vw6EWm_PjCI/AAAAAAABDwI/JatHtUJb4fsce9E-Ns5t02_nakFtGrsugCLcB/s1600/%25E8%259E%25A2%25E5%25B9%2595%25E5%25BF%25AB%25E7%2585%25A7%2B2016-04-14%2B%25E4%25B8%258A%25E5%258D%25881.39.07.png" alt="drawing" width="800"/>




TF-IDF 演算法包含了兩個部分：
- 詞頻（Term frequency，TF）</br>
> 詞頻指的是某一個分詞在該文件中出現的頻率，第 *t* 個詞出現在第 *d* 篇文件的頻率。</br>
> 例如，如果文件 1 總共有100個字，而第 1 個字在文件 1 出現的次數是12次，因此 tf value = 12/100
- 逆向文件頻率（Inverse Document Frequency，IDF）</br>
> 常用字處理：比如說， the 在每個文件中都出現好多次，如此一來總體數字較少的文件的向量就會被 the 這個字所主導，但 the 這個字其實沒什麼特別的意義。


<img src="https://taweihuang.hpd.io/wp-content/uploads/2017/03/%E5%9C%96%E7%89%871-1.png" alt="drawing" width="800"/>




In [39]:
#@title build model { form-width: "150px"}

def semblance(text, corpus):

    # test data 斷詞
    cut_words = jieba.cut( text )
    if cut_words not in stopwords:
        cut_words = ','.join(filter(str.isalnum, cut_words))
        result = cut_words.split(',')
    dic_text_list = [i for i in result if len(re.sub('[a-zA-Z0-9]', '', i)) >=1 ]

    # test data 的 bag_of_word
    doc_text_vec = dictionary.doc2bow(dic_text_list)

    # training data 裡，每個文件中，每個分詞的 tfidf 值
    tfidf = models.TfidfModel(corpus)


    # 对每个文档，分析要测试文档的相似度
    index = similarities.SparseMatrixSimilarity( tfidf[corpus], num_features=len(dictionary.keys()) )

    sim = index[tfidf[doc_text_vec]]
    # print(sim)

    sim_sorted = sorted(enumerate(sim), key=lambda x: -x[1])
    return sim_sorted