<a href="https://colab.research.google.com/github/janice880624/3rd-ML100Days/blob/master/janice_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

####1. 詞性標註
詞彙按它們的詞性(parts-of-speech,POS)分類以及相應的標註它們的過程, 詞性包括:名詞、動詞、形容詞, 副詞等.

####2. 中文字元的顯示
Python內部編碼是unicode, 所以輸出中文常常像這樣"/u4eba/u5de5", 用print函式輸出時, 將自動轉換成本地字符集, 也可以使用encode(‘utf-8’)函式轉換.

####3. 資料集,訓練集,評估
有監督的機器學習一般都是把資料分成兩個部分, 一部分用於訓練, 一部分用於測試, 還可以通過不同分組交叉驗證. Nltk提供了evaluate()函式評估標註效果.

####4. 預設標註(Default Tagger)
事先對語料庫做了統計(利用nltk.FreqDist()), 出現最多的是名詞.
在這裡,預設標註為名詞

####5. 正則表示式標註(Regexp Tagger)
用匹配模式分配標記給識別符號.在英文處理中,常用此方式識別各種形態(時態,字尾等),中文識別中也可以使用它來識別標點,數字等.

####6. 一元標註(Unigram Tagger)
一元標註基於一個簡單的統計演算法: 對每個識別符號分配這個獨特的識別符號最有可能的標記.
在這裡就是分配給具體單詞,它最常出現的詞性.

####7. 多元標註(N-gram Tagger)
多元標註使用訓練集來確定對每個上下文哪個詞性標記最有可能。上下文指當前詞和它前面 n-1 個識別符號的詞性標記.
在這裡,就是找一些規律, 比如: XX常出現在名詞之前, YY常出現在動詞之後. 通過某個詞以及它之前那個詞的詞性來判斷它的詞性. 這就是二元標註. 同理,可以生成三元甚至多元標註.詞的距離越遠影響越小, 也更佔用資源, 一般二元到三元就夠了.

####8. 組合標註
更精確的演算法在很多時候落後於具有更廣覆蓋範圍的演算法(比如滿足三元標的詞可能非常少), 所以有時我們組合多個標註器,
在這裡,組合 bigram 標註器、unigram 標註器和一個預設標註器

In [34]:
# NLTK 全名是 Natural Language Tool Kit， 是一套基於 Python 的自然語言處理工具箱。
import nltk

# 在使用NLTK執行分詞之前，我們需要先安裝「punkt」部件。「punkt」包含了許多預訓練好的分詞模型。如果沒有安裝「punkt」，我們在使用時系統將會報錯，提示我們進行安裝。
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [35]:
# 使用 tokenize 進行斷詞
# 使用 word_tokenize 可以進行斷詞，而 sent_tokenize 可以幫助我們斷句
words = nltk.word_tokenize('I am a fish')
print(words)

# 詞性標註
nltk.download('averaged_perceptron_tagger')
word_tag = nltk.pos_tag(words)
print(word_tag)

['I', 'am', 'a', 'fish']
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[('I', 'PRP'), ('am', 'VBP'), ('a', 'DT'), ('fish', 'NN')]


In [36]:
# 下載這個文本
# sinica_treebank是繁體中文的語料庫，用法和corpus內其他文章滿相似的
nltk.download('sinica_treebank')

[nltk_data] Downloading package sinica_treebank to /root/nltk_data...
[nltk_data]   Package sinica_treebank is already up-to-date!


True

In [37]:
# 中文語料庫sinica_treebank，該庫使用繁體中文，該庫也被標註了詞性
sinica_treebank = nltk.corpus.sinica_treebank

# 顯示單詞列表
words = sinica_treebank.words('parsed')
print(words[:40])

# 顯示標註好詞性的單詞列表
words_tag = sinica_treebank.tagged_words('parsed')
print(words_tag[:40])

['一', '友情', '嘉珍', '和', '我', '住在', '同一條', '巷子', '我們', '是', '鄰居', '也', '是', '同班', '同學', '我們', '常常', '一起', '上學', '一起', '回家', '有一天', '上學', '時', '我', '到', '她', '家', '等候', '按', '了', '門鈴', '卻', '沒有', '任何', '動靜', '正當', '我', '想', '離開']
[('一', 'Neu'), ('友情', 'Nad'), ('嘉珍', 'Nba'), ('和', 'Caa'), ('我', 'Nhaa'), ('住在', 'VC1'), ('同一條', 'DM'), ('巷子', 'Nab'), ('我們', 'Nhaa'), ('是', 'V_11'), ('鄰居', 'Nab'), ('也', 'Dbb'), ('是', 'V_11'), ('同班', 'Nv3'), ('同學', 'Nab'), ('我們', 'Nhaa'), ('常常', 'Dd'), ('一起', 'Dh'), ('上學', 'VA4'), ('一起', 'Dh'), ('回家', 'VA13'), ('有一天', 'DM'), ('上學', 'VA4'), ('時', 'Ng'), ('我', 'Nhaa'), ('到', 'P61'), ('她', 'Nhaa'), ('家', 'Ncb'), ('等候', 'VK2'), ('按', 'VC2'), ('了', 'Di'), ('門鈴', 'Nab'), ('卻', 'Dbb'), ('沒有', 'VJ3'), ('任何', 'Neqa'), ('動靜', 'Nad'), ('正當', 'P16'), ('我', 'Nhaa'), ('想', 'VE2'), ('離開', 'VC2')]


- CC 連接詞 and, or,but, if, while,although
- CD 數量詞 twenty-four, fourth, 1991,14:24
- DT 限定词 the, a, some, most,every, no
- EX 存在量词 there, there's
- FW 外来词 dolce, ersatz, esprit, quo,maitre
- IN 介係詞 on, of,at, with,by,into, under
- JJ 形容词 new,good, high, special, big, local
- JJR 比較級 bleaker braver breezier briefer brighter brisker
- JJS 最高級 calmest cheapest choicest classiest cleanest clearest
- LS 標記 A A. B B. C C. D E F First G H I J K
- MD 情緒動詞 can cannot could couldn't
- NN 名詞 year,home, costs, time, education
- NNS 名詞復數 undergraduates scotches
- NNP 專有名詞 Alison,Africa,April,Washington
- NNPS 專有名詞複數 Americans Americas Amharas Amityvilles
- PDT 前限定词 all both half many
- POS 所有格 ' 's
- PRP 人稱代名詞 hers herself him himself hisself
- PRP 所有格 her his mine my our ours
- RB 副詞 occasionally unabatingly maddeningly
- RBR 副詞比較級 further gloomier grander
- RBS 副詞最高級 best biggest bluntest earliest
- RP 虛詞 aboard about across along apart
- SYM 符号 % & ' '' ''. ) )
- TO 詞 to to
- UH 感嘆詞 Goodbye Goody Gosh Wow
- VB 動詞 ask assemble assess
- VBD 動詞過去式 dipped pleaded swiped
- VBG 動詞現在分詞 telegraphing stirring focusing
- VBN 動詞過去分詞 multihulled dilapidated aerosolized
- VBP 動詞現在式非第三人稱時態 predominate wrap resort sue
- VBZ 動詞現在式第三人稱時態 bases reconstructs marks
- WDT Wh 限定詞 who,which,when,what,where,how
- WP WH代詞 that what whatever
- WP WH代詞所有格 whose
- WRB WH複詞



In [38]:
# 顯示標註好詞性的句子列表
sents = sinica_treebank.tagged_sents('parsed')
print(sents[3])

[('我們', 'Nhaa'), ('是', 'V_11'), ('鄰居', 'Nab')]


In [39]:
# 將資料分成訓練集和測試集
# 90％為測試數據，其餘10％為測試數據
tagged_sents = nltk.corpus.sinica_treebank.tagged_sents()
size = int(len(tagged_sents) * 0.9)  # 0.9關係到分割比例
train_sents = tagged_sents[:size]	
test_sents = tagged_sents[size:]	

# 組合標註器
# 解決精度和覆蓋範圍之間權衡的一個辦法是儘可能地使用更精確的演算法，但卻在很多時候卻遜於覆蓋範圍更廣的演算法．如組合bigram標註器和unigram標註器和一個預設標註器．
# 嘗試使用bigram標註器標註識別符號
# 如果bigram標準器無法找到標記，嘗試unigram標註器
# 如果unigram標註器也無法找到標記，使用預設標註器

# 預設標註器 
t0 = nltk.DefaultTagger('NN')
print (t0.evaluate(test_sents))  #評估

# 一元標註器(Unigram Tagging)
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
print (t1.evaluate(test_sents))  #評估

# 一般的N-gram的標註
t2 = nltk.BigramTagger(train_sents, backoff=t1)
print (t2.evaluate(test_sents))	  #評估

0.0
0.6942689362967368
0.6995465695383929


In [0]:
# 載入套件
from keras.layers.core import Activation, Dense,Dropout
from keras.layers.embeddings import Embedding
from keras.layers.recurrent import LSTM
from keras.models import Sequential
from keras.preprocessing import sequence
from sklearn.model_selection import train_test_split
import collections
import numpy as np
from keras.models import load_model

In [41]:
## 探索數據分析(EDA)
# 在開始前，先對所用數據做個初步探索。特別地，我們需要知道數據中有多少個不同的單詞，每句話由多少個單詞組成。

max_len = 0  #初始設定最長的長度為0

# 詞頻
word_freqs = collections.Counter()

# 樣本數
num_recs = 0

with open('Sentiment1_training.txt','r', encoding='UTF-8') as f: #開檔案
    for line in f:
        label, sentence = line.strip().split("\t") # 分割
        # raw_input()  -> ' insert 0 5     '
        # raw_input().strip() -> 'insert 0 5'
        # raw_input().strip().strip() -> ['insert', '0', '5']
        words = nltk.word_tokenize(sentence.lower())  # 使用 tokenize 進行斷詞並將大寫換小寫
        w_len = len(words)   # 利用w_len儲存w的長度
        if w_len > max_len:  # 判斷w這個字的長度是否大於目前的字
            max_len = w_len  # 如果w這個字的長度大於目前的字，則將原本的長度變成目前長度最長字的長度
        for word in words:  # 判斷 word 是否在 words 裡面
            word_freqs[word] += 1  # 詞頻數+1
        num_recs += 1 # 樣本數+1

print('max_len ',max_len)
print('nb_words ', len(word_freqs))

# 可見一共有 2328 個不同的單詞，包括標點符號。
# 每句話最多包含 42 個單詞。

# 根據不同單詞的個數 (nb_words)，我們可以把詞彙表的大小設為一個定值，並且對於不在詞彙表里的單詞，把它們用偽單詞 UNK 代替。
# 根據句子的最大長度 (max_lens)，我們可以統一句子的長度，把短句用 0 填充。


max_len  42
nb_words  2328


In [50]:
# 準備數據 先找出所有的單字，給予序號，再將每一句訓練資料的單字轉為序號。

# 最大長度
max_features = 2000 

# 單一句子中最大的單字數
max_sentence_length = 40

# 依前所述，我們把 VOCABULARY_SIZE 設為 2002。包含訓練數據中按詞頻從大到小排序後的前 2000 個單詞，外加一個偽單詞 UNK 和填充單詞 0
vocab_size = min(max_features, len(word_freqs)) + 2

# 建立兩個表，word2index和 index2word，用於單詞和數字轉換，把句子轉換成數字序列，長度統一到 max_sentence_length，不夠的填0，多出的截掉
# word_index長度等於所有已知單字
word_index = {x[0]: i+2 for i, x in enumerate(word_freqs.most_common(max_features))}
word_index["PAD"] = 0
word_index["UNK"] = 1

# 接下來建立兩個 lookup tables，分別是 word2index 和 index2word，用於單詞和數字轉換。
index2word = {v:k for k, v in word_index.items()}
X = np.empty(num_recs,dtype=list)
y = np.zeros(num_recs)
i=0

print(X)
print(y)
print(i)


[None None None ... None None None]
[0. 0. 0. ... 0. 0. 0.]
0


In [51]:
# 讀取訓練資料，將每一單字以 dictionary 儲存
with open('Sentiment1_training.txt','r', encoding='UTF-8') as f:
    for line in f:
        label, sentence = line.strip().split("\t")  # 分割
        words = nltk.word_tokenize(sentence.lower())  # 使用 tokenize 進行斷詞並將大寫換小寫
        seqs = [] #　建立空陣列
        for word in words:   # 判斷 word 是否在 words 裡面
            if word in word_index: # 判斷 word 是否在　word_index裡面　
                seqs.append(word_index[word])# 如果是的話增加word
            else:
                seqs.append(word_index["UNK"]) #否則的話增加　"UNK"
        X[i] = seqs
        y[i] = int(label)
        i += 1#i+1
        
        
print(X)
print(y)
print(i)

[list([5, 10, 9, 12, 101, 17, 48, 22, 4])
 list([67, 19, 5, 115, 969, 970, 2, 358, 136, 110, 3, 44, 317, 319, 23, 971, 3, 6, 10, 9, 12, 137, 118, 972, 341, 67, 4])
 list([2, 122, 5, 10, 9, 12, 18, 325, 4]) ...
 list([34, 2, 303, 96, 3, 156, 5, 304, 26, 220, 3, 2, 58, 305, 38, 73, 37, 2, 306, 5, 26, 11, 13, 4])
 list([94, 11, 13, 17, 144, 18, 127, 26, 4])
 list([89, 3, 6, 11, 13, 19, 18, 87, 26, 4])]
[1. 1. 1. ... 0. 0. 0.]
7086


In [0]:
# 字句長度不足補空白        
X = sequence.pad_sequences(X, maxlen = max_sentence_length)

# 最後是劃分數據，80% 作為訓練數據，20% 作為測試數據。
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [69]:
# 模型構建
embedding_size = 128
hidden_layer_size = 64
batch_size = 32
num_epochs = 20
model = Sequential()

# 加『嵌入』層
# 將『數字list』轉為32維度的向量
# 建立2002維度的向量  ->  因為vocab_size為2002
# list每筆為max_sentence_length個字 
# 加入Dropout避免overfitting   ->   在每一次訓練迭代時隨機放棄20%神經元
model.add(Embedding(vocab_size, embedding_size, input_length=max_sentence_length))
model.add(Dropout(0.2))  

# 加『LSTM』層
model.add(LSTM(hidden_layer_size, dropout=0.2, recurrent_dropout=0.2))

#隱藏層有256個神經元
#定義激活函數  ->  relu
#加入Dropout避免overfitting   ->   在每一次訓練迭代時隨機放棄35%神經元
model.add(Dense(units=256, activation='relu' ))
model.add(Dropout(0.2))

#輸出層有1個神經元
#定義激活函數  ->  sigmoid
model.add(Dense(units=1,activation='sigmoid' ))

model.summary()

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_3 (Embedding)      (None, 40, 128)           256256    
_________________________________________________________________
dropout_5 (Dropout)          (None, 40, 128)           0         
_________________________________________________________________
lstm_3 (LSTM)                (None, 64)                49408     
_________________________________________________________________
dense_5 (Dense)              (None, 256)               16640     
_________________________________________________________________
dropout_6 (Dropout)          (None, 256)               0         
_________________________________________________________________
dense_6 (Dense)              (None, 1)                 257       
Total params: 322,561
Trainable params: 322,561
Non-trainable params: 0
________________________________________________

In [0]:
# binary_crossentropy:二分法
# 設定損失函數
# 設定最優化的訓練方法
# 設定評估模型方式
model.compile(loss="binary_crossentropy", optimizer="adam",metrics=["accuracy"])

In [71]:
# 模型訓練
# 設定訓練參數  ->  x:feature  y:label
# 設定每一次訓練幾筆資料
# 設定執行幾次週期
# 顯示訓練過程
# 設定訓練與驗證資料比例
model.fit(x_train, y_train, batch_size=batch_size, epochs=num_epochs,validation_data=(x_test, y_test))

Train on 5668 samples, validate on 1418 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x7efbe4e0b940>

In [72]:
# 使用model.evaluate進行評估模型準確率，評估後的準確率會儲存在sorces
# 設定測試資料參數  ->  x:features  y:label
sorces =  model.evaluate ( x_test , y_test , verbose=1 )  
sorces[1]



0.9858956276445698