# 13.Python資料分析應用-語意分析篇NLP

## 基本功

### 斷詞

- jieba
https://github.com/fxsjy/jieba

In [0]:
import jieba

seg_list = jieba.cut("我是胖虎我是孩子王", cut_all=True)
print("Paddle Mode: " + "/ ".join(seg_list))  # paddle模式

Paddle Mode: 我/ 是/ 胖/ 虎/ 我/ 是/ 孩子/ 孩子王


In [0]:
from jieba import posseg

text = '我是胖虎，我是孩子王'
words = posseg.cut(text)
print([word for word in words])
words_list = posseg.lcut(text)
print(words_list)

[pair('我', 'r'), pair('是', 'v'), pair('胖虎', 'n'), pair('，', 'x'), pair('我', 'r'), pair('是', 'v'), pair('孩子王', 'n')]
[pair('我', 'r'), pair('是', 'v'), pair('胖虎', 'n'), pair('，', 'x'), pair('我', 'r'), pair('是', 'v'), pair('孩子王', 'n')]


- 中研院中文斷詞系統PyCKIP
  -  https://github.com/ComposeAI/pyCKIP

### 以模組進行基本語意分析
- 以[手把手教你如何用 Python 做情感分析](https://www.itread01.com/articles/1498721884.html)為例
- 使用SnowNLP

#### 英文為例

In [0]:
#安裝相關套件
!pip install snownlp
!pip install -U textblob
!python -m textblob.download_corpora

Collecting snownlp
[?25l  Downloading https://files.pythonhosted.org/packages/3d/b3/37567686662100d3bce62d3b0f2adec18ab4b9ff2b61abd7a61c39343c1d/snownlp-0.12.3.tar.gz (37.6MB)
[K     |████████████████████████████████| 37.6MB 64kB/s 
[?25hBuilding wheels for collected packages: snownlp
  Building wheel for snownlp (setup.py) ... [?25l[?25hdone
  Created wheel for snownlp: filename=snownlp-0.12.3-cp36-none-any.whl size=37760958 sha256=7932304804a4dd051b9b95c1e501897ed2ce2c7c06514f303c7b3e74cc9b1c23
  Stored in directory: /root/.cache/pip/wheels/f3/81/25/7c197493bd7daf177016f1a951c5c3a53b1c7e9339fd11ec8f
Successfully built snownlp
Installing collected packages: snownlp
Successfully installed snownlp-0.12.3
Requirement already up-to-date: textblob in /usr/local/lib/python3.6/dist-packages (0.15.3)
[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tok

In [0]:
text = "I am happy today. I feel sad today."

In [0]:
from textblob import TextBlob

blob = TextBlob(text)
blob.sentences

[Sentence("I am happy today."), Sentence("I feel sad today.")]

In [0]:
#情感極性的變化範圍是[-1, 1]，-1代表完全負面，1代表完全正面。
print(blob.sentences[0].sentiment)
print(blob.sentences[1].sentiment)
print(blob.sentiment)

Sentiment(polarity=0.8, subjectivity=1.0)
Sentiment(polarity=-0.5, subjectivity=1.0)
Sentiment(polarity=0.15000000000000002, subjectivity=1.0)


#### 中文為例

- 使用SnowNLP: http://t.cn/8kf1c3p

- 情感係數：SnowNLP(i).sentiments
- 分詞：SnowNLP(i).words
- 轉拼音：SnowNLP(i).pinyin
- 關鍵詞提取：SnowNLP(i).keywords(2) # n預設為5
- 自動文摘：SnowNLP(i).summary(1) # n預設為5
- 句子切分：SnowNLP(i).sentences
- 轉簡體：SnowNLP(i).han
- 計算相似度：SnowNLP(i).sim(doc,index)
- 計算term frequency詞頻：SnowNLP(i).tf  單個字的詞頻，暫時沒啥用

In [0]:
text = "我今天很快樂。我今天很憤怒。" 

In [0]:
from snownlp import SnowNLP

s = SnowNLP(text)
s.sentences

In [0]:
s.words

In [0]:
#SnowNLP的情感分析取值，表達的是“這句話代表正面情感的概率”。
print(SnowNLP(s.sentences[0]).sentiments)
print(SnowNLP(s.sentences[1]).sentiments)
print(s.sentiments)

In [0]:
text = '''
台中市雷姓男子去年10月間在西區公益路、大墩路的工地喝酒後，騎車上路，遭警方盤查後，酒測值超標為每公升0.70毫克，他遭警方依公共危險罪嫌送辦，檢方聲請簡易判決處刑，法官判他4月徒刑、得易科罰金，但他今年2月要報到執行時，檢方命他不得易科，需入監服刑，他向台中地院聲明異議，法官審理後認為，雷在2016至2018年間連續3度酒駕，前二次一次是緩起訴、另次則是易科罰金，但此次又被查獲，已是第三次，認為他漠視法律，不矯正難收矯正之效，駁回雷聲明異議，判雷要關。
判決書指出，雷姓男子（41歲）去年10月間酒後騎車被查獲，酒測值為每公升0.70毫克，台中地院依公共危險罪，簡易判決處刑4月，得易科罰金12萬元，不過雷在今年2月到台中地檢署報到執行時，檢方諭令他不得易科，需入監服刑，他不服向台中地院聲明異議。

雷辯稱，判決書上明寫可易科罰金，為何檢方堅持要讓他去服刑，而且他已離婚是單親家庭，有未成年子女要撫養，家境貧寒是中低收入戶，更是家中主要的經濟支柱，希望法官撤銷檢察官不得易科的執行指揮處分，准予讓他易科罰金。

台中地院法官審理後認為，雖然法律有規定，本刑5年以下，宣告6月以下徒刑者， 得易科罰金，不過但書是「難收矯正之效或難以維持法秩序者，不在此限」，易科罰金的易刑處分，應否准許，依照《刑事訴訟法》第457條規定，由檢察官就是否准予受刑人易科罰金，有無但書情況，由檢方查明認定並指揮執行。

法官指出，雷在2016年酒駕被查獲後，獲緩起訴處分，2017年又被查獲酒駕，當時被判3月徒刑，得易科9萬元，但他2018年又喝酒上路，顯示雷沒有因前兩次遭查獲的前例，而有所警惕，且去年被查獲時，是在喝完啤酒不久就騎車上路，顯然極度漠視法令，其行為對社會法秩序之危害重大，因此認定檢方的處分無不妥，駁回雷聲明異議。
'''

In [0]:
text2 = '''
川普總統在眾議院召開全院辯論之際，在白宮以全大寫推文痛批彈劾為「狠毒的謊言、對美國的攻擊」，並選在眾院投票的時候在密西根州舉行「耶誕快樂」造勢大會。
川普在白宮以全大寫推文和誇張的慍怒語氣寫道，「激進左派如此狠毒的謊言，無所事事的民主黨。這是對美國的攻擊，這是對共和黨的攻擊」。
'''

In [0]:
s = SnowNLP(text2)
# s.sentences[0]
s.sentiments

1.682213436327018e-07

參考-https://medium.com/pyladies-taiwan/nltk-%E5%88%9D%E5%AD%B8%E6%8C%87%E5%8D%97-%E4%B8%80-%E7%B0%A1%E5%96%AE%E6%98%93%E4%B8%8A%E6%89%8B%E7%9A%84%E8%87%AA%E7%84%B6%E8%AA%9E%E8%A8%80%E5%B7%A5%E5%85%B7%E7%AE%B1-%E6%8E%A2%E7%B4%A2%E7%AF%87-2010fd7c7540

## 以機械學習做PTT電影版情義分析


- 以下來自[Python 網路爬蟲與資料分析入門實戰 ](https://www.tenlong.com.tw/products/9789864343386)
- 2019年10月出版的新書，裡面很多台灣在地的爬蟲應用教學，[github](https://github.com/willismax/py-scraping-analysis-book)也有該書的程式碼，可以先試試看。
- 此例為以PTT電影版關鍵字輸入影片名稱做舉例，以「好雷、負雷」做分類，以機械學習方式，將各文章內文詞斷詞，並預測分類結果

In [0]:
import requests
import re
import csv
from bs4 import BeautifulSoup


PTT_URL = 'https://www.ptt.cc'


def get_articles(url):
    resp = requests.get(
        url=url,
        cookies={'over18': '1'}  # 告知 Server 已回答過滿 18 歲的問題
    )
    soup = BeautifulSoup(resp.text, 'html5lib')
    prev_link = soup.find('div', 'btn-group-paging').find_all('a')[1]
    # 若 <a> 有 href 屬性, 代表有上一頁的超連結
    prev_link = prev_link['href'] if 'href' in prev_link.attrs else None

    # 巡覽每一篇文章所在區塊
    positive = []
    negative = []
    for div in soup.find_all('div', 'r-ent'):
        href = div.find('div', 'title').a['href']
        title = div.find('div', 'title').text.strip()
        # 若標題為 [] 開頭, e.g., [好雷] 星際大戰八-各種元素集於一身
        if re.match('\[.*\]', title):
            tag = re.match('\[.*\]', title).group(0)
            # 標籤內含'好'為好評; 含'負'或'爛'為負評
            if '好' in tag:
                positive.append([title, href])
            if '爛' in tag or '負' in tag:
                negative.append([title, href])
    return prev_link, positive, negative


if __name__ == '__main__':
    start_url = PTT_URL + '/bbs/movie/search?q=黑豹'
    positive_posts, negative_posts = [], []
    prev_link, pos, neg = get_articles(start_url)
    positive_posts += pos
    negative_posts += neg
    while prev_link:
        url = PTT_URL + prev_link
        prev_link, pos, neg = get_articles(url)
        positive_posts += pos
        negative_posts += neg
    print(len(positive_posts), positive_posts[:3])
    print(len(negative_posts), negative_posts[:3])

    with open('./data/mov_pos.csv', 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(['title', 'href'])
        writer.writerows(positive_posts)

    with open('./data/mov_neg.csv', 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(['title', 'href'])
        writer.writerows(negative_posts)

60 [['[好雷]  黑豹 --其實蠻好看的', '/bbs/movie/M.1552276420.A.F6F.html'], ['[好雷?] 黑豹 自慰片的新高度', '/bbs/movie/M.1545317279.A.EFC.html'], ['[二刷好雷] 水行俠真的不是黑豹', '/bbs/movie/M.1545065816.A.46A.html']]
27 [['[負雷]黑豹-失衡的烏托邦', '/bbs/movie/M.1529245622.A.AF5.html'], ['[負雷] 四不像的黑豹', '/bbs/movie/M.1527918611.A.56C.html'], ['[微負雷] 黑豹有點讓人失望....', '/bbs/movie/M.1527839684.A.EF0.html']]


In [0]:
import csv
import requests
import re
import json
import time
from bs4 import BeautifulSoup


PTT_URL = 'https://www.ptt.cc'


def sanitize(txt):
    # 保留英數字, 中文 (\u4e00-\u9fa5) 及中文標點, 部分特殊符號
    # http://ubuntu-rubyonrails.blogspot.com/2009/06/unicode.html
    expr = re.compile('[^\u4e00-\u9fa5。；，：“”（）、？「」『』【】\s\w:/\-.()]')  # ^ 表示"非括號內指定的字元"
    txt = re.sub(expr, '', txt)
    txt = re.sub('[。；，：“”（）、？「」『』【】:/\-_.()]', ' ', txt)  # 用空白取代中英文標點
    txt = re.sub('(\s)+', ' ', txt)  # 用單一空白取代多個換行或 tab 符號
    txt = txt.replace('--', '')
    txt = txt.lower()  # 英文字轉為小寫
    return txt


def get_post(url):
    resp = requests.get(
        url=url,
        cookies={'over18': '1'}  # 告知 Server 已回答過滿 18 歲的問題
    )
    soup = BeautifulSoup(resp.text, 'html5lib')
    main_content = soup.find('div', id='main-content')

    # 把非本文的部份 (標題區及推文區) 移除
    # 移除標題區塊
    for meta in main_content.find_all('div', 'article-metaline'):
        meta.extract()
    for meta in main_content.find_all('div', 'article-metaline-right'):
        meta.extract()
    # 移除推文區塊
    for push in main_content.find_all('div', 'push'):
        push.extract()

    parsed = []
    for txt in main_content.stripped_strings:
        # 移除 '※ 發信站:', '--' 開頭, 及本文區最後一行文章網址部份
        if txt[0] == '※' or txt[:2] == '--' or url in txt:
            continue
        txt = sanitize(txt)
        if txt:
            parsed.append(txt)
    return ' '.join(parsed)


def get_article_body(csv_file):
    id_to_body = {}
    with open(csv_file, 'r', encoding='utf-8') as f:
        reader = csv.DictReader(f)
        for row in reader:
            print('處理', row['title'], row['href'])
            title = ' '.join(row['title'].split(']')[1:])
            title = sanitize(title)
            body = get_post(PTT_URL + row['href'])
            id_to_body[row['href']] = title + ' ' + body  # 以文章超連結為 key, 標題 + 本文為 value
            time.sleep(1)  # 放慢爬蟲速度
    return id_to_body


if __name__ == '__main__':
    d1 = get_article_body('./data/mov_pos.csv')
    d2 = get_article_body('./data/mov_neg.csv')
    id_to_body = {**d1, **d2}  # 將兩個 dict 合併為一個
    with open('./data/id_to_body.json', 'w', encoding='utf-8') as f:
        json.dump(id_to_body, f, indent=2, ensure_ascii=False)

處理 [好雷]  黑豹 --其實蠻好看的 /bbs/movie/M.1552276420.A.F6F.html
處理 [好雷?] 黑豹 自慰片的新高度 /bbs/movie/M.1545317279.A.EFC.html
處理 [二刷好雷] 水行俠真的不是黑豹 /bbs/movie/M.1545065816.A.46A.html
處理 [好雷] 盲點：關於《黑豹》的奧克蘭也關於你我的故事 /bbs/movie/M.1538060300.A.8FD.html
處理 [好雷] 瘋狂亞洲富豪─絕不是新加坡黑豹 /bbs/movie/M.1536676591.A.C8F.html
處理 [微好雷]《雷神索爾3諸神黃昏》＆《黑豹》 /bbs/movie/M.1536217925.A.B6E.html
處理 [好雷] 比黑豹好看的蟻人與黃蜂女 /bbs/movie/M.1531217457.A.6C8.html
處理 [好雷]黑豹 — 符合台灣政治的隱喻分析 /bbs/movie/M.1525369009.A.CFA.html
處理 [好雷] 黑豹：一部政治寓言 /bbs/movie/M.1521128014.A.19B.html
處理 [好雷]黑豹，好看但可惜的反派 /bbs/movie/M.1520467155.A.8E5.html
處理 [好雷] 黑豹心得 /bbs/movie/M.1519920385.A.14A.html
處理 [ 好雷] 唯一缺憾的黑豹 /bbs/movie/M.1519908058.A.B99.html
處理 [好雷] 黑豹 感想 微負評 /bbs/movie/M.1519841715.A.3BF.html
處理 [核心好雷] 黑豹-科技與部落的反差萌 人權與人道議題 /bbs/movie/M.1519812809.A.DC3.html
處理 [普好雷] 立體的世界，被一掌拍平，淺談【黑豹】 /bbs/movie/M.1519787493.A.BFD.html
處理 [有意見好雷] 比上沒得比，比下有餘的黑豹 /bbs/movie/M.1519734682.A.979.html
處理 [好雷] 黑豹 ~ 屬於黑人的童話故事 /bbs/movie/M.1519618436.A.EA0.html
處理 [ 好 雷] 黑豹 /bbs/movie/M.15

In [0]:
!pip3 install jieba



In [0]:
import json
import csv
import jieba
import random
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score

jieba.set_dictionary('./data/dict.txt.big')  # 對繁體中文斷詞較準確的字典檔


def load_data(a_csv, b_json, label):
    a_ids = []
    with open(a_csv, 'r', encoding='utf-8') as f:
        reader = csv.DictReader(f)
        for row in reader:
            a_ids.append(row['href'])
    with open(b_json, 'r', encoding='utf-8') as f:
        id_to_body = json.load(f)
    data = []
    for a_id in a_ids:
        tokenized_post = []
        txt = id_to_body[a_id]
        for sent in txt.split():  # 將文章以空白隔開
            # 斷詞後的結果, 若非空白且長度為 2 以上, 則列入詞庫
            filtered = [t for t in jieba.cut(sent) if t.split() and len(t) > 1]
            tokenized_post += filtered
        data.append((tokenized_post, label))
    return data


if __name__ == '__main__':
    pos_data = load_data('./data/mov_pos.csv', './data/id_to_body.json', '正評')
    neg_data = load_data('./data/mov_neg.csv', './data/id_to_body.json', '負評')

    '''
    # 印出正評與負評文章的前幾個字, 確認資料無誤
    for post, label in pos_data[:3]:
        print(post[:5], label)
    for post, label in neg_data[:3]:
        print(post[:5], label)
    '''

    # 打亂資料順序
    random.seed(42)
    random.shuffle(pos_data)
    random.shuffle(neg_data)

    x_train, y_train, x_test, y_test = [], [], [], []
    # 前 22 筆資料 (及答案) 放入 training set
    # 建立資料時要用空白將斷好的詞重新連成一個字串, 以便之後使用 scikit-learn 建立字典並轉換文字資料為向量
    for i in range(10):
        x_train.append(' '.join(pos_data[i][0]))
        x_train.append(' '.join(neg_data[i][0]))
        y_train.append(pos_data[i][1])
        y_train.append(neg_data[i][1])
    # 最後 5 筆資料 (及答案) 放入 testing set
#     for i in range(5, len(pos_data)):
    for i in range(10, 27):
        x_test.append(' '.join(pos_data[i][0]))
        x_test.append(' '.join(neg_data[i][0]))
        y_test.append(pos_data[i][1])
        y_test.append(neg_data[i][1])

    vectorizer = CountVectorizer()
    x_train = vectorizer.fit_transform(x_train)
    transformer = TfidfTransformer()
    x_train = transformer.fit_transform(x_train)
    clf = SGDClassifier(random_state=42)
    clf.fit(x_train, y_train)
    x_test = vectorizer.transform(x_test)
    x_test = transformer.transform(x_test)
    y_pred = clf.predict(x_test)
    print('預測結果:', list(y_pred))
    print('正確答案:', y_test)
    print('正確率:', accuracy_score(y_test, y_pred))

    # 測試自己輸入的句子
    sentences = [
        '我 覺得 這部 電影 還 不錯',
        '這部 片 應該 可以 更好 才對'
    ]
    analyze = vectorizer.build_analyzer()
    print(analyze(sentences[0]))
    print(analyze(sentences[1]))

    custom_data = transformer.transform(vectorizer.transform(sentences))
    print(clf.predict(custom_data))

Building prefix dict from /home/nbuser/library/lesson/data/dict.txt.big ...
Loading model from cache /tmp/jieba.u863534f77a5b7aa5dc55e7aac03546ba.cache
Loading model cost 7.137 seconds.
Prefix dict has been built succesfully.


預測結果: ['正評', '負評', '正評', '正評', '負評', '負評', '負評', '正評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '正評', '正評', '負評', '負評', '負評', '負評', '正評', '正評', '負評', '正評', '正評', '正評', '負評', '負評', '負評', '負評', '負評', '正評', '正評']
正確答案: ['正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評', '正評', '負評']
正確率: 0.6470588235294118
['覺得', '這部', '電影', '不錯']
['這部', '應該', '可以', '更好', '才對']
['負評' '正評']




In [0]:
len(neg_data)

27

## 以RNN做情意分析

- RNN 是一種「有記憶」的神經網路, 具有處理時間序列的特性, 或是不定長度的輸入資料。

- 以RNN做電影評論的「情意分析」正/負評為例，

In [1]:
%tensorflow_version 2.x

TensorFlow 2.x selected.


In [0]:
%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt

### 讀入資料-IMDB電影數據

- 讀取資料，並限制只選用1萬字。
- 如果要客製化下載結果，建議一定要看官方文件唷，譬如[tf.keras.datasets.imdb](https://www.tensorflow.org/api_docs/python/tf/keras/datasets/imdb/load_data?hl=zh-TW&version=stable)

In [3]:
from tensorflow.keras.datasets import imdb
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz


In [4]:
print('訓練總筆數:', len(x_train))
print('測試總筆數:', len(x_test))

訓練總筆數: 25000
測試總筆數: 25000


#### 觀察資料

- 資料內容為影評文字，而儲存資料型態是list而不是array,原因是每筆資料 (每段影評) 長度不一樣。
- 在每筆輸入資料的數字都代表英文的一個單字。編號方式是在我們資料庫裡所有文字的排序: 也就是出現頻率越高, 代表的數字就越小。

In [6]:
x_train[18763]

[1,
 6915,
 4272,
 4,
 6352,
 2846,
 9,
 209,
 6,
 824,
 381,
 23,
 86,
 650,
 94,
 6,
 2821,
 821,
 948,
 5,
 1193,
 168,
 83,
 4,
 465,
 499,
 7,
 406,
 876,
 14,
 20,
 214,
 208,
 8,
 4,
 213,
 25,
 203,
 30,
 536,
 51,
 213,
 4,
 213,
 9,
 8,
 4787,
 2,
 7,
 43,
 1572,
 567,
 5,
 599,
 14,
 20,
 47,
 49,
 599,
 53,
 42,
 329,
 43,
 8621,
 6,
 372,
 8850,
 50,
 26,
 66,
 64,
 342,
 2,
 15,
 100,
 30,
 1192,
 599,
 637,
 376,
 25,
 31,
 155,
 151,
 6915,
 4272,
 4,
 6352,
 2846,
 166,
 7772,
 168,
 40,
 2,
 890,
 48,
 25,
 197,
 7772,
 16,
 6,
 932,
 1770,
 1193,
 1789,
 509,
 95,
 25,
 2808,
 110,
 4,
 320,
 7,
 12,
 366,
 874,
 110,
 6915,
 4272,
 4,
 6352,
 2846,
 10,
 10,
 20,
 675,
 2241,
 457,
 599,
 2241,
 158,
 10,
 10,
 6915,
 4272,
 4,
 6352,
 2846,
 5444,
 693]

In [10]:
len(x_train[18763])

140

In [12]:
# 1為正評、0為負評
y_train[:10]

array([1, 0, 0, 1, 0, 0, 1, 0, 1, 0])

In [0]:
y_train[18763]

1

### 輸入至RNN

- RNN可以處理不同長度的輸入，但還是要注意以下原則
  - 設定輸入文字長度上限
  - 每段文字要一樣長，短的後面補0

In [0]:
from tensorflow.keras.preprocessing import sequence

In [0]:
#以tf.keras.preprocessing.sequence.pad_sequences將序列填充到相同的長度。

x_train = sequence.pad_sequences(x_train, maxlen=150)
x_test = sequence.pad_sequences(x_test, maxlen=150)

In [17]:
x_train.shape

(25000, 150)

### 建立RNN

這裡我們選用 LSTM，決定神經網路架構
- 先將 10000 維的文字壓到 N 維
- 然後用 K 個 LSTM 神經元做隱藏層
- 最後一個 output, 直接用 sigmoid 送出


建構我們的神經網路
- 文字我們用 1-hot 表示是很標準的方式,不過指定要 1 萬個字, 所以每個字是用 1 萬維的向量表示! 這一來很浪費記憶空間, 二來字和字間基本上是沒有關係的。我們可以用某種「合理」的方式, 把字壓到比較小的維度, 這些向量又代表某些意思 (比如說兩個字代表的向量角度小表相關程度大) 等等。

- 這聽來很複雜的事叫 "word embedding", 而事實上 Keras 會幫我們做。我們只需告訴 Keras 原來最大的數字是多少 (10000), 還有我們打算壓到幾維 (N)。

In [0]:
N = 3 # 文字要壓到 N 維
K = 4 # LSTM 有 K 個神經元

In [0]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding
from tensorflow.keras.layers import LSTM

model = Sequential()
model.add(Embedding(10000, N))
model.add(LSTM(K))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [20]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, None, 3)           30000     
_________________________________________________________________
lstm (LSTM)                  (None, 4)                 128       
_________________________________________________________________
dense (Dense)                (None, 1)                 5         
Total params: 30,133
Trainable params: 30,133
Non-trainable params: 0
_________________________________________________________________


### 訓練模型

我們用的 embedding 中, 會被 batch_size 影響輸入。輸入的 shape 會是

(batch_size, 每筆上限)
也就是 (32,100) 輸出是 (32,100,128), 其中 128 是我們決定要壓成幾維的向量。

In [21]:
model.fit(x_train, y_train,
         batch_size=32,
         epochs=5)

Train on 25000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x7f3ccb15f978>

### 檢視結果

In [22]:
score = model.evaluate(x_test, y_test)



In [23]:
print(f'測試資料的 loss = {score[0]}')
print(f'測試資正確率 = {score[1]}')

測試資料的 loss = 0.3996563444042206
測試資正確率 = 0.8475599884986877


### 儲存結果

In [0]:
model_json = model.to_json()
open('imdb_model_arch.json','w').write(model_json)
model.save_weights('imdb_model_weights.h5')

### refecence
- [手把手教你如何用 Python 做情感分析](https://www.itread01.com/articles/1498721884.html)
- [Python 網路爬蟲與資料分析入門實戰 ](https://www.tenlong.com.tw/products/9789864343386)
- [RNN做情意分析.ipynb](https://github.com/yenlung/AI_Math/blob/master/09.%20%E7%94%A8RNN%E5%81%9A%E6%83%85%E6%84%8F%E5%88%86%E6%9E%90.ipynb)
- [利用Keras建構LSTM模型，以Stock Prediction 為例](https://medium.com/@daniel820710/%E5%88%A9%E7%94%A8keras%E5%BB%BA%E6%A7%8Blstm%E6%A8%A1%E5%9E%8B-%E4%BB%A5stock-prediction-%E7%82%BA%E4%BE%8B-1-67456e0a0b)