# TM06 embedding(chinese)

# Loading data

In [1]:
import pandas as pd
df = pd.read_csv('data/sentiment.csv')
df.head(5)

Unnamed: 0,tag,text
0,P,店家很給力，快遞也是相當快，第三次光顧啦
1,N,這樣的配置用Vista系統還是有點卡。 指紋收集器。 沒送原裝滑鼠還需要自己買，不太好。
2,P,不錯，在同等檔次酒店中應該是值得推薦的！
3,N,哎！ 不會是蒙牛乾的吧 嚴懲真凶！
4,N,空尤其是三立電視臺女主播做的序尤其無趣像是硬湊那麼多字


In [2]:
print(df.shape)
print(df['tag'].value_counts())

(6388, 2)
N    3347
P    3041
Name: tag, dtype: int64


# Tokenization

In [3]:
import jieba
df['token_text'] = df['text'].apply(lambda x:list(jieba.cut(x)))
df.head(20)

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\user\AppData\Local\Temp\jieba.cache
Loading model cost 1.990 seconds.
Prefix dict has been built successfully.


Unnamed: 0,tag,text,token_text
0,P,店家很給力，快遞也是相當快，第三次光顧啦,"[店家, 很, 給力, ，, 快遞, 也, 是, 相當快, ，, 第三次, 光顧, 啦]"
1,N,這樣的配置用Vista系統還是有點卡。 指紋收集器。 沒送原裝滑鼠還需要自己買，不太好。,"[這樣, 的, 配置, 用, Vista, 系統, 還是, 有點, 卡, 。, , 指紋,..."
2,P,不錯，在同等檔次酒店中應該是值得推薦的！,"[不錯, ，, 在, 同等, 檔次, 酒店, 中應, 該, 是, 值得, 推薦, 的, ！]"
3,N,哎！ 不會是蒙牛乾的吧 嚴懲真凶！,"[哎, ！, , 不會, 是, 蒙牛, 乾, 的, 吧, , 嚴懲, 真凶, ！]"
4,N,空尤其是三立電視臺女主播做的序尤其無趣像是硬湊那麼多字,"[空, 尤其, 是, 三立, 電視, 臺, 女主播, 做, 的, 序, 尤其, 無趣, 像是..."
5,N,明明買了6本書，只到了3本，也沒有說是什麼原因，以後怎麼信的過？？？？？？？？？？？,"[明明, 買, 了, 6, 本書, ，, 只到, 了, 3, 本, ，, 也, 沒, 有, ..."
6,P,看了一下感覺還可以,"[看, 了, 一下, 感覺還, 可以]"
7,P,散熱還不錯，玩遊戲cpu溫度和硬碟溫度都在56以下， 速度很好，顯示卡也不錯,"[散熱, 還不錯, ，, 玩遊戲, cpu, 溫度, 和, 硬碟, 溫度, 都, 在, 56..."
8,P,外觀好看，白色的自己貼紙也方便，vista執行起來速度也還不錯.屬於主流配置了。一般用用可以的,"[外觀, 好看, ，, 白色, 的, 自己, 貼紙, 也, 方便, ，, vista, 執行..."
9,N,水超級小 用的時候還要先修理一下花灑 售後還說是水壓問題 說本來標配都是這樣還要自己重新換一個,"[水超級, 小, , 用, 的, 時候, 還要, 先, 修理, 一下, 花灑, , 售後..."


# term frequency

In [4]:
with open("data/stopwords_zh-tw.txt", encoding="utf-8") as fin:
    stopwords = fin.read().split("\n")[1:]
print(stopwords[:100])
print(len(stopwords))

['?', '、', '。', '“', '”', '《', '》', '！', '，', '：', '；', '？', '人民', '末##末', '啊', '阿', '哎', '哎呀', '哎喲', '唉', '我', '我們', '按', '按照', '依照', '吧', '吧噠', '把', '罷了', '被', '本', '本著', '比', '比方', '比如', '鄙人', '彼', '彼此', '邊', '別', '別的', '別說', '並', '並且', '不比', '不成', '不單', '不但', '不獨', '不管', '不光', '不過', '不僅', '不拘', '不論', '不怕', '不然', '不如', '不特', '不惟', '不問', '不只', '朝', '朝著', '趁', '趁著', '乘', '沖', '除', '除此之外', '除非', '除了', '此', '此間', '此外', '從', '從而', '打', '待', '但', '但是', '當', '當著', '到', '得', '的', '的話', '等', '等等', '地', '第', '叮咚', '對', '對於', '多', '多少', '而', '而況', '而且', '而是']
1208


In [9]:
import unicodedata # for removing Chinese puctuation
from collections import Counter

print(unicodedata.category('我').startswith('P'))

word_count = Counter()
for tokens in df['token_text']:
    for tok in tokens:
        try:
            if len(tok) > 1 and not unicodedata.category(tok[0]).startswith('P'): # unnicodedata 是 P 開頭的字全部濾掉 (標點符號)
                word_count[tok] += 1
        except:
            print("%s\tTypeError: category() argument must be a unicode character, not str"%(tok))
for k, v in word_count.most_common(30):
    print(k, '\t', v)

False
蒙牛 	 1556
不錯 	 907
可以 	 470
沒有 	 402
酒店 	 385
房間 	 366
就是 	 359
感覺 	 350
還是 	 340
外觀 	 294
一般 	 284
系統 	 276
價格 	 269
非常 	 268
價效 	 262
螢幕 	 258
喜歡 	 257
方便 	 250
有點 	 247
這個 	 241
什麼 	 236
不是 	 225
比較 	 225
功能 	 222
服務 	 220
一個 	 206
配置 	 203
問題 	 203
不好 	 203
速度 	 195


# Building model

In [4]:
from gensim.models import Word2Vec
model = Word2Vec(df['token_text'], min_count=1, size=100, window=5, sg=0, workers=4)

# Testing model

## Similarity

In [8]:
#  他 : 工程師 = 她 : ?
print(model.wv.most_similar_cosmul(["火鍋", "好吃"], ["西餐"], topn=20))
print("-"*40)
#  他 : 醫師 = 她 : ?
print(model.wv.most_similar_cosmul(["鍵盤", "工具"], ["垃圾"], topn=20))

[('嗎', 1.0171600580215454), ('生命', 1.0166436433792114), ('哎', 1.0162206888198853), ('好多年', 1.0161514282226562), ('自殺', 1.0161147117614746), ('香蕉', 1.015876054763794), ('轉發', 1.0158746242523193), ('遠離', 1.0158588886260986), ('牛奶', 1.015850305557251), ('微博', 1.015770435333252), ('酸酸乳', 1.015731692314148), ('啊', 1.0155725479125977), ('珍惜', 1.0154293775558472), ('珍愛', 1.0154240131378174), ('鄙視', 1.0153111219406128), ('敢喝', 1.0152937173843384), ('酒', 1.0152432918548584), ('投訴', 1.015220046043396), ('喝多', 1.0149893760681152), ('雀巢', 1.0148979425430298)]
----------------------------------------
[('較', 0.8552989959716797), ('略', 0.8552842140197754), ('清一色', 0.8541995286941528), ('自駕車', 0.8536711931228638), ('價效', 0.8525720834732056), ('比', 0.8512815833091736), ('高', 0.8501677513122559), ('二樓', 0.8500231504440308), ('不俗', 0.8498591184616089), ('庸俗', 0.8488295674324036), ('看電影', 0.8486314415931702), ('地點', 0.8480440378189087), ('2.1', 0.8475043177604675), ('解放北路', 0.8474995493888855), ('很足', 0.8

## Visualiation with Dimension reduction
- [Matplotlib顯示中文問題: Win](https://medium.com/marketingdatascience/%E8%A7%A3%E6%B1%BApython-3-matplotlib%E8%88%87seaborn%E8%A6%96%E8%A6%BA%E5%8C%96%E5%A5%97%E4%BB%B6%E4%B8%AD%E6%96%87%E9%A1%AF%E7%A4%BA%E5%95%8F%E9%A1%8C-f7b3773a889b)
- [Using Chinese Characters in Matplotlib](https://hoishing.medium.com/using-chinese-characters-in-matplotlib-5c49dbb6a2f7)

### Reduced by PCA

In [19]:
# 選定前150高頻的詞
words = [k for k, v in word_count.most_common(150)]
print(words)

from sklearn.decomposition import PCA
pca = PCA(n_components=2)

# 導入PCA降成二維向量
X = []
for word in words:
    X.append(model.wv[word])
points = pca.fit_transform(X)
points[:10]

['蒙牛', '不錯', '可以', '沒有', '酒店', '房間', '就是', '感覺', '還是', '外觀', '一般', '系統', '價格', '非常', '價效', '螢幕', '喜歡', '方便', '有點', '這個', '什麼', '不是', '比較', '功能', '服務', '一個', '配置', '問題', '不好', '速度', '時間', '鍵盤', '支援', '自己', '不過', '知道', '而且', '電池', 'XP', '效果', '質量', '還不錯', '驅動', '不能', '怎麼', '散熱', '記憶體', '抵制', '東西', '伊利', '漂亮', '滿意', '顯示', '牛奶', '早餐', '收到', '使用', '還有', '安裝', '內容', '做工', '效能', '這本書', '便宜', '環境', '很快', '設施', '這樣', '時候', '很多', '聲音', '適合', '發現', '手感', '一點', '現在', '容易', '朋友', '光碟', '有些', '真的', '硬碟', '其他', '已經', '機器', '應該', '覺得', '麻煩', '產品', '起來', '大家', '那麼', '好看', '我們', '舒服', '電腦', '不要', '位置', '值得', '希望', '一下', '如果', '入住', '沒什麼', '設計', '特別', '一樣', '可能', '一本', '待機', '不會', '執行', '小巧', '因為', '很大', '京東', '送貨', '下次', '軟體', '不到', '包裝', '本本', '還行', '很漂亮', '品牌', '真是', '太小', '介面', '需要', '鈴聲', '總體', '推薦', '這麼', '失望', '攝像頭', '一直', '垃圾', '比高', '手機', '想象', '選擇', '機子', '客服', '交通', '小時', '孩子', '實用', '還算', '呵呵', '相當']


array([[ 3.58492316,  3.28167245],
       [ 2.53643454, -1.46459332],
       [ 3.48338428, -0.32333991],
       [ 3.46829011,  0.38758873],
       [ 2.81067712, -0.60837248],
       [ 3.11975825, -1.13498082],
       [ 2.83372773,  0.18499799],
       [ 2.43483975, -0.23363248],
       [ 2.6217267 ,  0.16935261],
       [ 1.6289138 , -0.89855408]])

In [15]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.gcf().set_size_inches(24, 16)
# 
plt.rcParams.update({'font.size': 12})
plt.rcParams['font.family'] = ['Heiti TC']

<Figure size 1728x1152 with 0 Axes>

### Reduced by t-SNE

In [23]:
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, random_state=0)
points = tsne.fit_transform(X) 
points[:10]



array([[-2.8769941, 10.504455 ],
       [-7.414804 ,  8.779236 ],
       [-6.0771403, 10.656035 ],
       [-5.1328716, 11.002049 ],
       [-6.3470216,  9.769556 ],
       [-7.057292 ,  9.738123 ],
       [-5.0568805, 10.382422 ],
       [-5.5316815,  9.384608 ],
       [-4.726327 , 10.004226 ],
       [-6.489435 ,  7.093453 ]], dtype=float32)

# Plotting

## Plot by matplotlib or seaborn

In [17]:
# fig = plt.gcf()
# fig.set_size_inches(24, 16)
# plt.figure(figsize=(8, 6), dpi=150) 
# # plt.figure(figsize=(8, 6), dpi=300) 
# plt.rcParams.update({'font.size': 12})
# plt.rcParams['font.family'] = ['Heiti TC']
# for i in range(len(points)):
#     x = points[i][0]
#     y = points[i][1]
#     plt.scatter(x, y, alpha=0)
#     plt.annotate(words[i], xy=(x, y), alpha=0.5)
# plt.axis('equal')

## plot by bokeh
- https://stackoverflow.com/questions/40450943/adding-labels-to-a-bokeh-plot
- https://docs.bokeh.org/en/latest/docs/user_guide/annotations.html


In [24]:
import pandas as pd
import numpy as np
df = pd.DataFrame(points, columns = ['x', 'y'])
df['label'] = words
df

Unnamed: 0,x,y,label
0,-2.876994,10.504455,蒙牛
1,-7.414804,8.779236,不錯
2,-6.077140,10.656035,可以
3,-5.132872,11.002049,沒有
4,-6.347022,9.769556,酒店
...,...,...,...
145,4.052845,-4.838298,孩子
146,10.356973,-10.267245,實用
147,11.317717,-9.858450,還算
148,9.895841,-11.642550,呵呵


In [21]:
# !pip install bokeh

# Original Plotting
from bokeh.plotting import figure, output_file, show

# Plotting Scatter with their Labels (在點上上字)
from bokeh.models import ColumnDataSource, Label, LabelSet, Range1d

# Plotting in Jupyter Notebook
# !pip install jupyter_bokeh
from bokeh.io import output_notebook
output_notebook()

In [25]:
# 初始化一個 figure
p = figure(title = "w2v")

# 畫點圖
p.circle(df["x"], df["y"], fill_alpha=0.2, size=10)

labels = LabelSet(x='x', y='y', text='label', 
                  # 設定文字 label 跟點的距離
                  x_offset=5, y_offset=5, 
                  # 把 df 轉成 columndatasource 才能上 label
                  source=ColumnDataSource(df), render_mode='canvas')

# 把 labels 的 layout 加入 p
p.add_layout(labels)
show(p)