In [1]:
import pandas as pd
import numpy as np

# 分詞

# 中文(jieba)

In [2]:
import jieba

In [3]:
#cut chinese words
word1 = jieba.cut('四色定理是一個著名的數學定理：如果在平面上劃出一些鄰接的有限區域，那麼可以用四種顏色來給這些區域染色，使得每兩個鄰接區域染的顏色都不一樣')

In [4]:
#put ' ' between words
word_cut1 = ' '.join(word1)
word_cut1

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.cache
Loading model cost 0.708 seconds.
Prefix dict has been built succesfully.


'四色 定理 是 一個 著名 的 數學 定理 ： 如果 在 平面 上劃 出 一些 鄰接 的 有限 區域 ， 那麼 可以 用四種 顏色 來給 這些 區域 染色 ， 使得 每 兩個 鄰 接區域 染 的 顏色 都 不 一樣'

In [5]:
#remove symbol in words
symbol = ['：','，']
for i in symbol:
    word_cut1 = word_cut1.replace(i,'')
word_cut1

'四色 定理 是 一個 著名 的 數學 定理  如果 在 平面 上劃 出 一些 鄰接 的 有限 區域  那麼 可以 用四種 顏色 來給 這些 區域 染色  使得 每 兩個 鄰 接區域 染 的 顏色 都 不 一樣'

In [6]:
#transfer into list
word_list1 = word_cut1.split(' ')

# 日本語tokenizer ( janome)

In [7]:
from janome.tokenizer import Tokenizer

In [8]:
#create word cutter
t = Tokenizer()

In [9]:
#cut words
word2 = t.tokenize('今日は、いいいちにちですね。')

In [10]:
# tokenizerの構造
for i in word2:
    print(i)

今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
、	記号,読点,*,*,*,*,、,、,、
いい	形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
いち	名詞,一般,*,*,*,*,いち,イチ,イチ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
ち	動詞,自立,*,*,五段・ラ行,体言接続特殊２,ちる,チ,チ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
ね	助詞,終助詞,*,*,*,*,ね,ネ,ネ
。	記号,句点,*,*,*,*,。,。,。


In [11]:
#cut words
word_list2 = [i.surface for i in word2]
word_list2

['今日', 'は', '、', 'いい', 'いち', 'に', 'ち', 'です', 'ね', '。']

In [12]:
#remove symbol in words
word_cut2 = ' '.join(word_list2)
symbol = ['。','、']
for i in symbol:
    word_cut2 = word_cut2.replace(i,'')

word_cut2

'今日 は  いい いち に ち です ね '

In [13]:
#transfer into list
word_list2 = word_cut2.split(' ')

# 矩陣數值化1(sklearn-CountVectorizer)

將多個已分割語句的句子傳入一個語袋(依詞分別給予代號)，並將各個句子轉成矩陣

In [14]:
from sklearn.feature_extraction.text import CountVectorizer

In [15]:
#可以傳入停詞(stopwords)
C = CountVectorizer()

In [16]:
word_cut2

'今日 は  いい いち に ち です ね '

In [17]:
#傳入類型  ['str1','str2','str3'...]
matrix = C.fit_transform([word_cut2])

In [18]:
#(句子index,詞編號)  詞出現次數(整個文袋中，非句子內的)
print(matrix)

  (0, 3)	1
  (0, 0)	1
  (0, 1)	1
  (0, 2)	1


In [19]:
#轉換過後一個句子的矩陣
matrix.toarray()

array([[1, 1, 1, 1]], dtype=int64)

In [20]:
#所有詞列表/詞所對應的編號
C.get_feature_names(),C.vocabulary_

(['いい', 'いち', 'です', '今日'], {'今日': 3, 'いい': 0, 'いち': 1, 'です': 2})

In [21]:
#一個句子資料類型展示
df1 = pd.DataFrame([])
for i,j in zip(matrix.toarray()[0],C.get_feature_names()):
    df1[j] = [i,'...','...','...']
df1.index = ['str1','str2','str3','...']
df1

Unnamed: 0,いい,いち,です,今日
str1,1,1,1,1
str2,...,...,...,...
str3,...,...,...,...
...,...,...,...,...


# 矩陣數值化2(sklearn-TfidfVectorizer)

用法跟CountVectorizer一樣 只是將詞的出現次數轉成TF-IDF值

In [22]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [23]:
word_cut2

'今日 は  いい いち に ち です ね '

In [24]:
T = TfidfVectorizer()

In [25]:
#兩個字以下的單字會被排除
matrix2 = T.fit_transform([word_cut2])

In [26]:
#詞頻矩陣
matrix.toarray()

array([[1, 1, 1, 1]], dtype=int64)

In [27]:
#(句子index,詞編號)  詞頻率(TF-IDF值)
for i in matrix2:
    print(i)

  (0, 2)	0.5
  (0, 1)	0.5
  (0, 0)	0.5
  (0, 3)	0.5


# word2vector

可將已分成list的詞轉成向量，詳細條參:
https://www.kaggle.com/jerrykuo7727/word2vec/notebook

In [52]:
from gensim.models.word2vec import Word2Vec

In [221]:
data = pd.read_csv('C:\\Users\\User\\OneDrive\\file\\full_category_sep.xlsx')
data.head()

Unnamed: 0,承辦人,主旨
0,林妤臻,為 召開 金屬 焊接 配管 及 機械 加工 與 維修 職類 群 技能 檢定 制度 意見 交...
1,林柏安,研商 市售 卡式 瓦斯 罐標示 事宜 會議
2,廖書鋒,本部 推動 職業 安全 衛生 執行 情形 及績 效檢討會議
3,廖書鋒,107 年 大型 石化 廠 公共安全 管理 聯合督導 國喬 高雄廠 預防性 聯合督導 高階座 談
4,廖書鋒,107 年度 大型 石化 廠 公共安全 管理 聯合督導 台塑 公司 聚乙烯 醋酸乙烯酯 E...


In [222]:
data['主旨'] = data['主旨'].str.split(' ')
data.head()

Unnamed: 0,承辦人,主旨
0,林妤臻,"[為, 召開, 金屬, , 焊接, 配管, 及, 機械, 加工, 與, 維修, 職類, 群,..."
1,林柏安,"[研商, 市售, 卡式, 瓦斯, 罐標示, 事宜, 會議]"
2,廖書鋒,"[本部, 推動, 職業, 安全, 衛生, 執行, 情形, 及績, 效檢討會議]"
3,廖書鋒,"[107, 年, 大型, 石化, 廠, 公共安全, 管理, 聯合督導, , 國喬, 高雄廠,..."
4,廖書鋒,"[107, 年度, 大型, 石化, 廠, 公共安全, 管理, 聯合督導, , 台塑, 公司,..."


In [223]:
#準備2D數據代入WORD2VEC MODEL訓練
model_jmda = Word2Vec(data['主旨'],min_count=1)

In [224]:
#訓練完後可以看詞的相似程度
model_jmda.most_similar(positive=['焊接'])

  


[('配管', 0.9134361743927002),
 ('北', 0.9121301174163818),
 ('裝修', 0.8999355435371399),
 ('所屬', 0.8972536325454712),
 ('及其', 0.8842979669570923),
 ('訓', 0.8817075490951538),
 ('技術士', 0.8780878782272339),
 ('梯次', 0.8726508617401123),
 ('技能', 0.8721150159835815),
 ('承裝業', 0.869726836681366)]

In [225]:
#隨機輸入一個訓練句子代入model可以轉換成矩陣(句子矩陣基本上可以為單字向量的總平均，雖然準確度打問號)
sentence = data['主旨'][0]
model_jmda[sentence].shape , np.mean(model_jmda[sentence],axis=0).shape

  This is separate from the ipykernel package so we can avoid doing imports until


((19, 100), (100,))

In [226]:
#隨機輸入任意語句時，出現model裡沒有的單字時會報錯，需要先剔除
word_bag = model_jmda.wv.index2word
sentence = '需要多少詞才能預測中間詞呢？要讓多少詞的含意來影響中間詞的含意呢？思考完就自己作點實驗吧'
sentence = ' '.join(jieba.cut(sentence))
sentence = np.array(sentence.split(' '))
sentence = sentence[np.isin(sentence,word_bag)]
model_jmda[sentence]

  import sys


array([[-5.39888144e-02,  2.60011107e-03,  6.01689331e-04,
         5.57565354e-02, -5.06811216e-02, -3.26336697e-02,
        -7.66881779e-02,  5.15736900e-02, -2.67631579e-02,
        -4.53056172e-02,  1.79725885e-02, -1.84310693e-02,
        -1.31488219e-02,  5.28286844e-02,  7.99599513e-02,
         7.28699043e-02, -4.92524579e-02,  2.10556593e-02,
        -1.47662396e-02, -4.42830250e-02, -2.35956516e-02,
        -4.94142845e-02,  1.02132596e-01,  2.56732795e-02,
         7.37470314e-02,  2.54049432e-03, -5.46151288e-02,
        -9.39882768e-04,  4.26746123e-02,  2.53723525e-02,
        -5.11084534e-02, -3.06281876e-02,  2.28929687e-02,
        -7.72734638e-03, -2.02201344e-02,  1.11626694e-02,
        -8.59412104e-02,  3.75742977e-03, -9.62638259e-02,
         8.65175501e-02, -3.78437825e-02,  2.21537985e-02,
         1.23011423e-02,  8.71304721e-02,  1.84576046e-02,
         3.42668779e-02, -2.28387974e-02, -1.26508833e-03,
         1.23515930e-02,  2.37554871e-02,  4.14824262e-0