In [1]:
import numpy as np

In [1]:
def text_to_words(text, stop_word_pass='./Japanese.txt'):
    # stopword listをつくる
    stopword_list = []
    with open(stop_word_pass, 'r') as f:
        stopword_list = f.readlines()
        
    stopword_list = [x.strip() for x in stopword_list if x.strip()] 
    #形態素解析を始める
    m = MeCab.Tagger('-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd')
    m.parse('')
    #text = normalize_text(text)
    text = mojimoji.zen_to_han(text, kana=False)
    m_text = m.parse(text)
    basic_words = []
    #mecabの出力結果を単語ごとにリスト化
    m_text = m_text.split('\n')
    for row in m_text:
        #Tab区切りで形態素、その品詞等の内容と分かれているので単語部のみ取得
        word = row.split("\t")[0]
        #最終行はEOS
        if word == 'EOS':
            break
        else:
            pos = row.split('\t')[1]
            slice_ = pos.split(',')
            #品詞を取得する
            parts = slice_[0]
            if parts == '記号':
                continue

            #活用語の場合は活用指定ない原型を取得する。
            elif slice_[0] in ('形容詞', '動詞') and slice_[-3] not in stopword_list:
                    basic_words.append(slice_[-3])

            #活用しない語についてはそのままの語を取得する
            elif slice_[0] =='名詞' and word not in stopword_list:
                basic_words.append(word)

    basic_words = ' '.join(basic_words)
    return basic_words

# 共起行列

In [3]:
def co_matrix(corpus, sep=' ', window_size=1):
    word_to_id = {}
    id_to_word = {}
    cnt = 0
    # Wordにidを振る
    for co in corpus:
        for c in co.split(sep):
            if c not in word_to_id:
                word_to_id[c] = cnt
                id_to_word[cnt] = c
                cnt += 1
    
    vocab_size = len(word_to_id)
    #出てきた単語数の正方行列を作成する。
    co_matrix = np.zeros((vocab_size, vocab_size))
    for co in corpus:
        corpus_words = co.split(sep)
        #文書のword数をセット
        corpus_size = len(corpus_words)
        for idx, c in enumerate(corpus_words):
            # wordのidを取得する
            center_index = word_to_id[c]
            # window_sizeの数だけループ
            for diff in range(1, window_size+1):
                # 対象の単語より前側を共起させる
                if idx - diff >=0:
                    left_word = corpus_words[idx - diff]
                    left_index = word_to_id[left_word]
                    co_matrix[center_index, left_index] +=1
                    
                # 対象の単語より後ろ側を共起させる
                if idx + diff < corpus_size:
                    right_word = corpus_words[idx + diff]
                    right_index = word_to_id[right_word]
                    co_matrix[center_index, right_index] += 1
                    
    return word_to_id, id_to_word, co_matrix
            

In [4]:
co_matrix(['私 東京駅 行く 東京駅 山手線 乗る'])

({'私': 0, '東京駅': 1, '行く': 2, '山手線': 3, '乗る': 4},
 {0: '私', 1: '東京駅', 2: '行く', 3: '山手線', 4: '乗る'},
 array([[0., 1., 0., 0., 0.],
        [1., 0., 2., 1., 0.],
        [0., 2., 0., 0., 0.],
        [0., 1., 0., 0., 1.],
        [0., 0., 0., 1., 0.]]))

# 相互情報量

$$
\textrm{PMI} \left( x, y \right) = \log_{2} \frac{P \left(x,y \right)}{P \left(x \right) P \left(y \right)} \\
\textrm{PPMI} \left( x, y \right) = \max \left[0, \textrm{PMI}\left( x, y \right) \right]
$$

In [5]:
def ppmi(C, delta=1e-8):
    M = np.zeros_like(C, dtype=np.float32)
    N = np.sum(C)
    # 単語ごとの個数の合計を求める。
    S = np.sum(C, axis=0)
    for i in range(C.shape[0]):
        for j in range(C.shape[1]):
            pmi = np.log2(C[i, j] * N / S[i]*S[j] + delta)
            M[i, j] = max(0, pmi)
            
    return M

In [6]:
_, _,m = co_matrix(['私 東京駅 行く', '東京駅 山手線 乗る','東京駅 品川駅 東海道新幹線 一駅','東京駅 大宮 大宮 東北新幹線 乗り換える'], window_size=1)
print(m)
ppmi(m)

[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 1. 1. 0. 1. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 2. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]]


array([[0.       , 6.7813597, 0.       , 0.       , 0.       , 0.       ,
        0.       , 0.       , 0.       , 0.       , 0.       ],
       [2.1375036, 0.       , 2.1375036, 3.1375036, 0.       , 3.1375036,
        0.       , 0.       , 4.1375036, 0.       , 0.       ],
       [0.       , 6.7813597, 0.       , 0.       , 0.       , 0.       ,
        0.       , 0.       , 0.       , 0.       , 0.       ],
       [0.       , 5.7813597, 0.       , 0.       , 3.4594316, 0.       ,
        0.       , 0.       , 0.       , 0.       , 0.       ],
       [0.       , 0.       , 0.       , 5.4594316, 0.       , 0.       ,
        0.       , 0.       , 0.       , 0.       , 0.       ],
       [0.       , 5.7813597, 0.       , 0.       , 0.       , 0.       ,
        4.4594316, 0.       , 0.       , 0.       , 0.       ],
       [0.       , 0.       , 0.       , 0.       , 0.       , 4.4594316,
        0.       , 3.4594316, 0.       , 0.       , 0.       ],
       [0.       , 0.       , 0.  

# 主成分分析
主成分分析はScikit-learnに実装されている。

In [7]:
from sklearn.decomposition import PCA

# 文書の準備
今回はppmiの行列を次元削減することを考える。

In [26]:
corpus = ['東京駅 行く', \
          '東京駅 山手線 乗る',\
          '東京駅 品川駅 東海道新幹線 一駅',\
          '東京駅 大宮 大宮 東北新幹線 乗り換える']
_, id_to_word, m = co_matrix(corpus)
pp_m = ppmi(m)
print(pp_m)

[[0.       2.321928 3.321928 0.       3.321928 0.       0.       4.321928
  0.       0.      ]
 [6.321928 0.       0.       0.       0.       0.       0.       0.
  0.       0.      ]
 [5.321928 0.       0.       3.321928 0.       0.       0.       0.
  0.       0.      ]
 [0.       0.       5.321928 0.       0.       0.       0.       0.
  0.       0.      ]
 [5.321928 0.       0.       0.       0.       4.321928 0.       0.
  0.       0.      ]
 [0.       0.       0.       0.       4.321928 0.       3.321928 0.
  0.       0.      ]
 [0.       0.       0.       0.       0.       5.321928 0.       0.
  0.       0.      ]
 [4.321928 0.       0.       0.       0.       0.       0.       5.321928
  3.321928 0.      ]
 [0.       0.       0.       0.       0.       0.       0.       5.321928
  0.       3.321928]
 [0.       0.       0.       0.       0.       0.       0.       0.
  5.321928 0.      ]]


## 次元圧縮の実戦

In [27]:
pca = PCA(n_components=2)
co_text_pca = pca.fit_transform(pp_m)
co_text_pca

array([[ 4.4967055 ,  0.759573  ],
       [-4.124335  ,  0.8454847 ],
       [-3.801812  ,  0.5828286 ],
       [ 2.4012997 , -2.3495476 ],
       [-4.326973  , -1.303419  ],
       [ 2.215092  , -2.5340316 ],
       [-0.41045034, -3.6734424 ],
       [-0.5296067 ,  4.8526306 ],
       [ 3.0744364 ,  2.9625516 ],
       [ 1.005643  , -0.14262933]], dtype=float32)

## 寄与率を求めてみる

In [15]:
pca.explained_variance_ratio_

array([0.32518077, 0.21602066], dtype=float32)

# Word2Vec
今回の講座ではgensimのWord2Vecを用いる。  

モジュールがインストールされていない場合にはこちらを行う。  
\$ conda install -c conda-forge gensim

In [None]:
from gensim.models import word2vec
import MeCab
import mojimoji
import pandas as pd

In [None]:
df_input = pd.read_csv('../data/kokkai.csv', header=0)
corpus = [x.split(' ') for x in \
          df_input['text'].map(text_to_words).values.tolist()]

In [None]:
corpus[1]

## モデル作成
モデル作成を行い、このモデルを保管する。 　
- size→次元数。
- min_count→何回以上出現した単語を対象にするか。
- window→前後どこまでを対象とするか。
- sg→1はski-gramそれ以外はCBOW

In [None]:
model = word2vec.Word2Vec(corpus, size=200, min_count=3, window=5, sg=1)
model.save('../data/kokkai_model.model')

### ベクトルの出力

In [None]:
model.wv['アベノミクス']

In [None]:
print(model.similarity('アベノミクス', '三本の矢'))

In [None]:
similar_words = model.wv.most_similar(positive=['日本経済'], topn=10)
similar_words

# TF-IDF

$$
\textrm{tf}_{i,j} = \frac{文書 d_{i}に含まれるt_{j}の個数}{文書d_{i}内のすべての単語の個数} = \frac{\left| t_{j} \in d_{i} \right| }{\sum_{t_{j} \in d_{j}}}
$$

$$
\textrm{idf}_{j} = \log \left( \frac{全文書数+1}{t_{j}が含まれる個数 +1} \right) + 1 = \log \left( \frac{\left| D \right| +1}{\left| \left\{ d : t_{j} \in d \right\} \right| +1 } \right) + 1
$$


で与えられtf-idfはtf値とidfの乗算で表され、それを文書が行、語彙が列として行列形式で並べて求められる。

$$
\left(
\begin{array}{cccc}
\textrm{tdidf}_{11} & \textrm{tdidf}_{12} & \cdots & \textrm{tdidf}_{1n} \\
\textrm{tdidf}_{21} & \textrm{tdidf}_{22} & \cdots & \textrm{tdidf}_{2n} \\
\cdots \\
\textrm{tdidf}_{m1} & \textrm{tdidf}_{n2} & \cdots & \textrm{tdidf}_{mn}
\end{array}
\right)
$$

今回使用するライブラリでは文書ごとにtf-idfが1に規格化されて出力される。$i$番目の文書のベクトルは

$$
\textbf{x}_{i} = \frac{1}{\sqrt{\sum_{k=1}^n \textrm{tdidf}_{ik}^{2}}} \left(
\begin{array}{cccc}
\textrm{tdidf}_{i1} & \textrm{tdidf}_{i2} & \cdots & \textrm{tdidf}_{n} 
\end{array}
\right)
$$
となる。CountVectorizerのライブラリではmax_df, min_dfというオプションがあり、max_df=0.8などと指定すると全文書の8割以上出現するものを無視することができる(min_dfも同様)。自然数で指定した場合は割合ではなく回数となる。

In [42]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
import pandas as pd
corpus = ['東京駅 行く', \
          '東京駅 山手線 乗る',\
          '東京駅 品川駅 東海道新幹線 一駅',\
          '東京駅 大宮 大宮 東北新幹線 乗り換える']
vec = CountVectorizer()
X = vec.fit_transform(corpus)
print('Bag of Words')
display(pd.DataFrame(X.toarray(), columns=vec.get_feature_names(), index=corpus))
print('tfidf')
tfidf = TfidfTransformer()
X_tfidf = tfidf.fit_transform(X)
display(pd.DataFrame(X_tfidf.toarray(), columns=vec.get_feature_names(), index=corpus))

print('max_df=0.5')
vec = CountVectorizer(max_df=0.5)
X = vec.fit_transform(corpus)
print('Bag of Words')
display(pd.DataFrame(X.toarray(), columns=vec.get_feature_names(), index=corpus))
print('tfidf')
tfidf = TfidfTransformer()
X_tfidf = tfidf.fit_transform(X)
display(pd.DataFrame(X_tfidf.toarray(), columns=vec.get_feature_names(), index=corpus))

print('min_df=0.3')
vec = CountVectorizer(min_df=0.3)
X = vec.fit_transform(corpus)
print('Bag of Words')
display(pd.DataFrame(X.toarray(), columns=vec.get_feature_names(), index=corpus))
print('tfidf')
tfidf = TfidfTransformer()
X_tfidf = tfidf.fit_transform(X)
display(pd.DataFrame(X_tfidf.toarray(), columns=vec.get_feature_names(), index=corpus))

Bug of Words


Unnamed: 0,一駅,乗り換える,乗る,品川駅,大宮,山手線,東京駅,東北新幹線,東海道新幹線,行く
東京駅 行く,0,0,0,0,0,0,1,0,0,1
東京駅 山手線 乗る,0,0,1,0,0,1,1,0,0,0
東京駅 品川駅 東海道新幹線 一駅,1,0,0,1,0,0,1,0,1,0
東京駅 大宮 大宮 東北新幹線 乗り換える,0,1,0,0,2,0,1,1,0,0


tfidf


Unnamed: 0,一駅,乗り換える,乗る,品川駅,大宮,山手線,東京駅,東北新幹線,東海道新幹線,行く
東京駅 行く,0.0,0.0,0.0,0.0,0.0,0.0,0.462637,0.0,0.0,0.886548
東京駅 山手線 乗る,0.0,0.0,0.663385,0.0,0.0,0.663385,0.346182,0.0,0.0,0.0
東京駅 品川駅 東海道新幹線 一駅,0.552805,0.0,0.0,0.552805,0.0,0.0,0.288477,0.0,0.552805,0.0
東京駅 大宮 大宮 東北新幹線 乗り換える,0.0,0.399288,0.0,0.0,0.798575,0.0,0.208365,0.399288,0.0,0.0


max_df=0.5
Bug of Words


Unnamed: 0,一駅,乗り換える,乗る,品川駅,大宮,山手線,東北新幹線,東海道新幹線,行く
東京駅 行く,0,0,0,0,0,0,0,0,1
東京駅 山手線 乗る,0,0,1,0,0,1,0,0,0
東京駅 品川駅 東海道新幹線 一駅,1,0,0,1,0,0,0,1,0
東京駅 大宮 大宮 東北新幹線 乗り換える,0,1,0,0,2,0,1,0,0


tfidf


Unnamed: 0,一駅,乗り換える,乗る,品川駅,大宮,山手線,東北新幹線,東海道新幹線,行く
東京駅 行く,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
東京駅 山手線 乗る,0.0,0.0,0.707107,0.0,0.0,0.707107,0.0,0.0,0.0
東京駅 品川駅 東海道新幹線 一駅,0.57735,0.0,0.0,0.57735,0.0,0.0,0.0,0.57735,0.0
東京駅 大宮 大宮 東北新幹線 乗り換える,0.0,0.408248,0.0,0.0,0.816497,0.0,0.408248,0.0,0.0


min_df=0.3
Bug of Words


Unnamed: 0,東京駅
東京駅 行く,1
東京駅 山手線 乗る,1
東京駅 品川駅 東海道新幹線 一駅,1
東京駅 大宮 大宮 東北新幹線 乗り換える,1


tfidf


Unnamed: 0,東京駅
東京駅 行く,1.0
東京駅 山手線 乗る,1.0
東京駅 品川駅 東海道新幹線 一駅,1.0
東京駅 大宮 大宮 東北新幹線 乗り換える,1.0


# Doc2Vec
gensimのDoc2Vecを用いる。

In [16]:
import pandas as pd
import MeCab
import mojimoji
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

df_input = pd.read_csv('../data/kokkai.csv', header=0)
df_input['text_ana'] = df_input['text'].map(text_to_words)

In [17]:
df_input.head()

Unnamed: 0,date,house,meeting,speech_order,text,text_ana
0,2019-12-03,参議院,経済産業委員会,0,令和元年十二月三日（火曜日）\r\n 午前十時開会\r\n ───────────...,令和元年 十二月三日 火曜日 午前 十時 開会 委員 異動 十一月二十八日 辞任 補欠 選任...
1,2019-12-03,参議院,経済産業委員会,1,○委員長（礒崎哲史君）　ただいまから経済産業委員会を開会いたします。\r\n　委員の異動につ...,委員長 礒崎哲史 君 経済産業委員会 開会 いたす 委員 異動 報告 いたす 昨日 三木亨 ...
2,2019-12-03,参議院,経済産業委員会,2,○委員長（礒崎哲史君）　政府参考人の出席要求に関する件についてお諮りいたします。\r\n　外...,委員長 礒崎哲史 君 政府参考人 出席 要求 件 諮る いたす 外国為替及び外国貿易法 第十...
3,2019-12-03,参議院,経済産業委員会,3,○委員長（礒崎哲史君）　御異議ないと認め、さよう決定いたします。\r\n ──────...,委員長 礒崎哲史 君 異議 ない 認める 決定 いたす
4,2019-12-03,参議院,経済産業委員会,4,○委員長（礒崎哲史君）　外国為替及び外国貿易法第十条第二項の規定に基づき、北朝鮮を仕向地とす...,委員長 礒崎哲史 君 外国為替及び外国貿易法 第十条 項 規定 基づく 北朝鮮 仕向 する ...


## 前処理
Doc2Vecのための準備を行う。TaggedDocumentを用いてデータを準備する。  
TaggedDocumentは以下の形式で作成する。  
&nbsp;&nbsp;TaggedDocument(分かち書きした文書(単語ごとのリスト),タグ(文書ID))

ここではタグは日付+参議院or衆議院+会議名とする。

In [18]:
keys = df_input[['date', 'house', 'meeting']].drop_duplicates().values.tolist()
tagged_corpus = []
for key_list in keys:
    df = df_input[(df_input['date'] == key_list[0]) & \
                  (df_input['house'] == key_list[1]) & \
                  (df_input['meeting'] == key_list[2]) \
                 ]
    df = df.sort_values(by=['speech_order'])
    sentence = ' \n '.join(df['text_ana'].values.tolist())
    sentence = sentence.split(' ')
    tag = ['{}{}{}'.format(key_list[0], key_list[1], key_list[2])]
    tagged_corpus.append(TaggedDocument(sentence, tag))
                         

## モデル作成
モデル作成を行い、このモデルを保管する。 　
- size→次元数。
- window→前後どこまでを対象とするか。
- dm→1はdmpvそれ以外はDBOW

In [36]:
model = Doc2Vec(documents=tagged_corpus, size=300, window=3, dm = 1)
#'2017-05-29_参議院_本会議'
model.docvecs.most_similar('2019-12-03参議院経済産業委員会')



[('2019-11-22衆議院経済産業委員会', 0.8732223510742188),
 ('2018-04-18衆議院経済産業委員会', 0.8690423965454102),
 ('2019-11-14参議院経済産業委員会', 0.8461552262306213),
 ('2018-04-05参議院経済産業委員会', 0.84292072057724),
 ('2019-05-16参議院経済産業委員会', 0.8410840630531311),
 ('2018-03-23参議院経済産業委員会', 0.8346189260482788),
 ('2019-03-20参議院経済産業委員会', 0.8334153890609741),
 ('2018-03-28衆議院経済産業委員会', 0.8277140259742737),
 ('2018-04-03参議院経済産業委員会', 0.8197330236434937),
 ('2018-05-29参議院経済産業委員会', 0.809745728969574)]

In [23]:
model.docvecs['2019-12-03参議院経済産業委員会'].shape

(300,)