### 7-3．深層学習のためのデータ準備
#### 全記事の分かち書き

In [1]:
# Janomeのインストール
!pip install janome

Collecting janome
[?25l  Downloading https://files.pythonhosted.org/packages/a0/af/a57956e98b26beebc4efe20c3f5b482f0b4e091f546bfd90a96678da2f1c/Janome-0.3.7-py27.py3-none-any.whl (20.7MB)
[K    100% |████████████████████████████████| 20.7MB 102kB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.3.7


In [2]:
import os
import re
from janome.tokenizer import Tokenizer

# 記事フォルダの指定
dirs = ['it-life-hack', 'movie-enter']

# 単語とラベルを格納するリストを生成
wakati = [] # 説明変数
label = [] # 目的変数

# 分かち書きオブジェクト生成
t = Tokenizer(wakati=True)

# 各フォルダのファイルを1つずつ読み込んで表示
for i, d in enumerate(dirs):
    # ファイルの取得
    files = os.listdir('./data/' + d)
    
    for file in files:
        # ファイルオープンと読み込み
        f = open('./data/' + d + '/' + file, 'r', encoding='utf-8')
        text = f.read()
        
        # 正規表現で不要な文字列を除去して表示
        reg_text = re.sub(r'[0-9a-zA-Z]+', '', text)
        reg_text = re.sub(r'[:;/+\.-]', '', reg_text)
        reg_text = re.sub(r'[\s\n]', '', reg_text)
        
        # 分かち書きして単語をリストへ格納
        wakati.append(t.tokenize(reg_text))
        
        # 記事ごとにラベルの格納
        label.append(i)
        
        # ファイルクローズ
        f.close()

In [3]:
# リストのサイズ確認
print(len(wakati))
# 1つ目の記事の単語を確認
print(wakati[0])
# 1つ目の記事のラベルを確認
print(label[0])

400
['旧式', 'で', '禁断', 'の', 'パワーアップ', '！', '最新', 'や', 'ソフト', 'を', '一挙', 'に', 'チェック', '【', 'フラッシュ', 'バック', '】', 'テレビ', 'や', 'と', '連携', 'できる', 'パソコン', 'や', '、', 'プロセッサ', 'や', '切り替わる', 'パソコン', 'など', '、', '面白い', 'パソコン', 'が', '次', 'から', '次', 'へ', 'と', '登場', 'し', 'た', '。', '旧式', 'の', '禁断', 'と', 'も', 'いえる', 'パワーアップ', '方法', 'から', '、', 'の', '最新', '、', '話題', 'の', '、', '新', 'セキュリティ', 'ソフト', 'まで', '一挙', 'に', '紹介', 'しよ', 'う', '。', '■', 'インテル', 'を', 'に', '装着', '！', '旧式', 'は', 'どれ', 'ほど', '高速', '化', 'する', 'の', 'か', '(', '上', ')', 'インテル', 'が', '最新', '「', 'シリーズ', '」', 'を', '発売', 'し', 'た', '。', '現行', 'の', '中', 'でも', 'トップクラス', 'の', '性能', 'を', '誇る', '同', '製品', 'を', '、', '旧型', 'の', '高速', '化', 'を', '図る', 'という', 'ポイント', 'で', 'レビュー', 'し', 'て', 'み', 'た', '。', '少し', '風変わり', 'な', 'レビュー', 'と', 'なる', 'が', '、', 'どの', '程度', 'の', '効果', 'が', 'ある', 'か', '、', '期待', '大', 'で', 'ある', '。', '■', 'は', '使用', 'する', 'が', '(', 'インテル', 'など', ')', 'から', 'に', '切り替わる', 'ハイブリッド', 'な', 'だが', '、', 'これ', 'と', '同時に', 'も', '切り替わる', '。', '■'

#### 単語の数値化

In [4]:
import itertools
from collections import Counter
import pandas as pd

# 単語の出現数をカウント
word_freq = Counter(itertools.chain(* wakati))

# 単語を出現数降順で並べ替え
dic = []
for word_uniq in word_freq.most_common():
    dic.append(word_uniq[0])

# 単語数を確認
print(len(dic))
# 出現数の多い単語を5つ確認
print(pd.DataFrame(dic).head())

15579
   0
0  の
1  、
2  を
3  。
4  に


In [5]:
# 単語にIDを付与し辞書を作成
dic_inv = {}
for i, word_uniq in enumerate(dic, start=1):
    dic_inv.update({word_uniq: i})
    
# 辞書の長さを確認
print(len(dic_inv))

15579


In [6]:
# 練習問題4
# 単語をIDへ変換
wakati_id = [ [ dic_inv[word] for word in waka ] for waka in wakati ]

# リストのサイズ確認
print(len(wakati_id))
# 1つ目の記事の単語IDを確認
print(wakati_id[0])

400
[1988, 10, 2378, 1, 3021, 27, 202, 35, 380, 3, 2552, 5, 273, 59, 2379, 1511, 56, 277, 35, 11, 1118, 48, 195, 35, 2, 2553, 35, 4760, 195, 50, 2, 874, 195, 6, 419, 30, 419, 77, 11, 97, 12, 9, 4, 1988, 1, 2378, 11, 17, 1438, 3021, 260, 30, 2, 1, 202, 2, 173, 1, 2, 167, 342, 380, 67, 2552, 5, 168, 229, 40, 4, 37, 355, 3, 5, 403, 27, 1988, 7, 821, 312, 363, 113, 19, 1, 32, 196, 177, 287, 355, 6, 202, 14, 104, 15, 3, 107, 12, 9, 4, 3660, 1, 64, 93, 6914, 1, 456, 3, 1766, 335, 90, 3, 2, 2380, 1, 363, 113, 3, 4761, 44, 822, 10, 608, 12, 8, 210, 9, 4, 725, 9218, 16, 608, 11, 45, 6, 2, 336, 763, 1, 682, 6, 33, 32, 2, 546, 83, 10, 33, 4, 37, 7, 280, 19, 6, 196, 355, 50, 287, 30, 5, 4760, 1694, 16, 1383, 2, 98, 11, 683, 17, 4760, 4, 37, 1597, 4120, 2, 1989, 4120, 1155, 5, 370, 27, 9219, 2, 9220, 6, 6915, 1, 342, 380, 321, 10, 7, 2, 295, 1, 191, 6, 195, 5, 342, 380, 3, 1268, 12, 8, 18, 6, 2, 60, 6916, 7, 5620, 322, 121, 763, 1990, 1989, 4120, 35, 60, 6917, 128, 4121, 3, 384, 8, 18, 4, 1870, 380

In [8]:
# Kerasのインストール
!pip install keras

Collecting keras
[?25l  Downloading https://files.pythonhosted.org/packages/5e/10/aa32dad071ce52b5502266b5c659451cfd6ffcbf14e6c8c4f16c0ff5aaab/Keras-2.2.4-py2.py3-none-any.whl (312kB)
[K    100% |████████████████████████████████| 317kB 5.9MB/s 
[?25hCollecting keras-preprocessing>=1.0.5 (from keras)
  Downloading https://files.pythonhosted.org/packages/fc/94/74e0fa783d3fc07e41715973435dd051ca89c550881b3454233c39c73e69/Keras_Preprocessing-1.0.5-py2.py3-none-any.whl
Collecting keras-applications>=1.0.6 (from keras)
[?25l  Downloading https://files.pythonhosted.org/packages/3f/c4/2ff40221029f7098d58f8d7fb99b97e8100f3293f9856f0fb5834bef100b/Keras_Applications-1.0.6-py2.py3-none-any.whl (44kB)
[K    100% |████████████████████████████████| 51kB 5.6MB/s 
Installing collected packages: keras-preprocessing, keras-applications, keras
Successfully installed keras-2.2.4 keras-applications-1.0.6 keras-preprocessing-1.0.5


In [7]:
from keras.preprocessing import sequence
import numpy as np

# 可変長から固定長へ変換
wakati_id = sequence.pad_sequences(np.array(wakati_id), maxlen=3382, padding="post", truncating="post")

# labelをNumpy配列へ変換
label = np.array(label)

# 1つ目の記事の単語IDを確認
print(wakati_id[0])

[1988   10 2378 ...    0    0    0]
