### 7-2．機械学習のためのデータ準備
#### 全記事の形態素解析

In [1]:
# WordCloudのインストール
!pip install wordcloud

Collecting wordcloud
  Downloading https://files.pythonhosted.org/packages/dd/57/8fd38e31be7951f9164f4cb3a769159a0c2ef4af0f597ddf09a7e736593e/wordcloud-1.5.0-cp36-cp36m-win_amd64.whl (153kB)
Collecting pillow (from wordcloud)
  Downloading https://files.pythonhosted.org/packages/ec/ca/7af5b6628ecf770645f8cc3c9da3c2bb5c5ffc7384a9ff0666fdb818b4d5/Pillow-5.4.1-cp36-cp36m-win_amd64.whl (1.9MB)
Installing collected packages: pillow, wordcloud
Successfully installed pillow-5.4.1 wordcloud-1.5.0


In [1]:
import os
import re
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.tokenfilter import POSKeepFilter
from janome.tokenfilter import TokenCountFilter

# 記事フォルダの指定
dirs = ['it-life-hack', 'movie-enter']

# 単語とラベルを格納するリストを生成
docterm = [] # 説明変数
label = [] # 目的変数
tmp1 = []
tmp2 = ''

# 形態素解析の準備
# オブジェクト生成
t = Tokenizer()
# 名詞の単語のみ抽出するフィルターを生成
token_filters = [POSKeepFilter(['名詞']), TokenCountFilter()]
# フィルターを搭載した解析フレームワークの生成
a = Analyzer([], t, token_filters)

# 各フォルダのファイルを1つずつ読み込んで表示
for i, d in enumerate(dirs):
    # ファイルの取得
    files = os.listdir('./data/' + d)
    
    for file in files:
        # ファイルオープンと読み込み
        f = open('./data/' + d + '/' + file, 'r', encoding='utf-8')
        text = f.read()
        
        # 正規表現で不要な文字列を除去して表示
        reg_text = re.sub(r'[0-9a-zA-Z]+', '', text)
        reg_text = re.sub(r'[:;/+\.-]', '', reg_text)
        reg_text = re.sub(r'[\s\n]', '', reg_text)
        
        # フィルタ付き形態素解析
        #for token in a.analyze(reg_text):
        #    tmp1.append(token.surface)
        #    tmp2 = ' '.join(tmp1)
        # 記事ごとに単語を格納
        #docterm.append(tmp2)
        #tmp1 = []
        tokens = a.analyze(reg_text)
        for token in tokens:
            if token[1] > 5:
                tmp1.append(token[0])
                tmp2 = ' '.join(tmp1)
        docterm.append(tmp2)
        tmp1 = []
        
        # 記事ごとにラベルの格納
        label.append(i)
        
        # ファイルクローズ
        f.close()

In [2]:
import pandas as pd

pd.DataFrame(docterm).head()

Unnamed: 0,0
0,ソフト パソコン
1,アップル リリース
2,サービス 終了 電子 書籍 通 コミック コンテンツ こと
3,ウェブページ 保存 キャプチャ クリック
4,レノボ


In [2]:
# 1つ目の記事の単語を確認
print(docterm[0])

ソフト パソコン


In [3]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud

text = ''
# 先頭50記事の単語のみ対象
for i in range(50):
    text = text + docterm[i]

# ワードクラウドの生成
wc = WordCloud(background_color='white', font_path=r'C:\Windows\Fonts\msgothic.ttc', 
                      width=800, height=800).generate(text)

# ワードクラウドを画像へ出力
wc.to_file('it-life-hack_50-articles.png')

<wordcloud.wordcloud.WordCloud at 0x26fed9ad470>