### 7-2．機械学習のためのデータ準備
#### 全記事の形態素解析

In [1]:
# Janomeのインストール
!pip install janome

Collecting janome
[?25l  Downloading https://files.pythonhosted.org/packages/a0/af/a57956e98b26beebc4efe20c3f5b482f0b4e091f546bfd90a96678da2f1c/Janome-0.3.7-py27.py3-none-any.whl (20.7MB)
[K    100% |████████████████████████████████| 20.7MB 668kB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.3.7


In [1]:
import os
import re
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.tokenfilter import POSKeepFilter

# 記事フォルダの指定
dirs = ['it-life-hack', 'movie-enter']

# 単語とラベルを格納するリストを生成
docterm = [] # 説明変数
label = [] # 目的変数
tmp1 = []
tmp2 = ''

# 形態素解析の準備
# オブジェクト生成
t = Tokenizer()
# 名詞の単語のみ抽出するフィルターを生成
token_filters = [POSKeepFilter(['名詞'])]
# フィルターを搭載した解析フレームワークの生成
a = Analyzer([], t, token_filters)

# 各フォルダのファイルを1つずつ読み込んで表示
for i, d in enumerate(dirs):
    # ファイルの取得
    files = os.listdir('./data/' + d)
    
    for file in files:
        # ファイルオープンと読み込み
        f = open('./data/' + d + '/' + file, 'r', encoding='utf-8')
        text = f.read()
        
        # 正規表現で不要な文字列を除去して表示
        reg_text = re.sub(r'[0-9a-zA-Z]+', '', text)
        reg_text = re.sub(r'[:;/+\.-]', '', reg_text)
        reg_text = re.sub(r'[\s\n]', '', reg_text)
        
        # フィルタ付き形態素解析
        for token in a.analyze(reg_text):
            tmp1.append(token.surface)
            tmp2 = ' '.join(tmp1)
        # 記事ごとに単語を格納
        docterm.append(tmp2)
        tmp1 = []
        
        # 記事ごとにラベルの格納
        label.append(i)
        
        # ファイルクローズ
        f.close()

In [2]:
import pandas as pd

# 記事ごとに含まれる単語を確認
pd.DataFrame(docterm).head()

Unnamed: 0,0
0,旧式 禁断 パワーアップ 最新 ソフト 一挙 チェック フラッシュ バック テレビ 連携 パ...
1,アップル デベロッパプレビュー リリース 次期 明らか アップル 年月日 米国 カリフォルニ...
2,サービス 終了 後 電子 書籍 永遠 の デジ 通 ソニー コンピュータ エンターテイメント...
3,ウェブページ イメージ ワザ 虎の巻 会社 概要 自社 ウェブページ イメージ ブログページ...
4,レノボ プロ ゴルファー 斉藤 愛 璃選手 オフィシャル・スポンサーシップ 契約 締結 レノ...


In [3]:
# 1つ目の記事の単語を確認
print(docterm[0])

旧式 禁断 パワーアップ 最新 ソフト 一挙 チェック フラッシュ バック テレビ 連携 パソコン プロセッサ パソコン パソコン 次 次 登場 旧式 禁断 パワーアップ 方法 最新 話題 セキュリティ ソフト 一挙 紹介 インテル 装着 旧式 どれ 高速 化 の ( 上 ) インテル 最新 シリーズ 発売 現行 中 トップクラス 性能 製品 旧型 高速 化 ポイント レビュー 風変わり レビュー 程度 効果 期待 大 使用 ( インテル ) ハイブリッド これ 初期 費用 更新 費用 とも 無料 ジャストシステム ヤモリ 目印 セキュリティ ソフト 現在 多く ユーザー パソコン セキュリティ ソフト 導入 過半数 毎年 , 円 程度 更新 費用 手続き 不満 有料 ソフト 利用 ユーザー 割 無料 セキュリティ ソフト 性能 面 の 不安 導入 状況 テレビ 方 提案 春 連携 年月日 個人 向け デスク トップ パソコン シリーズ タイプ モデル 月日 販売 発表 商品 パワフル 録画 機能 視聴 録画 機能 業界 人気 の 連携 つぶやき プラス 追加 パソコン ならでは 機能 搭載 スマート フォン ホーム ネットワーク 対応 強化 安心 簡単 快適 デジタル エンターテイメント 提案 主要 モデル 以下 強化 祭り 出荷 式 レッツ ノート 出荷 月日 発売 出荷 式 月日 国内 製造 拠点 神戸 工場 同社 パソコン 出荷 式 製品 力 よう エプソン 純正 インク インク カートリッジ 色 セット エプソン 販売元 クチコミ


In [4]:
# 記事のラベルを確認
print(label)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 

#### 単語文書行列の作成

In [5]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# 単語の出現回数をカウント
cv = CountVectorizer()
docterm_cv = cv.fit_transform(np.array(docterm))
docterm_cnt = docterm_cv.toarray()

# データフレーム形式で先頭5行まで表示
pd.DataFrame(docterm_cnt).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,10437,10438,10439,10440,10441,10442,10443,10444,10445,10446
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [6]:
# データのサイズを確認
print(pd.DataFrame(docterm_cnt).shape)
# IDが先頭から50までの単語を確認
print(cv.get_feature_names()[0:50])

(400, 10447)
['〆切', 'あい', 'あおい', 'あかり', 'あきらか', 'あご', 'あさひ', 'あさみ', 'あそこ', 'あたふた', 'あたり', 'あちこち', 'あっち', 'あと', 'あなた', 'あの世', 'あの手この手', 'あまた', 'あまり', 'あや子', 'あり方', 'あれ', 'あんしん', 'あんた', 'いかが', 'いくつ', 'いくら', 'いし', 'いずみ', 'いずれ', 'いた事', 'いち', 'いちど', 'いちばん', 'いっぱい', 'いっぺん', 'いっぽう', 'いつ', 'いつか', 'いづみ', 'いとう', 'いのち', 'いま', 'いまどき', 'いも', 'いや', 'いろいろ', 'いわき', 'いわく', 'うえ']


In [7]:
# 練習問題3
wcnt = []

# 単語出現数をカウント
docterm_wcnt = np.sum(a=docterm_cnt, axis=0)
# 単語とその出現数を1つずつ取り出す
for w, cnt in zip(cv.get_feature_names(), docterm_wcnt):
    wcnt.append([w, cnt])

# データフレームへ変換して降順ソート
wcnt_df = pd.DataFrame(wcnt)
wcnt_df = wcnt_df.sort_values(1, ascending=False)
wcnt_df.head()

Unnamed: 0,0,1
177,こと,1488
7478,映画,1218
466,よう,659
4994,作品,527
5208,公開,473


In [8]:
# 単語の出現回数をカウント
cv = CountVectorizer(min_df=0.01, max_df=0.5)
docterm_cv = cv.fit_transform(np.array(docterm))
docterm_cnt = docterm_cv.toarray()

# データフレーム形式で先頭5行まで表示
pd.DataFrame(docterm_cnt).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,2824,2825,2826,2827,2828,2829,2830,2831,2832,2833
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,1,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0


In [9]:
# データのサイズを確認
print(pd.DataFrame(docterm_cnt).shape)
# IDが先頭から50までの単語を確認
print(cv.get_feature_names()[0:50])

(400, 2834)
['あきらか', 'あたり', 'あと', 'あなた', 'あまり', 'あれ', 'いかが', 'いくつ', 'いずれ', 'いつ', 'いつか', 'いま', 'いろいろ', 'いわく', 'うえ', 'うち', 'おかげ', 'おすすめ', 'おまえ', 'お互い', 'お仕置き', 'お伝え', 'お供', 'お前', 'お告げ', 'お嬢様', 'お母さん', 'お気に入り', 'お父さん', 'お知らせ', 'お笑い', 'お茶', 'お話', 'お金', 'お願い', 'かぎり', 'かけがえ', 'かたち', 'かな', 'かなり', 'か月', 'がち', 'きっかけ', 'きり', 'くん', 'ここ', 'こちら', 'こっち', 'この世', 'これ']


In [10]:
# 練習問題3
wcnt = []

# 単語出現数をカウント
docterm_wcnt = np.sum(a=docterm_cnt, axis=0)
# 単語とその出現数を1つずつ取り出す
for w, cnt in zip(cv.get_feature_names(), docterm_wcnt):
    wcnt.append([w, cnt])

# データフレームへ変換して降順ソート
wcnt_df = pd.DataFrame(wcnt)
wcnt_df = wcnt_df.sort_values(1, ascending=False)
wcnt_df.head()

Unnamed: 0,0,1
2002,映画,1218
1266,作品,527
1335,公開,473
2039,月日,370
1990,日本,343


#### TF-IDFによる重み付け

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 単語のTF-IDFを計算
tv = TfidfVectorizer(min_df=0.01, max_df=0.5, sublinear_tf=True)
docterm_tv = tv.fit_transform(np.array(docterm))
docterm_tfidf = docterm_tv.toarray()

# データフレーム形式で先頭5行まで表示
pd.DataFrame(docterm_tfidf).head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,2824,2825,2826,2827,2828,2829,2830,2831,2832,2833
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.079743,0.0,0.0,0.0,0.0,0.0,0.067717,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.051295,0.0,0.0,0.0,0.0,0.0,0.0


In [12]:
# データのサイズを確認
print(pd.DataFrame(docterm_tfidf).shape)
# IDが先頭から50までの単語を確認
print(tv.get_feature_names()[0:50])

(400, 2834)
['あきらか', 'あたり', 'あと', 'あなた', 'あまり', 'あれ', 'いかが', 'いくつ', 'いずれ', 'いつ', 'いつか', 'いま', 'いろいろ', 'いわく', 'うえ', 'うち', 'おかげ', 'おすすめ', 'おまえ', 'お互い', 'お仕置き', 'お伝え', 'お供', 'お前', 'お告げ', 'お嬢様', 'お母さん', 'お気に入り', 'お父さん', 'お知らせ', 'お笑い', 'お茶', 'お話', 'お金', 'お願い', 'かぎり', 'かけがえ', 'かたち', 'かな', 'かなり', 'か月', 'がち', 'きっかけ', 'きり', 'くん', 'ここ', 'こちら', 'こっち', 'この世', 'これ']
