In [1]:
# １．gensim モジュールをインストールする
!pip install gensim



In [2]:
# ２．辞書を作成する
# 本ノートブックと同じフォルダに「livedoordic.txt」という名前のファイルが生成される
!python corpus.py

# `from conllections import Mapping`あたりにエラーが出た場合、
# 下記のサイト参考にして、解決策を試してみる　
# https://github.com/Kyubyong/wordvectors/issues/28

In [3]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
import corpus

In [4]:
# ３．辞書の読み込み
dictionary = corpus.get_dictionary(create_flg=False)

# 辞書の内容を表示する
for item in dictionary.items():
    print(item)

(1618, '!')
(2105, '!!')
(2127, '!?')
(2120, '!?\u3000')
(499, '"')
(120, '%')
(121, '&')
(759, "'")
(0, '(')
(1, ')')
(172, ')]')
(1323, ')\u3000')
(1035, ')」')
(173, '+')
(2, ',')
(3, '/')
(500, ':')
(4, '://')
(1351, '?')
(174, '@')
(175, '[')
(344, ']')
(1446, '_')
(345, 'a')
(558, 'ac')
(1568, 'af')
(2168, 'after')
(1036, 'air')
(1827, 'akb')
(262, 'all')
(5, 'amazon')
(1654, 'amd')
(176, 'android')
(817, 'angrybirds')
(122, 'app')
(123, 'apple')
(1217, 'aquos')
(1971, 'ar')
(1247, 'ascii')
(2169, 'atem')
(1302, 'au')
(501, 'av')
(1372, 'b')
(2180, 'backnumber')
(177, 'bci')
(1408, 'bd')
(502, 'best')
(1683, 'bluetooth')
(1909, 'book')
(1697, 'bridge')
(503, 'by')
(1292, 'c')
(760, 'cd')
(346, 'ceo')
(1822, 'chrome')
(6, 'cl')
(402, 'class')
(1132, 'cm')
(995, 'cmos')
(7, 'co')
(178, 'com')
(263, 'copyright')
(8, 'core')
(9, 'cpu')
(761, 'cube')
(403, 'd')
(347, 'data')
(179, 'digi')
(1801, 'digital')
(1975, 'drive')
(1619, 'dropbox')
(932, 'ds')
(933, 'dvd')
(404, 'e')
(818, 'eag

In [5]:
# 記事の読み込み
contents = corpus.get_contents()

# 最初の記事を表示する
for item in contents.items():
    print(f"filename={item[0]}\n")
    print(item[1])
    break

filename=it-life-hack-6292880.txt

旧式Macで禁断のパワーアップ！最新PCやソフトを一挙にチェック【ITフラッシュバック】
テレビやTwitterと連携できるパソコンや、プロセッサや切り替わるパソコンなど、面白いパソコンが次から次へと登場した。旧式Macの禁断ともいえるパワーアップ方法から、NECの最新PC、話題のThinkPad X1 Hybrid、新セキュリティソフトまで一挙に紹介しよう。

■インテル SSD 520をMacに装着！旧式Macはどれほど高速化するのか (上)
インテルが最新SSD「520シリーズ」を発売した。現行SSDの中でもトップクラスの性能を誇る同製品を、旧型Macの高速化を図るというポイントでレビューしてみた。少し風変わりなレビューとなるが、どの程度の効果があるか、期待大である。


■http://itlifehack.jp/archives/6716997.html
ThinkPad X1 Hybridは使用するCPUがx86(インテルCore iなど)からARMに切り替わるハイブリッドなPCだが、これと同時にOSも切り替わる。


■初期費用、更新費用ともに無料！ジャストシステム、ヤモリが目印のセキュリティソフト
現在では、多くのユーザーがパソコンにセキュリティソフトを導入しているが、その過半数は毎年5,000円程度かかる更新費用やその手続きについて不満を持っている。有料ソフトを利用するユーザーの約8割は無料のセキュリティソフトを知っているにもかかわらず、性能面で劣るのではという不安から導入を控えているという状況にある。


■テレビの新しい楽しみ方を提案！NECの春PCはTVとTwitterの連携
NECは2012年2月14日、個人向けデスクトップパソコン「VALUESTAR」シリーズ3タイプ16モデルを2月16日より販売すると発表した。新商品では、よりパワフルになった録画機能に加え、TV視聴・録画機能に業界で初めて人気のTwitterを連携させた「SmartVisionつぶやきプラス」を追加するなど、TVパソコンならではの機能を搭載。スマートフォン、ホームネットワーク対応も強化し、「安心・簡単・快適」なデジタルエンターテイメントの提案として、主要モデルに対し以下の強化を行った。


■まるでお

In [6]:
# 特徴抽出
data_train = []
label_train = [] # 分類ラベルは、記事所在のフォルダ名になる

for file_name, content in contents.items():
    data_train.append(corpus.get_vector(dictionary, content))
    label_train.append(corpus.get_class_id(file_name))

# 分類器
estimator = RandomForestClassifier()

# 学習
estimator.fit(data_train, label_train)

# 学習したデータを予測にかける（100%のはず）
print("==== 学習データと予測データが一緒の場合")
print(estimator.score(data_train, label_train))

# 学習データとテストデータを分ける
data_train_s, data_test_s, label_train_s, label_test_s = train_test_split(data_train, label_train, test_size=0.5)

# 分類器をもう一度定義
estimator2 = RandomForestClassifier()

# 学習
estimator2.fit(data_train_s, label_train_s)
print("==== 学習データと予測データが違う場合")
print(estimator2.score(data_test_s, label_test_s))

==== 学習データと予測データが一緒の場合
1.0
==== 学習データと予測データが違う場合
0.9792387543252595
