# 機械学習の適用１ー感情分析
- 人々の意見、レビュー、提案は政治学やビジネスにとって貴重な情報源となっている。
- 自然言語処理の一分野である感情分析を取り上げる。
- 極性（書き手の意見）に基づいてドキュメントを分類する方法を学ぶ。

1.テキストデータのクレンジングと準備

2.テキストドキュメントからの特徴ベクトルの構築

3.映画レビューを肯定的な文と否定的な文に分類する機械学習のモデルのトレーニング

4.アウトオブコア学習に基づく大規模なテキストデータセットの処理

# 8.1 IMDbの映画レビューデータセットの取得
- 感情分析は意見マイニングとも呼ばれる。
- よく知られているタスクは、ある話題に関して書き手が表明した意見や感情に基づいてドキュメントを分類することである。
- IMDbの映画レビューの大きなデータセットを扱う。
- 映画レビューデートセットは、「肯定的」、「否定的」として両極に分類される50，000件の映画レビューで構成される。
- これらの映画レビューのサブセットから意味のある情報を抽出し、レビューする人が映画を好きと評価したのか、嫌いと評価したのかを予測できる機械学習モデルの構築方法について説明する。

In [23]:
import pyprind
import pandas as pd
import os
import codecs

pbar = pyprind.ProgBar(50000)
labels = {'pos':1,'neg':0}
df = pd.DataFrame()

for s in ('test','train'):
    for l in ('pos','neg'):
        path = './aclImdb/%s/%s' %(s,l)
        for afile in os.listdir(path):
            with codecs.open(os.path.join(path,afile),mode='r',encoding='utf-8') as infile:
                txt = infile.read()
                df = df.append([[txt, labels[l]]],ignore_index=True)
                pbar.update()
                
df.columns = ['review','sentiment']

0%                          100%
[##############################] | ETA: 00:00:00
Total time elapsed: 00:02:00


In [29]:
df.head()

Unnamed: 0,review,sentiment
25957,I found this to be a surprisingly light-handed...,1
19386,'Bland' is probably the word I'd use to try an...,0
31501,almost every review of this movie I'd seen was...,1
35365,"Now, I have seen a lot of movies in my day, bu...",1
36753,This Academy Award winning short film can rank...,1


In [30]:
import numpy as np
np.random.seed(0)
df = df.reindex(np.random.permutation(df.index))
df.to_csv('./movie_data.csv',index=False,encoding='utf-8')

In [31]:
df = pd.read_csv('./movie_data.csv')
df.head(3)

Unnamed: 0,review,sentiment
0,I went to the cinema to watch a preview of thi...,0
1,"Considering it's basically low-budget cast, th...",1
2,i watched this movie 10 years ago. and have wa...,1
