# 应用机器学习与情感分析

本章将主要涵盖下述几个方面

* 清洗和准备文本数据
* 根据文本数据建立特征向量
* 训练机器学习模型来区分正面或者负面评论
* 用基于外存的学习方法来处理大型文本数据集
* 根据文档推断主题进行分类

## 为文本处理预备好IMDb电影评论数据

### 获取电影评论数据集

### 把电影评论数据预处理成更方便格式的数据

In [5]:
import pyprind
import pandas as pd
import os

# change the 'basepath' to the directory of the
# unzipped movie dataset

basepath = 'aclImdb'

labels = {'pos':1,'neg':0}
pbar = pyprind.ProgBar(50000)
df = pd.DataFrame()
for s in ('test','train'):
    for l in ('pos','neg'):
        path = os.path.join(basepath,s,l)
        for file in os.listdir(path):
            with open(os.path.join(path,file),
                     'r',encoding='utf-8') as infile:
                txt = infile.read()
            df = df.append([[txt,labels[l]]],
                           ignore_index=True)
            pbar.update()
df.columns = ['review','sentiment']

0% [##############################] 100% | ETA: 00:00:00
Total time elapsed: 00:01:08


上面的代码首先初始化新的进度条对象pbar，并定义迭代次数为50000，这是要读入的文件数量。使用嵌套的for循环，遍历aclImbd主目录下的train和test子目录，并从子目录pos和neg下读入单个文本文件，这两个目录连同整数类标签（1=正面和0=负面）最终将会被映射到pandas的DataFrame对象df上。

因为数据集中的分类标签已经排过序，所以现在可以调用np.random子模块的permutation函数对DataFrame洗牌，这对后期将数据集分裂成训练集和测试集很有用。

In [7]:
import numpy as np

np.random.seed(0)
df = df.reindex(np.random.permutation(df.index))
df.to_csv('movie_data.csv',index=False,encoding='utf-8')

In [8]:
df = pd.read_csv('movie_data.csv',encoding='utf-8')
df.head(3)

Unnamed: 0,review,sentiment
0,"In the New Year's Eve, the tuberculous sister ...",1
1,Mr. Kennedy should stop ExPeRiMeNtIng with bad...,0
2,"This is a terrible production of Bartleby, tho...",0


## 词袋模型介绍

词袋模型背后的逻辑非常简单，可以概括如下：

1. 从整个文档中创建一个基于独立令牌（例如单词）的词汇表。
2. 为每个文档构建一个特征向量，其中包含每个词在特定文档中出现的频率。

由于么个文档的独立单词只代表了词袋词汇表中所有单词的一小部分，所以特征向量主要由零组成，因此称之为稀疏向量。

### 把此转换成特征向量

可以用scikit-learn实现的CountVectorizer类根据单词在各文件中出现的频率构建词袋模型。

In [16]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer()
docs = np.array([
        'The sun is shining',
        'The weather is sweet',
        'The sun is shing, the weather is sweet, and one and one is two'
])
bag = count.fit_transform(docs)

调用CountVectorizer的fit_transform方法处理构建词袋模型的词汇表，并且把以下三个句子转化为稀疏特征向量。

现在打印出词汇表的内容，以便更好地理解其中所包含地概念

In [17]:
print(count.vocabulary_)
print(bag.toarray())

{'the': 7, 'sun': 5, 'is': 1, 'shining': 4, 'weather': 9, 'sweet': 6, 'shing': 3, 'and': 0, 'one': 2, 'two': 8}
[[0 1 0 0 1 1 0 1 0 0]
 [0 1 0 0 0 0 1 1 0 1]
 [2 3 2 1 0 1 1 2 1 1]]


### 通过词频逆反文档频率评估单词相关性

__词频逆反文档频率(td-idf)__，用于减少特征向量中频繁出现地词。tf-dif可以定义为词频与逆反文档频率地乘积：

$$tf-idf(t,d)=tf(t,d)\times idf(t,d)$$

tf(t,d)为前一节引入的词频，idf(t,d)为逆反文档频率，起计算过程如下：

$$idf(t,d)=\log \frac{n_d}{1+df(d,t)}$$

$n_d$为文档总数，$df(d,t)$为含有单词t的文档数量。请注意，为分母添加常数1为可选，目的在于所有训练样本中出现地单词赋予非零值，用对于来确保低文档频率地权重不会过大。

scikit-learn实现了另外一个转换器TfidfTransformer类，它以来自于CountVectorizer类，以原始词频为输入，然后转换为tf-idfs格式：

In [18]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer(use_idf=True,
                         norm='l2',
                         smooth_idf=True)
np.set_printoptions(precision=2)
print(tfidf.fit_transform(count.fit_transform(docs))
      .toarray())

[[0.   0.39 0.   0.   0.66 0.5  0.   0.39 0.   0.  ]
 [0.   0.43 0.   0.   0.   0.   0.56 0.43 0.   0.56]
 [0.5  0.44 0.5  0.25 0.   0.19 0.19 0.29 0.25 0.19]]
