# 第四周 情感分析的计算学习实现

## 1.导入必要的包 

In [1]:
# pandas是用来导入、整理、清洗表格数据的专用工具，类似excel，但功能更加强大，导入的时候给pandas起个小名叫pd
import pandas as pd
# 用pandas的read_csv函数读取训练数据及测试数据，数据文件是.tsv格式的，也就是说数据用制表符\t分隔，类似于.csv文件的数据用逗号分隔
data_train = pd.read_csv('./train.tsv',sep='\t')
data_test = pd.read_csv('./test.tsv',sep='\t')

In [2]:
# 看训练集数据前5行，Phrase列为电影评论文本，Sentiment为情感标签
data_train.head()

Unnamed: 0,PhraseId,SentenceId,Phrase,Sentiment
0,1,1,A series of escapades demonstrating the adage ...,1
1,2,1,A series of escapades demonstrating the adage ...,2
2,3,1,A series,2
3,4,1,A,2
4,5,1,series,2


提示：0-negative
1 - somewhat negative
2 - neutral
3 - somewhat positive
4 - positive

In [3]:
# 共有156060行训练数据，每行数据都有短语ID、句子ID、文本内容、情感标签四列
data_train.shape

(156060, 4)

In [4]:
# 查看测试集数据前5行，Phrase列就是需要我们自己构建模型预测情感标签的文本
data_test.head()

Unnamed: 0,PhraseId,SentenceId,Phrase
0,156061,8545,An intermittently pleasing but mostly routine ...
1,156062,8545,An intermittently pleasing but mostly routine ...
2,156063,8545,An
3,156064,8545,intermittently pleasing but mostly routine effort
4,156065,8545,intermittently pleasing but mostly routine


In [5]:
# 共有66292行测试集数据，每个数据都有短语ID、句子ID、文本内容三列
data_test.shape

(66292, 3)

## 2.预处理与文本向量化 

我们需要对文本进行一些处理，将原始文本中的每一个词变成计算机看得懂的向量，这一过程叫做文本的特征工程，非常重要。
有很多将词变成向量的方法，比如下面将要介绍的词袋模型、TF-IDF模型，以及视频中介绍的word2vec模型。
不管采用什么模型，我们都需要先把训练集和测试集中所有文本内容组合在一起，构建一个语料库。

In [6]:
# 提取训练集中的文本内容 
train_sentences = data_train['Phrase']

# 提取测试集中的文本内容
test_sentences = data_test['Phrase']

# 通过pandas的concat函数将训练集和测试集的文本内容合并到一起
sentences = pd.concat([train_sentences,test_sentences])

In [7]:
# 合并到一起的语料库共有222352行数据
sentences.shape

(222352,)

In [8]:
# 提取训练集中的情感标签，一共是156060个标签
label = data_train['Sentiment']

In [9]:
label.shape

(156060,)

In [10]:
#导入停词库，停词库中的词是一些废话单词和语气词，对情感分析没什么帮助
stop_words = open('./stop_words.txt',encoding='utf-8').read().splitlines()

In [11]:
# stop_words是一个列表，列表中每一个元素都是一个停用词
stop_words

["\ufeffain'",
 'happy',
 'isn',
 'ain',
 'al',
 'couldn',
 'didn',
 'doesn',
 'hadn',
 'hasn',
 'haven',
 'sn',
 'll',
 'mon',
 'shouldn',
 've',
 'wasn',
 'weren',
 'won',
 'wouldn',
 "'d",
 "'ll",
 "'m",
 "'re",
 "'s",
 "'t",
 "'ve",
 'ZT',
 'ZZ',
 'a',
 "a's",
 'able',
 'about',
 'above',
 'abst',
 'accordance',
 'according',
 'accordingly',
 'across',
 'act',
 'actually',
 'added',
 'adj',
 'adopted',
 'affected',
 'affecting',
 'affects',
 'after',
 'afterwards',
 'again',
 'against',
 'ah',
 "ain't",
 'all',
 'allow',
 'allows',
 'almost',
 'alone',
 'along',
 'already',
 'also',
 'although',
 'always',
 'am',
 'among',
 'amongst',
 'an',
 'and',
 'announce',
 'another',
 'any',
 'anybody',
 'anyhow',
 'anymore',
 'anyone',
 'anything',
 'anyway',
 'anyways',
 'anywhere',
 'apart',
 'apparently',
 'appear',
 'appreciate',
 'appropriate',
 'approximately',
 'are',
 'area',
 'areas',
 'aren',
 "aren't",
 'arent',
 'arise',
 'around',
 'as',
 'aside',
 'ask',
 'asked',
 'asking',
 

In [20]:
# 用sklearn库中的CountVectorizer构建词袋模型
# analyzer='word'指的是以词为单位进行分析，对于拉丁语系语言，有时需要以字母'character'为单位进行分析
# ngram指分析相邻的几个词，避免原始的词袋模型中词序丢失的问题
# max_features指最终的词袋矩阵里面包含语料库中出现次数最多的多少个词

from sklearn.feature_extraction.text import CountVectorizer
co = CountVectorizer(
    analyzer='word',
    ngram_range=(1,4),
    stop_words=stop_words,
    max_features=150000
)

In [13]:
# 使用语料库，构建词袋模型

co.fit(sentences)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=150000, min_df=1,
                ngram_range=(1, 4), preprocessor=None,
                stop_words=["\ufeffain'", 'happy', 'isn', 'ain', 'al', 'couldn',
                            'didn', 'doesn', 'hadn', 'hasn', 'haven', 'sn',
                            'll', 'mon', 'shouldn', 've', 'wasn', 'weren',
                            'won', 'wouldn', "'d", "'ll", "'m", "'re", "'s",
                            "'t", "'ve", 'ZT', 'ZZ', 'a', ...],
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [14]:
# 将训练集随机拆分为新的训练集和验证集，默认3:1,然后进行词频统计
# 在机器学习中，训练集相当于课后习题，用于平时学习知识。验证集相当于模拟考试，用于检验学习成果。测试集相当于高考，用于最终Kaggle竞赛打分。
# 新的训练集和验证集都来自于最初的训练集，都是有标签的。

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(train_sentences,label,random_state=1234)

- x_train 训练集数据 （相当于课后习题）
- x_test 验证集数据 （相当于模拟考试题）
- y_train 训练集标签 （相当于课后习题答案）
- y_test 验证集标签（相当于模拟考试题答案）

In [15]:
# 用上面构建的词袋模型，把训练集和验证集中的每一个词都进行特征工程，变成向量

x_train = co.transform(x_train)
x_test = co.transform(x_test)

In [16]:
# 随便看训练集中的一个数据，它是150000列的稀疏矩阵

x_train[1]

<1x150000 sparse matrix of type '<class 'numpy.int64'>'
	with 6 stored elements in Compressed Sparse Row format>

# 3.机器学习训练模型

In [17]:
# 直接运行本单元格即可，本单元格代码的作用是：忽略下面代码执行过程中的版本警告等无用提示

import warnings 
warnings.filterwarnings('ignore')

## 3.1逻辑回归分类器 

In [18]:
from sklearn.linear_model import LogisticRegression
lg1 = LogisticRegression()
lg1.fit(x_train,y_train)
print('词袋方法进行文本特征工程，使用sklearn默认的逻辑回归分类器，验证集上的预测准确率:',lg1.score(x_test,y_test))

词袋方法进行文本特征工程，使用sklearn默认的逻辑回归分类器，验证集上的预测准确率: 0.6430859925669614


## 3.2多项式贝叶斯分类器 

In [19]:
#引用朴素贝叶斯进行分类训练和预测
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(x_train,y_train)
print('词袋方法进行文本特征工程，使用sklearn默认的多项式朴素贝叶斯分类器，验证集上的预测准确率:',classifier.score(x_test,y_test))

词袋方法进行文本特征工程，使用sklearn默认的多项式朴素贝叶斯分类器，验证集上的预测准确率: 0.6084070229398949
