
# <center>Python课程实践</center>

## 课程内容

### 实践题目
#### 电商产品评论数据情感分析

* 随着网上购物越来越流行，人们对于网上购物的需求变得越来越高，这让京东、淘宝等电商平台得到了很大的发展机遇。在这种电商平台激烈竞争的大背景下，除了提高商品质量、压低商品价格外，了解更多消费者的心声对于电商平台来说也变得越来越有必要，其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析，有利于对应商品的生产厂家自身竞争力的提升。
*  针对京东商城上“美的”品牌的热水器的消费者的文本评论数据，在对文本进行基本的机器预处理、中文分词、停用词过滤后，通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型，实现对文本评论数据的倾向性判断以及所隐藏的信息挖掘并分析，以期望得到有价值的内在内容。

### 数据文件
* 京东用户评论数据

### 本节任务

对京东平台上的热水器评论进行文本挖掘分析
* 分析某一品牌热水器的用户情感倾向
* 从评论文本中挖掘出该品牌热水器的优点与不足
* 提炼不同品牌热水器的卖点

In [4]:
import jieba
import pandas as pd
from gensim import corpora, models



### 1.提取评论数据

将品牌为“美的”的评论一列抽取，另存为meidi_jd.txt，编码为UTF-8

In [2]:
inputfile = "data/huizong.csv"
outputfile = "data/meidi_jd.txt"
data = pd.read_csv(inputfile, encoding="utf-8")
data = data[[u"评论"]][data[u"品牌"] == u"美的"]
data.to_csv(outputfile, index=False, header=False, encoding="utf8")

### 2.评论预处理
* 取到文本后，首先要进行文本评论数据的预处理。文本评论数据里存在大量价值含量很低甚至没有价值含量的条目，如果将这些评论数据也引入进行分词、词频统计乃至情感分析等，必然会对分析造成很大的影响，得到的结果的质量也必然是存在问题的。那么，在利用这些文本评论数据之前就必须先进行文本预处理，把大量的此类无价值含量的评论去除。
* 文本评论数据的预处理主要由3个部分组成：文本去重、机械压缩去词以及短句删除。

#### 删除重复评论

In [5]:
inputfile = "data/meidi_jd.txt"
outputfile = "data/meidi_jd_process_1.txt"
data = pd.read_csv(inputfile, encoding="utf8", header=None)
l1 = len(data)
data = pd.DataFrame(data[0].unique())
l2 = len(data)
data.to_csv(outputfile, index=False, header=False, encoding="utf8")
print(u"删除了%s条评论" % (l1 - l2))

删除了2352条评论


#### 删除前缀评分
利用正则去除一些数据

In [6]:
inputfile1 = u"data/meidi_jd_process_end_负面情感结果.txt"
inputfile2 = u"data/meidi_jd_process_end_正面情感结果.txt"
outputfile1 = "data/meidi_jd_neg.txt"
outputfile2 = "data/meidi_jd_pos.txt"

data1 = pd.read_csv(inputfile1, encoding="utf8", header=None)
data2 = pd.read_csv(inputfile2, encoding="utf8", header=None)
data1.head()

Unnamed: 0,0
0,-4\t 好像遥控是坏的 还是送的电池没有电 算了 热水器上将就着按吧
1,-4\t 要打十个字才能发 我就打十个字
2,-7\t 调温的开关太紧了 不知道是不是都这样 送货和安装的师傅来的很准时 不像以前要等老半天
3,-11\t 上面安装既然花了我差不多*块 但是这热水器马马虎虎吧
4,-15\t 这东西有不是什么高科技 比别的厂家还贵 想不明白


In [7]:
data1 = pd.DataFrame(data1[0].str.replace(".*?\d+?\\t ", ""))
data2 = pd.DataFrame(data2[0].str.replace(".*?\d+?\\t ", ""))

data1.to_csv(outputfile1, index=False, header=False, encoding="utf8")
data2.to_csv(outputfile2, index=False, header=False, encoding="utf8")
data1.head()

Unnamed: 0,0
0,好像遥控是坏的 还是送的电池没有电 算了 热水器上将就着按吧
1,要打十个字才能发 我就打十个字
2,调温的开关太紧了 不知道是不是都这样 送货和安装的师傅来的很准时 不像以前要等老半天
3,上面安装既然花了我差不多*块 但是这热水器马马虎虎吧
4,这东西有不是什么高科技 比别的厂家还贵 想不明白


#### 分词
使用jieba分词

In [8]:
inputfile1 = "data/meidi_jd_neg.txt"
inputfile2 = "data/meidi_jd_pos.txt"
outputfile1 = "data/meidi_jd_neg_cut.txt"
outputfile2 = "data/meidi_jd_pos_cut.txt"

data1 = pd.read_csv(inputfile1, encoding="utf8", header=None)
data2 = pd.read_csv(inputfile2, encoding="utf8", header=None)

def mycut(s): return " ".join(jieba.cut(s))

data1 = data1[0].apply(mycut)
data2 = data2[0].apply(mycut)

data1.to_csv(outputfile1, index=False, header=False, encoding="utf8")
data2.to_csv(outputfile2, index=False, header=False, encoding="utf8")

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ZhirouMa\AppData\Local\Temp\jieba.cache
Loading model cost 0.809 seconds.
Prefix dict has been built succesfully.


### 3.评论数据分析

#### LDA
分词之后的语义分析，LDA模型分析正面负面情感

In [9]:
negfile = "data/meidi_jd_neg_cut.txt"
posfile = "data/meidi_jd_pos_cut.txt"
stoplist = "data/stoplist.txt"

neg = pd.read_csv(negfile, encoding="utf8", header=None)
pos = pd.read_csv(posfile, encoding="utf8", header=None)
"""
sep设置分割词，由于csv默认半角逗号为分割词，而且该词恰好位于停用词表中
所以会导致读取错误
解决办法是手动设置一个不存在的分割词，这里使用的是tipdm
参数engine加上，指定引擎，避免警告
"""
stop = pd.read_csv(stoplist, encoding="utf8", header=None, sep="tipdm", engine="python")

# pandas自动过滤了空格，这里手动添加
stop = [" ", ""] + list(stop[0])

# 定义分割函数，然后用apply进行广播
neg[1] = neg[0].apply(lambda s: s.split(" "))
neg[2] = neg[1].apply(lambda x: [i for i in x if i not in stop])
pos[1] = pos[0].apply(lambda s: s.split(" "))
pos[2] = pos[1].apply(lambda x: [i for i in x if i not in stop])

neg

Unnamed: 0,0,1,2
0,好像 遥控 是 坏 的 还是 送 的 电池 没有 电 算了 热水器 上将 就 着...,"[好像, 遥控, 是, 坏, 的, , , 还是, 送, 的, 电池, 没有, 电, , ,...","[好像, 遥控, 坏, 送, 电池, 电, 算了, 热水器, 上将]"
1,要 打 十个 字 才能 发 我 就 打 十个 字,"[要, 打, 十个, 字, 才能, 发, , , 我, 就, 打, 十个, 字]","[十个, 字, 发, 十个, 字]"
2,调温 的 开关 太紧 了 不 知道 是不是 都 这样 送货 和 安装 的 师傅 来 ...,"[调温, 的, 开关, 太紧, 了, , , 不, 知道, 是不是, 都, 这样, , , ...","[调温, 开关, 太紧, 知道, 是不是, 送货, 安装, 师傅, 准时, 不像, 以前, ..."
3,上面 安装 既然 花 了 我 差不多 * 块 但是 这 热水器 马马虎虎 吧,"[上面, 安装, 既然, 花, 了, 我, 差不多, *, 块, , , 但是, 这, 热水...","[上面, 安装, 花, 块, 热水器, 马马虎虎]"
4,这 东西 有 不是 什么 高科技 比 别的 厂家 还贵 想 不 明白,"[这, 东西, 有, 不是, 什么, 高科技, , , 比, 别的, 厂家, 还贵, , ,...","[东西, 高科技, 厂家, 还贵, 想, 明白]"
5,家里人 会装 自己 装 的 厂配 的 混 水阀 不够 标准 装 的 时候 费 了...,"[家里人, 会装, , , 自己, 装, 的, , , 厂配, 的, 混, 水阀, 不够, ...","[家里人, 会装, 装, 厂配, 混, 水阀, 不够, 标准, 装, 费, 些, 劲, n,..."
6,便宜 点 但是 还 没 预约 安装 不 知道 安装 又 收 多少 钱,"[便宜, 点, , , 但是, 还, 没, 预约, 安装, , , 不, 知道, 安装, 又...","[便宜, 点, 预约, 安装, 知道, 安装, 收, 钱]"
7,很快 当天 11 点 拍 的 2 点 就 送来 了 不过 师傅 走 错路 了 ...,"[很快, , , 当天, 11, 点, 拍, 的, , , 2, 点, 就, 送来, 了, ...","[很快, 当天, 11, 点, 拍, 点, 送来, 师傅, 走, 错路, 东西, 不错, 价..."
8,价格便宜 加热 速度 也 还 可以,"[价格便宜, , , 加热, 速度, 也, 还, 可以]","[价格便宜, 加热, 速度]"
9,很小 很轻 不 知道 好不好 用,"[很小, 很轻, 不, 知道, 好不好, 用]","[很小, 很轻, 知道, 好不好]"


In [11]:
# 负面主题分析
# 建立词典
neg_dict = corpora.Dictionary(neg[2])
# 建立语料库
neg_corpus = [neg_dict.doc2bow(i) for i in neg[2]]
# LDA模型训练
neg_lda = models.LdaModel(neg_corpus, num_topics=3, id2word=neg_dict)

for i in range(3):
    print(neg_lda.print_topic(i))

0.064*"安装" + 0.020*"买" + 0.017*"师傅" + 0.012*"知道" + 0.012*"好" + 0.011*"东西" + 0.011*"热水器" + 0.009*"美的" + 0.009*"京东" + 0.008*"安装费"
0.032*"不错" + 0.019*"安装" + 0.018*"好" + 0.016*"买" + 0.015*"热水器" + 0.014*"美的" + 0.012*"n" + 0.007*"装" + 0.007*"有点" + 0.007*"加热"
0.027*"热水器" + 0.019*"加热" + 0.015*"安装" + 0.010*"好" + 0.009*"买" + 0.007*"不错" + 0.007*"问题" + 0.006*"速度" + 0.006*"热水" + 0.006*"师傅"


In [12]:
# 正面主题分析
# 以下同上
pos_dict = corpora.Dictionary(pos[2])
pos_corpus = [pos_dict.doc2bow(i) for i in pos[2]]
pos_lda = models.LdaModel(pos_corpus, num_topics=3, id2word=pos_dict)

for i in range(3):
    print(pos_lda.print_topic(i))

0.034*"美的" + 0.033*"买" + 0.025*"京东" + 0.020*"使用" + 0.018*"安装" + 0.016*"好" + 0.015*"不错" + 0.013*"品牌" + 0.010*"售后" + 0.008*"信赖"
0.093*"安装" + 0.071*"好" + 0.034*"不错" + 0.032*"师傅" + 0.023*"挺" + 0.023*"送货" + 0.016*"热水器" + 0.014*"东西" + 0.014*"安装费" + 0.013*"服务"
0.091*"不错" + 0.047*"好" + 0.026*"加热" + 0.019*"热水器" + 0.016*"买" + 0.016*"价格" + 0.015*"高" + 0.015*"东西" + 0.014*"性价比" + 0.014*"速度"


### 4.LSTM文本分类
LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。将词的表示组合成句子的表示，可以采用相加的方法，即将所有词的表示进行加和，或者取平均等方法，但是这些方法没有考虑到词语在句子中前后顺序。如句子“我不觉得他好”。“不”字是对后面“好”的否定，即该句子的情感极性是贬义。使用LSTM模型可以更好的捕捉到较长距离的依赖关系。因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息。

基于Keras框架，采用LSTM实现文本分类。文本采用imdb影评分类语料，共25,000条影评，label标记为正面/负面两种评价。影评已被预处理为词下标构成的序列。方便起见，单词的下标基于它在数据集中出现的频率标定，例如整数3所编码的词为数据集中第3常出现的词。这样的组织方法使得用户可以快速完成诸如“只考虑最常出现的10,000个词，但不考虑最常出现的20个词”这样的操作。词向量没有采用预训练好的向量，训练中生成，采用的网络结构如图所示：

![image](images/14.png)

具体代码如下：

In [None]:
###################### load packages ####################
from keras.datasets import imdb
from keras import preprocessing
from keras.models import Sequential
from keras.layers import Dense, Embedding, Dropout, LSTM
from keras.utils.np_utils import to_categorical


###################### load data ####################
######### 只考虑最常见的1000个词 ########
num_words = 1000

######### 导入数据 #########
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=num_words)

print(x_train.shape)
print(x_train[0][:5])

print(y_train.shape)
print(y_train[0])


###################### preprocess data ####################
######## 句子长度最长设置为20 ########
max_len = 20

######## 对文本进行填充，将文本转成相同长度 ########
x_train = preprocessing.sequence.pad_sequences(x_train, maxlen=max_len)
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen=max_len)

print(x_train.shape)
print(x_train[0])

######## 对label做one-hot处理 ########
num_class = 2
y_train = to_categorical(y_train, num_class)
y_test = to_categorical(y_test, num_class)

print(y_train.shape)
print(y_train[0])


###################### build network ####################
######## word dim 词向量维度 ########
word_dim = 8

######## network structure ########
model = Sequential()

#### Embedding层 ####
model.add(Embedding(input_dim=1000, output_dim=word_dim, input_length=max_len))

#### 两层LSTM，第一层，设置return_sequences参数为True ####
model.add(LSTM(256, return_sequences=True))

#### dropout ####
model.add(Dropout(0.5))

#### 两层LSTM，第二层，设置return_sequences参数为False ####
model.add(LSTM(256, return_sequences=False))

#### dropout ####
model.add(Dropout(0.5))

#### 输出层 ####
model.add(Dense(num_class, activation='softmax'))

print(model.summary())

######## optimization and train ########
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['acc'])
model.fit(x_train, y_train, batch_size=512, epochs=20, verbose=1, validation_data=(x_test, y_test))

# Any Questions?