## 任务一 读取客户评论数据

In [1]:
# 客户的评论数据：comment.csv（见实验数据文件夹）；
# 停用词列表：stoplist.txt（见实验数据文件夹）。
import pandas as pd

data_path = './data/comment.csv'
df = pd.read_csv(data_path, encoding='gbk')

# 打印一下原始数据信息
print('原始数据信息：')
print(len(df))  # 长度
print(type(df))    # 数据类型载入函数定义加载图片的功能


原始数据信息：
721
<class 'pandas.core.frame.DataFrame'>


## 任务二数据处理

In [2]:
# 数据处理
# 清除缺失数据。使用pandas库中dropna()方法删除缺失值，NaN为缺失数据。
# 消除缺失数据 NaN为缺失数据
df = df.dropna() 
print('清除缺失数据后：')
print(len(df))
print(type(df))

# 数据去重。使用unique()方法将重复出现的数据剔除，使数据保持唯一性。
# 去掉第一列的重复数据；iloc[:, 0]表示索引每一行的第一列；
df = pd.DataFrame(df.iloc[:, 0].unique())  
print('去重数据后：')
print(len(df))


清除缺失数据后：
721
<class 'pandas.core.frame.DataFrame'>
去重数据后：
537


## 任务三 定义机械压缩去词函数

In [4]:

# 在原始数据中，部分文本评论语句存在词语连续累赘重复，而机械压缩去词目的是将这部分连续累赘重复数据进行处理，提高文本评论的分析价值。
# 首先定义一个函数，去除重复数据。
def str_unique(raw_str, reverse=False):
    """
    比如：我喜欢喜欢喜欢喜欢喜欢喜欢该商品；去掉重复的“喜欢”
    :param raw_str:
    :param reverse: 是否转置
    :return:
    """
    if reverse:
        raw_str = raw_str[::-1]
    res_str = ''
    for i in raw_str:
        if i not in res_str:
            res_str += i
    if reverse:
        res_str = res_str[::-1]
    return res_str


In [5]:
# 使用apply方法应用函数；
ser1 = df.iloc[:, 0].apply(str_unique)	# 这时，因为索引了第一列，所以结果成了Series；
print('df2', type(ser1))  # <class 'pandas.core.series.Series'>
df2 = pd.DataFrame(ser1.apply(str_unique, reverse=True))	# 再次生成DataFrame；

print('机械压缩去词后：')
print(len(df2))
print(type(df2))
print('------------------') 


df2 <class 'pandas.core.series.Series'>
机械压缩去词后：
537
<class 'pandas.core.frame.DataFrame'>
------------------


## 任务四 短句 过滤

In [6]:
# 短句过滤
# 用户评论字数越少，其蕴含的意思越少，挖掘到的信息量也越小；由于评论信息中有一些信息是没有参考价值的，需要过滤掉这部分信息，如：评论信息只有4个字符的信息。
df3 = df2[df2.iloc[:, 0].apply(len) >= 4]
print('短句过滤后：')
print(len(df3))
print('------------------')


短句过滤后：
528
------------------


## 任务五 情感分析

In [8]:

# 情感分析（SA）又称为倾向性分析和意见挖掘，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，其中情感分析还可以细分为情感极性（倾向）分析、情感程度分析
# 主客观分析等。
# 情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应用场景下，只分为两类：“喜爱”和“厌恶”。
# 	snownlp：情感分析语言处理库；
# 	使用命令pip install snownlp安装该库。
from snownlp import SnowNLP  # 情感分析语言处理库

# 语义积极的概率，越接近1情感表现越积极
coms = df3.iloc[:, 0].apply(lambda x: SnowNLP(x).sentiments)
print('情感分析后：')
positive_df = df3[coms >= 0.9]  # 特别喜欢的
negative_df = df3[coms < 0.1]  # 不喜欢的

print('特别喜欢的')
print(positive_df)
print('------------------')
print('不喜欢的')
print(negative_df)


情感分析后：
特别喜欢的
                                                     0
0    :"再买，半价很优?惠。收到货了包装好看起来高档东西质量没得说不错这个格比我预期的太多产品描...
1    :"挺好吃的⊙▽，评买给老弟说很喜欢必须一直支持这家店官方旗舰嘛?包装 特别是松鼠君服务了多...
3    "满一大箱呢！物流超快，昨晚买的今天就到了赞价格很划算总吃坚果什么也腻小麻花挺好东西呦 客服...
4    "宝贝已收到，物美价廉的时候发现和图片描述一样超级划算！值得再次光顾滴比实体店便宜了半很好不...
5    :"货很新鲜，吃起来好味道不错。下次还会光顾啊便宜,物流快质量人群松子也保期喜欢碧根果正品该...
..                                                 ...
522                                   很棒。一如既往的支持鼠昭君也热情
525                                           味道不错，很好吃
527                                          给同学买的，挺满意
530                    发货很快，味道应该还不错送人的自己没怎么吃客服鼠暖男态度好夸！
532                                            不错东西挺多的

[238 rows x 1 columns]
------------------
不喜欢的
                                                     0
50   氵咸了·-拌买的，真少花钱~恭 忠～呺傁：熊猫队长再也不迟建议你们去试！看好几家才中这所谓货...
62                                  好吃 客服小姐(鼠无缺)态度很到位呢
63                                            收货2天后追加：
116                     买作礼物，感谢客服鼠灯的耐心和贴友好地让我更改了贺卡内容啦！
181 

## 任务六 分词分析

In [10]:

# 对评价进行分词分析，分析具体喜欢与不喜欢的原因与关键字；
# 中文分词是将句子中汉字按照序列切成一个个单独的中文词语；
# 	需要使用Python 第三方中文分词库：jieba分词库；
# 	使用命令pip install jieba安装该库。
import jieba

my_cut = lambda s: ' '.join(jieba.cut(s))  # 自定义简单分词函数
positive_ser = positive_df.iloc[:, 0].apply(my_cut)  # 通过“广播机制”分词，加快速度
negative_ser = negative_df.iloc[:, 0].apply(my_cut)

print('大于0.5---正面数据---分词')
print(positive_ser)
print('小于0.5---负面数据---分词')
print(negative_ser)


Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.942 seconds.
Prefix dict has been built successfully.


大于0.5---正面数据---分词
0      : " 再 买 ， 半价 很优 ? 惠 。 收到 货 了 包装 好 看起来 高档 东西 质量...
1      : " 挺好吃 的 ⊙ ▽ ， 评买 给 老弟 说 很 喜欢 必须 一直 支持 这家 店 官...
3      " 满 一大 箱 呢 ！ 物流 超快 ， 昨晚 买 的 今天 就 到 了 赞 价格 很 划算...
4      " 宝贝 已 收到 ， 物美价廉 的 时候 发现 和 图片 描述 一样 超级 划算 ！ 值得...
5      : " 货 很 新鲜 ， 吃 起来 好 味道 不错 。 下次 还会 光顾 啊 便宜 , 物流...
                             ...                        
522                             很棒 。 一如既往 的 支持 鼠 昭君 也 热情
525                                         味道 不错 ， 很 好吃
527                                      给 同学 买 的 ， 挺 满意
530    发货 很快 ， 味道 应该 还 不错 送人 的 自己 没 怎么 吃 客服 鼠 暖 男 态度 ...
532                                          不错 东西 挺 多 的
Name: 0, Length: 238, dtype: object
小于0.5---负面数据---分词
50     氵 咸 了 · - 拌 买 的 ， 真少 花钱 ~ 恭   忠 ～ 呺 傁 ： 熊猫 队长 ...
62                         好吃   客服 小姐 ( 鼠 无缺 ) 态度 很 到位 呢
63                                          收货 2 天后 追加 ：
116    买作 礼物 ， 感谢 客服 鼠灯 的 耐心 和 贴 友好 地 让 我 更改 了 贺卡 内容 啦 ！
181                   鼠 服务 非常 好   这个 月 开资 送 我 媳妇 一 大礼包 ?
185             

### 步骤一 去除停用词

In [12]:

# 这些分词中有一些事停用词（像：额，但是，等等，喔），需要去除这些词。
stop_list = './data/stoplist.txt'	# 我的停用词文件是在同级目录存放
stops = pd.read_csv(stop_list, encoding='gbk', header=None, sep='tipdm', engine='python')
# sep 设置分割词，由于csv默认以半角逗号为分割此，而该词恰好在停用词表中，因此会导致读取出错
# 所以解决办法是手动设置一个不存在的分割词，如tipdm；

stops = [' ', ''] + list(stops[0])  # pandas自动过滤了空格符，这里手动添加
positive_df = pd.DataFrame(positive_ser)
negative_df = pd.DataFrame(negative_ser)

positive_df[1] = positive_df[0].apply(lambda s: s.split(' '))  # 定义一个分割函数，然后用apply广播
positive_df[2] = positive_df[1].apply(lambda x: [i for i in x if i.encode('utf-8') not in stops])

negative_df[1] = negative_df[0].apply(lambda s: s.split(' '))  # 定义一个分割函数，然后用apply广播
negative_df[2] = negative_df[1].apply(lambda x: [i for i in x if i.encode('utf-8') not in stops])

print('去停用词后：positive_df')
print(positive_df)

print('------------------')
print('去停用词后：negative_df')
print(negative_df)


去停用词后：positive_df
                                                     0  \
0    : " 再 买 ， 半价 很优 ? 惠 。 收到 货 了 包装 好 看起来 高档 东西 质量...   
1    : " 挺好吃 的 ⊙ ▽ ， 评买 给 老弟 说 很 喜欢 必须 一直 支持 这家 店 官...   
3    " 满 一大 箱 呢 ！ 物流 超快 ， 昨晚 买 的 今天 就 到 了 赞 价格 很 划算...   
4    " 宝贝 已 收到 ， 物美价廉 的 时候 发现 和 图片 描述 一样 超级 划算 ！ 值得...   
5    : " 货 很 新鲜 ， 吃 起来 好 味道 不错 。 下次 还会 光顾 啊 便宜 , 物流...   
..                                                 ...   
522                           很棒 。 一如既往 的 支持 鼠 昭君 也 热情   
525                                       味道 不错 ， 很 好吃   
527                                    给 同学 买 的 ， 挺 满意   
530  发货 很快 ， 味道 应该 还 不错 送人 的 自己 没 怎么 吃 客服 鼠 暖 男 态度 ...   
532                                        不错 东西 挺 多 的   

                                                     1  \
0    [:, ", 再, 买, ，, 半价, 很优, ?, 惠, 。, 收到, 货, 了, 包装,...   
1    [:, ", 挺好吃, 的, ⊙, ▽, ，, 评买, 给, 老弟, 说, 很, 喜欢, 必...   
3    [", 满, 一大, 箱, 呢, ！, 物流, 超快, ，, 昨晚, 买, 的, 今天, 就...   
4    [", 宝贝, 已, 收到, ，, 物美价廉, 的, 时候, 发现, 和, 图片, 描述, ..

### 步骤 2	主题分析

In [14]:

# 分析出人们对商品及其属性的情感倾向。
# 	进行主题分析时，需要用到一个库：gensim库；
# 	使用命令pip install gensim进行安装；
from gensim import corpora, models

# 正面主题分析
pos_dict = corpora.Dictionary(positive_df[2])
pos_corpus = [pos_dict.doc2bow(i) for i in positive_df[2]]
pos_lda = models.LdaModel(pos_corpus, num_topics=3, id2word=pos_dict)
print('#正面主题分析')
for i in range(3):
    print('topic', i)
    print(pos_lda.print_topic(i))  # 输出每个主题

# 负面主题分析
neg_dict = corpora.Dictionary(negative_df[2])  # 建立词典

neg_corpus = [neg_dict.doc2bow(i) for i in negative_df[2]]  # 建立语料库

neg_lda = models.LdaModel(neg_corpus, num_topics=3, id2word=neg_dict)  # LDA 模型训练
print('#负面主题分析')
for i in range(3):
    print('topic', i)
    print(neg_lda.print_topic(i))  # 输出每个主题


#正面主题分析
topic 0
0.022*"的" + 0.021*"，" + 0.017*"好" + 0.016*"" + 0.013*"！" + 0.012*"很" + 0.010*"也" + 0.010*"挺" + 0.010*"不错" + 0.009*"。"
topic 1
0.033*"，" + 0.022*"的" + 0.021*"很" + 0.014*"喜欢" + 0.014*"了" + 0.013*"！" + 0.011*"。" + 0.010*"买" + 0.009*"不错" + 0.009*"也"
topic 2
0.028*"" + 0.021*"的" + 0.020*"很" + 0.018*"，" + 0.014*"了" + 0.012*"喜欢" + 0.010*"不错" + 0.008*"东西" + 0.008*"。" + 0.008*"买"
#负面主题分析
topic 0
0.017*"，" + 0.016*"" + 0.015*"了" + 0.012*"好" + 0.011*"?" + 0.011*"客服" + 0.010*"鼠" + 0.010*"是" + 0.009*"还" + 0.009*"我"
topic 1
0.017*"客服" + 0.016*"，" + 0.016*"的" + 0.014*"了" + 0.012*"很" + 0.011*"" + 0.011*"！" + 0.010*"收货" + 0.010*"：" + 0.009*"买"
topic 2
0.019*"" + 0.010*"客服" + 0.010*"很" + 0.010*"鼠" + 0.009*"，" + 0.008*"态度" + 0.008*"到" + 0.008*"东西" + 0.008*"的" + 0.008*"买"
