In [1]:
import pandas as pd
import jieba
import jieba.posseg as pseg
import re
from snownlp import SnowNLP

path = r"‪评论数据.csv"
#文件路径有一个不可见的字符\u202a，这个字符是一个控制字符，用来表示从左到右的文本方向。
#但是这个字符会导致文件路径无效，所以你需要去掉它。你可以手动输入文件路径，或者使用replace方法去掉\u202a

# 去掉\u202a
path = path.replace("\u202a", "")

# 读取csv文件
data = pd.read_csv(path,encoding="ANSI")

# 显示前五行
data.head()

Unnamed: 0,序号,评论
0,1,飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常...
1,2,很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。
2,3,为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又...
3,4,一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！
4,5,新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！


In [2]:
# 定义一个函数，读取文件内容，并返回一个列表，每个元素为一个字典，包含各个字段
def load_file(filename):
    lst = []
    with open(filename, 'r', encoding='utf-8') as f:
        for line in f:
            dic = {}
            fields = line.strip().split(',')
            dic['words'] = fields[0].split('+')
            dic['speeches'] = fields[1].split('+')
            dic['weights'] = [float(w) for w in fields[2].split('+')]
            dic['distance'] = int(fields[3])
            dic['feedback'] = fields[4]
            lst.append(dic)
    return lst

In [3]:
#选取评论对象和评论观点的规则
obj_rules = [
    ('([\u4e00-\u9fa5]+\/r\/[\u4e00-\u9fa5]+\/n\/[\u4e00-\u9fa5]+\/n\/)', 1),
    ('([\u4e00-\u9fa5]+\/n\/[\u4e00-\u9fa5]+\/n\/[\u4e00-\u9fa5]+\/n\/)', 2),
    ('([\u4e00-\u9fa5]+\/r\/[\u4e00-\u9fa5]+\/n\/)', 3),
    ('([\u4e00-\u9fa5]+\/n\/[\u4e00-\u9fa5]+\/n\/)', 4),
    ('([\u4e00-\u9fa5]+\/v\/[\u4e00-\u9fa5]+\/(v|vd|vn)\/[\u4e00-\u9fa5]+\/n\/)', 5),
    ('([\u4e00-\u9fa5]+\/n\/[\u4e00-\u9fa5]+\/(v|vd|vn)\/)', 6),
    ('([\u4e00-\u9fa5]+\/n\/[\u4e00-\u9fa5]+\/(a|ad)\/)', 7),
    ('([\u4e00-\u9fa5]+\/(a|ad)\/[\u4e00-\u9fa5]+\/n\/)', 8),
    ('([\u4e00-\u9fa5]+\/n\/)', 9),
    ('([\u4e00-\u9fa5]+\/(v|vd|vn)\/)', 10)
]
opinion_rules = [
    ('([\u4e00-\u9fa5]+\/(a|ad)\/[\u4e00-\u9fa5]+\/(a|ad)\/)', 1),
    ('([\u4e00-\u9fa5]+\/d\/[\u4e00-\u9fa5]+\/(a|ad)\/)', 2),  
    ('([\u4e00-\u9fa5]+\/(n)\/[\u4e00-\u9fa5]+\/(a|ad)\/)', 3),  
    ('([\u4e00-\u9fa5]+\/(a|ad)\/[\u4e00-\u9fa5]+\/n\/)', 4),  
    ('([\u4e00-\u9fa5]+\/d\/[\u4e00-\u9fa5]+\/v\/[\u4e00-\u9fa5]+\/d\/[\u4e00-\u9fa5]+\/n\/)', 5),  
    ('([\u4e00-\u9fa5]+\/d\/[\u4e00-\u9fa5]+\/v\/[\u4e00-\u9fa5]+\/d\/[\u4e00-\u9fa5]+\/v\/)', 6),  
    ('([\u4e00-\u9fa5]+\/d\/[\u4e00-\u9fa5]+\/v\/)', 7),
    ('([\u4e00-\u9fa5]+\/d\/)', 8),
    ('([\u4e00-\u9fa5]+\/(a|ad)\/)', 9),
    ('([\u4e00-\u9fa5]+\/(v|vd)\/)', 10),
]

In [4]:
#对评论计算得出其评论对象与评论观点
def extract_obj_opinion(comment):
    # 对评论进行分词和标注，得到一个列表，每个元素是一个(word, flag)对
    words = pseg.lcut(comment)

    # 初始化评价对象和评价观点为空字符串
    obj = ""
    opinion = ""

    # 初始化评价对象和评价观点的优先级为最低值11（表中最高为10）
    obj_priority = 11
    opinion_priority = 11

    # 遍历每个(word, flag)对，拼接成一个字符串，用"/"分隔每个对，方便匹配规则
    word_flag_str = "/".join([word + "/" + flag for word, flag in words])+'/'

    # 遍历评价对象抽取规则，按优先级从高到低排序
    for rule, priority in sorted(obj_rules, key=lambda x: x[1]):
        # 如果当前规则的优先级高于已抽取的评价对象的优先级，则尝试匹配该规则
        if priority < obj_priority:
            # 尝试在word_flag_str中匹配该规则，返回一个match对象或None
            match = re.findall(rule, word_flag_str)
            # 如果匹配成功，则更新评价对象和优先级，只取第一个匹配的结果
            if match:
                obj = match
                obj_priority = priority
                print(f"评论对象为：{obj},{priority}")
                break  # 跳出循环，不再匹配其他规则

    # 遍历评价观点抽取规则，按优先级从高到低排序
    for rule, priority in sorted(opinion_rules, key=lambda x: x[1]):
        # 如果当前规则的优先级高于已抽取的评价观点的优先级，则尝试匹配该规则
        if priority < opinion_priority:
            # 尝试在word_flag_str中匹配该规则，返回一个match对象或None
            match = re.findall(rule, word_flag_str)
            # 如果匹配成功，则更新评价观点和优先级，只取第一个匹配的结果
            if match:
                opinion = match
                opinion_priority = priority
                print(f"评价观点为{opinion},{priority}")
                break  # 跳出循环，不再匹配其他规则

    # 如果评价对象或评价观点为空字符串，则表示没有找到匹配的规则，返回None
    if not obj or not opinion:
        #print("miss")
        return None

In [5]:
# 定义一个函数，计算用户评论与评论种子之间的综合匹配值，返回一个字典，键为使用反馈类型，值为综合匹配值
def match_score(text):
    # 对用户评论进行分词和词性标注
    seg_list = pseg.lcut(text)
    # 初始化结果字典
    result = {}
    # 遍历每个评论种子
    for seed in comment_seed:
        # 初始化词匹配值和词性匹配值
        word_match = 0
        speech_match = 0
        # 初始化匹配成功的词或词性的位置列表
        pos_word = []
        pos_speech = []
        # 初始化当前遍历的索引值和上一次匹配成功的索引值
        index = 0
        last_index = 0
        # 遍历每个词语和其词性
        for word, flag in seg_list:
            # 如果词语在评论种子中，说明是词匹配
            if word in seed['words']:
                # 更新词匹配值
                word_match += seed['weights'][seed['words'].index(word)]
                # 更新位置列表
                pos_word.append(index)
                # 更新上一次匹配成功的索引值
                last_index = index
            # 如果词性在评论种子中，说明是词性匹配
            if flag in seed['speeches']:
                # 获取当前遍历的索引值与上一次匹配成功的索引值之间的差值
                diff = index - last_index
                # 如果差值小于评论种子中的词性个数，且与评论种子中相同位置的词性相同，更新词性匹配值和位置列表
                if diff < len(seed['speeches']) and flag == seed['speeches'][diff]:
                    speech_match += seed['weights'][diff]
                    pos_speech.append(index)
            # 更新当前遍历的索引值
            index += 1
        # 计算用户评论和评论种子匹配成功的词或词性之间的最大距离
        word_dis = max(pos_word) - min(pos_word) if pos_word else float('inf')
        speech_dis = max(pos_speech) - min(pos_speech) if pos_speech else float('inf')
        # 计算综合匹配值，如果最大距离超过评论种子的距离限制，则综合匹配值为0
        both_match = 0.5 * (word_match + speech_match) if word_dis <= seed['distance'] and speech_dis <= seed['distance'] else 0
        # 将综合匹配值存入结果字典，键为使用反馈类型
        result[seed['feedback']] = both_match
    # 返回结果字典
    return result

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   序号      500 non-null    int64 
 1   评论      500 non-null    object
dtypes: int64(1), object(1)
memory usage: 7.9+ KB


In [7]:
data['评论']

0      飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常...
1                          很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。
2      为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又...
3                            一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！
4                     新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！
                             ...                        
495                           每次出行都能在以前收藏的记录里找到地址直接导航很方便
496                              有没有人和我一样微信漂流瓶扔出去无法收到回复。
497                                 没见过这么垃圾的软件，这么多广告直接无语
498                          按自己需求设置快捷功能，更贴合个人使用习惯。感谢百度~
499                                    为什么我现在更新之后图片一直看不见
Name: 评论, Length: 500, dtype: object

In [8]:
for comment in data['评论']:
    print(comment)
    extract_obj_opinion(comment)
    print('\n')

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\28294\AppData\Local\Temp\jieba.cache


飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常适合读者，是一款便利的读书软件和看书软件


Loading model cost 0.613 seconds.
Prefix dict has been built successfully.


评论对象为：['电子书/n/阅读器/n/', '读书/n/软件/n/'],4
评价观点为[('相当/d/快/a/', 'a'), ('相当/d/方便/a/', 'a'), ('不/d/简单/a/', 'a')],2


很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。
评论对象为：[('界面/n/好看/v/', 'v')],6
评价观点为[('很/d/好/a/', 'a')],2


为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又打不开了？什么鬼？倒闭了？
评论对象为：['什么/r/鬼/n/'],3
评价观点为[('后台/n/根本/a/', 'n', 'a')],3


一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！
评论对象为：['手游/n/软件/n/'],4
评价观点为[('相当/d/不错/a/', 'a')],2


新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！
评论对象为：[('界面/n/优化/vn/', 'vn')],6
评价观点为[('新/a/版本/n/', 'a')],4


翻译准确，内容丰富。
评论对象为：[('内容/n/丰富/a/', 'a')],7
评价观点为[('内容/n/丰富/a/', 'n', 'a')],3


好看的贴纸太少
评论对象为：[('好看/v/', 'v'), ('贴纸/v/', 'v')],10
评价观点为[('太/d/少/a/', 'a')],2


一般般吧，可是没银行卡怎么抢红包????
评论对象为：[('没/v/', 'v')],10
评价观点为[('没/v/', 'v')],10


地图包含了各种交通形式，只是步行用的最多，各种交互和使用习惯了之后都很方便。
评论对象为：['各种/r/交通/n/形式/n/'],1
评价观点为[('很/d/方便/a/', 'a')],2


非常不错不错的东西，找了不错不错久了 支持支持！！很好 功能实用！！界面简洁！！速度很快。挺很好得
评论对象为：[('功能/n/实用/v/', 'v')],6
评价观点为[('不错/a/不错/a/', 'a', 'a'), ('不错/a/不错/a/', 'a', 'a')],1


还是喜欢用老版本的，1.85包括以前的版本用得都很顺手，后来出的要么很卡，

In [9]:
comment_seed = load_file('comment_seed.txt')
i=0
for index,comment in enumerate(data['评论']):
    
# 调用match_score函数，计算用户评论与评论种子之间的综合匹配值，并获取最大的综合匹配值和对应的使用反馈类型
    score_dict = match_score(comment)
    max_score = max(score_dict.values())
    max_feedback = max(score_dict, key=score_dict.get)
# 如果最大的综合匹配值大于0.5，则表示用户评论与某个评论种子匹配成功，将该使用反馈类型写入数据表格的label列中
    if max_score > 0.4:
        i=i+1
        print(f"{index+1},{comment}匹配种子成功,值为：{max_score}，{i}")
        print('\n')
# 否则，表示用户评论与所有评论种子匹配失败，调用extract_seed函数，从用户评论中抽取新的评论种子，并将它们加入到候选评论种子库中
    else:
        pass#print(f"{line}匹配种子不成功,值为：{max_score}")

1,飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常适合读者，是一款便利的读书软件和看书软件匹配种子成功,值为：0.75，1


3,为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又打不开了？什么鬼？倒闭了？匹配种子成功,值为：0.5，2


4,一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！匹配种子成功,值为：0.75，3


5,新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！匹配种子成功,值为：0.5，4


15,界面简单明快，所以用起来才更加的舒服安逸，用户基数很大，已经找到了好几个发展对象了匹配种子成功,值为：0.75，5


29,好，但界面没有任意页面可选匹配种子成功,值为：0.5，6


31,为什么显示完拇指玩界面就黑屏匹配种子成功,值为：0.5，7


39,好用，就是界面一般。匹配种子成功,值为：0.5，8


44,卡在拇指玩界面怎么破匹配种子成功,值为：0.75，9


45,应用操作简单，界面给力超好用一款非常好用的应用匹配种子成功,值为：0.75，10


46, 挺喜欢的，界面挺精美的，精彩的书需要懂它的人才有价值，所以喜欢看书的人都可以进来看看吧。匹配种子成功,值为：0.75，11


50,界面简洁实用匹配种子成功,值为：0.5，12


62,很不错，好玩，可以用语音匹配种子成功,值为：0.44999999999999996，13


63,拼多多，是个最大的坑！一进界面，各种套路就开始搞你！最讨厌的一款软件！没有之一！！！匹配种子成功,值为：0.5，14


64,界面不错，用起来很方便匹配种子成功,值为：0.5，15


68,对于喜欢干净的，简单的界面的孩子来说是个不错的选择！.匹配种子成功,值为：0.75，16


75,苹果都出6.6可以改微信号了，安卓为啥还不能？快更新可以改号匹配种子成功,值为：0.5，17


81,我喜欢这界面，够简洁，而且内容丰富匹配种子成功,值为：0.5，18


82,刚下载下，冲着这优质欢迎界面，觉得应该很值得信赖，我先使用几天试试看。匹配种子成功,值为：0.5，19


88,垃圾 没了vip下载视频速度特别慢就1两百 在其他软件2000多都上去了匹配种子成功,值为：0

In [10]:
# 定义能愿动词列表
modal_verbs = ['应该', '应当', '须得', '赞','乐意', '愿', '愿意', '希望', '想', '想要', '要', '要想', 
               '希望', '不能', '觉得', '要是', '可能', '乐于', '不如', '给力', '修改', '方便', '懒得', 
               '便于', '有助于', '不能', '易于', '善于', '适于', '宜于']

In [11]:
# 定义一个函数，用于判断一个句子是否包含能愿动词
def has_modal_verb(sentence):
  # 使用jieba进行分词和词性标注
  words = pseg.cut(sentence)
  # 遍历每个词和词性
  for word, flag in words:
    # 如果词是能愿动词，并且词性是动词，则返回True
    if word in modal_verbs :
      return True
  # 如果没有找到能愿动词，则返回False
  return False

In [12]:
# 定义一个函数，用于从一组用户评论中抽取包含能愿动词的评论模式
def extract_modal_verb_patterns(comments):
  # 定义一个空列表，用于存储评论模式
  patterns = []
  # 遍历每条用户评论
  for comment in comments:
    # 如果评论包含能愿动词，则将其加入评论模式列表
    if has_modal_verb(comment):
      patterns.append(comment)
  # 返回评论模式列表
  return patterns

In [13]:
#print(extract_modal_verb_patterns(data['评论']))
print(len(extract_modal_verb_patterns(data['评论'])))

161


In [14]:
# 假设已经提取出了软件简介中的特征词列表
feature_words = ['界面', '功能', '速度', '稳定性','导航','地图','微信','支付','阅读','定位','翻译','头像',
                 '登入','铃声','改进','分类']

In [15]:
# 定义一个函数，用于判断一个句子是否包含特征词
def has_feature_word(sentence):
  # 使用jieba进行分词
  words = jieba.cut(sentence)
  # 遍历每个词
  for word in words:
    # 如果词是特征词，则返回True
    if word in feature_words:
      return True
  # 如果没有找到特征词，则返回False
  return False

In [16]:
# 定义一个函数，用于计算一个句子的情感值
def get_sentiment(sentence):
  # 使用snownlp进行情感分析
  s = SnowNLP(sentence)
  # 返回情感值，范围是0到1，越接近1表示越积极，越接近0表示越消极
  return s.sentiments

In [17]:
# 定义一个函数，用于从一组用户评论中抽取包含特征词并根据情感值判断使用反馈类型的评论模式
def extract_feature_word_patterns(comments):
  # 定义一个空列表，用于存储评论模式
  patterns = []
  # 遍历每条用户评论
  for comment in comments:
    # 如果评论包含特征词，则继续处理
    if has_feature_word(comment):
      # 计算评论的情感值
      sentiment = get_sentiment(comment)
      # 如果情感值大于0.5，则认为是正面评论，体现“软件满足的需求”
      if sentiment >0.85 or sentiment<0.15:
          patterns.append(comment)
          # 返回评论模式列表
  return patterns

In [18]:
#print(extract_feature_word_patterns(data['评论']))
print(len(extract_feature_word_patterns(data['评论'])))

225


In [19]:
data

Unnamed: 0,序号,评论
0,1,飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常...
1,2,很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。
2,3,为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又...
3,4,一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！
4,5,新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！
...,...,...
495,496,每次出行都能在以前收藏的记录里找到地址直接导航很方便
496,497,有没有人和我一样微信漂流瓶扔出去无法收到回复。
497,498,没见过这么垃圾的软件，这么多广告直接无语
498,499,按自己需求设置快捷功能，更贴合个人使用习惯。感谢百度~


In [24]:
#复制一份评论数据，避免直接对原始样本修改
data_copy=data.copy()
data_copy = data_copy.assign(label=0)
data_copy

Unnamed: 0,序号,评论,label
0,1,飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常...,0
1,2,很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。,0
2,3,为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又...,0
3,4,一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！,0
4,5,新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！,0
...,...,...,...
495,496,每次出行都能在以前收藏的记录里找到地址直接导航很方便,0
496,497,有没有人和我一样微信漂流瓶扔出去无法收到回复。,0
497,498,没见过这么垃圾的软件，这么多广告直接无语,0
498,499,按自己需求设置快捷功能，更贴合个人使用习惯。感谢百度~,0


In [25]:
data_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   序号      500 non-null    int64 
 1   评论      500 non-null    object
 2   label   500 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 11.8+ KB


In [27]:
comment_seed = load_file('comment_seed.txt')
i=0
for index,comment in enumerate(data_copy['评论']):
    
# 调用match_score函数，计算用户评论与评论种子之间的综合匹配值，并获取最大的综合匹配值和对应的使用反馈类型
    score_dict = match_score(comment)
    max_score = max(score_dict.values())
    max_feedback = max(score_dict, key=score_dict.get)
# 如果最大的综合匹配值大于0.5，则表示用户评论与某个评论种子匹配成功，将该使用反馈类型写入数据表格的label列中
    if max_score > 0.4:
        i=i+1
        print(f"index为：{index} ,{comment}匹配种子成功, 值为：{max_score}，当前匹配成功共{i}个\n")
        data_copy.loc[index,'label']=1
# 否则，表示用户评论与所有评论种子匹配失败，调用extract_seed函数，从用户评论中抽取新的评论种子，并将它们加入到候选评论种子库中
    else:
        pass#print(f"{line}匹配种子不成功,值为：{max_score}")

index为：0 ,飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常适合读者，是一款便利的读书软件和看书软件匹配种子成功, 值为：0.75，当前匹配成功共1个

index为：2 ,为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又打不开了？什么鬼？倒闭了？匹配种子成功, 值为：0.5，当前匹配成功共2个

index为：3 ,一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！匹配种子成功, 值为：0.75，当前匹配成功共3个

index为：4 ,新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！匹配种子成功, 值为：0.5，当前匹配成功共4个

index为：14 ,界面简单明快，所以用起来才更加的舒服安逸，用户基数很大，已经找到了好几个发展对象了匹配种子成功, 值为：0.75，当前匹配成功共5个

index为：28 ,好，但界面没有任意页面可选匹配种子成功, 值为：0.5，当前匹配成功共6个

index为：30 ,为什么显示完拇指玩界面就黑屏匹配种子成功, 值为：0.5，当前匹配成功共7个

index为：38 ,好用，就是界面一般。匹配种子成功, 值为：0.5，当前匹配成功共8个

index为：43 ,卡在拇指玩界面怎么破匹配种子成功, 值为：0.75，当前匹配成功共9个

index为：44 ,应用操作简单，界面给力超好用一款非常好用的应用匹配种子成功, 值为：0.75，当前匹配成功共10个

index为：45 , 挺喜欢的，界面挺精美的，精彩的书需要懂它的人才有价值，所以喜欢看书的人都可以进来看看吧。匹配种子成功, 值为：0.75，当前匹配成功共11个

index为：49 ,界面简洁实用匹配种子成功, 值为：0.5，当前匹配成功共12个

index为：61 ,很不错，好玩，可以用语音匹配种子成功, 值为：0.44999999999999996，当前匹配成功共13个

index为：62 ,拼多多，是个最大的坑！一进界面，各种套路就开始搞你！最讨厌的一款软件！没有之一！！！匹配种子成功, 值为：0.5，当前匹配成功共14个

index为：63 ,界面不错，用起来很方便匹配种子成功, 值为：0.5，当前匹配成功共15个

index为：6

In [47]:
#第一轮匹配种子中已确定130评论为与软件功能相关的评论
data_copy['label'].sum()
data_copy.loc[data_copy['label'] == 0]['评论']

1               很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。
5                                  翻译准确，内容丰富。
6                                     好看的贴纸太少
7                        一般般吧，可是没银行卡怎么抢红包????
8      地图包含了各种交通形式，只是步行用的最多，各种交互和使用习惯了之后都很方便。
                        ...                  
495                每次出行都能在以前收藏的记录里找到地址直接导航很方便
496                   有没有人和我一样微信漂流瓶扔出去无法收到回复。
497                      没见过这么垃圾的软件，这么多广告直接无语
498               按自己需求设置快捷功能，更贴合个人使用习惯。感谢百度~
499                         为什么我现在更新之后图片一直看不见
Name: 评论, Length: 370, dtype: object

In [77]:
print(extract_modal_verb_patterns(data_copy.loc[data_copy['label'] == 0]['评论']))
print(len(extract_modal_verb_patterns(data_copy.loc[data_copy['label'] == 0]['评论'])))

['地图包含了各种交通形式，只是步行用的最多，各种交互和使用习惯了之后都很方便。', '还是喜欢用老版本的，1.85包括以前的版本用得都很顺手，后来出的要么很卡，要么界面不顺手。我觉得还不如不出新的，越出越差。我还是钟爱老的版本啊。坚决不下新版本', '界面看起来很好看舒服好看，就是看界面有种很熟悉的感觉，团队很强大，希望平台越来越好。', '这个很棒赞一个。来啊。 功能实用！界面简洁！速度很快。挺好的 我刚从市场上看到这个，很不错。', '以前可以换昵称，搞得现在昵称都不能换，我本以为QQ号好的可现在垃圾', '修改个头像都换不了，', '好是好了点，就是还有个地方要改进。要是能把话框改成有趣的像QQ那样的气泡就好了，而且还要免费的！', '详尽的公交路线查询乘车很方便，即使换乘也不用担心找不到站台，准确率高，不错加油', '界面很不错。用的很不错。看着也很顺眼！ 我觉得应该有个抓娃娃排行榜，膜拜一下大神.....', '更新后，收付款打不开扫描码，想找客服都不知道在哪找。。。', '不能忍，为什么一定要新手机登陆要旧手机验证，我呸，万一那旧手机坏了呢？里面的钱就拿不出来了啊。你是不是有毛病哦。你有短信验证还不行？你说你到底要怎样啊你一天天的这么作。一点也不考虑感受，提现还收钱。', '现在要银行卡才能用钱，什么鬼啊，垃圾软件', '很实用，很好，我就选它了呵呵，你们也要好样噢，很好真得很好，而且很好好，阅读起来很方便', '为什么不能修改昵称？', '这个软件还是非常赞的，在学习上帮了不少忙，词和句的翻译都特别准确，很赞哦，五颗星好评?', '一直都在使用这款小黑鱼软件，出门旅游可以用他提前预定酒店，使用方便快速简单，很适合各位经常出差的人使用赞', '超级赞哦！方便又不错！ 很方便，qq号直接登陆，很多看电视剧都能找到！~~~~', '昨晚手机被恶意软件侵袭一直在安装软件的信息 在百度上查是怎么回事 它说可能手机有病毒了 后来下载360急救箱 病毒都没了 赞赞赞', '活该好评和差评差不多，真的很无语对这个软件。动不动就闪退。几乎都要VIP！还很卡。追完双世宠妃就删????', '不如高德显示的信息全面了', '以后找不见路怎么办！就用百度地图随时随地查找公交车打滴，方便省事', 'QQ真是太垃圾，不能修改资料，修改完不能保存', '挺不错不错用得。很方便 很

In [83]:
#data_copy[data_copy['评论'].apply(has_modal_verb)]
data_copy[data_copy['label'] == 0][data_copy['评论'].apply(has_modal_verb)]

  data_copy[data_copy['label'] == 0][data_copy['评论'].apply(has_modal_verb)]


Unnamed: 0,序号,评论,label,Unnamed: 2
8,9,地图包含了各种交通形式，只是步行用的最多，各种交互和使用习惯了之后都很方便。,0,
10,11,还是喜欢用老版本的，1.85包括以前的版本用得都很顺手，后来出的要么很卡，要么界面不顺手。我...,0,
15,16,界面看起来很好看舒服好看，就是看界面有种很熟悉的感觉，团队很强大，希望平台越来越好。,0,
19,20,这个很棒赞一个。来啊。 功能实用！界面简洁！速度很快。挺好的 我刚从市场上看到这个，很不错。,0,
23,24,以前可以换昵称，搞得现在昵称都不能换，我本以为QQ号好的可现在垃圾,0,
...,...,...,...,...
483,484,感觉还不错，就是不能关联其他账号,0,
485,486,酷狗繁星新版本很好，界面清晰，给人不一样的感觉，能快速找到自己喜欢的主播，很适合新人使用。当...,0,
487,488,界面挺清新的，功能也简单，用起来很方便,0,
492,493,很好！希望有歌词！,0,


In [85]:
idx=data_copy[data_copy['label'] == 0][data_copy['评论'].apply(has_modal_verb)].index

  idx=data_copy[data_copy['label'] == 0][data_copy['评论'].apply(has_modal_verb)].index


In [98]:
data_copy.loc[idx, 'label'] = 2#label记为2，说明进入候选库

In [101]:
data_copy

Unnamed: 0,序号,评论,label,Unnamed: 2
0,1,飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常...,1,1.0
1,2,很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。,0,
2,3,为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又...,1,1.0
3,4,一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！,1,1.0
4,5,新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！,1,1.0
...,...,...,...,...
495,496,每次出行都能在以前收藏的记录里找到地址直接导航很方便,2,
496,497,有没有人和我一样微信漂流瓶扔出去无法收到回复。,0,
497,498,没见过这么垃圾的软件，这么多广告直接无语,0,
498,499,按自己需求设置快捷功能，更贴合个人使用习惯。感谢百度~,0,


In [111]:
def extract_feature_word_patterns(df): 
    df1 = df[df['label'] == 0]
    df2 = df1[df1['评论'].apply(has_feature_word)] #100
    return df2                  
extract_feature_word_patterns(data_copy)

Unnamed: 0,序号,评论,label,Unnamed: 2
1,2,很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。,0,
5,6,翻译准确，内容丰富。,0,
9,10,非常不错不错的东西，找了不错不错久了 支持支持！！很好 功能实用！！界面简洁！！速度很快。挺很好得,0,
13,14,发现有两个毛病，一个是别人把头像改了别人看不出来，还有一个是发签名出现错误,0,
31,32,很不错，兼容格式多，界面朴实实用，操作简单！！,0,
...,...,...,...,...
490,491,终于找一个省心的导航真是不容易，百度算是比较不错的了，语音就可以操作导航，功能很全面。大爱汤唯！,0,
493,494,2020.10.29历史性大更，换游戏引擎后，手机发热严重，贴吧说，已经炸了两部手机，画面刺...,0,
494,495,微信公众号免流量吗,0,
496,497,有没有人和我一样微信漂流瓶扔出去无法收到回复。,0,


In [114]:
def get_sentiment(df):
    sentiment = df['评论'].apply(lambda x: SnowNLP(x).sentiments)
    df = df[(sentiment > 0.7) | (sentiment < 0.3)]
    return df
get_sentiment(extract_feature_word_patterns(data_copy))

Unnamed: 0,序号,评论,label,Unnamed: 2
1,2,很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。,0,
5,6,翻译准确，内容丰富。,0,
9,10,非常不错不错的东西，找了不错不错久了 支持支持！！很好 功能实用！！界面简洁！！速度很快。挺很好得,0,
13,14,发现有两个毛病，一个是别人把头像改了别人看不出来，还有一个是发签名出现错误,0,
31,32,很不错，兼容格式多，界面朴实实用，操作简单！！,0,
...,...,...,...,...
479,480,qq头像为什么不可以换了？,0,
490,491,终于找一个省心的导航真是不容易，百度算是比较不错的了，语音就可以操作导航，功能很全面。大爱汤唯！,0,
493,494,2020.10.29历史性大更，换游戏引擎后，手机发热严重，贴吧说，已经炸了两部手机，画面刺...,0,
494,495,微信公众号免流量吗,0,


In [115]:
data_copy.loc[get_sentiment(extract_feature_word_patterns(data_copy)).index, 'label'] = 2#label记为2，说明进入候选库

In [116]:
data_copy

Unnamed: 0,序号,评论,label,Unnamed: 2
0,1,飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常...,1,1.0
1,2,很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。,2,
2,3,为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又...,1,1.0
3,4,一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！,1,1.0
4,5,新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！,1,1.0
...,...,...,...,...
495,496,每次出行都能在以前收藏的记录里找到地址直接导航很方便,2,
496,497,有没有人和我一样微信漂流瓶扔出去无法收到回复。,2,
497,498,没见过这么垃圾的软件，这么多广告直接无语,0,
498,499,按自己需求设置快捷功能，更贴合个人使用习惯。感谢百度~,0,


In [135]:
import Levenshtein
str1 = "不能忍，为什么一定要新手机登陆要旧手机验证，我呸，万一那旧手机坏了呢？里面的钱就拿不出来了啊...	"
str2 = "昨晚手机被恶意软件侵袭一直在安装软件的信息 在百度上查是怎么回事 它说可能手机有病毒了 后来...	"
distance = Levenshtein.distance(str1, str2) # distance是编辑距离，为3
ratio = Levenshtein.ratio(str1, str2) # ratio是莱文斯坦比，为0.5714285714285714
print(distance, ratio)

46 0.21999999999999997


In [140]:
from difflib import SequenceMatcher
import Levenshtein

#获取文本差异最大的Top 3行
def find_top3_diff(df):
    df1 = df[df['label']==2]
    distances = []
    for i in range(len(df1['评论'])):
        for j in range(i+1, len(df1['评论'])):
            t1 = df1['评论'].iloc[i] 
            t2 = df1['评论'].iloc[j]
            distance = Levenshtein.distance(t1, t2)
            distances.append((i, j, distance))
    top3 = sorted(distances, key=lambda x: x[2], reverse=True)[:3]  

    # 取行索引
    rows = [x[0] for x in top3]
    return df1.iloc[rows]


find_top3_diff(data_copy)

Unnamed: 0,序号,评论,label,Unnamed: 2
118,119,翻译都很棒,2,
120,121,嗯，翻译精准,2,
162,163,为何没法换头像,2,


In [137]:
for comment in find_top3_diff(data_copy)['评论']:
    print(comment)
    extract_obj_opinion(comment)
    print('\n')

翻译都很棒
评论对象为：[('翻译/v/', 'v')],10
评价观点为[('都/d/很棒/a/', 'a')],2


嗯，翻译精准
评论对象为：['精准/n/'],9
评价观点为[('翻译/v/', 'v')],10


为何没法换头像
评论对象为：['头像/n/'],9
评价观点为[('没法/v/', 'v')],10




In [151]:
#制作新的评论种子共三个，名字：new.txt

In [149]:
comment_seed = load_file('new.txt')
i=0
for index,comment in enumerate(data_copy.loc[data_copy['label'] != 1, '评论']):
    
# 调用match_score函数，计算用户评论与评论种子之间的综合匹配值，并获取最大的综合匹配值和对应的使用反馈类型
    score_dict = match_score(comment)
    max_score = max(score_dict.values())
    max_feedback = max(score_dict, key=score_dict.get)
# 如果最大的综合匹配值大于0.5，则表示用户评论与某个评论种子匹配成功，将该使用反馈类型写入数据表格的label列中
    if max_score > 0.4:
        i=i+1
        print(f"index为：{index} ,{comment}匹配种子成功, 值为：{max_score}，当前匹配成功共{i}个\n")
        data_copy.loc[index,'label']=1
# 否则，表示用户评论与所有评论种子匹配失败，调用extract_seed函数，从用户评论中抽取新的评论种子，并将它们加入到候选评论种子库中
    else:
        pass#print(f"{line}匹配种子不成功,值为：{max_score}")

index为：19 ,修改个头像都换不了，匹配种子成功, 值为：0.8500000000000001，当前匹配成功共1个

index为：126 ,为何没法换头像匹配种子成功, 值为：0.7，当前匹配成功共2个

index为：145 ,不能换头像匹配种子成功, 值为：0.55，当前匹配成功共3个

index为：219 ,为什么现在没法改名字，没法改头像？匹配种子成功, 值为：1.05，当前匹配成功共4个

index为：231 ,头像不能更换玩匹配种子成功, 值为：0.5，当前匹配成功共5个

index为：240 ,QQ头像换不了，资料改不了，给一星算不错了！匹配种子成功, 值为：0.5，当前匹配成功共6个

index为：262 ,垃圾越来越差头像还不能换网名还不能改匹配种子成功, 值为：0.5，当前匹配成功共7个

index为：270 ,显示有问题头像气泡业务表示挂件都有问题匹配种子成功, 值为：0.55，当前匹配成功共8个

index为：319 ,QQ头像不能换匹配种子成功, 值为：0.5，当前匹配成功共9个

index为：351 ,qq头像为什么不可以换了？匹配种子成功, 值为：0.55，当前匹配成功共10个



In [150]:
data_copy

Unnamed: 0,序号,评论,label,Unnamed: 2
0,1,飞卢小说的更新速度相当快，实时更新，是一款相当方便的电子书阅读器。界面构造简约而不简单，非常...,1,1.0
1,2,很好，有多种功能，而且界面好看不单调用着不错，你值得拥有。,2,
2,3,为什么打不开了？更新完后打开就黑屏！后台根本没问题！软件打不开界面！昨天从新下载能用！今天又...,1,1.0
3,4,一款相当不错的手游软件，界面漂亮，使用方便，值得拥有！,1,1.0
4,5,新版本终于不再闪退了，界面优化的也好了很多，于是更想购物了，OMG！,1,1.0
...,...,...,...,...
495,496,每次出行都能在以前收藏的记录里找到地址直接导航很方便,2,
496,497,有没有人和我一样微信漂流瓶扔出去无法收到回复。,2,
497,498,没见过这么垃圾的软件，这么多广告直接无语,0,
498,499,按自己需求设置快捷功能，更贴合个人使用习惯。感谢百度~,0,


In [156]:
data_copy['label'] == 1

0       True
1      False
2       True
3       True
4       True
       ...  
495    False
496    False
497    False
498    False
499    False
Name: label, Length: 500, dtype: bool