In [1]:
import numpy as np
import pandas as pd
from snownlp import SnowNLP
import re

In [3]:
training_data_path = './data/training_data/Goods_Comments/pda'
test_data_paths = ['./data/test_data/0926.xlsx','./data/test_data/1017.xlsx','./data/test_data/1107.xlsx','./data/test_data/1114.xlsx','./data/test_data/1128.xlsx','./data/test_data/1205.xlsx','./data/test_data/1212.xlsx']

In [4]:
# 重新训练模型
sentiment.train('./neg.txt', './pos.txt')
# 保存好新训练的模型
sentiment.save('sentiment.marshal')

In [5]:
def read_and_adjust_sheet(test_data_path):
    # 只读取回帖列
    sheet = pd.read_excel(test_data_path, usecols=[2], header = None)
    sheet = sheet.drop([0])
    sheet = sheet.rename(columns={0: 'replies'})
    
    # 清理数据
    clean_reply = []
    for index,row in sheet.iterrows():
        reply = row.str.cat(sep=',')
        # reply = row[0]
        # 自动回复内容删除  
        auto = '(\s)*回复\s[0-9]*(\s)*#(\s)*的帖子(\n)*'
        reply = re.sub(auto,'',reply)
        clean_reply.append(reply)
    
    clean_replies = np.array(clean_reply)
    sheet.insert(0, 'clean_replies',clean_replies)
    
    # 删除字数小于15字的帖子
    for index,row in sheet.iterrows():
        clean_data = row['clean_replies']
        if(len(clean_data)<15):
            sheet = sheet.drop(index)
        
    return sheet

In [6]:
def predict_sentiment(classifier, sheet):
    sentiment = []
    for index,row in sheet.iterrows():
        sentiment.append(classifier.classify(row.str.cat(sep=',')))
    return sentiment

In [7]:
def extract_keywords(sheet):
    keywords = []
    for index,row in sheet.iterrows():
        #提取2个关键词
        extraction = list(HanLP.extractKeyword(row.str.cat(sep=','), 2))
        temp = ','.join(extraction)
        keywords.append(temp)
        #提取1个关键词
        #keywords.append(HanLP.extractKeyword(row.str.cat(sep=','), 1))
    return keywords

In [8]:
def write(keywords,sentiment,test_data_path):
    # 在表格中加入新列(结果列)
    sentiment_results = np.array(sentiment)
    keywords_results = np.array(keywords)
    sheet.insert(1, 'sentiment', sentiment_results)
    sheet.insert(1, 'keywords',keywords_results)
    
    # 设置写回路径
    root_path = './data/results_v2/'
    suffix = test_data_path[-9:-5]+'_output_v2.xlsx'
    back_path = root_path+suffix
    #print(back_path)
    sheet.to_excel(back_path) 

In [9]:
if __name__ == '__main__':
    classifier = train_classifier(training_data_path)
    
    for test_data_path in test_data_paths:
        sheet = read_and_adjust_sheet(test_data_path)
        sentiment = predict_sentiment(classifier,sheet)
        keyword = extract_keywords(sheet)
        write(keyword,sentiment,test_data_path)


In [12]:
sheet

Unnamed: 0,clean_replies,keywords,sentiment,replies
3,思维导图画的很仔细，小的知识点都涉及到了，而且还添加了一些图标，比较清楚，值得学习。,"学习,值得",正面,思维导图画的很仔细，小的知识点都涉及到了，而且还添加了一些图标，比较清楚，值得学习。
4,谢谢你的意见，我们可以通过思维导图将知识点一层层的的串联起来，使其更具有整体性。,"回复,#",负面,回复 4 # 的帖子谢谢你的意见，我们可以通过思维导图将知识点一层层的的串联起来，使其更具有...
5,活动二的几个任务都把每一个步骤具体化很好,"具体化,活动",正面,活动二的几个任务都把每一个步骤具体化很好
6,谢谢，其实思维导图我们只是细化了一下。细节方面还需要完善,"#,其实",正面,回复 6 # 的帖子\n谢谢，其实思维导图我们只是细化了一下。细节方面还需要完善
7,很细致，但感觉可以精炼一些，比如概念内涵之类的，会让层次结构更加清晰。值得借鉴。,"值得,更加",正面,很细致，但感觉可以精炼一些，比如概念内涵之类的，会让层次结构更加清晰。值得借鉴。
8,你们的思维导图本身知识点划分细致，再贴图的话就显得繁琐、复杂，视觉效果不是很好。如果分支可以...,"再,视觉效果",负面,你们的思维导图本身知识点划分细致，再贴图的话就显得繁琐、复杂，视觉效果不是很好。如果分支可以...
9,思维导图和数据分析都很不错，给我的感觉就是一张图解决了所有，特别详细,"导,解决",正面,思维导图和数据分析都很不错，给我的感觉就是一张图解决了所有，特别详细
10,思维导图内容很丰富，实验数据也很完整，值得借鉴,"数据,值得",负面,思维导图内容很丰富，实验数据也很完整，值得借鉴
12,我们会考虑你的建议的，主要是想着贴图能够更加具体化,"具体化,更加",负面,回复 9 # 的帖子\n我们会考虑你的建议的，主要是想着贴图能够更加具体化
14,思维导图很详尽，分析的过程步骤很完整，只是有的结果分析，如果能够分析的更深入一点就好了。,"分析,详尽",负面,思维导图很详尽，分析的过程步骤很完整，只是有的结果分析，如果能够分析的更深入一点就好了。
