In [1]:
import numpy as np
import pandas as pd
import torch.nn as nn
import torch as t
from torch.autograd import Variable
import torch.optim as optim
import matplotlib.pyplot as plt
import time
import re
import jieba
from collections import Counter
from openpyxl import load_workbook

from tqdm import tqdm 
 
%matplotlib inline

In [2]:
content = pd.read_excel(r"./酒店评论.xlsx",engine='openpyxl')    

label = pd.read_excel(r"./酒店评分.xlsx",engine='openpyxl')    


In [3]:

def participle(stopwords,is_filter=True,):
    all_words = []
    for idx,line in enumerate(content['评论内容']):
        if is_filter:         
            line = filter_punc(line)
       
        words = jieba.lcut(line)
        if len(words)>0:
            all_words += words
            
    dictions = {}
    cnt = Counter(all_words)
    for word,freq in cnt.items():
        if freq>1:
            if word not in stopwords:
                dictions[word] = [len(dictions),freq]
    return dictions

# 过去标点符号
def filter_punc(sentence):
    sentence = re.sub("[\s+\.\!\/_,$%^*(+\"\'“”《》?“]+|[+——！，。？、~@#￥%……&*（）：]+", "", sentence)
    return(sentence)
# 去除停用词

def move_stopwords(sentence_list, stopwords_list):
    # 去停用词
    out_list = []
    for word in sentence_list:
        if word not in stopwords_list:
#             if not remove_digits(word):
#                 continue
            if word != '\t':
                out_list.append(word)
    return out_list

#使用停用词
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

#得到分词后的词句，和对应的标签
def participle1(name,stopwords,is_filter=True):
    sentence = []
    labels=[]
    
    for j,i in enumerate(name):
        data = content.loc[content['酒店名称']==i]
        a=[label['总得分'][j],label['服务得分'][j],label['位置得分'][j],label['设施得分'][j],label['卫生得分'][j],label['性价比得分'][j]]
        for idx,line in enumerate(data['评论内容']):
            if is_filter:         
                line = filter_punc(line)
            
            words = jieba.lcut(line)
            words = move_stopwords(words,stopwords)
            if len(words)>0:
                sentence.append(words)
                labels.append(a) 
        break
    return sentence,labels
    


In [4]:
names = []
stopwords = stopwordslist('hit_stopwords.txt')
for i in list(content.groupby('酒店名称')):
    names.append(i[0])  


diction = participle(stopwords,True)
sentence,labels = participle1(names,stopwords,True)


Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\AA\AppData\Local\Temp\jieba.cache
Loading model cost 0.571 seconds.
Prefix dict has been built successfully.


In [6]:
# 根据单词返还单词的编码
def word2index(word,diction):
    if word in diction:
        value=diction[word][0]
    else:
        value=-1
    return(value)

# 更具编码获取对应的单词
def index2word(index,diction):
    for w,v in diction.items():
        if v[0]==index:
            return(w)
    return(None)
# 输入一个句子和相应的词典，得到这个句子的向量化表示
# 向量的尺寸为词典中词汇的个数，i位置上面的数值为第i个单词在sentence中出现的频率
def sentence2vec(sentence,dictionary):
    vector = np.zeros(len(dictionary))
    for l in sentence:
        vector[l]+=1
    return vector
#     return ((1.0*vector)/len(sentence))

In [7]:
dataset=[]  #数据集
sentences=[] #原始句子
labels1=[]
j=0
for i in sentence:
    new_sentence=[]
    j+=1
    for l in i:
        if l in diction:
            new_sentence.append(word2index(l,diction))
    if len(new_sentence)!=0:
        dataset.append(sentence2vec(new_sentence,diction))
        labels1.append(labels[j-1])
    sentences.append(i)
labels=labels1

In [8]:
indices=np.random.permutation(len(dataset))
dataset = [dataset[i] for i in indices]
labels = [labels[i] for i in indices]

In [10]:
test_size = len(dataset) // 10
# 训练集
train_data = dataset[2*test_size :]
train_label=labels[2*test_size :]
# 检测集
valid_data = dataset[: test_size]
valid_label = labels[: test_size]
# 测试集
test_data = dataset[test_size : 2*test_size]
test_label = labels[test_size : 2*test_size]


In [11]:
model = nn.Sequential(
    nn.Linear(len(diction),12),
    nn.ReLU(),
    nn.Linear(12,6),

)


# 自定义的计算一组数据分类准确度的函数
def rightness(predictions,labels):
    
    j=0
    for i in range(len(labels)):
        a=np.round(predictions[0][i].data,1).eq(np.round(labels[0][i].data,1))
        if a:
            j+=1
    return j,len(labels)



In [12]:
# 损失函数为交叉熵
MSE = t.nn.MSELoss()
optimizer = optim.SGD(model.parameters(),lr=0.001)
records=[]

losses=[]
val_losses=[]
for epoch in range(30):
    for i,data in enumerate(zip(train_data,train_label)):
        x,y=data
        x=Variable(t.FloatTensor(x).view(1,-1))
        y=Variable(t.FloatTensor(np.array([y])))
        predict=model(x)
        loss = MSE(predict,y)
        losses.append(loss.data.numpy())
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        if i%1000==0:
            
            rights=[]
            for j,val in enumerate(zip(valid_data,valid_label)):
                x,y = val
                x=Variable(t.FloatTensor(x).view(1,-1))
                y=Variable(t.FloatTensor(np.array([y])))
                predict = model(x)
                right = rightness(predict,y)
                rights.append(right)
                loss = MSE(predict,y)
                val_losses.append(loss.data.numpy())
            
            right_ratio=1.0*np.sum([i[0] for i in rights])/np.sum([i[1] for i in rights])
            print('第{}轮，训练损失： {:.6f}，校验损失：{:.6f}，校验准确度：{:.2f}'.format(epoch,np.mean(losses),np.mean(val_losses),right_ratio))
            records.append([np.mean(losses),np.mean(val_losses),right_ratio])

第0轮，训练损失： 20.836517，校验损失：20.818270，校验准确度：0.00
第1轮，训练损失： 10.064386，校验损失：10.627463，校验准确度：0.00
第2轮，训练损失： 5.060751，校验损失：7.087401，校验准确度：0.24
第3轮，训练损失： 3.376441，校验损失：5.317154，校验准确度：0.32
第4轮，训练损失： 2.533882，校验损失：4.254868，校验准确度：0.34
第5轮，训练损失： 2.028157，校验损失：3.546575，校验准确度：0.35
第6轮，训练损失： 1.690890，校验损失：3.040575，校验准确度：0.39
第7轮，训练损失： 1.449905，校验损失：2.661016，校验准确度：0.43
第8轮，训练损失： 1.269108，校验损失：2.365755，校验准确度：0.44
第9轮，训练损失： 1.128444，校验损失：2.129509，校验准确度：0.47
第10轮，训练损失： 1.015879，校验损失：1.936186，校验准确度：0.50
第11轮，训练损失： 0.923752，校验损失：1.775059，校验准确度：0.54
第12轮，训练损失： 0.846958，校验损失：1.638700，校验准确度：0.59
第13轮，训练损失： 0.781961，校验损失：1.521805，校验准确度：0.61
第14轮，训练损失： 0.726235，校验损失：1.420481，校验准确度：0.64
第15轮，训练损失： 0.677927，校验损失：1.331811，校验准确度：0.69
第16轮，训练损失： 0.635647，校验损失：1.253563，校验准确度：0.71
第17轮，训练损失： 0.598334，校验损失：1.184001，校验准确度：0.73
第18轮，训练损失： 0.565159，校验损失：1.121755，校验准确度：0.77
第19轮，训练损失： 0.535471，校验损失：1.065727，校验准确度：0.78
第20轮，训练损失： 0.508746，校验损失：1.015030，校验准确度：0.84
第21轮，训练损失： 0.484563，校验损失：0.968938，校验准确度：0.86
第22轮，训练损失： 0.462

In [16]:
for i,data in enumerate(zip(test_data,test_label)):
    x,y=data
    x=Variable(t.FloatTensor(x).view(1,-1))
    y=Variable(t.FloatTensor(np.array([y])))
    predict = model(x)
    right = rightness(predict,y)
    np.round(predict.data,1)
    print(np.round(predict.data,1))
    print(y)
    print('----------------------------------------------------')

tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
----------------------------------------------------
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
----------------------------------------------------
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
----------------------------------------------------
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
----------------------------------------------------
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
----------------------------------------------------
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
tensor([[4.8000, 4.8000, 4.8000, 4.7000, 4.8000, 4.0000]])
---------------------------