In [1]:
import pandas as pd
import numpy as np
import re

# 0. Dataset - Finetune_Aspect_on_TextRank

In [2]:
TOPIC_LIST = {
    '品质': ['质量', '错误', '正版', '盗版'],
    '功能': ['内容', '作者', '故事', '版本', '光盘', '翻译'],
    '价格': ['价格', '价钱'],
    '设计': ['包装', '封面', '装订', '设计', '书皮'], 
    '使用': ['印刷', '书页', '纸张', '纸质', '图片', '出版社', '字体', '排版', '边切', '边线'],
    '服务': ['客服', '电话', '态度', '服务', '发票', '退货', '换货', '退款', '手续', 
            '物流', '配送', '送货', '时间', '发货', '快递', '速度', '调货', '出仓']
}

def extract_topic(text):
    text = str(text)
    for aspect in ['价格', '服务', '使用', '设计', '品质', '功能']:
        for topic_word in TOPIC_LIST[aspect]:
            if topic_word in text:
                return aspect 
    return 'N/A'

In [3]:
aspect_mapping = {i:j for i, j in enumerate(['功能', '品质', '设计', '使用', '服务', '价格'])}

In [4]:
data = pd.read_csv("data_DangDang_review_for_bert_ascpect_prediction/dataset_test.csv", "\t", header=None)
data.columns = ['label', 'aspect', 'text']

In [5]:
data['text_split'] = data.apply(lambda x:[i for i in re.split('[。！？，；~.!?,;~]', str(x[2])) if i.strip() != ""], axis=1)

In [6]:
data2 = [[*i[:-1], text_split] for i in data.itertuples() for text_split in i[-1]]

In [7]:
data = pd.DataFrame(data2)
data.columns = ['pidx', 'label', 'aspect', 'review', 'text']
data = data[['label', 'aspect', 'text', 'pidx', 'review']]

In [8]:
data['aspect'] = data.apply(lambda x:extract_topic(x[2]), axis=1)

In [9]:
data.drop(columns=['review'], inplace=True)

In [10]:
dataset = data[data['aspect'] != "N/A"]
trainset = dataset.iloc[:int(len(dataset) * 0.9),:]
devset = dataset.iloc[int(len(dataset) * 0.9):,:]
testset = data[data['aspect'] == "N/A"]

In [98]:
pidx_count = testset.groupby(["pidx"]).count()["text"]

In [104]:
pidx_keep = pidx_count[pidx_count < 10].index
pidx_keep = pidx_keep[:len(pidx_keep)//1000]
testset_keep = testset[testset["pidx"].isin(pidx_keep)]

In [105]:
testset_keep

Unnamed: 0,label,aspect,text,pidx
1,positive,,因为着急用没有追究,0
3,positive,,值得收藏,1
4,positive,,很喜欢,1
6,positive,,很不错的书,3
7,negative,,书不错,4
8,negative,,但打开书就烂成这样,4
9,positive,,非常好,5
10,positive,,值得收藏,5
11,positive,,给老公买的书,6
15,positive,,书,7


In [106]:
len(testset_keep)

11998

In [108]:
testset_keep.to_csv("data/Finetune_Aspect_on_TextRank/dataset_test_keep.csv", "\t", header=None, index=None)

In [16]:
#for i in range(10):
#    testset.iloc[i*len(testset)//10:(i+1)*len(testset)//10].to_csv("data/Finetune_Aspect_on_TextRank/dataset_test_{}.csv".format(i), "\t", header=None, index=None)

In [108]:
trainset.to_csv("data/Finetune_Aspect_on_TextRank/dataset_train.csv", "\t", header=None, index=None)
devset.to_csv("data/Finetune_Aspect_on_TextRank/dataset_dev.csv", "\t", header=None, index=None)
# testset.to_csv("data/Finetune_Aspect_on_TextRank/dataset_test.csv", "\t", header=None, index=None)

# 1. Dataset - Finetuned vs Non-Finetuned Aspect Model

In [151]:
labels = [u'功能', u'品质', u'设计', u'使用', u'服务', u'价格']
label_mapping = {labels[i]:i for i in range(len(labels))}
label_mapping_rev = {i:labels[i] for i in range(len(labels))}

In [152]:
testset_aspect = pd.read_csv("data/Finetune_Aspect_on_TextRank/dataset_test_keep.csv", "\t", header=None)
testset_aspect.columns = ['label', 'aspect', 'text', 'pidx']

In [160]:
trainset_aspect = pd.read_csv("data/Finetune_Aspect_on_TextRank/dataset_train.csv", "\t", header=None)
trainset_aspect.columns = ['label', 'aspect', 'text', 'pidx']

In [161]:
devset_aspect = pd.read_csv("data/Finetune_Aspect_on_TextRank/dataset_dev.csv", "\t", header=None)
devset_aspect.columns = ['label', 'aspect', 'text', 'pidx']

In [153]:
finetuned_aspect = pd.read_csv("Finetuned_Aspect_Model/test/Finetuned/test_results.tsv", "\t", header=None)
finetuned_aspect["aspect_finetuned"] = np.argmax(finetuned_aspect.values, axis=1)
testset_aspect["aspect_finetuned"] = finetuned_aspect["aspect_finetuned"].apply(lambda x:label_mapping_rev[x])

In [154]:
nonfinetuned_aspect = pd.read_csv("Finetuned_Aspect_Model/test/NonFinetuned/test_results.tsv", "\t", header=None)
nonfinetuned_aspect["aspect_nonfinetuned"] = np.argmax(nonfinetuned_aspect.values, axis=1)
testset_aspect["aspect_nonfinetuned"] = nonfinetuned_aspect["aspect_nonfinetuned"].apply(lambda x:label_mapping_rev[x])

In [156]:
testset_aspect["aspect"] = np.where(testset_aspect['aspect_finetuned'] == '服务', '服务', testset_aspect['aspect_nonfinetuned'])
testset_aspect

Unnamed: 0,label,aspect,text,pidx,aspect_finetuned,aspect_nonfinetuned
0,positive,服务,因为着急用没有追究,0,服务,功能
1,positive,品质,值得收藏,1,功能,品质
2,positive,功能,很喜欢,1,功能,功能
3,positive,功能,很不错的书,3,功能,功能
4,negative,功能,书不错,4,功能,功能
5,negative,功能,但打开书就烂成这样,4,功能,功能
6,positive,功能,非常好,5,功能,功能
7,positive,品质,值得收藏,5,功能,品质
8,positive,品质,给老公买的书,6,功能,品质
9,positive,品质,书,7,功能,品质


In [157]:
testset_aspect[testset_aspect["aspect"] == "设计"]

Unnamed: 0,label,aspect,text,pidx,aspect_finetuned,aspect_nonfinetuned
46,positive,设计,经典,35,功能,设计
53,positive,设计,是资本论的有益补充,41,功能,设计
56,positive,设计,这个商品不错,44,功能,设计
57,positive,设计,这个商品不错,45,功能,设计
58,positive,设计,这个商品不错,46,功能,设计
59,positive,设计,这个商品不错,47,功能,设计
60,positive,设计,这个商品不错,48,功能,设计
61,positive,设计,这个商品不错,49,功能,设计
62,positive,设计,这个商品不错,50,功能,设计
63,positive,设计,这个商品不错,51,功能,设计


In [158]:
testset_aspect[testset_aspect["aspect"] == "价格"]

Unnamed: 0,label,aspect,text,pidx,aspect_finetuned,aspect_nonfinetuned
198,positive,价格,物超所值,112,功能,价格
222,positive,价格,比较实惠,130,功能,价格
223,positive,价格,物美价廉,130,功能,价格
228,positive,价格,蛮划算的,133,功能,价格
247,positive,价格,而且比实体书店便宜很多,146,使用,价格
270,positive,价格,很划算,152,功能,价格
438,positive,价格,而且又价廉物美,199,功能,价格
500,positive,价格,便宜,218,功能,价格
518,positive,价格,而且物美价廉,222,功能,价格
571,positive,价格,價格也很公道,233,价格,价格


In [159]:
testset_aspect[testset_aspect["aspect"] == "服务"]

Unnamed: 0,label,aspect,text,pidx,aspect_finetuned,aspect_nonfinetuned
0,positive,服务,因为着急用没有追究,0,服务,功能
96,positive,服务,但是着急用就没退,69,服务,功能
104,positive,服务,现在才评,72,服务,功能
212,positive,服务,下次还来买,121,服务,功能
424,negative,服务,过了退换期限才在使用时发现缺了几十页（1045-1076页缺失了）,195,服务,功能
429,positive,服务,来过很多次了,196,服务,功能
620,positive,服务,货运快,251,服务,功能
626,positive,服务,到货快,258,服务,功能
650,positive,服务,下次继续光顾,277,服务,功能
674,positive,服务,差不多一个月才收到书,291,服务,功能


In [188]:
dataset_aspect = trainset_aspect[trainset_aspect["pidx"] <= 4538].append(testset_aspect.drop(columns=["aspect_finetuned", "aspect_nonfinetuned"]))
dataset_aspect = dataset_aspect[dataset_aspect["text"].str.len() > 2]
dataset_aspect = dataset_aspect.sort_values(by=["pidx"]).reset_index(drop=True)
dataset_aspect.to_csv("data/Sentiment_Classification/dataset_test_keep.csv", sep="\t", header=None, index=None)
dataset_aspect

Unnamed: 0,label,aspect,text,pidx
0,positive,设计,书皮和书业之间的连接处撕开了,0
1,positive,服务,因为着急用没有追究,0
2,positive,品质,正版图书,1
3,positive,功能,很喜欢,1
4,positive,品质,值得收藏,1
5,positive,设计,书皮与中间部分脱落损坏,2
6,positive,功能,很不错的书,3
7,negative,功能,但打开书就烂成这样,4
8,negative,功能,书不错,4
9,positive,功能,非常好,5
