In [None]:
'''
    @Author: King
    @Date: 2019.03.17
    @Purpose: 语料预处理
    @Introduction: 使用pandas直接处理数据，建议使用apply方法，
                    处理速度比较快，数据处理完之后将有标签和无标签的数据合并，并保存成txt文件。
    @Datasets: ChnSentiCorp 中文情感分析数据集，其目标是判断一段话的情感态度。
    @Link:https://github.com/jiangxinyang227/textClassifier/tree/master/dateHelper
    @Reference: https://www.cnblogs.com/jiangxinyang/p/10207273.html
'''

In [1]:
import pandas as pd
from bs4 import BeautifulSoup

## 数据加载模块

In [2]:
# with open("../data/ChnSentiCorp_cn_data/ChnSentiCorp_htl_all.csv", "r", encoding= "utf-8") as f:
#     unlabeledTrain = [line.strip().split("\t") for line in f.readlines() if len(line.strip().split("\t")) == 2]
    
with open("../data/ChnSentiCorp_cn_data/ChnSentiCorp_htl_all.csv", "r", encoding= "utf-8") as f:
    labeledTrain = [line.strip().split(",") for line in f.readlines() if len(line.strip().split(",")) == 2]

In [3]:
# unlabel = pd.DataFrame(unlabeledTrain[1: ], columns=['class','review'])
label = pd.DataFrame(labeledTrain[1: ], columns=['label','review'])

In [4]:
label.head(5)

Unnamed: 0,label,review
0,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!
1,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。
2,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...
3,1,总的来说，这样的酒店配这样的价格还算可以，希望他赶快装修，给我的客人留些好的印象
4,1,价格比比较不错的酒店。这次免费升级了，感谢前台服务员。房子还好，地毯是新的，比上次的好些。早...


In [5]:
label.head(5)

Unnamed: 0,label,review
0,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!
1,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。
2,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...
3,1,总的来说，这样的酒店配这样的价格还算可以，希望他赶快装修，给我的客人留些好的印象
4,1,价格比比较不错的酒店。这次免费升级了，感谢前台服务员。房子还好，地毯是新的，比上次的好些。早...


## 数据分词模块

In [6]:
import jieba
# 数据进行分词
def jieba_cut_word(subject):
    seg_list = jieba.cut(subject, cut_all=False)
    word_list = " ".join(seg_list)
    return word_list

label['review_cut_word'] = label['review'].apply(jieba_cut_word)
# unlabel['review_cut_word'] = label['review'].apply(jieba_cut_word)
label.head(5)
# unlabel.head(5)

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ASUS\AppData\Local\Temp\jieba.cache
Loading model cost 1.385 seconds.
Prefix dict has been built succesfully.


Unnamed: 0,label,review,review_cut_word
0,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!,商务 大床 房 ， 房间 很大 ， 床有 2M 宽 ， 整体 感觉 经济 实惠 不错 !
1,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。,早餐 太 差 ， 无论 去 多少 人 ， 那边 也 不加 食品 的 。 酒店 应该 重视 一...
2,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...,宾馆 在 小 街道 上 ， 不大好 找 ， 但 还好 北京 热心 同胞 很多 ~ 宾馆 设施...
3,1,总的来说，这样的酒店配这样的价格还算可以，希望他赶快装修，给我的客人留些好的印象,总的来说 ， 这样 的 酒店 配 这样 的 价格 还 算 可以 ， 希望 他 赶快 装修 ，...
4,1,价格比比较不错的酒店。这次免费升级了，感谢前台服务员。房子还好，地毯是新的，比上次的好些。早...,价格比 比较 不错 的 酒店 。 这次 免费 升级 了 ， 感谢 前台 服务员 。 房子 还...


## 数据清洗模块

In [7]:
# 因此数据预处理比较简单，只去除了各种标点符号，HTML标签，小写化等。
def cleanReview(subject):
    beau = BeautifulSoup(subject)
    newSubject = beau.get_text()
#     newSubject = newSubject.replace("\\", "").replace("\'", "").replace('/', '').replace('"', '').replace(',', '').replace('.', '').replace('?', '').replace('(', '').replace(')', '')
    newSubject = newSubject.strip().split(" ")
    newSubject = [word.lower() for word in newSubject]
    newSubject = " ".join(newSubject)
    
    return newSubject
    
# unlabel["review_cut_word"] = unlabel["review_cut_word"].apply(cleanReview)
label["review_cut_word"] = label["review_cut_word"].apply(cleanReview)



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


In [8]:
label.head(5)

Unnamed: 0,label,review,review_cut_word
0,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!,商务 大床 房 ， 房间 很大 ， 床有 2m 宽 ， 整体 感觉 经济 实惠 不错 !
1,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。,早餐 太 差 ， 无论 去 多少 人 ， 那边 也 不加 食品 的 。 酒店 应该 重视 一...
2,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...,宾馆 在 小 街道 上 ， 不大好 找 ， 但 还好 北京 热心 同胞 很多 ~ 宾馆 设施...
3,1,总的来说，这样的酒店配这样的价格还算可以，希望他赶快装修，给我的客人留些好的印象,总的来说 ， 这样 的 酒店 配 这样 的 价格 还 算 可以 ， 希望 他 赶快 装修 ，...
4,1,价格比比较不错的酒店。这次免费升级了，感谢前台服务员。房子还好，地毯是新的，比上次的好些。早...,价格比 比较 不错 的 酒店 。 这次 免费 升级 了 ， 感谢 前台 服务员 。 房子 还...


In [9]:
# 将有标签的数据和无标签的数据合并
newDf = pd.concat([label["review_cut_word"]], axis=0) 

## 数据存储模块

In [10]:
# 保存成txt文件
newDf.to_csv("../data/ChnSentiCorp_cn_data/wordEmbdiing.txt", index=False,encoding='utf-8')

In [11]:
label_lists =[]
def label_list(subject):
    if subject not in label_lists:
        label_lists.append(subject)
    
def label_to_class(subject):
    return int(label_lists.index(subject))

label["label"].apply(label_list)
label["label"] = label["label"].apply(label_to_class)
print("label.head(5):{0}".format(label.head(5)))
print("label_lists:{0}".format(label_lists))

# unlabel["class"].apply(label_list)
# unlabel["class"] = unlabel["class"].apply(label_to_class)
# unlabel.head(5)


label.head(5):   label                                             review  \
0      0                       商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!   
1      0         早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。   
2      0  宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...   
3      0           总的来说，这样的酒店配这样的价格还算可以，希望他赶快装修，给我的客人留些好的印象   
4      0  价格比比较不错的酒店。这次免费升级了，感谢前台服务员。房子还好，地毯是新的，比上次的好些。早...   

                                     review_cut_word  
0       商务 大床 房 ， 房间 很大 ， 床有 2m 宽 ， 整体 感觉 经济 实惠 不错 !  
1  早餐 太 差 ， 无论 去 多少 人 ， 那边 也 不加 食品 的 。 酒店 应该 重视 一...  
2  宾馆 在 小 街道 上 ， 不大好 找 ， 但 还好 北京 热心 同胞 很多 ~ 宾馆 设施...  
3  总的来说 ， 这样 的 酒店 配 这样 的 价格 还 算 可以 ， 希望 他 赶快 装修 ，...  
4  价格比 比较 不错 的 酒店 。 这次 免费 升级 了 ， 感谢 前台 服务员 。 房子 还...  
label_lists:['1', '0']


In [12]:
newLabel1 = label[["label","review_cut_word"]]
newLabel1.to_csv("../data/ChnSentiCorp_cn_data/labeledCharTrain.csv",encoding='utf-8', header=0, index=0)

In [13]:
newLabel2 = label[["review_cut_word","label"]]
newLabel2.to_csv("../data/ChnSentiCorp_cn_data/labeledCharTrain_bert.csv",encoding='utf-8', header=0, index=0)
# newunLabel = unlabel[["class", "review_cut_word"]]
# newunLabel.to_csv("../data/ChnSentiCorp_cn_data/cnews_data/labeledCharTest.csv",encoding='utf-8')