In [6]:
"""
评论拆分为单句
"""
import pandas as pd

data = pd.read_excel('../data/Beijing & Shanghai - 4&5 star.xlsx')
data.shape

(317518, 13)

In [7]:
import re
import numpy as np


def is_chinese(word):
    for ch in word:
        if '\u4e00' <= ch <= '\u9fff':
            return True
    return False


def get_abstract(content):
    # print("content = ", content)
    # 使用逗号替换空格
    content = re.sub(r" +", ",", str(content))
    pattern = r',|\.|;|\?|:|!|\(|\)|，|。|、|；|·|！| |…|（|）|~|～|：|；|@|【|】|#|◎|？'
    docs = list(re.split(pattern, content))
    # print("docs pre = ", docs)
    docs = list(filter(lambda x: len(str(x).strip()) > 0, docs))
    # 去掉不包含中文字符的短文本
    remove_index = []
    for i in range(len(docs)):
        if not is_chinese(docs[i]):
            remove_index.append(i)
    if len(remove_index) > 0:
        print("非中文1：", docs)

    for counter, index in enumerate(remove_index):
        index = index - counter
        docs.pop(index)
    if len(remove_index) > 0:
        print("非中文2：", docs)
        print("*" * 50)

    return docs


def split_row(data_df, column):
    """拆分成行
    :param data_df: 原始数据
    :param column: 拆分的列名
    :type data_df: pandas.core.frame.DataFrame
    :type column: str
    """
    row_len = list(map(len, data_df[column].values))
    rows = []
    for i in data_df.columns:
        if i == column:
            row = np.concatenate(data_df[i].values)
        else:
            row = np.repeat(data_df[i].values, row_len)
        rows.append(row)
    return pd.DataFrame(np.dstack(tuple(rows))[0], columns=data_df.columns)

In [8]:
data['sentence'] = data['评论文本'].apply(lambda x: get_abstract(x))
# 去掉sentence为空的行
data = data[data['sentence'].apply(lambda x: len(x) > 0)]
data

非中文1： ['方便快捷哦', '服务态度良好', '去公司近', '周边玩也很安全便捷', '🚗', '交', '🧹卫生', '🍃环境', '🔔服务']
非中文2： ['方便快捷哦', '服务态度良好', '去公司近', '周边玩也很安全便捷', '交', '🧹卫生', '🍃环境', '🔔服务']
**************************************************
非中文1： ['晚上22', '00-23', '00还有宵夜', '床很大', '特别舒服', '不用太早起床吃早餐', '时间很人性化', '12点前去吃就可以']
非中文2： ['晚上22', '00还有宵夜', '床很大', '特别舒服', '不用太早起床吃早餐', '时间很人性化', '12点前去吃就可以']
**************************************************
非中文1： ['酒店位置挺好的', '整体出行很方便', '但是', '1', '作为市中心的酒店', '居然没用可以制暖的空调', '店家的解释是该楼层用的中央空调', '统一设置的', '个人觉得这个季节的上海', '有个暖气还是必要的', '2', '虽然前台说是帮忙做了升房', '但横向比较同价位的酒店', '这家的房间空间实在不算开阔', '整体比较局促', '厕所是全透明的', '这个设计有点', '不太喜欢', '有一个枕头的枕套不太干净', '房间里没有提前放好一次性拖鞋', '3', '整体服务还是不错的', '前台和阿姨态度都很好', '瞄了一眼早餐', '应该整体品质还可以']
非中文2： ['酒店位置挺好的', '整体出行很方便', '但是', '作为市中心的酒店', '居然没用可以制暖的空调', '店家的解释是该楼层用的中央空调', '统一设置的', '个人觉得这个季节的上海', '有个暖气还是必要的', '虽然前台说是帮忙做了升房', '但横向比较同价位的酒店', '这家的房间空间实在不算开阔', '整体比较局促', '厕所是全透明的', '这个设计有点', '不太喜欢', '有一个枕头的枕套不太干净', '房间里没有提前放好一次性拖鞋', '整体服务还是不错的', '前台和阿姨态度都很好', '瞄了一眼早餐', '应该整体品

Unnamed: 0,地区,星级,名称,作者,房型,入住日期,出行目的,作者点评数,评分,评论文本,点赞数,酒店回复,发布日期,sentence
0,上海,4,上海外滩大悦城CitiGO欢阁酒店,余觞一梦还,大床房,2021-09-01,情侣出游,17.0,5.0,很不错，服务很好,0,"尊敬的宾客:您好!感谢您选择CitiGo 酒店,再多的广告,不如大家的口口相传,我们向来重视...",2021-09-08,"[很不错, 服务很好]"
1,上海,4,上海外滩大悦城CitiGO欢阁酒店,Zoey 7,大床房,2021-09-01,朋友出游,4.0,5.0,很好 很方便,0,"尊敬的宾客:您好!感谢您5 分的点评哦!每个城市总会有让人惦念的理由,每个季节都有我们难舍的...",2021-09-08,"[很好, 很方便]"
2,上海,4,上海外滩大悦城CitiGO欢阁酒店,_WeChat56211****,高级大床房,2021-09-01,情侣出游,12.0,5.0,交通很方便，房间很干净！虽然房间面积普遍都不大，但是布局合理，没有太拥挤的感觉。卫浴也很棒！...,0,"尊敬的宾客:您好!感谢您选择CitiGo 酒店,再多的广告,不如大家的口口相传,我们向来重视...",2021-09-06,"[交通很方便, 房间很干净, 虽然房间面积普遍都不大, 但是布局合理, 没有太拥挤的感觉, ..."
3,上海,4,上海外滩大悦城CitiGO欢阁酒店,D39833****,豪华双床房,2021-07-01,家庭亲子,1.0,5.0,来上海就住这个酒店 真的超级赞 我算老上海了 原来在七浦路做服装 现在的服务 餐饮都超级赞 ...,0,"看到客官简单而又深厚的好评真的是好激动呢,而且还这么认可我们的服务~酒店的我们求为每位客官提...",2021-07-30,"[来上海就住这个酒店, 真的超级赞, 我算老上海了, 原来在七浦路做服装, 现在的服务, 餐..."
4,上海,4,上海外滩大悦城CitiGO欢阁酒店,1860517****,豪华双床房,2021-06-01,其他,8.0,5.0,必须五星好评！ ◎酒店的装修真的非常好看，无论是外观还是内部装饰，都是绝绝子 ◎服务非常体贴...,1,非常感谢阁下的宝贵评论。在得到您对我们的肯定和赞许后，员工们都十分开心， 我们会将您的评论与...,2021-06-19,"[必须五星好评, 酒店的装修真的非常好看, 无论是外观还是内部装饰, 都是绝绝子, 服务非常..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
317513,北京,5,金茂北京威斯汀大饭店,,,2019-04-08,其他,0.0,5.0,【适合孩子】,0,,2019-04-08,[适合孩子]
317514,北京,5,金茂北京威斯汀大饭店,,,2018-08-01,其他,0.0,3.0,就是房间漏水，没有热水,0,,2018-08-01,"[就是房间漏水, 没有热水]"
317515,北京,5,金茂北京威斯汀大饭店,,,2018-07-20,其他,0.0,5.0,巴适的板，非常干净整洁,0,,2018-07-20,"[巴适的板, 非常干净整洁]"
317516,北京,5,金茂北京威斯汀大饭店,,,2018-07-25,其他,0.0,4.0,离三里屯近 位置不错,0,,2018-07-25,"[离三里屯近, 位置不错]"


In [9]:
data = split_row(data, column='sentence')
data.shape

(1396551, 14)

In [10]:
# 保存数据，因为数据量过大所以使用txt格式保存
# ValueError: This sheet is too large! Your sheet size is: 1304783, 1 Max sheet size is: 1048576, 16384
data.to_csv('../data/data_sentence_2.csv', sep='\t', index=False)
data['sentence'].to_csv('../data/only_sentence_2.csv', sep='\t', index=False)
data

Unnamed: 0,地区,星级,名称,作者,房型,入住日期,出行目的,作者点评数,评分,评论文本,点赞数,酒店回复,发布日期,sentence
0,上海,4,上海外滩大悦城CitiGO欢阁酒店,余觞一梦还,大床房,1630454400000000000,情侣出游,17.0,5.0,很不错，服务很好,0,"尊敬的宾客:您好!感谢您选择CitiGo 酒店,再多的广告,不如大家的口口相传,我们向来重视...",1631059200000000000,很不错
1,上海,4,上海外滩大悦城CitiGO欢阁酒店,余觞一梦还,大床房,1630454400000000000,情侣出游,17.0,5.0,很不错，服务很好,0,"尊敬的宾客:您好!感谢您选择CitiGo 酒店,再多的广告,不如大家的口口相传,我们向来重视...",1631059200000000000,服务很好
2,上海,4,上海外滩大悦城CitiGO欢阁酒店,Zoey 7,大床房,1630454400000000000,朋友出游,4.0,5.0,很好 很方便,0,"尊敬的宾客:您好!感谢您5 分的点评哦!每个城市总会有让人惦念的理由,每个季节都有我们难舍的...",1631059200000000000,很好
3,上海,4,上海外滩大悦城CitiGO欢阁酒店,Zoey 7,大床房,1630454400000000000,朋友出游,4.0,5.0,很好 很方便,0,"尊敬的宾客:您好!感谢您5 分的点评哦!每个城市总会有让人惦念的理由,每个季节都有我们难舍的...",1631059200000000000,很方便
4,上海,4,上海外滩大悦城CitiGO欢阁酒店,_WeChat56211****,高级大床房,1630454400000000000,情侣出游,12.0,5.0,交通很方便，房间很干净！虽然房间面积普遍都不大，但是布局合理，没有太拥挤的感觉。卫浴也很棒！...,0,"尊敬的宾客:您好!感谢您选择CitiGo 酒店,再多的广告,不如大家的口口相传,我们向来重视...",1630886400000000000,交通很方便
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1396546,北京,5,金茂北京威斯汀大饭店,,,1532044800000000000,其他,0.0,5.0,巴适的板，非常干净整洁,0,,1532044800000000000,巴适的板
1396547,北京,5,金茂北京威斯汀大饭店,,,1532044800000000000,其他,0.0,5.0,巴适的板，非常干净整洁,0,,1532044800000000000,非常干净整洁
1396548,北京,5,金茂北京威斯汀大饭店,,,1532476800000000000,其他,0.0,4.0,离三里屯近 位置不错,0,,1532476800000000000,离三里屯近
1396549,北京,5,金茂北京威斯汀大饭店,,,1532476800000000000,其他,0.0,4.0,离三里屯近 位置不错,0,,1532476800000000000,位置不错
