# 求酒店评论相似度并提取相似的评论

## 1 导入库和酒店评论数据

In [1]:
import pandas as pd
import jieba 
data = pd.read_csv("./酒店评论.csv",encoding='gbk',dtype=str)  # 载入全部数据
data = data["评论内容"]
data

0                                                酒店很适合家庭出行
1                                            升级了房间 延迟退房 很赞
2        这几年，每年都会来广州，每次都会住**酒店。因为位置好，酒店的性价比也不错，这次给免费升级了...
3                                                   酒店很好不错
4                                                    超五星好评
                               ...                        
24775    酒店是老字号宾馆，虽然有装修过但设施比较陈旧房间空调比较小，卫生间里的墙壁有剥落现象，浴室的...
24776          本人觉得还好，价格偏高，没有很高档，服务是很好，设施偏老，也不会很大，喜欢楼下的早茶。
24777                                         隔音极差，睡眠让人崩溃。
24778                                       酒店位置很好，停车场比较小。
24779                                     位置好找，停车方便，酒店太老了！
Name: 评论内容, Length: 24780, dtype: object

## 2 求余弦相似度

### 2.1 导入gensim模块

gensim模块用于自然语言处理，使用其中Word2Vec库将每一条评论文本转换为词向量再计算两个词向量之间的余弦相似度，相似度大于（）时为几乎相同的评论。

In [2]:
import numpy as np
from gensim.models import Word2Vec

model = Word2Vec(data)
w2i = {w: i for i, w in enumerate(model.wv.index_to_key, 1)}
vectors = np.concatenate((np.zeros((1, 100)), model.wv.vectors), axis=0)
w2v = lambda w: vectors[w2i.get(w, 0)]

### 2.2 计算$c_m,k=0..N-1$和$c_n,n=k+1..N$的余弦相似度，提取相似的评论

In [3]:
for k in range(int(17*(len(data)-1)/20),int(18*(len(data)-1)/20)):
    vec1 = np.mean([w2v(w) for w in data[k]], axis=0)
    print("---------"+str(k)+"---------")
    for j in range(k+1,len(data)):
        vec2 = np.mean([w2v(w) for w in data[j]], axis=0)
        if np.linalg.norm(vec1) * np.linalg.norm(vec2) != 0:
            rate = vec1 @ vec2 / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
            if rate > 0.95:
                print("--------------------\n"+data[k]+"\n--------")
                print(data[j]+"\n--------------------")
    print("\n")

---------21062---------


---------21063---------


---------21064---------


---------21065---------


---------21066---------


---------21067---------


---------21068---------


---------21069---------
--------------------
非常好的好的
--------
好的，非常好
--------------------
--------------------
非常好的好的
--------
非常的好的好的
--------------------


---------21070---------


---------21071---------
--------------------
可以，不错
--------
可以，很不错
--------------------
--------------------
可以，不错
--------
可以，不错
--------------------
--------------------
可以，不错
--------
不错，还可以
--------------------
--------------------
可以，不错
--------
挺不错的，可以
--------------------


---------21072---------
--------------------
好好好好好好
--------
好好啊好啊好
--------------------
--------------------
好好好好好好
--------
好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好
--------------------
--------------------
好好好好好好
--------
好好好好好好
--------------------
--------------------
好好好好好好
--------
好好好好好
--------------------
----------------



---------21231---------


---------21232---------
--------------------
还行吧，就是旧了点
--------
还行吧，就是旧了
--------------------


---------21233---------


---------21234---------


---------21235---------


---------21236---------


---------21237---------


---------21238---------


---------21239---------


---------21240---------


---------21241---------


---------21242---------


---------21243---------


---------21244---------
--------------------
优美的环境，热情的服务
--------
环境优美，服务态度热情
--------------------


---------21245---------


---------21246---------


---------21247---------


---------21248---------


---------21249---------


---------21250---------


---------21251---------


---------21252---------


---------21253---------


---------21254---------


---------21255---------


---------21256---------


---------21257---------


---------21258---------


---------21259---------


---------21260---------


---------21261---------


---------21262---------


---------21263-------



---------21397---------
--------------------
早餐还可以
--------
早餐还可以
--------------------


---------21398---------


---------21399---------
--------------------
早餐还行吧
--------
早餐还行。
--------------------


---------21400---------


---------21401---------
--------------------
非常满意，服务态度好
--------
非常满意，前台服务好。
--------------------


---------21402---------


---------21403---------


---------21404---------


---------21405---------
--------------------
经常帮朋友订，这次趁价不高自己也来体验一下，温泉很好，可能系疫情期间人不算多，感觉挺干净的，服务也给个赞 ，见到每个服务人员都是微笑的，很有礼貌，餐厅略贵了点，但有餐券送，就觉得价格合理，如果健身房也免费就大赞了，房间麻，感觉地面不够干净，其它的都满意。
--------
温泉很好，可能系疫情期间人不算多，感觉挺干净的，服务也给个赞 ，见到每个服务人员都是微笑的，很有礼貌，餐厅略贵了点，但有餐券送，就觉得价格合理，如果健身房也免费就大赞了，房间麻，感觉地面不够干净，其它的都满意。
--------------------


---------21406---------


---------21407---------


---------21408---------
--------------------
环境优美，服务态度非常好！
--------
环境优美，服务态度很好
--------------------


---------21409---------


---------21410---------


---------21411---------


---------21412---------


---------21413------



---------21537---------


---------21538---------


---------21539---------


---------21540---------


---------21541---------


---------21542---------


---------21543---------


---------21544---------


---------21545---------


---------21546---------


---------21547---------
--------------------
酒店在六祖故里旅游度假区内，我们觉得是性价比最高的一家。环境优美，犹如世外桃源，工作人员热情友好，早餐是自助粤式早茶，品种丰富，午餐、晚餐也在酒店的餐厅里吃，干净卫生美味且价格实惠！推荐！
--------
酒店在六祖旅游度假区内，我们觉得是性价比最高的一家。环境优美，犹如世外桃源，工作人员热情友好，早餐是自助粤式早茶，品种丰富，午餐、晚餐也在酒店的餐厅里吃，干净卫生美味且价格实惠！推荐！
--------------------


---------21548---------


---------21549---------


---------21550---------


---------21551---------


---------21552---------


---------21553---------


---------21554---------


---------21555---------


---------21556---------


---------21557---------
--------------------
早餐很好吃
--------
早餐很好吃
--------------------
--------------------
早餐很好吃
--------
早餐很好吃
--------------------


---------21558---------


---------21559---------


---------21560---------


---------



---------21645---------


---------21646---------


---------21647---------


---------21648---------


---------21649---------


---------21650---------


---------21651---------


---------21652---------


---------21653---------
--------------------
服务非常好
--------
非常好，服务好
--------------------
--------------------
服务非常好
--------
服务非常好
--------------------
--------------------
服务非常好
--------
服务非常好
--------------------
--------------------
服务非常好
--------
服务非常好
--------------------


---------21654---------


---------21655---------


---------21656---------


---------21657---------


---------21658---------


---------21659---------


---------21660---------


---------21661---------


---------21662---------


---------21663---------


---------21664---------


---------21665---------


---------21666---------


---------21667---------


---------21668---------


---------21669---------


---------21670---------


---------21671---------


---------21672---------


---------21673--



---------21912---------


---------21913---------


---------21914---------


---------21915---------


---------21916---------


---------21917---------


---------21918---------


---------21919---------


---------21920---------


---------21921---------


---------21922---------


---------21923---------


---------21924---------


---------21925---------


---------21926---------


---------21927---------


---------21928---------


---------21929---------


---------21930---------


---------21931---------


---------21932---------


---------21933---------


---------21934---------


---------21935---------


---------21936---------


---------21937---------


---------21938---------


---------21939---------


---------21940---------


---------21941---------


---------21942---------


---------21943---------


---------21944---------


---------21945---------


---------21946---------


---------21947---------


---------21948---------


---------21949---------


---------2



---------21983---------


---------21984---------


---------21985---------


---------21986---------


---------21987---------


---------21988---------


---------21989---------


---------21990---------


---------21991---------


---------21992---------
--------------------
好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好
--------
好好好好好好
--------------------
--------------------
好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好
--------
好好好好好
--------------------
--------------------
好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好
--------
好好好好好
--------------------
--------------------
好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好
--------
好好好好好好
--------------------
--------------------
好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好
--------
好好好好好
--------------------
--------------------
好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好好
--------
好好好好好好好好好好好好好好好
--------------------
--------------------



---------22131---------


---------22132---------


---------22133---------


---------22134---------
--------------------
好好好好，不错不错不错。
--------
好好好，很不错
--------------------


---------22135---------


---------22136---------


---------22137---------


---------22138---------


---------22139---------


---------22140---------


---------22141---------


---------22142---------


---------22143---------


---------22144---------


---------22145---------


---------22146---------


---------22147---------


---------22148---------


---------22149---------


---------22150---------


---------22151---------


---------22152---------


---------22153---------


---------22154---------
--------------------
挺好的，不错的
--------
不错，蛮好的
--------------------


---------22155---------


---------22156---------


---------22157---------


---------22158---------


---------22159---------


---------22160---------
--------------------
早餐很好吃
--------
早餐很好吃
--------------------


---------22161---



---------22259---------


---------22260---------


---------22261---------
--------------------
酒店非常好
--------
酒店非常好
--------------------


---------22262---------


---------22263---------


---------22264---------


---------22265---------


---------22266---------
--------------------
环境优美，地理位置好，交通方便，房间舒适卫生，服务人员很热情，乐于提供各种帮助，早餐丰富。设施很人性化，网络高速信号好，窗外风景好。有特别的开床服务，房间小摆件的设计也很有特色。性价比不错，下次还要入住
--------
环境优美，地理位置好，交通方便，房间舒适卫生，服务人员很热情，乐于提供各种帮助，早餐丰富。设施很人性化，网络高速信号好，窗外风景好。有特别的开床服务，房间小摆件的设计也很有特色。性价比不错，下次还要入住
--------------------


---------22267---------


---------22268---------


---------22269---------


---------22270---------


---------22271---------


---------22272---------


---------22273---------


---------22274---------


---------22275---------


---------22276---------


---------22277---------


---------22278---------


---------22279---------


---------22280---------
--------------------
每年出差都住这里，不会有差错
--------
每年出差都住这里，不会有差错
--------------------


---------22281---------


-