# 求酒店评论相似度并提取相似的评论

## 1 导入库和酒店评论数据

In [1]:
import pandas as pd
import jieba 
data = pd.read_csv("./酒店评论.csv",encoding='gbk',dtype=str)  # 载入全部数据
data = data["评论内容"]
data

0                                                酒店很适合家庭出行
1                                            升级了房间 延迟退房 很赞
2        这几年，每年都会来广州，每次都会住**酒店。因为位置好，酒店的性价比也不错，这次给免费升级了...
3                                                   酒店很好不错
4                                                    超五星好评
                               ...                        
24775    酒店是老字号宾馆，虽然有装修过但设施比较陈旧房间空调比较小，卫生间里的墙壁有剥落现象，浴室的...
24776          本人觉得还好，价格偏高，没有很高档，服务是很好，设施偏老，也不会很大，喜欢楼下的早茶。
24777                                         隔音极差，睡眠让人崩溃。
24778                                       酒店位置很好，停车场比较小。
24779                                     位置好找，停车方便，酒店太老了！
Name: 评论内容, Length: 24780, dtype: object

## 2 求余弦相似度

### 2.1 导入gensim模块

gensim模块用于自然语言处理，使用其中Word2Vec库将每一条评论文本转换为词向量再计算两个词向量之间的余弦相似度，相似度大于（）时为几乎相同的评论。

In [2]:
import numpy as np
from gensim.models import Word2Vec

model = Word2Vec(data)
w2i = {w: i for i, w in enumerate(model.wv.index_to_key, 1)}
vectors = np.concatenate((np.zeros((1, 100)), model.wv.vectors), axis=0)
w2v = lambda w: vectors[w2i.get(w, 0)]

### 2.2 计算$c_m,k=0..N-1$和$c_n,n=k+1..N$的余弦相似度，提取相似的评论

In [3]:
for k in range(int(19*(len(data)-1)/20),len(data)-1):
    vec1 = np.mean([w2v(w) for w in data[k]], axis=0)
    print("---------"+str(k)+"---------")
    for j in range(k+1,len(data)):
        vec2 = np.mean([w2v(w) for w in data[j]], axis=0)
        if np.linalg.norm(vec1) * np.linalg.norm(vec2) != 0:
            rate = vec1 @ vec2 / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
            if rate > 0.95:
                print("--------------------\n"+data[k]+"\n--------")
                print(data[j]+"\n--------------------")
    print("\n")

---------23540---------


---------23541---------


---------23542---------


---------23543---------
--------------------
服务很好。
--------
服务很好，
--------------------
--------------------
服务很好。
--------
服务很好
--------------------
--------------------
服务很好。
--------
服务很好的
--------------------


---------23544---------


---------23545---------


---------23546---------


---------23547---------
--------------------
性价比很高
--------
性价比很高！
--------------------
--------------------
性价比很高
--------
性价比很高
--------------------


---------23548---------


---------23549---------
--------------------
酒店挺好的
--------
很好的酒店
--------------------


---------23550---------


---------23551---------


---------23552---------


---------23553---------


---------23554---------


---------23555---------
--------------------
比较一般，房间设施陈旧
--------
比较一般，房间设施老旧
--------------------


---------23556---------


---------23557---------


---------23558---------


---------23559---------


---------23560---------
---



---------23677---------


---------23678---------


---------23679---------


---------23680---------


---------23681---------


---------23682---------
--------------------
很好，不错！
--------
很好，不错。
--------------------


---------23683---------


---------23684---------


---------23685---------


---------23686---------


---------23687---------
--------------------
I want to apply for cancellation refund because I did not check in due to the covid19 event. please let me know how can I apply for refund
--------
so so
--------------------
--------------------
I want to apply for cancellation refund because I did not check in due to the covid19 event. please let me know how can I apply for refund
--------
Excellent service
--------------------
--------------------
I want to apply for cancellation refund because I did not check in due to the covid19 event. please let me know how can I apply for refund
--------
keumll
--------------------
--------------------
I want to apply for cancell



---------23825---------


---------23826---------


---------23827---------


---------23828---------


---------23829---------


---------23830---------


---------23831---------


---------23832---------


---------23833---------
--------------------
很好的！！！
--------
很好的！！！！
--------------------
--------------------
很好的！！！
--------
很好！！！！！！
--------------------


---------23834---------
--------------------
很好的！！！！
--------
很好！！！！！！
--------------------


---------23835---------


---------23836---------


---------23837---------


---------23838---------


---------23839---------


---------23840---------


---------23841---------


---------23842---------


---------23843---------


---------23844---------


---------23845---------


---------23846---------


---------23847---------


---------23848---------


---------23849---------


---------23850---------


---------23851---------


---------23852---------


---------23853---------
--------------------
不错的酒店
--------
好不错的酒店
--

--------------------
so so
--------
Nice swimming pool. Room a little old but still clean. Nearby One Avenue shopping area. Convenient location.
--------------------
--------------------
so so
--------
very good
--------------------


---------23979---------


---------23980---------
--------------------
服务好卫生好值得推荐
--------
服务好卫生好值的推荐
--------------------
--------------------
服务好卫生好值得推荐
--------
服务好卫生好值得推荐的好酒店
--------------------


---------23981---------


---------23982---------


---------23983---------
--------------------
服务好卫生好值的推荐
--------
服务好卫生好值得推荐的好酒店
--------------------


---------23984---------


---------23985---------


---------23986---------
--------------------
服务很好，
--------
服务很好
--------------------
--------------------
服务很好，
--------
服务很好的
--------------------


---------23987---------


---------23988---------


---------23989---------


---------23990---------
--------------------
干净卫生，服务态度好
--------
服务好，卫生好
--------------------
--------------------
干净卫生，服务态度好
-

--------------------
keumll
--------
very good
--------------------


---------24039---------
--------------------
，dddf
--------
Front desk staff was cheerful. Room is tidy. Room service was efficient but I ordered a noddles the taste not good and a bit cold. Overall is good.
--------------------
--------------------
，dddf
--------
Convenient location, nice stay experienceNo surprise, no disappointed
--------------------
--------------------
，dddf
--------
The Hotel was kinda old but the cleanliness was unacceptable. I mean, room was not so ok but breakfast lounge was really dirty, tables, floor, chairs, bars... a disaster regarding cleanliness.
--------------------
--------------------
，dddf
--------
The hotel provided what you need, but compared to other five stars hotel, I'm not satisfied with staffs friendliness. They don't seems to be eager to host you. The room is big and quite worth for its price. But the service just not making me wanted to go back again.
--------------------




---------24162---------


---------24163---------


---------24164---------
--------------------
卫生干净，服务好
--------
干净卫生，服务态度好
--------------------


---------24165---------


---------24166---------


---------24167---------


---------24168---------


---------24169---------


---------24170---------


---------24171---------


---------24172---------


---------24173---------
--------------------
服务好，卫生好
--------
干净卫生，服务态度好
--------------------


---------24174---------


---------24175---------


---------24176---------


---------24177---------


---------24178---------


---------24179---------


---------24180---------


---------24181---------


---------24182---------


---------24183---------


---------24184---------


---------24185---------


---------24186---------


---------24187---------


---------24188---------


---------24189---------


---------24190---------


---------24191---------


---------24192---------


---------24193---------


---------24194---------



---------24262---------


---------24263---------


---------24264---------


---------24265---------


---------24266---------


---------24267---------


---------24268---------


---------24269---------


---------24270---------


---------24271---------


---------24272---------


---------24273---------


---------24274---------


---------24275---------
--------------------
服务一流，居住环境优美
--------
环境优美，服务一流
--------------------


---------24276---------


---------24277---------


---------24278---------


---------24279---------


---------24280---------


---------24281---------


---------24282---------


---------24283---------


---------24284---------


---------24285---------
--------------------
服务态度好
--------
服务态度很好
--------------------
--------------------
服务态度好
--------
服务态度很好
--------------------


---------24286---------


---------24287---------


---------24288---------


---------24289---------
--------------------
服务态度很好
--------
服务态度很好
--------------------


------



---------24494---------


---------24495---------


---------24496---------


---------24497---------


---------24498---------


---------24499---------


---------24500---------
--------------------
酒店还不错
--------
酒店还不错
--------------------


---------24501---------


---------24502---------


---------24503---------


---------24504---------


---------24505---------


---------24506---------


---------24507---------


---------24508---------


---------24509---------


---------24510---------


---------24511---------


---------24512---------


---------24513---------


---------24514---------


---------24515---------


---------24516---------


---------24517---------


---------24518---------


---------24519---------


---------24520---------


---------24521---------


---------24522---------


---------24523---------


---------24524---------


---------24525---------


---------24526---------
--------------------
挺好的
--------
挺好挺好的挺好的挺好的
--------------------


---------2