# 구글 드라이브 연결

In [1]:
# 구글 드라이브 연결(데이터 로드를 위해서)
from google.colab import drive

drive.mount('/content/data')

Mounted at /content/data


# [유럽 호텔 리뷰 데이터](https://www.kaggle.com/datasets/jiashenliu/515k-hotel-reviews-data-in-europe)
> 이 데이터세트에는 유럽 전역의 1,493개 고급 호텔에 대한 515,000개의 고객 리뷰와 평점이 포함되어 있습니다. 또한, 추가 분석을 위해 호텔의 지리적 위치도 제공됩니다.

## 데이터 필드(컬럼) 설명

각 필드에 대한 설명은 다음과 같습니다.

- Hotel_Address
  - 호텔 주소.
- Review_Date
  - 리뷰어가 해당 리뷰를 게시한 날짜입니다.
- Average_Score
  - 지난 1년 동안의 최신 코멘트를 기반으로 계산된 호텔의 평균 점수입니다.
- Hotel_Name
  - 호텔 이름
- Reviewer_Nationality
  - 리뷰어의 국적
- Negative_Review
  - 리뷰어가 호텔에 남긴 부정적인 리뷰입니다.
  - 리뷰어가 부정적인 리뷰를 남기지 않은 경우, '부정적 리뷰 없음'으로 표시됩니다.
- Review_Total_Negative_Word_Counts
  - 부정적인 리뷰에 사용된 총 단어 수입니다.
- Positive_Review
  - 리뷰어가 호텔에 남긴 긍정적인 리뷰입니다.
  - 리뷰어가 부정적인 리뷰를 남기지 않은 경우, 'No Positive'로 표시됩니다.
- Review_Total_Positive_Word_Counts
  - 긍정적인 리뷰에 사용된 총 단어 수입니다.
- Reviewer_Score
  - 리뷰어가 호텔에 부여한 점수(리뷰어의 경험에 따른 점수)
- Total_Number_of_Reviews_Reviewer_Has_Given
  - 리뷰어가 과거에 작성한 리뷰 수입니다.
- Total_Number_of_Reviews
  - 호텔이 보유한 유효한 리뷰의 총 수입니다.
- Tags
  - 리뷰어가 호텔에 남긴 태그입니다.
- days_since_review
  - 검토 날짜와 스크래핑 날짜 사이의 기간.
- Additional_Number_of_Scoring
  - 리뷰를 남기지 않고 서비스에 대한 점수만 남긴 고객도 있습니다. 이 수치는 리뷰 없이 유효한 점수가 몇 개나 있는지를 나타냅니다.
- lat
  - 호텔의 위도
- lng
  - 호텔의 경도

# 데이터 로드

In [2]:
DATA_PATH = "/content/data/MyDrive/ai_lecture/6. Recommendation System/data/515K Hotel Reviews Data in Europe/"

In [3]:
import pandas as pd

hotel_reviews = pd.read_csv(DATA_PATH+'Hotel_Reviews.csv')

## 데이터 컬럼명 및 타입 확인

In [4]:
hotel_reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 515738 entries, 0 to 515737
Data columns (total 17 columns):
 #   Column                                      Non-Null Count   Dtype  
---  ------                                      --------------   -----  
 0   Hotel_Address                               515738 non-null  object 
 1   Additional_Number_of_Scoring                515738 non-null  int64  
 2   Review_Date                                 515738 non-null  object 
 3   Average_Score                               515738 non-null  float64
 4   Hotel_Name                                  515738 non-null  object 
 5   Reviewer_Nationality                        515738 non-null  object 
 6   Negative_Review                             515738 non-null  object 
 7   Review_Total_Negative_Word_Counts           515738 non-null  int64  
 8   Total_Number_of_Reviews                     515738 non-null  int64  
 9   Positive_Review                             515738 non-null  object 
 

## 데이터 확인

In [5]:
hotel_reviews.head()

Unnamed: 0,Hotel_Address,Additional_Number_of_Scoring,Review_Date,Average_Score,Hotel_Name,Reviewer_Nationality,Negative_Review,Review_Total_Negative_Word_Counts,Total_Number_of_Reviews,Positive_Review,Review_Total_Positive_Word_Counts,Total_Number_of_Reviews_Reviewer_Has_Given,Reviewer_Score,Tags,days_since_review,lat,lng
0,s Gravesandestraat 55 Oost 1092 AA Amsterdam ...,194,8/3/2017,7.7,Hotel Arena,Russia,I am so angry that i made this post available...,397,1403,Only the park outside of the hotel was beauti...,11,7,2.9,"[' Leisure trip ', ' Couple ', ' Duplex Double...",0 days,52.360576,4.915968
1,s Gravesandestraat 55 Oost 1092 AA Amsterdam ...,194,8/3/2017,7.7,Hotel Arena,Ireland,No Negative,0,1403,No real complaints the hotel was great great ...,105,7,7.5,"[' Leisure trip ', ' Couple ', ' Duplex Double...",0 days,52.360576,4.915968
2,s Gravesandestraat 55 Oost 1092 AA Amsterdam ...,194,7/31/2017,7.7,Hotel Arena,Australia,Rooms are nice but for elderly a bit difficul...,42,1403,Location was good and staff were ok It is cut...,21,9,7.1,"[' Leisure trip ', ' Family with young childre...",3 days,52.360576,4.915968
3,s Gravesandestraat 55 Oost 1092 AA Amsterdam ...,194,7/31/2017,7.7,Hotel Arena,United Kingdom,My room was dirty and I was afraid to walk ba...,210,1403,Great location in nice surroundings the bar a...,26,1,3.8,"[' Leisure trip ', ' Solo traveler ', ' Duplex...",3 days,52.360576,4.915968
4,s Gravesandestraat 55 Oost 1092 AA Amsterdam ...,194,7/24/2017,7.7,Hotel Arena,New Zealand,You When I booked with your company on line y...,140,1403,Amazing location and building Romantic setting,8,3,6.7,"[' Leisure trip ', ' Couple ', ' Suite ', ' St...",10 days,52.360576,4.915968


## 리뷰 점수 분포 확인

In [6]:
hotel_reviews['Reviewer_Score'].describe()

Unnamed: 0,Reviewer_Score
count,515738.0
mean,8.395077
std,1.637856
min,2.5
25%,7.5
50%,8.8
75%,9.6
max,10.0


# 가장 리뷰 점수(평균)가 높은 호텔 5개 추천

사용해야할 컬럼 리스트
- Hotel_Name
  - 호텔 이름
- Reviewer_Score
  - 리뷰어가 호텔에 부여한 점수(리뷰어의 경험에 따른 점수)

## 1.호텔별 데이터 분류하기
> 호텔별 데이터를 분류해야 평균 리뷰 점수를 만들 수 있음

In [7]:
# 전체 호텔 수
hotel_nuinque = hotel_reviews['Hotel_Name'].nunique()
hotel_nuinque

1492

In [8]:
# 호텔 이름별로 데이터를 분류
reviews_by_hotel = hotel_reviews.groupby(['Hotel_Name'])

In [9]:
# 호텔 이름으로 분류한 데이터 한 가지 추출한 후 조회하기
hotel_name, one_reviews = next(iter(reviews_by_hotel))

print(f"호텔명: {hotel_name[0]}")
one_reviews[['Hotel_Name', 'Reviewer_Score']].head()

호텔명: 11 Cadogan Gardens


Unnamed: 0,Hotel_Name,Reviewer_Score
33703,11 Cadogan Gardens,9.6
33704,11 Cadogan Gardens,8.8
33705,11 Cadogan Gardens,9.2
33706,11 Cadogan Gardens,9.6
33707,11 Cadogan Gardens,7.9


In [10]:
# 호텔 이름별 분류한 데이터 집합 수
len_groupby = len(list(reviews_by_hotel))

# 분류한 데이터 집합 수와 전체 호텔 수가 같은지 비교를 통해서 호텔 이름별로 잘 분류되었다고 판단할 수 있다.
len_groupby == hotel_nuinque

True

## 2.호텔별 평균 점수 구하기
> 호텔별 분류된 데이터셋을 기준으로 평균 점수 구하기

In [11]:
mean_reviews_by_hotel = reviews_by_hotel.agg({
  # 리뷰 점수에 대한 평균값 구하기
  'Reviewer_Score':'mean'
})

# 해당 결과를 통해서는 어떤 호텔이 가장 높은 리뷰 점수를 받았는지 알기가 어렵다.
mean_reviews_by_hotel

Unnamed: 0_level_0,Reviewer_Score
Hotel_Name,Unnamed: 1_level_1
11 Cadogan Gardens,8.845283
1K Hotel,7.861486
25hours Hotel beim MuseumsQuartier,8.983309
41,9.711650
45 Park Lane Dorchester Collection,9.603571
...,...
citizenM London Bankside,9.112261
citizenM London Shoreditch,9.092005
citizenM Tower of London,9.135591
every hotel Piccadilly,8.967782


## 3.호텔별 높은 평균 점수 순으로 정렬하기
> 리뷰 평균 점수를 이용하여 정렬함으로써 높은 평균 리뷰를 받은 호텔들을 확인할 수 있다.

In [12]:
mean_reviews_by_hotel.sort_values(by=['Reviewer_Score'], ascending=False)

Unnamed: 0_level_0,Reviewer_Score
Hotel_Name,Unnamed: 1_level_1
Ritz Paris,9.725000
Hotel Casa Camper,9.718937
41,9.711650
H tel de La Tamise Esprit de France,9.688525
Le Narcisse Blanc Spa,9.671930
...,...
Holiday Inn Paris Montparnasse Pasteur,6.329730
Savoy Hotel Amsterdam,6.009465
Villa Eugenie,5.864516
Kube Hotel Ice Bar,5.852632


## 4.가장 리뷰 점수(평균)가 높은 호텔 5개 추천하기
> 지금까지 작성한 코드를 이용하여 추천 호텔 5개 구하기

```python
# 호텔명별
hotel_reviews.groupby(['Hotel_Name'])\
  # 리뷰 점수의 평균을 구해서
  .agg({'Reviewer_Score':'mean'})\
  # 높은 평균 리뷰 점수 순으로 정렬한 후
  .sort_values(by=['Reviewer_Score'], ascending=False)\
  # 그 중 가장 높은 평균 리뷰를 받은 호텔명 5개 추천해줘.
  [:5].index.to_list()

```

In [13]:
top_5_hotel = hotel_reviews.groupby(['Hotel_Name'])\
  .agg({'Reviewer_Score':'mean'})\
  .sort_values(by=['Reviewer_Score'], ascending=False)\
  [:5].index.to_list()

top_5_hotel

['Ritz Paris',
 'Hotel Casa Camper',
 '41',
 'H tel de La Tamise Esprit de France',
 'Le Narcisse Blanc Spa']

## 5.추천된 호텔별 리뷰 수 조회하기
> 평점이 높더라도 너무 적은 리뷰 수인 경우에는 신뢰도가 떨어질 수 있음

```python
# 호텔별 리뷰 수
hotel_reviews['Hotel_Name'].value_counts()\
  # 호텔별 리뷰 수에 대한 통계 분석(최대, 최소, 중위 등)
  .describe()

```

In [14]:
hotel_reviews['Hotel_Name'].value_counts()\
  .describe()

Unnamed: 0,count
count,1492.0
mean,345.668901
std,441.635486
min,8.0
25%,90.0
50%,194.0
75%,428.0
max,4789.0


```python
# 추천된 호텔 중에서
hotel_reviews[hotel_reviews['Hotel_Name'].isin(top_5_hotel)]\
  # 호텔별 리뷰 수 조회
  ['Hotel_Name'].value_counts()

```

In [15]:
hotel_reviews[hotel_reviews['Hotel_Name'].isin(top_5_hotel)]\
  ['Hotel_Name'].value_counts()

Unnamed: 0_level_0,count
Hotel_Name,Unnamed: 1_level_1
Hotel Casa Camper,301
41,103
H tel de La Tamise Esprit de France,61
Le Narcisse Blanc Spa,57
Ritz Paris,28


## 6.중위값보다 높은 호텔 조회하기
> 추천 호텔들 중에서 한 개(Hotel Casa Camper)의 호텔을 제외한 나머지 호텔들의 리뷰 수가 중위값보다 작음     
> 따라서 추천 신뢰도를 높이기 위해서 리뷰 수가 중위값보다 높은 호텔들 중에서 추천하는 방식으로 수정

In [16]:
# 호텔별 리뷰 수 계산
hotel_review_counts = hotel_reviews['Hotel_Name'].value_counts()

# 리뷰 수의 중위값 계산
median_by_reviews = hotel_review_counts.median()

# 중위값보다 많은 리뷰를 가진 호텔 리스트 조회
hotels_above_median = hotel_review_counts[hotel_review_counts > median_by_reviews].index.tolist()

hotels_above_median

['Britannia International Hotel Canary Wharf',
 'Strand Palace Hotel',
 'Park Plaza Westminster Bridge London',
 'Copthorne Tara Hotel London Kensington',
 'DoubleTree by Hilton Hotel London Tower of London',
 'Grand Royale London Hyde Park',
 'Holiday Inn London Kensington',
 'Hilton London Metropole',
 'Millennium Gloucester Hotel London',
 'Intercontinental London The O2',
 'Park Grand Paddington Court',
 'Hilton London Wembley',
 'Park Plaza County Hall London',
 'Blakemore Hyde Park',
 'Park Plaza London Riverbank',
 'M by Montcalm Shoreditch London Tech City',
 'DoubleTree by Hilton London Docklands Riverside',
 'St James Court A Taj Hotel London',
 'Park Grand London Kensington',
 'Hotel Da Vinci',
 'Holiday Inn London Wembley',
 'Hilton London Kensington Hotel',
 'Hotel Esther a',
 'The Tower A Guoman Hotel',
 'Best Western Premier Hotel Couture',
 'The Cumberland A Guoman Hotel',
 'The Park Grand London Paddington',
 'Ramada Apollo Amsterdam Centre',
 'Golden Tulip Amsterdam W

## 7.충분한 리뷰를 받은 호텔들 중에서 가장 인기 있는 호텔 5개 추천하기
> 충분한 리뷰의 기준으로 중위값으로 정함    
> 가장 인기 있는 호텔의 기준으로 평균 리뷰 점수를 기준으로 정함

```python
# 리뷰 수가 중위값보다 높은 호텔들 중에서
hotel_reviews[hotel_reviews['Hotel_Name'].isin(hotels_above_median)]\
  # 호텔명별
  .groupby(['Hotel_Name'])\
  # 리뷰 점수의 평균을 구해서
  .agg({'Reviewer_Score':'mean'})\
  # 높은 평균 리뷰 점수 순으로 정렬한 후
  .sort_values(by=['Reviewer_Score'], ascending=False)\
  # 그 중 가장 높은 평균 리뷰를 받은 호텔명 5개 추천해줘.
  [:5].index.to_list()

```

In [17]:
top_5_hotel = hotel_reviews[hotel_reviews['Hotel_Name'].isin(hotels_above_median)]\
  .groupby(['Hotel_Name'])\
  .agg({'Reviewer_Score':'mean'})\
  .sort_values(by=['Reviewer_Score'], ascending=False)\
  [:5].index.to_list()

top_5_hotel

['Hotel Casa Camper',
 'Hotel The Serras',
 'Catalonia Magdalenes',
 'H tel D Aubusson',
 'Hotel Sans Souci Wien']

In [18]:
# 리뷰 수 검증하기
hotel_reviews[hotel_reviews['Hotel_Name'].isin(top_5_hotel)]\
  ['Hotel_Name'].value_counts()

Unnamed: 0_level_0,count
Hotel_Name,Unnamed: 1_level_1
Catalonia Magdalenes,311
Hotel Casa Camper,301
H tel D Aubusson,294
Hotel Sans Souci Wien,235
Hotel The Serras,213
