# 구글 드라이브 연결

# [유럽 호텔 리뷰 데이터](https://www.kaggle.com/datasets/jiashenliu/515k-hotel-reviews-data-in-europe)
> 이 데이터세트에는 유럽 전역의 1,493개 고급 호텔에 대한 515,000개의 고객 리뷰와 평점이 포함되어 있습니다. 또한, 추가 분석을 위해 호텔의 지리적 위치도 제공됩니다.

## 데이터 필드(컬럼) 설명

각 필드에 대한 설명은 다음과 같습니다.

- Hotel_Address
  - 호텔 주소.
- Review_Date
  - 리뷰어가 해당 리뷰를 게시한 날짜입니다.
- Average_Score
  - 지난 1년 동안의 최신 코멘트를 기반으로 계산된 호텔의 평균 점수입니다.
- Hotel_Name
  - 호텔 이름
- Reviewer_Nationality
  - 리뷰어의 국적
- Negative_Review
  - 리뷰어가 호텔에 남긴 부정적인 리뷰입니다.
  - 리뷰어가 부정적인 리뷰를 남기지 않은 경우, '부정적 리뷰 없음'으로 표시됩니다.
- Review_Total_Negative_Word_Counts
  - 부정적인 리뷰에 사용된 총 단어 수입니다.
- Positive_Review
  - 리뷰어가 호텔에 남긴 긍정적인 리뷰입니다.
  - 리뷰어가 부정적인 리뷰를 남기지 않은 경우, 'No Positive'로 표시됩니다.
- Review_Total_Positive_Word_Counts
  - 긍정적인 리뷰에 사용된 총 단어 수입니다.
- Reviewer_Score
  - 리뷰어가 호텔에 부여한 점수(리뷰어의 경험에 따른 점수)
- Total_Number_of_Reviews_Reviewer_Has_Given
  - 리뷰어가 과거에 작성한 리뷰 수입니다.
- Total_Number_of_Reviews
  - 호텔이 보유한 유효한 리뷰의 총 수입니다.
- Tags
  - 리뷰어가 호텔에 남긴 태그입니다.
- days_since_review
  - 검토 날짜와 스크래핑 날짜 사이의 기간.
- Additional_Number_of_Scoring
  - 리뷰를 남기지 않고 서비스에 대한 점수만 남긴 고객도 있습니다. 이 수치는 리뷰 없이 유효한 점수가 몇 개나 있는지를 나타냅니다.
- lat
  - 호텔의 위도
- lng
  - 호텔의 경도

# 데이터 로드

In [None]:
import pandas as pd



## 데이터 컬럼명 및 타입 확인

## 데이터 확인

## 리뷰 점수 분포 확인

# 가장 리뷰 점수(평균)가 높은 호텔 5개 추천

사용해야할 컬럼 리스트
- Hotel_Name
  - 호텔 이름
- Reviewer_Score
  - 리뷰어가 호텔에 부여한 점수(리뷰어의 경험에 따른 점수)

## 1.호텔별 데이터 분류하기
> 호텔별 데이터를 분류해야 평균 리뷰 점수를 만들 수 있음

In [None]:
# 전체 호텔 수


In [None]:
# 호텔 이름별로 데이터를 분류


In [None]:
# 호텔 이름으로 분류한 데이터 한 가지 추출한 후 조회하기


In [None]:
# 호텔 이름별 분류한 데이터 집합 수


# 분류한 데이터 집합 수와 전체 호텔 수가 같은지 비교를 통해서 호텔 이름별로 잘 분류되었다고 판단할 수 있다.


## 2.호텔별 평균 점수 구하기
> 호텔별 분류된 데이터셋을 기준으로 평균 점수 구하기

In [None]:
#  리뷰 점수에 대한 평균값 구하기
  


# 해당 결과를 통해서는 어떤 호텔이 가장 높은 리뷰 점수를 받았는지 알기가 어렵다.


## 3.호텔별 높은 평균 점수 순으로 정렬하기
> 리뷰 평균 점수를 이용하여 정렬함으로써 높은 평균 리뷰를 받은 호텔들을 확인할 수 있다.

## 4.가장 리뷰 점수(평균)가 높은 호텔 5개 추천하기
> 지금까지 작성한 코드를 이용하여 추천 호텔 5개 구하기

```python
# 호텔명별
hotel_reviews.groupby(['Hotel_Name'])\
  # 리뷰 점수의 평균을 구해서
  .agg({'Reviewer_Score':'mean'})\
  # 높은 평균 리뷰 점수 순으로 정렬한 후
  .sort_values(by=['Reviewer_Score'], ascending=False)\
  # 그 중 가장 높은 평균 리뷰를 받은 호텔명 5개 추천해줘.
  [:5].index.to_list()

```

## 5.추천된 호텔별 리뷰 수 조회하기
> 평점이 높더라도 너무 적은 리뷰 수인 경우에는 신뢰도가 떨어질 수 있음

```python
# 호텔별 리뷰 수
hotel_reviews['Hotel_Name'].value_counts()\
  # 호텔별 리뷰 수에 대한 통계 분석(최대, 최소, 중위 등)
  .describe()

```

```python
# 추천된 호텔 중에서
hotel_reviews[hotel_reviews['Hotel_Name'].isin(top_5_hotel)]\
  # 호텔별 리뷰 수 조회
  ['Hotel_Name'].value_counts()

```

## 6.중위값보다 높은 호텔 조회하기
> 추천 호텔들 중에서 한 개(Hotel Casa Camper)의 호텔을 제외한 나머지 호텔들의 리뷰 수가 중위값보다 작음     
> 따라서 추천 신뢰도를 높이기 위해서 리뷰 수가 중위값보다 높은 호텔들 중에서 추천하는 방식으로 수정

In [None]:
# 호텔별 리뷰 수 계산


# 리뷰 수의 중위값 계산


# 중위값보다 많은 리뷰를 가진 호텔 리스트 조회


## 7.충분한 리뷰를 받은 호텔들 중에서 가장 인기 있는 호텔 5개 추천하기
> 충분한 리뷰의 기준으로 중위값으로 정함    
> 가장 인기 있는 호텔의 기준으로 평균 리뷰 점수를 기준으로 정함

```python
# 리뷰 수가 중위값보다 높은 호텔들 중에서
hotel_reviews[hotel_reviews['Hotel_Name'].isin(hotels_above_median)]\
  # 호텔명별
  .groupby(['Hotel_Name'])\
  # 리뷰 점수의 평균을 구해서
  .agg({'Reviewer_Score':'mean'})\
  # 높은 평균 리뷰 점수 순으로 정렬한 후
  .sort_values(by=['Reviewer_Score'], ascending=False)\
  # 그 중 가장 높은 평균 리뷰를 받은 호텔명 5개 추천해줘.
  [:5].index.to_list()

```

In [None]:
# 리뷰 수 검증하기
