# <center> Практика. EDA + Feature Engineering. Соревнование на Kaggle </center>

### **Постановка задачи:**

**ИССЛЕДОВАНИЕ ДАННЫХ:**

✍ В этом модуле вы будете работать с датасетом, в котором содержатся сведения о 515 000 отзывов на отели Европы. Модель, которую вы будете обучать, должна предсказывать рейтинг отеля по данным сайта Booking на основе имеющихся в датасете данных.

***ДАННЫЕ САЙТА BOOKING:***

Наименование столбца:  | Описание столбца:
------- | --------
***hotel_address***   | адрес отеля;
***review_date***   | дата, когда рецензент разместил соответствующий отзыв;
***average_score***   | средний балл отеля, рассчитанный на основе последнего комментария за последний год;
***hotel_name***   | название отеля;
***reviewer_nationality***   | страна рецензента;
***negative_review***   | отрицательный отзыв, который рецензент дал отелю;
***review_total_negative_word_counts***   | общее количество слов в отрицательном отзыв;
***positive_review***   | положительный отзыв, который рецензент дал отелю;
***review_total_positive_word_counts***   | общее количество слов в положительном отзыве.
***reviewer_score***   | оценка, которую рецензент поставил отелю на основе своего опыта;
***total_number_of_reviews_reviewer_has_given***   | количество отзывов, которые рецензенты дали в прошлом;
***total_number_of_reviews***   | общее количество действительных отзывов об отеле;
***tags***   | теги, которые рецензент дал отелю;
***days_since_review***   | количество дней между датой проверки и датой очистки;
***additional_number_of_scoring***   | есть также некоторые гости, которые просто поставили оценку сервису, но не оставили отзыв. Это число указывает, сколько там действительных оценок без проверки.
***lat***   | географическая широта отеля;
***lng***   | географическая долгота отеля.

Содержание работы

1. Импорт библиотек и загрузка данных.
2. Очистка данных.
3. Исследование данных.
4. Генерация признаков.
5. Преобразование признаков.
6. Отбор признаков.
7. Обучение модели.

## **1. Импорт библиотек и загрузка данных:**

In [18]:
# Загружаем необходимые библиотеки:
import pandas as pd
import numpy as np

from scipy import stats
import statsmodels.api as sm
from statsmodels import stats as sms

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

import warnings
warnings.filterwarnings("ignore")

from geopy.distance import geodesic as GD 

# Делаем визуальную настройку графиков:
sns.set_theme("notebook") 
sns.set_palette("Set2")

In [14]:
# Загружаем датасет:
hotels = pd.read_csv('Data\hotels.csv')
hotels.head(3)

Unnamed: 0,hotel_address,additional_number_of_scoring,review_date,average_score,hotel_name,reviewer_nationality,negative_review,review_total_negative_word_counts,total_number_of_reviews,positive_review,review_total_positive_word_counts,total_number_of_reviews_reviewer_has_given,reviewer_score,tags,days_since_review,lat,lng
0,Stratton Street Mayfair Westminster Borough Lo...,581,2/19/2016,8.4,The May Fair Hotel,United Kingdom,Leaving,3,1994,Staff were amazing,4,7,10.0,"[' Leisure trip ', ' Couple ', ' Studio Suite ...",531 day,51.507894,-0.143671
1,130 134 Southampton Row Camden London WC1B 5AF...,299,1/12/2017,8.3,Mercure London Bloomsbury Hotel,United Kingdom,poor breakfast,3,1361,location,2,14,6.3,"[' Business trip ', ' Couple ', ' Standard Dou...",203 day,51.521009,-0.123097
2,151 bis Rue de Rennes 6th arr 75006 Paris France,32,10/18/2016,8.9,Legend Saint Germain by Elegancia,China,No kettle in room,6,406,No Positive,0,14,7.5,"[' Leisure trip ', ' Solo traveler ', ' Modern...",289 day,48.845377,2.325643


1.1. Выведем на экран сводную информацию методом info():

In [3]:
hotels.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 386803 entries, 0 to 386802
Data columns (total 17 columns):
 #   Column                                      Non-Null Count   Dtype  
---  ------                                      --------------   -----  
 0   hotel_address                               386803 non-null  object 
 1   additional_number_of_scoring                386803 non-null  int64  
 2   review_date                                 386803 non-null  object 
 3   average_score                               386803 non-null  float64
 4   hotel_name                                  386803 non-null  object 
 5   reviewer_nationality                        386803 non-null  object 
 6   negative_review                             386803 non-null  object 
 7   review_total_negative_word_counts           386803 non-null  int64  
 8   total_number_of_reviews                     386803 non-null  int64  
 9   positive_review                             386803 non-null  object 
 

**Вывод:** в датасете 386803 записей (есть пропущенные значения).

## **2. Очистка данных:**

2.1. Проверим данные на наличие дубликатов и удалим найденные дубликаты:

In [4]:
# Проверяем наличие дубликатов:
print('Количество дубликатов: {}'.format(hotels[hotels.duplicated()].shape[0]))

# Удаляем дубликаты:
hotels = hotels.drop_duplicates()
print('Размер таблицы после удаления дубликатов: {}'.format(hotels.shape))

Количество дубликатов: 307
Размер таблицы после удаления дубликатов: (386496, 17)


**Вывод:** представленные данные содержат 307 дубликатов.

## **3. Исследование данных:**

3.1. Выведем на экран основные статистические характеристики
данных по каждому числовому признаку:

In [5]:
hotels.describe(include = 'all')

Unnamed: 0,hotel_address,additional_number_of_scoring,review_date,average_score,hotel_name,reviewer_nationality,negative_review,review_total_negative_word_counts,total_number_of_reviews,positive_review,review_total_positive_word_counts,total_number_of_reviews_reviewer_has_given,reviewer_score,tags,days_since_review,lat,lng
count,386496,386496.0,386496,386496.0,386496,386496,386496,386496.0,386496.0,386496,386496.0,386496.0,386496.0,386496,386496,384048.0,384048.0
unique,1493,,731,,1492,225,248828,,,311737,,,,47135,731,,
top,163 Marsh Wall Docklands Tower Hamlets London ...,,8/2/2017,,Britannia International Hotel Canary Wharf,United Kingdom,No Negative,,,No Positive,,,,"[' Leisure trip ', ' Couple ', ' Double Room '...",1 days,,
freq,3587,,1910,,3587,183952,95833,,,26863,,,,3853,1910,,
mean,,498.504375,,8.397421,,,,18.5394,2744.679231,,17.778163,7.176211,8.397299,,,49.443988,2.82374
std,,500.365093,,0.547861,,,,29.703569,2316.934876,,21.724766,11.052453,1.635747,,,3.468266,4.580782
min,,1.0,,5.2,,,,0.0,43.0,,0.0,1.0,2.5,,,41.328376,-0.369758
25%,,169.0,,8.1,,,,2.0,1161.0,,5.0,1.0,7.5,,,48.214277,-0.143649
50%,,342.0,,8.4,,,,9.0,2134.0,,11.0,3.0,8.8,,,51.500198,-0.00025
75%,,660.0,,8.8,,,,23.0,3633.0,,22.0,8.0,9.6,,,51.516384,4.834443


3.2. Заполняем пропуски:

In [6]:
hotels = hotels.fillna(0)

## **4. Генерация признаков:**

4.1. Иследуем признак hotel_address и создадим новые признаки 'country' и 'city':

In [15]:
# Создание нового признака 'country':

hotels['country'] = hotels['hotel_address'].apply(lambda x: x.split()[-1] 
        if x.split()[-1] != 'Kingdom' 
        else ' '.join(x.split()[-2:]))

print('\n В датасете представлены отели из '+ str(hotels['country'].nunique()) + ' стран.\n')
print(hotels['country'].value_counts())


 В датасете представлены отели из 6стран.

country
United Kingdom    196774
Spain              45132
France             44830
Netherlands        43006
Austria            29178
Italy              27883
Name: count, dtype: int64


In [16]:
# Создание нового признака 'city':

hotels['city'] = hotels.apply(lambda x: x['hotel_address'].split()[-5] 
        if x['country'] == 'United Kingdom'
        else x['hotel_address'].split()[-2], axis=1)

print('\n В датасете представлены отели из '+ str(hotels['city'].nunique()) + ' городов.\n')
print(hotels['city'].value_counts())


 В датасете представлены отели из 6городов.

city
London       196774
Barcelona     45132
Paris         44830
Amsterdam     43006
Vienna        29178
Milan         27883
Name: count, dtype: int64


4.2. Создадим признак 'distance' - расстояние от отеля до центра города:

In [20]:
# Добавим координаты городов к колонке hotel_country:

coordinates = {
    'United Kingdom' : (51.50741654122609, -0.12763493006143845),
    'Spain' : (41.382778, 2.176944),
    'France' : (48.856667, 2.352222),
    'Netherlands' : (52.372778, 4.893611),
    'Austria' : (48.208333, 16.3725),
    'Italy': (45.466944, 9.19)
}

hotels['distance'] = hotels.apply(lambda x: GD( (x.lat, x.lng), coordinates[x.country]).km, axis = 1)

ValueError: Point coordinates must be finite. (nan, nan, 0.0) has been passed as coordinates.

In [22]:
# создаем словарь с координатами (lat, lng) центра для каждого города
cities_dict = {
    'Paris'    : [48.8534100, 2.3488000],
    'London'   : [51.5085300, -0.1257400],
    'Barcelona': [41.3887900, 2.1589900],
    'Milan'    : [45.4642700, 9.1895100],
    'Vienna'   : [48.2084900, 16.3720800],
    'Amsterdam': [52.3740300, 4.8896900],
}

import geopy.distance
from geopy import distance

def distance_to_centre(city, lat, lng):
    return geopy.distance.geodesic([cities_dict[city][0], 
                                    cities_dict[city][1]],
                                   [lat, lng]).km

hotels['distance_from_centre'] = hotels.apply(lambda x:
                                  distance_to_centre(x['city'], x['lat'], x['lng']), 
                                  axis = 1)

hotels['distance_from_centre'].head()

ValueError: Point coordinates must be finite. (nan, nan, 0.0) has been passed as coordinates.

## **5. Преобразование признаков:**


## **6. Отбор признаков:**

6.1. Определим в данных неинформативные признаки, которые не будут участвовать в исследовании:

In [10]:
# Удаляем столбцы из DataFrame:
# модель на признаках с dtypes "object" обучаться не будет, просто выберим их и удалим
object_columns = [s for s in hotels.columns if hotels[s].dtypes == 'object']
hotels.drop(object_columns, axis = 1, inplace=True)

## **7. Обучение модели:**

In [16]:
# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели  
# Х - данные с информацией об отелях, у - целевая переменная (рейтинги отелей)  
X = hotels.drop(['reviewer_score'], axis = 1)  
y = hotels['reviewer_score'] 

In [17]:
# Загружаем специальный инструмент для разбивки:  
from sklearn.model_selection import train_test_split  

In [18]:
# Наборы данных с меткой "train" будут использоваться для обучения
# модели, "test" - для тестирования.  
# Для тестирования мы будем использовать 25% от исходного датасета.  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [19]:
# Импортируем необходимые библиотеки:  
from sklearn.ensemble import RandomForestRegressor
# инструмент для создания и обучения модели  
from sklearn import metrics
# инструменты для оценки точности модели  
  
# Создаём модель  
regr = RandomForestRegressor(n_estimators=100)  
      
# Обучаем модель на тестовом наборе данных  
regr.fit(X_train, y_train)  
      
# Используем обученную модель для предсказания рейтинга
# отелей в тестовой выборке.  
# Предсказанные значения записываем в переменную y_pred  
y_pred = regr.predict(X_test)

In [20]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test),
# и смотрим насколько они отличаются  
# Метрика называется Mean Absolute Percentage Error (MAPE)
# и показывает среднюю абсолютную процентную ошибку
# предсказанных значений от фактических.  
print('MAPE:', metrics.mean_absolute_percentage_error(y_test, y_pred))

MAPE: 0.1417467341842412


## **Итоговые результаты исследования:**