In [29]:
import pandas as pd
import numpy as np
import re
import requests
import seaborn as sns

In [30]:
hotels = pd.read_csv('./data/hotels.csv')
hotels.head(3)

Unnamed: 0,hotel_address,additional_number_of_scoring,review_date,average_score,hotel_name,reviewer_nationality,negative_review,review_total_negative_word_counts,total_number_of_reviews,positive_review,review_total_positive_word_counts,total_number_of_reviews_reviewer_has_given,reviewer_score,tags,days_since_review,lat,lng
0,Stratton Street Mayfair Westminster Borough Lo...,581,2/19/2016,8.4,The May Fair Hotel,United Kingdom,Leaving,3,1994,Staff were amazing,4,7,10.0,"[' Leisure trip ', ' Couple ', ' Studio Suite ...",531 day,51.507894,-0.143671
1,130 134 Southampton Row Camden London WC1B 5AF...,299,1/12/2017,8.3,Mercure London Bloomsbury Hotel,United Kingdom,poor breakfast,3,1361,location,2,14,6.3,"[' Business trip ', ' Couple ', ' Standard Dou...",203 day,51.521009,-0.123097
2,151 bis Rue de Rennes 6th arr 75006 Paris France,32,10/18/2016,8.9,Legend Saint Germain by Elegancia,China,No kettle in room,6,406,No Positive,0,14,7.5,"[' Leisure trip ', ' Solo traveler ', ' Modern...",289 day,48.845377,2.325643


In [31]:
#Заполняем пропуски
hotels = hotels.fillna(0)

In [32]:
#Удаляем дубликаты 
hotels = hotels.drop_duplicates()

---

Преобразование тегов

In [33]:
# Пркобразование тегов к списку
def tag_reconstr(data):
    temp_list = []
    for i in data.split("'"):
        temp_list.append(i.strip())

    temp_list.remove('[')
    temp_list.remove(']')

    for i in temp_list:
        if i == ',':
            temp_list.remove(i)
    return temp_list


tags_series = hotels['tags'].apply(tag_reconstr)
hotels['tags'] = hotels['tags'].apply(tag_reconstr)

#Формируем базу для one_hot, параллельно выдергиваем фит прожитых ночей
all_tags = tags_series.explode()
stayed_night_mask = all_tags.str.contains('Stayed', regex=False)
stayed_night = all_tags[stayed_night_mask]
stayed_night.str.split(' ')

def night_at_hotel(data):
    temp_var = 0
    for i in data.split(' '):
        try:
            temp_var = int(i)
        except ValueError:
            pass
    return temp_var

nights = stayed_night.apply(night_at_hotel)
nights = nights.rename('nights')
hotels = pd.concat([hotels, nights], axis=1)
hotels['nights'] = hotels['nights'].fillna(hotels['nights'].mode()[0])

#Вытаскиваем топ 10 тегов и разворачиваем на их основе one_hot
top_tags = all_tags.value_counts()[:11]
mask = top_tags.index.str.contains('Stayed', regex=False)
one_hot_columns = list(top_tags[~mask].index)

for element in one_hot_columns:
    hotels[element] = hotels['tags'].apply(lambda x: 1 if element in x else 0)

Кодируем отели (вносит шум)

In [34]:
#Кодируем названия отелей
hotels['hotel_name'] = hotels['hotel_name'].astype('category')
hotels['hotel_name'] = hotels['hotel_name'].cat.codes

Проверяем на мультиколлинеарность

In [35]:
hotels.corr()[(hotels.corr() > 0.7) | (hotels.corr() < -0.7)]

  hotels.corr()[(hotels.corr() > 0.7) | (hotels.corr() < -0.7)]


Unnamed: 0,additional_number_of_scoring,average_score,hotel_name,review_total_negative_word_counts,total_number_of_reviews,review_total_positive_word_counts,total_number_of_reviews_reviewer_has_given,reviewer_score,lat,lng,nights,Leisure trip,Submitted from a mobile device,Couple,Solo traveler,Business trip,Group,Family with young children
additional_number_of_scoring,1.0,,,,0.824494,,,,,,,,,,,,,
average_score,,1.0,,,,,,,,,,,,,,,,
hotel_name,,,1.0,,,,,,,,,,,,,,,
review_total_negative_word_counts,,,,1.0,,,,,,,,,,,,,,
total_number_of_reviews,0.824494,,,,1.0,,,,,,,,,,,,,
review_total_positive_word_counts,,,,,,1.0,,,,,,,,,,,,
total_number_of_reviews_reviewer_has_given,,,,,,,1.0,,,,,,,,,,,
reviewer_score,,,,,,,,1.0,,,,,,,,,,
lat,,,,,,,,,1.0,,,,,,,,,
lng,,,,,,,,,,1.0,,,,,,,,


In [36]:
hotels.drop(['additional_number_of_scoring', 'Business trip'], axis=1, inplace=True)

---

In [37]:
#Дропаем строковые фиты
object_columns = [s for s in hotels.columns if hotels[s].dtypes == 'object']
hotels.drop(object_columns, axis = 1, inplace=True)

In [38]:
# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели  
# Х - данные с информацией об отелях, у - целевая переменная (рейтинги отелей)  
X = hotels.drop(['reviewer_score'], axis = 1)  
y = hotels['reviewer_score'] 

In [39]:
# Загружаем специальный инструмент для разбивки:  
from sklearn.model_selection import train_test_split  

In [40]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.  
# Для тестирования мы будем использовать 25% от исходного датасета.  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [41]:
# Импортируем необходимые библиотеки:  
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели  
from sklearn import metrics # инструменты для оценки точности модели  
  
# Создаём модель  
regr = RandomForestRegressor(n_estimators=100)  
      
# Обучаем модель на тестовом наборе данных  
regr.fit(X_train, y_train)  
      
# Используем обученную модель для предсказания рейтинга отелей в тестовой выборке.  
# Предсказанные значения записываем в переменную y_pred  
y_pred = regr.predict(X_test)  


In [42]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они отличаются  
# Метрика называется Mean Absolute Percentage Error (MAPE) и показывает среднюю абсолютную процентную ошибку предсказанных значений от фактических.  
print('MAPE:', metrics.mean_absolute_percentage_error(y_test, y_pred))

MAPE: 0.13799049916442563
