# Импорт библиотек

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split  
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели  
from sklearn import metrics # инструменты для оценки точности модели  
from sklearn.feature_selection import chi2 # хи-квадрат
from sklearn.feature_selection import f_classif # anova

# Импорт исходных данных

In [2]:
hotels = pd.read_csv('data/hotels.csv')
hotels.head(3)

Unnamed: 0,hotel_address,additional_number_of_scoring,review_date,average_score,hotel_name,reviewer_nationality,negative_review,review_total_negative_word_counts,total_number_of_reviews,positive_review,review_total_positive_word_counts,total_number_of_reviews_reviewer_has_given,reviewer_score,tags,days_since_review,lat,lng
0,Stratton Street Mayfair Westminster Borough Lo...,581,2/19/2016,8.4,The May Fair Hotel,United Kingdom,Leaving,3,1994,Staff were amazing,4,7,10.0,"[' Leisure trip ', ' Couple ', ' Studio Suite ...",531 day,51.507894,-0.143671
1,130 134 Southampton Row Camden London WC1B 5AF...,299,1/12/2017,8.3,Mercure London Bloomsbury Hotel,United Kingdom,poor breakfast,3,1361,location,2,14,6.3,"[' Business trip ', ' Couple ', ' Standard Dou...",203 day,51.521009,-0.123097
2,151 bis Rue de Rennes 6th arr 75006 Paris France,32,10/18/2016,8.9,Legend Saint Germain by Elegancia,China,No kettle in room,6,406,No Positive,0,14,7.5,"[' Leisure trip ', ' Solo traveler ', ' Modern...",289 day,48.845377,2.325643


# Первый запуск модели

## Делим на части для обучения

In [3]:
# # Разбиваем датафрейм на части, необходимые для обучения и тестирования модели  
# # Х - данные с информацией об отелях, у - целевая переменная (рейтинги отелей)  
# X = hotels.drop(['reviewer_score'], axis = 1)  
y = hotels['reviewer_score'] 

In [4]:
# Загружаем специальный инструмент для разбивки:  
# from sklearn.model_selection import train_test_split  

In [5]:
# # Наборы данных с меткой "train" будут использоваться для обучения 
# # модели, "test" - для тестирования.  
# # Для тестирования мы будем использовать 25% от исходного датасета.  
# X_train, X_test, y_train, y_test = train_test_split(
#     X, y, test_size=0.25, random_state=42)

## Создание модели

In [6]:
# # Импортируем необходимые библиотеки:  
# from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели  
# from sklearn import metrics # инструменты для оценки точности модели  
  
# # Создаём модель  
# regr = RandomForestRegressor(n_estimators=100)  
      
# # Обучаем модель на тестовом наборе данных  
# regr.fit(X_train, y_train)  
      
# # Используем обученную модель для предсказания рейтинга отелей в тестовой выборке.  
# # Предсказанные значения записываем в переменную y_pred  
# y_pred = regr.predict(X_test)  


In [7]:
# # Сравниваем предсказанные значения (y_pred) с реальными (y_test), 
# # и смотрим насколько они отличаются  
# # Метрика называется Mean Absolute Percentage Error (MAPE) и 
# # показывает среднюю абсолютную процентную ошибку предсказанных значений 
# # от фактических.  
# print('MAPE:', metrics.mean_absolute_percentage_error(y_test, y_pred))

# Лучший способ добиться успеха — следовать советам

✍ Что делать дальше?

Повысить точность прогнозов, которые делает модель, с помощью более тщательной подготовки данных.

При подготовке датасета необходимо будет вспомнить все шаги, которые мы проделывали в модулях EDA. Нам нужно будет не только избавиться от пропущенных значений и нечисловых признаков, но и спроектировать новые признаки на основе информации, уже содержащейся в данных, или используя внешние источники данных, если это возможно. Также мы закодируем и преобразуем признаки, а после отберём лучшие из них.

Задачу, которая стоит перед вами, можно свести к пяти пунктам:

+ Удаление строковых значений. Вам необходимо удалить из набора данных столбцы, данные в которых представлены не числами.

+ Очистка от пропущенных значений. На предыдущем шаге мы делали это самым грубым из всех возможных способов, сейчас попробуйте подойти к процессу более гибко.

+ Создание новых признаков. Мы попробуем создать новые столбцы с данными из существующих данных или с использованием внешних источников.

+ Преобразование признаков. Применим различные преобразования над признаками вроде нормализации, стандартизации.

+ Отбор признаков. Используем анализ мультиколлинеарности как шаг отбора признаков для модели.

Ваша задача — при помощи этих шагов и рекомендаций повысить качество предсказания. Чтобы понять, что качество улучшилось, ориентируйтесь на метрику MAPE: чем она меньше, тем лучше. Рассмотрим шаги подробнее.

### СТРОКОВЫЕ ДАННЫЕ

В исходном наборе данных всего девять столбцов содержат числовые данные. Так что просто удалить все object-значения и считать задачу выполненной не получится. Мы сделали это в прошлом юните, чтобы получить значение метрики. Но чтобы улучшить качество модели, вам перед удалением придётся очень основательно поработать со строковыми данными и извлечь из них как можно больше информации, которую можно представить в числовом виде.

### ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ

Мы уже говорили о том, что в задачах по машинному обучению принято не удалять строки с пустыми значениями, а заполнять их максимально близкими к реальности данными. Используйте знания из модулей очистки данных или вспомните о мере центральной тенденции в юнитах статистики. Попробуйте различные способы и ориентируйтесь на итоговую метрику.

### НОВЫЕ ПРИЗНАКИ

Это, пожалуй, самая творческая часть работы на данном шаге. Создание новых признаков потребует от вас способности вникать в контент, умения подключать к работе интуицию, творческого подхода и готовности к экспериментам. Попробуйте извлечь несколько признаков из даты, проанализируйте датасет на возможность добавления внешних источников данных. При наличии времени разберите текстовые столбцы на признаки.

### ПРЕОБРАЗОВАНИЕ ПРИЗНАКОВ

Данные могут быть представлены в невыгодном для модели свете. Используйте изученные вами способы преобразования данных, чтобы сделать данные качественнее

### ОТБОР ПРИЗНАКОВ

Признаки могут дублировать информацию. Анализ мультиколлинеарности мы будем использовать, чтобы выбрать уникальные признаки для модели.

Также перед обучением (после разделения выборки на X и y) мы можем оценить значимость каждого признака для целевой переменной — рейтинг отеля. При помощи теста мы сможем узнать, как географическая долгота отеля и количество негативных отзывов влияют на его рейтинг.

# Обработка данных с учетом рекомендаций

## Тесты значимости признаков

Для оценки значимости категориальных признаков будем использовать тест хи-квадрат, для непрерывных признаков — тест ANOVA.

Для начала разделим признаки по типу, перечислим их:

In [8]:
# непрерывные признаки
num_cols = ['total_number_of_reviews', 
            'review_total_negative_word_counts', 
            'additional_number_of_scoring', 
            'review_total_positive_word_counts',
            'total_number_of_reviews_reviewer_has_given'
            ]

# категориальные признаки
cat_cols = ['average_score', 'lat']

In [9]:
hotels.describe(include='object')

Unnamed: 0,hotel_address,review_date,hotel_name,reviewer_nationality,negative_review,positive_review,tags,days_since_review
count,386803,386803,386803,386803,386803,386803,386803,386803
unique,1493,731,1492,225,248828,311737,47135,731
top,163 Marsh Wall Docklands Tower Hamlets London ...,8/2/2017,Britannia International Hotel Canary Wharf,United Kingdom,No Negative,No Positive,"[' Leisure trip ', ' Couple ', ' Double Room '...",1 days
freq,3587,1911,3587,184033,95907,26885,3853,1911


Добавление даты

In [10]:
hotels['review_date'] = hotels['review_date'].astype('datetime64[D]')

Сколько уникальных тегов

In [11]:
unic_tags = set()
list1 = list(hotels['tags'].values)
for item in list1:
    item =  item.replace("[", "").replace("]", "").replace("'", "")
    elements = item.split(", ")
    for tag in elements:
        unic_tags.add(tag)

In [12]:
len(unic_tags)

2368

Самые популярные теги

In [13]:
all_tags = list()
list1 = list(hotels['tags'].values)
for item in list1:
    item =  item.replace("[", "").replace("]", "").replace("'", "")
    elements = item.split(", ")
    for tag in elements:
        all_tags.append(tag)

In [14]:
df_tags = pd.DataFrame(all_tags)
df_tags.columns = ['tags']
df_tags.value_counts()

tags                                              
 Leisure trip                                         313593
 Submitted from a mobile device                       230778
 Couple                                               189212
 Stayed 1 night                                       145373
 Stayed 2 nights                                      100263
                                                       ...  
 Courtyard Suite with St Stephen s Cathedral view          1
 Executive King Suite with Lounge Access                   1
 Couture Suite                                             1
 Octagon Suite with Lounge Access                          1
 Studio My Little Haussmann                                1
Length: 2368, dtype: int64

Для оценки значимости категориальных переменных будем использовать изученный нами непараметрический тест хи-квадрат, реализованный в библиотеке sklearn.feature_selection.chi2. Метод возвращает массив значений хи-квадрат и p-value для каждого признака. Используем только значения хи-квадрат и выведем их на графике:

https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2

In [15]:
# y=y.astype('int')

# ...
# # from sklearn.feature_selection import chi2 # хи-квадрат

# imp_cat = pd.Series(chi2(X[cat_cols], y)[0], index=cat_cols)
# imp_cat.sort_values(inplace = True)
# imp_cat.plot(kind = 'barh')

Для оценки значимости непрерывных переменных будем использовать функцию f_classif из библиотеки sklearn. В основе метода оценки значимости переменных лежит изученный вами в юнитах по статистике анализ (ANOVA). Основу процедуры составляет обобщение результатов двух выборочных t-тестов для независимых выборок (2-sample t).

Метод возвращает двумерный массив f-статистик и p-value для каждого признака. В качестве меры значимости мы будем использовать значение f-статистики. Чем значение статистики выше, тем меньше вероятность того, что средние значения не отличаются, и тем важнее данный признак для нашей модели.

In [16]:
# # from sklearn.feature_selection import f_classif # anova

# imp_num = pd.Series(f_classif(X[num_cols], y)[0], index = num_cols)
# imp_num.sort_values(inplace = True)
# imp_num.plot(kind = 'barh')

По  графику важности категориальных переменных мы можем понять, что признак review_total_negative_word_counts важнее, чем total_number_of_reviews, в определении рейтинга отеля:

Результаты данных тестов вы сможете использовать в своих исследования при отборе признаков: удаляйте менее значимые признаки и сравнивайте результаты качества полученных моделей.

→ Тесты chi2 и f_classif можно использовать для выбора n заданных признаков с наивысшими значениями статистик с помощью метода SelectKBest. Подробнее об этом вы можете прочесть в руководстве Feature selection.

https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection

# Второй запуск модели

In [17]:
hotels.columns

Index(['hotel_address', 'additional_number_of_scoring', 'review_date',
       'average_score', 'hotel_name', 'reviewer_nationality',
       'negative_review', 'review_total_negative_word_counts',
       'total_number_of_reviews', 'positive_review',
       'review_total_positive_word_counts',
       'total_number_of_reviews_reviewer_has_given', 'reviewer_score', 'tags',
       'days_since_review', 'lat', 'lng'],
      dtype='object')

In [18]:
# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели  
# Х - данные с информацией об отелях, у - целевая переменная (рейтинги отелей)  
X = hotels[['average_score', 
            'review_total_negative_word_counts',
            'review_total_positive_word_counts'
            ]] 
y = hotels['reviewer_score'] 

In [19]:
# Наборы данных с меткой "train" будут использоваться для обучения 
# модели, "test" - для тестирования.  
# Для тестирования мы будем использовать 25% от исходного датасета.  
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42)

In [20]:
# Создаём модель  
regr = RandomForestRegressor(n_estimators=100)  
      
# Обучаем модель на тестовом наборе данных  
regr.fit(X_train, y_train)  
      
# Используем обученную модель для предсказания рейтинга отелей в тестовой выборке.  
# Предсказанные значения записываем в переменную y_pred  
y_pred = regr.predict(X_test)  

In [21]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), 
# и смотрим насколько они отличаются  
# Метрика называется Mean Absolute Percentage Error (MAPE) и 
# показывает среднюю абсолютную процентную ошибку предсказанных значений 
# от фактических.  
print('MAPE:', metrics.mean_absolute_percentage_error(y_test, y_pred))

MAPE: 0.14229268800336958
