![](https://www.pata.org/wp-content/uploads/2014/09/TripAdvisor_Logo-300x119.png)
# Predict TripAdvisor Rating
## В этом соревновании нам предстоит предсказать рейтинг ресторана в TripAdvisor
**По ходу задачи:**
* Прокачаем работу с pandas
* Научимся работать с Kaggle Notebooks
* Поймем как делать предобработку различных данных
* Научимся работать с пропущенными данными (Nan)
* Познакомимся с различными видами кодирования признаков
* Немного попробуем [Feature Engineering](https://ru.wikipedia.org/wiki/Конструирование_признаков) (генерировать новые признаки)
* И совсем немного затронем ML
* И многое другое...   



### И самое важное, все это вы сможете сделать самостоятельно!

*Этот Ноутбук являетсся Примером/Шаблоном к этому соревнованию (Baseline) и не служит готовым решением!*   
Вы можете использовать его как основу для построения своего решения.

> что такое baseline решение, зачем оно нужно и почему предоставлять baseline к соревнованию стало важным стандартом на kaggle и других площадках.   
**baseline** создается больше как шаблон, где можно посмотреть как происходит обращение с входящими данными и что нужно получить на выходе. При этом МЛ начинка может быть достаточно простой, просто для примера. Это помогает быстрее приступить к самому МЛ, а не тратить ценное время на чисто инженерные задачи. 
Также baseline являеться хорошей опорной точкой по метрике. Если твое решение хуже baseline - ты явно делаешь что-то не то и стоит попробовать другой путь) 

В контексте нашего соревнования baseline идет с небольшими примерами того, что можно делать с данными, и с инструкцией, что делать дальше, чтобы улучшить результат.  Вообще готовым решением это сложно назвать, так как используются всего 2 самых простых признака (а остальные исключаются).

# import

In [88]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline

# Загружаем специальный удобный инструмент для разделения датасета:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor 
from sklearn import metrics 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
import warnings
warnings.filterwarnings('ignore')

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [89]:
# всегда фиксируйте RANDOM_SEED, чтобы ваши эксперименты были воспроизводимы!
RANDOM_SEED = 42

In [90]:
# зафиксируем версию пакетов, чтобы эксперименты были воспроизводимы:
!pip freeze > requirements.txt

In [91]:
# Загрузим итоговые данные и проведем EDA (Разведочный анализ данных)
df = pd.read_csv('/kaggle/input/data-for-prediction-restaurant-rating/all_in.csv')
df.sample(2)

In [92]:
df.info()

In [93]:
# Разобьем признаки на категориальные, числовые и бинарные. (некоторые - условно, их нужно еще доработать)
num_features = ['Number of Reviews', 'time_between', 'last_time_review', \
                'cuisines_number', 'population', 'city_square', 'Ranking', 'rating', 'rest_number',\
                'excelent', 'very_good', 'average', 'poor', 'terrible', \
                'negative', 'neutra', 'positive', 'compound']

cat_features = ['City', 'Cuisine Style', 'Price Range', 'text_reviews']
bin_features = ['alive', 'is_capital', 'net_rest']

other_features = ['Restaurant_id', 'ID_TA', 'Main', ]
# Числовые признаки
# 'Number of Reviews'
# Кол-во отзывов о ресторане
print(df['Number of Reviews'].describe())
df[(df['Number of Reviews'] > 100) & (df['Number of Reviews'] < 1000)]['Number of Reviews'].hist(bins=50)

In [94]:
# Много ресторанов с маленьким количеством отзывов и наоборот мало с большим.
# Чтобы сгладить применим log
df['Number of Reviews'] = df['Number of Reviews'].apply(lambda x: np.log(x) if x != 0 else x)
df['Number of Reviews'].hist(bins=20)
# стало намного симпатичнее и ближе к норм распределению

In [95]:
# 'time_between'
# время между отзывами
print(df['time_between'].describe())
#df[df['time_between'] < 0]['time_between'].hist(bins=20)
df['time_between'].hist(bins=20)

In [96]:
# сгладим этот некрасивый график логарифмом
df['time_between'] = df['time_between'].apply(lambda x: np.log(x) if x != 0 else x)
df['time_between'].hist(bins=20)

In [97]:
# 'last_time_review'
# время после последнего отзыва
print(df['last_time_review'].describe())
df['last_time_review'].hist(bins=20)

In [98]:
perc25 = df['last_time_review'].quantile(0.25)
perc75 = df['last_time_review'].quantile(0.75)
IQR = perc75 - perc25

df['last_time_review'] = df['last_time_review'].apply(lambda x : x if x < perc75 + 1.5*IQR else perc75 + 1.5*IQR)
df['last_time_review'].hist(bins=20)

In [99]:
# сгладим этот некрасивый график логарифмом
df['last_time_review'] = df['last_time_review'].apply(lambda x: np.log(x) if x != 0 else x)
df['last_time_review'].hist(bins=20)
# распределение далеко от нормального. Посмотрим, возможно, в дальнейшем избавимся от данного столбца.

In [100]:
# 'cuisines_number'
# количество кухонь в ресторане
print(df['cuisines_number'].describe())
df['cuisines_number'].hist(bins=20)

In [101]:
# сгладим этот некрасивый график логарифмом
df['cuisines_number'] = df['cuisines_number'].apply(lambda x: np.log(x) if x != 0 else x)
df['cuisines_number'].hist(bins=20)

In [102]:
# добавим несколько признаков
# место ресторана в общем кол-ве ресторанов города
df['rest_in_rests'] = df['Ranking']/df['rest_number']
df['rest_in_rests'].hist(bins=20)

In [103]:
# место ресторана в населении города
df['rest_in_pop'] = df['Ranking']/df['population']
df['rest_in_pop'].hist(bins=20)

In [104]:
# место ресторана в площади города
df['rest_in_sq'] = df['Ranking']/df['city_square']
df['rest_in_sq'].hist(bins=20)

In [105]:
# 'city_square'
# площадь города
print(df['city_square'].describe())
df['city_square'].hist(bins=20)

In [106]:
# rating
# rating - спарсенный рейтинг ресторанов (Nan были заменены медианой)
print(df['rating'].describe())
df['rating'].hist(bins=20)

In [107]:
# итак числовые признаки:
num_features = ['Number of Reviews', 'time_between', 'last_time_review', \
                'cuisines_number', 'population', 'city_square', 'Ranking', 'rating', 'rest_number', \
                'rest_in_rests', 'rest_in_pop', 'rest_in_sq', 'excelent', 'very_good', 'average', 'poor', 'terrible']

# Посмотрим матрицу корреляций
correlation_matrix = df[num_features].corr()

# выведем на тепловую карту
plt.figure(figsize=(18,12))
sns.heatmap(correlation_matrix, annot=True)

In [108]:
cat_features = ['City', 'Cuisine Style', 'Price Range']
bin_features = ['alive', 'is_capital', 'net_rest']
#Посмотрим боксплоты у бинарных признаков
def get_boxplot(column):
    fig, ax = plt.subplots(figsize = (14, 4))
    sns.boxplot(x=column, y='rating', 
                data=df[df[column].isin(df[column].value_counts().index[:])],
               ax=ax)
    plt.xticks(rotation=45)
    ax.set_title('Boxplot for ' + column)
    plt.show()

for col in bin_features:
    get_boxplot(col)

In [109]:
# Сделаем столбцы из категориальных признаков
df = pd.get_dummies(df, columns=['City', 'Price Range'])

In [110]:
# С Cuisine Style чуть сложнее. Переведем в списки, добавим столбцы, заполним по наличию кухни в списке
df['Cuisine Style'] = df['Cuisine Style'].apply(lambda x: x[2:-2].split("', '"))
cuisines_list = []
for cuisines in df['Cuisine Style']:
    for cuisine in cuisines: 
        if cuisine not in cuisines_list:
            cuisines_list.append(cuisine)

for cuisine in cuisines_list:
    df = df.reindex(columns = np.append(df.columns.values, [cuisine]))


for cuisine in cuisines_list:    
    df[cuisine] = df['Cuisine Style'].apply(lambda x: 1 if cuisine in x else 0)

In [111]:
with pd.option_context('display.max_columns', None):
    display(df.sample(2))

In [112]:
df.last_time_review = 0

In [113]:
# оставляем в табличке для теста только рабочие столбцы 
df_for_test = df.drop(['Restaurant_id', 'Cuisine Style', 'ID_TA', 'text_reviews', 'Rating'], axis = 1)
# df_for_test = df.drop(['Restaurant_id', 'Cuisine Style', 'ID_TA', 'text_reviews', 'Rating', 'last_time_review'], axis = 1)
scaler = MinMaxScaler()
df_for_test[num_features] = scaler.fit_transform(df_for_test[num_features])


# Готовим данные
X = df_for_test[df_for_test['Main']]
y = df[df['Main']]['Rating']

<!-- # DATA -->

In [114]:
# DATA_DIR = '/kaggle/input/sf-dst-restaurant-rating/'
# df_train = pd.read_csv(DATA_DIR+'/main_task.csv')
# df_test = pd.read_csv(DATA_DIR+'kaggle_task.csv')
# sample_submission = pd.read_csv(DATA_DIR+'/sample_submission.csv')

In [115]:
# df_train.info()

In [116]:
# df_train.head(5)

In [117]:
# df_test.info()

In [118]:
# df_test.head(5)

In [119]:
# sample_submission.head(5)

In [120]:
# sample_submission.info()

In [121]:
# # ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
# df_train['sample'] = 1 # помечаем где у нас трейн
# df_test['sample'] = 0 # помечаем где у нас тест
# df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

# data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем

In [122]:
# data.info()

Подробнее по признакам:
* City: Город 
* Cuisine Style: Кухня
* Ranking: Ранг ресторана относительно других ресторанов в этом городе
* Price Range: Цены в ресторане в 3 категориях
* Number of Reviews: Количество отзывов
* Reviews: 2 последних отзыва и даты этих отзывов
* URL_TA: страница ресторана на 'www.tripadvisor.com' 
* ID_TA: ID ресторана в TripAdvisor
* Rating: Рейтинг ресторана

In [123]:
# data.sample(5)

In [124]:
# data.Reviews[1]

Как видим, большинство признаков у нас требует очистки и предварительной обработки.

# Cleaning and Prepping Data
Обычно данные содержат в себе кучу мусора, который необходимо почистить, для того чтобы привести их в приемлемый формат. Чистка данных — это необходимый этап решения почти любой реальной задачи.   
![](https://analyticsindiamag.com/wp-content/uploads/2018/01/data-cleaning.png)

## 1. Обработка NAN 
У наличия пропусков могут быть разные причины, но пропуски нужно либо заполнить, либо исключить из набора полностью. Но с пропусками нужно быть внимательным, **даже отсутствие информации может быть важным признаком!**   
По этому перед обработкой NAN лучше вынести информацию о наличии пропуска как отдельный признак 

In [125]:
# # Для примера я возьму столбец Number of Reviews
# data['Number_of_Reviews_isNAN'] = pd.isna(data['Number of Reviews']).astype('uint8')

In [126]:
# data['Number_of_Reviews_isNAN']

In [127]:
# # Далее заполняем пропуски 0, вы можете попробовать заполнением средним или средним по городу и тд...
# data['Number of Reviews'].fillna(0, inplace=True)

### 2. Обработка признаков
Для начала посмотрим какие признаки у нас могут быть категориальными.

In [128]:
# data.nunique(dropna=False)

Какие признаки можно считать категориальными?

Для кодирования категориальных признаков есть множество подходов:
* Label Encoding
* One-Hot Encoding
* Target Encoding
* Hashing

Выбор кодирования зависит от признака и выбраной модели.
Не будем сейчас сильно погружаться в эту тематику, давайте посмотрим лучше пример с One-Hot Encoding:
![](https://i.imgur.com/mtimFxh.png)

In [129]:
# # для One-Hot Encoding в pandas есть готовая функция - get_dummies. Особенно радует параметр dummy_na
# data = pd.get_dummies(data, columns=[ 'City',], dummy_na=True)

In [130]:
# data.head(5)

In [131]:
# data.sample(5)

#### Возьмем следующий признак "Price Range".

In [132]:
# data['Price Range'].value_counts()

По описанию 'Price Range' это - Цены в ресторане.  
Их можно поставить по возрастанию (значит это не категориальный признак). А это значит, что их можно заменить последовательными числами, например 1,2,3  
*Попробуйте сделать обработку этого признака уже самостоятельно!*

In [133]:
# Ваша обработка 'Price Range'

> Для некоторых алгоритмов МЛ даже для не категориальных признаков можно применить One-Hot Encoding, и это может улучшить качество модели. Пробуйте разные подходы к кодированию признака - никто не знает заранее, что может взлететь.

### Обработать другие признаки вы должны самостоятельно!
Для обработки других признаков вам возможно придется даже написать свою функцию, а может даже и не одну, но в этом и есть ваша практика в этом модуле!     
Следуя подсказкам в модуле вы сможете более подробно узнать, как сделать эти приобразования.

In [134]:
# тут ваш код на обработку других признаков
# .....

![](https://cs10.pikabu.ru/post_img/2018/09/06/11/1536261023140110012.jpg)

# EDA 
[Exploratory Data Analysis](https://ru.wikipedia.org/wiki/Разведочный_анализ_данных) - Анализ данных
На этом этапе мы строим графики, ищем закономерности, аномалии, выбросы или связи между признаками.
В общем цель этого этапа понять, что эти данные могут нам дать и как признаки могут быть взаимосвязаны между собой.
Понимание изначальных признаков позволит сгенерировать новые, более сильные и, тем самым, сделать нашу модель лучше.
![](https://miro.medium.com/max/2598/1*RXdMb7Uk6mGqWqPguHULaQ.png)

### Посмотрим распределение признака

In [135]:
# plt.rcParams['figure.figsize'] = (10,7)
# df_train['Ranking'].hist(bins=100)

У нас много ресторанов, которые не дотягивают и до 2500 места в своем городе, а что там по городам?

In [136]:
# df_train['City'].value_counts(ascending=True).plot(kind='barh')

А кто-то говорил, что французы любят поесть=) Посмотрим, как изменится распределение в большом городе:

In [137]:
# df_train['Ranking'][df_train['City'] =='London'].hist(bins=100)

In [138]:
# # посмотрим на топ 10 городов
# for x in (df_train['City'].value_counts())[0:10].index:
#     df_train['Ranking'][df_train['City'] == x].hist(bins=100)
# plt.show()

Получается, что Ranking имеет нормальное распределение, просто в больших городах больше ресторанов, из-за мы этого имеем смещение.

>Подумайте как из этого можно сделать признак для вашей модели. Я покажу вам пример, как визуализация помогает находить взаимосвязи. А далее действуйте без подсказок =) 


### Посмотрим распределение целевой переменной

In [139]:
# df_train['Rating'].value_counts(ascending=True).plot(kind='barh')

### Посмотрим распределение целевой переменной относительно признака

In [140]:
# df_train['Ranking'][df_train['Rating'] == 5].hist(bins=100)

In [141]:
# df_train['Ranking'][df_train['Rating'] < 4].hist(bins=100)

### И один из моих любимых - [корреляция признаков](https://ru.wikipedia.org/wiki/Корреляция)
На этом графике уже сейчас вы сможете заметить, как признаки связаны между собой и с целевой переменной.

In [142]:
# plt.rcParams['figure.figsize'] = (15,10)
# sns.heatmap(data.drop(['sample'], axis=1).corr(),)

Вообще благодаря визуализации в этом датасете можно узнать много интересных фактов, например:
* где больше Пицерий в Мадриде или Лондоне?
* в каком городе кухня ресторанов более разнообразна?

придумайте свои вопрос и найдите на него ответ в данных)

# Data Preprocessing
Теперь, для удобства и воспроизводимости кода, завернем всю обработку в одну большую функцию.

In [143]:
# # на всякий случай, заново подгружаем данные
# df_train = pd.read_csv(DATA_DIR+'/main_task.csv')
# df_test = pd.read_csv(DATA_DIR+'/kaggle_task.csv')
# df_train['sample'] = 1 # помечаем где у нас трейн
# df_test['sample'] = 0 # помечаем где у нас тест
# df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

# data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем
# data.info()

In [144]:
def preproc_data(df_input):
    '''includes several functions to pre-process the predictor data.'''
    
    df_output = df_input.copy()
    
    # ################### 1. Предобработка ############################################################## 
    # убираем не нужные для модели признаки
    df_output.drop(['Restaurant_id','ID_TA',], axis = 1, inplace=True)
    
    
    # ################### 2. NAN ############################################################## 
    # Далее заполняем пропуски, вы можете попробовать заполнением средним или средним по городу и тд...
    df_output['Number of Reviews'].fillna(0, inplace=True)
    # тут ваш код по обработке NAN
    # ....
    
    
    # ################### 3. Encoding ############################################################## 
    # для One-Hot Encoding в pandas есть готовая функция - get_dummies. Особенно радует параметр dummy_na
    df_output = pd.get_dummies(df_output, columns=[ 'City',], dummy_na=True)
    # тут ваш код не Encoding фитчей
    # ....
    
    
    # ################### 4. Feature Engineering ####################################################
    # тут ваш код не генерацию новых фитчей
    # ....
    
    
    # ################### 5. Clean #################################################### 
    # убираем признаки которые еще не успели обработать, 
    # модель на признаках с dtypes "object" обучаться не будет, просто выберим их и удалим
    object_columns = [s for s in df_output.columns if df_output[s].dtypes == 'object']
    df_output.drop(object_columns, axis = 1, inplace=True)
    
    return df_output

>По хорошему, можно было бы перевести эту большую функцию в класс и разбить на подфункции (согласно ООП). 

#### Запускаем и проверяем что получилось

In [145]:
# df_preproc = preproc_data(data)
# df_preproc.sample(10)

In [146]:
# df_preproc.info()

In [147]:
# # Теперь выделим тестовую часть
# train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
# test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

# y = train_data.Rating.values            # наш таргет
# X = train_data.drop(['Rating'], axis=1)

**Перед тем как отправлять наши данные на обучение, разделим данные на еще один тест и трейн, для валидации. 
Это поможет нам проверить, как хорошо наша модель работает, до отправки submissiona на kaggle.**

In [148]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)

In [149]:
# проверяем
# test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

# Model 
Сам ML

In [150]:
# Импортируем необходимые библиотеки:
# from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
# from sklearn import metrics # инструменты для оценки точности модели

In [151]:
# Создаём модель (НАСТРОЙКИ НЕ ТРОГАЕМ)
model = RandomForestRegressor(n_estimators=100, verbose=1, n_jobs=-1, random_state=RANDOM_SEED)

In [152]:
# Обучаем модель на тестовом наборе данных
model.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = model.predict(X_test)

In [153]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

In [154]:
# Округлим результаты работы модели:
def round_to_polovina(row):
    return (round(row*2.0)/2)

new_round = np.vectorize(round_to_polovina)
y_pred_round = new_round(model.predict(X_test))
print('MAE:', metrics.mean_absolute_error(y_test, y_pred_round))

In [155]:
# в RandomForestRegressor есть возможность вывести самые важные признаки для модели
plt.rcParams['figure.figsize'] = (10,10)
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(15).plot(kind='barh')

# Submission
Если все устраевает - готовим Submission на кагл

In [None]:
# test_data.sample(10)

In [None]:
# test_data = test_data.drop(['Rating'], axis=1)

In [None]:
# sample_submission

In [None]:
# predict_submission = model.predict(test_data)

In [None]:
# predict_submission

In [None]:
# sample_submission['Rating'] = predict_submission
# sample_submission.to_csv('submission.csv', index=False)
# sample_submission.head(10)

In [156]:
# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
kaggle_df = df_for_test[~df_for_test['Main']]
y_pred = model.predict(kaggle_df)

submission = pd.DataFrame({
        "Restaurant_id": df[~df['Main']]['Restaurant_id'],
        "Rating": y_pred
    })
#submission['Restaurant_id']=submission['Restaurant_id'].astype('str')

submission['Rating'] = submission['Rating'].apply(round_to_polovina)
# submission.to_csv('/kaggle/working/submission.csv', index=False)
submission.to_csv('submission.csv', index=False)
submission

# What's next?
Или что делать, чтоб улучшить результат:
* Обработать оставшиеся признаки в понятный для машины формат
* Посмотреть, что еще можно извлечь из признаков
* Сгенерировать новые признаки
* Подгрузить дополнительные данные, например: по населению или благосостоянию городов
* Подобрать состав признаков

В общем, процесс творческий и весьма увлекательный! Удачи в соревновании!
