![](https://www.pata.org/wp-content/uploads/2014/09/TripAdvisor_Logo-300x119.png)
# Predict TripAdvisor Rating
## В этом соревновании нам предстоит предсказать рейтинг ресторана в TripAdvisor
**По ходу задачи:**
* Прокачаем работу с pandas
* Научимся работать с Kaggle Notebooks
* Поймем как делать предобработку различных данных
* Научимся работать с пропущенными данными (Nan)
* Познакомимся с различными видами кодирования признаков
* Немного попробуем [Feature Engineering](https://ru.wikipedia.org/wiki/Конструирование_признаков) (генерировать новые признаки)
* И совсем немного затронем ML
* И многое другое...   



### И самое важное, все это вы сможете сделать самостоятельно!

*Этот Ноутбук являетсся Примером/Шаблоном к этому соревнованию (Baseline) и не служит готовым решением!*   
Вы можете использовать его как основу для построения своего решения.

> что такое baseline решение, зачем оно нужно и почему предоставлять baseline к соревнованию стало важным стандартом на kaggle и других площадках.   
**baseline** создается больше как шаблон, где можно посмотреть как происходит обращение с входящими данными и что нужно получить на выходе. При этом МЛ начинка может быть достаточно простой, просто для примера. Это помогает быстрее приступить к самому МЛ, а не тратить ценное время на чисто инженерные задачи. 
Также baseline являеться хорошей опорной точкой по метрике. Если твое решение хуже baseline - ты явно делаешь что-то не то и стоит попробовать другой путь) 

В контексте нашего соревнования baseline идет с небольшими примерами того, что можно делать с данными, и с инструкцией, что делать дальше, чтобы улучшить результат.  Вообще готовым решением это сложно назвать, так как используются всего 2 самых простых признака (а остальные исключаются).

# import

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import collections

import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline

# Загружаем специальный удобный инструмент для разделения датасета:
from sklearn.model_selection import train_test_split

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [None]:
# всегда фиксируйте RANDOM_SEED, чтобы ваши эксперименты были воспроизводимы!
RANDOM_SEED = 42

In [None]:
# зафиксируем версию пакетов, чтобы эксперименты были воспроизводимы:
!pip freeze > requirements.txt

# DATA

In [None]:
DATA_DIR = '/kaggle/input/sf-dst-restaurant-rating/'
df_train = pd.read_csv(DATA_DIR+'/main_task.csv')
df_test = pd.read_csv(DATA_DIR+'kaggle_task.csv')
sample_submission = pd.read_csv(DATA_DIR+'/sample_submission.csv')

In [None]:
df_train.info()

In [None]:
df_train.head(5)

In [None]:
df_test.info()

In [None]:
df_test.head(5)

In [None]:
sample_submission.head(5)

In [None]:
sample_submission.info()

In [None]:
# ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
df_train['sample'] = 1 # помечаем где у нас трейн
df_test['sample'] = 0 # помечаем где у нас тест
df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем

In [None]:
data.info()

Подробнее по признакам:
* City: Город 
* Cuisine Style: Кухня
* Ranking: Ранг ресторана относительно других ресторанов в этом городе
* Price Range: Цены в ресторане в 3 категориях
* Number of Reviews: Количество отзывов
* Reviews: 2 последних отзыва и даты этих отзывов
* URL_TA: страница ресторана на 'www.tripadvisor.com' 
* ID_TA: ID ресторана в TripAdvisor
* Rating: Рейтинг ресторана

In [None]:
data.sample(5)

In [None]:
data.Reviews[1]

Как видим, большинство признаков у нас требует очистки и предварительной обработки.

# Cleaning and Prepping Data
Обычно данные содержат в себе кучу мусора, который необходимо почистить, для того чтобы привести их в приемлемый формат. Чистка данных — это необходимый этап решения почти любой реальной задачи.   
![](https://analyticsindiamag.com/wp-content/uploads/2018/01/data-cleaning.png)

## 1. Обработка NAN 
У наличия пропусков могут быть разные причины, но пропуски нужно либо заполнить, либо исключить из набора полностью. Но с пропусками нужно быть внимательным, **даже отсутствие информации может быть важным признаком!**   
По этому перед обработкой NAN лучше вынести информацию о наличии пропуска как отдельный признак 

In [None]:
# Для примера я возьму столбец Number of Reviews
data['Number_of_Reviews_isNAN'] = pd.isna(data['Number of Reviews']).astype('uint8')

In [None]:
data['Number_of_Reviews_isNAN']

In [None]:
# Далее заполняем пропуски 0, вы можете попробовать заполнением средним или средним по городу и тд...
data['Number of Reviews'].fillna(0, inplace=True)

### 2. Обработка признаков
Для начала посмотрим какие признаки у нас могут быть категориальными.

In [None]:
data.nunique(dropna=False)

Какие признаки можно считать категориальными?

Для кодирования категориальных признаков есть множество подходов:
* Label Encoding
* One-Hot Encoding
* Target Encoding
* Hashing

Выбор кодирования зависит от признака и выбраной модели.
Не будем сейчас сильно погружаться в эту тематику, давайте посмотрим лучше пример с One-Hot Encoding:
![](https://i.imgur.com/mtimFxh.png)

In [None]:
# для One-Hot Encoding в pandas есть готовая функция - get_dummies. Особенно радует параметр dummy_na
#data = pd.get_dummies(data, columns=[ 'City',], dummy_na=True)

In [None]:
data.head(5)

In [None]:
data.sample(5)

#### Возьмем следующий признак "Price Range".

In [None]:
data['Price Range'].value_counts()

По описанию 'Price Range' это - Цены в ресторане.  
Их можно поставить по возрастанию (значит это не категориальный признак). А это значит, что их можно заменить последовательными числами, например 1,2,3  
*Попробуйте сделать обработку этого признака уже самостоятельно!*

In [None]:
# Ваша обработка 'Price Range'

In [None]:
data['Price Range'] = data['Price Range'].fillna('Price_N')
pr_dict = { '$' : 'Price_C',
          '$$ - $$$' : 'Price_B',
          '$$$$' : 'Price_A'}
data['Price Range'] = data['Price Range'].replace(to_replace=pr_dict)
data = pd.concat([data, pd.get_dummies(data['Price Range'])], axis=1)


In [None]:
data.head(5)

> Для некоторых алгоритмов МЛ даже для не категориальных признаков можно применить One-Hot Encoding, и это может улучшить качество модели. Пробуйте разные подходы к кодированию признака - никто не знает заранее, что может взлететь.

### Обработать другие признаки вы должны самостоятельно!
Для обработки других признаков вам возможно придется даже написать свою функцию, а может даже и не одну, но в этом и есть ваша практика в этом модуле!     
Следуя подсказкам в модуле вы сможете более подробно узнать, как сделать эти приобразования.

In [None]:
# тут ваш код на обработку других признаков
# .....

data['Cuisine Style'] = data['Cuisine Style'].fillna('[\'Unknown\']')
data['Cuisine Style'] = data['Cuisine Style'].apply(lambda x: eval(x))
data['NoCu'] = data['Cuisine Style'].apply(lambda x: len(x))
data['isMono'] = data['NoCu'].apply(lambda x: 1 if x == 1 else 0 )
#data['isDouble'] = data['NoCu'].apply(lambda x: 1 if x == 2 else 0 )
#data['isTriple'] = data['NoCu'].apply(lambda x: 1 if x == 3 else 0 )
data['isMulti'] = data['NoCu'].apply(lambda x: 1 if x > 5 else 0 )


data = pd.concat([data, pd.get_dummies(data['City'])], axis=1)

Capital_dict = {'Paris' : 1, 'Stockholm' : 1, 'London' : 1, 'Berlin': 1, 'Munich' : 0, 'Oporto': 0,
       'Milan' : 0, 'Bratislava' : 1, 'Vienna' : 1, 'Rome' : 1, 'Barcelona' : 0, 'Madrid' : 1,
       'Dublin' : 1, 'Brussels' : 1, 'Zurich' : 0, 'Warsaw' : 1, 'Budapest' : 1, 'Copenhagen': 1,
       'Amsterdam' : 1, 'Lyon' : 0, 'Hamburg' : 0, 'Lisbon' : 1, 'Prague' : 1, 'Oslo' : 1,
       'Helsinki': 1, 'Edinburgh': 0, 'Geneva' : 0 , 'Ljubljana' : 1, 'Athens' : 1,
       'Luxembourg': 1, 'Krakow' : 0}
data['Capital'] = data['City'].apply(lambda x: Capital_dict[x])

Big_dict = {'Paris' : 1, 'Stockholm' : 1, 'London' : 1, 'Berlin': 1, 'Munich' : 1, 'Oporto': 0,
       'Milan' : 1, 'Bratislava' : 0, 'Vienna' : 1, 'Rome' : 1, 'Barcelona' : 1, 'Madrid' : 1,
       'Dublin' : 0, 'Brussels' : 1, 'Zurich' : 0, 'Warsaw' : 1, 'Budapest' : 1, 'Copenhagen': 1,
       'Amsterdam' : 0, 'Lyon' : 0, 'Hamburg' : 1, 'Lisbon' : 0, 'Prague' : 1, 'Oslo' : 0,
       'Helsinki': 0, 'Edinburgh': 0, 'Geneva' : 0 , 'Ljubljana' : 0, 'Athens' : 1,
       'Luxembourg': 0, 'Krakow' : 0}
data['Big_city'] = data['City'].apply(lambda x: Big_dict[x])


dfc = (data['Cuisine Style'].explode()).reset_index()
dfcl = list(dfc['Cuisine Style'].unique())

def find_item(cell):
    if item in cell:
        return 1
    return 0
for item in dfcl:
    data[item] = data['Cuisine Style'].apply(find_item)
    
data['Reviews'].fillna('[[], []]', inplace=True)
def RewFill(s):
    s = s.replace("nan]", "'']")
    s = s.replace("[nan", "[''")
    if len(s) < 15:
        return "[['',''], ['01/01/1900','01/01/1900']]"
    return s
data['Reviews'] = data['Reviews'].apply(RewFill)
data['Reviews'] = data['Reviews'].apply(lambda s: eval(s))

data['Ans1'] = pd.to_datetime(data['Reviews'].apply(lambda x: x[1][0]))
data['Ans2'] = pd.to_datetime(data['Reviews'].apply(lambda x: x[1][1] if (len(x[1]) > 1) else '01/01/1900'))

M1min = data['Ans1'].min()
M1 = data[data['Ans1'] != M1min]['Ans1'].mean().round('D')
data['Ans1'] = data['Ans1'].apply(lambda x: x if x > M1min else M1)
M2min = data['Ans2'].min().round('D')
M2 = data[data['Ans2'] != M2min]['Ans2'].mean().round('D')
data['Ans2'] = data['Ans2'].apply(lambda x: x if x > M2min else M2)

today = pd.to_datetime("today").round('D')
data['Ans1'] = data['Ans1'].apply(lambda x: (today - x).days )
data['Ans2'] = data['Ans2'].apply(lambda x: (today - x).days )
#data['DAns'] = (data['Ans1'] - data['Ans2']).apply(abs)


data['Number of Reviews'] = data['Number of Reviews'].fillna(0)
#data['Number of Reviews'] = data['Number of Reviews'].fillna(data['Number of Reviews'].mean())
#data['Number of Reviews'] = data['Number of Reviews'].round(-1)

data = data.drop(['City', 'Cuisine Style', 'Price Range', 'Reviews', 'URL_TA', 'ID_TA'], axis = 1)

data = data.drop(['Price_N' ], axis = 1)

![](https://cs10.pikabu.ru/post_img/2018/09/06/11/1536261023140110012.jpg)

# EDA 
[Exploratory Data Analysis](https://ru.wikipedia.org/wiki/Разведочный_анализ_данных) - Анализ данных
На этом этапе мы строим графики, ищем закономерности, аномалии, выбросы или связи между признаками.
В общем цель этого этапа понять, что эти данные могут нам дать и как признаки могут быть взаимосвязаны между собой.
Понимание изначальных признаков позволит сгенерировать новые, более сильные и, тем самым, сделать нашу модель лучше.
![](https://miro.medium.com/max/2598/1*RXdMb7Uk6mGqWqPguHULaQ.png)

### Посмотрим распределение признака

In [None]:
plt.rcParams['figure.figsize'] = (10,7)
df_train['Ranking'].hist(bins=100)

У нас много ресторанов, которые не дотягивают и до 2500 места в своем городе, а что там по городам?

In [None]:
df_train['City'].value_counts(ascending=True).plot(kind='barh')

А кто-то говорил, что французы любят поесть=) Посмотрим, как изменится распределение в большом городе:

In [None]:
df_train['Ranking'][df_train['City'] =='London'].hist(bins=100)

In [None]:
# посмотрим на топ 10 городов
for x in (df_train['City'].value_counts())[0:10].index:
    df_train['Ranking'][df_train['City'] == x].hist(bins=100)
plt.show()

Получается, что Ranking имеет нормальное распределение, просто в больших городах больше ресторанов, из-за мы этого имеем смещение.

>Подумайте как из этого можно сделать признак для вашей модели. Я покажу вам пример, как визуализация помогает находить взаимосвязи. А далее действуйте без подсказок =) 


### Посмотрим распределение целевой переменной

In [None]:
df_train['Rating'].value_counts(ascending=True).plot(kind='barh')

### Посмотрим распределение целевой переменной относительно признака

In [None]:
df_train['Ranking'][df_train['Rating'] == 5].hist(bins=100)

In [None]:
df_train['Ranking'][df_train['Rating'] < 4].hist(bins=100)

### И один из моих любимых - [корреляция признаков](https://ru.wikipedia.org/wiki/Корреляция)
На этом графике уже сейчас вы сможете заметить, как признаки связаны между собой и с целевой переменной.

In [None]:
plt.rcParams['figure.figsize'] = (15,10)
sns.heatmap(data.drop(['sample'], axis=1).corr(),)

Вообще благодаря визуализации в этом датасете можно узнать много интересных фактов, например:
* где больше Пицерий в Мадриде или Лондоне?
* в каком городе кухня ресторанов более разнообразна?

придумайте свои вопрос и найдите на него ответ в данных)

# Data Preprocessing
Теперь, для удобства и воспроизводимости кода, завернем всю обработку в одну большую функцию.

In [None]:
# на всякий случай, заново подгружаем данные
df_train = pd.read_csv(DATA_DIR+'/main_task.csv')
df_test = pd.read_csv(DATA_DIR+'/kaggle_task.csv')
df_train['sample'] = 1 # помечаем где у нас трейн
df_test['sample'] = 0 # помечаем где у нас тест
df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем
data.info()

In [None]:
def preproc_data(df_input):
    '''includes several functions to pre-process the predictor data.'''
    
    df_output = df_input.copy()
    
    # ################### 1. Предобработка ############################################################## 
    # убираем не нужные для модели признаки
    df_output.drop(['Restaurant_id','ID_TA',], axis = 1, inplace=True)
    
    
    # ################### 2. NAN ############################################################## 
    # Далее заполняем пропуски, вы можете попробовать заполнением средним или средним по городу и тд...
    df_output['Number of Reviews'].fillna(0, inplace=True)
    # тут ваш код по обработке NAN
    # ....
    
    
    # ################### 3. Encoding ############################################################## 
    # для One-Hot Encoding в pandas есть готовая функция - get_dummies. Особенно радует параметр dummy_na
    #df_output = pd.get_dummies(df_output, columns=[ 'City',], dummy_na=True)
    
    # тут ваш код не Encoding фитчей
    # ....
    
    
    # ################### 4. Feature Engineering ####################################################
    # тут ваш код не генерацию новых фитчей
    # ....
    
    # Обработка признака Price Range, замена его на Dummy - переменные
    df_output['Price Range'] = df_output['Price Range'].fillna('Price_N')
    pr_dict = { '$' : 'Price_C',
          '$$ - $$$' : 'Price_B',
          '$$$$' : 'Price_A'}
    df_output['Price Range'] = df_output['Price Range'].replace(to_replace=pr_dict)
    df_output = pd.concat([df_output, pd.get_dummies(df_output['Price Range'])], axis=1)
    
    # df_output = df_output.drop(['Price_N' ], axis = 1)
    
    
    # тут ваш код на обработку других признаков
    # .....
    # Обрабатываем Cuisine Style - заменяем строку на список
    df_output['Cuisine Style'] = df_output['Cuisine Style'].fillna('[\'Unknown\']')
    df_output['Cuisine Style'] = df_output['Cuisine Style'].apply(lambda x: eval(x))
    
    # Создаем новый признак - количество кухонь для ресторана
    df_output['Number Of Cuisines'] = df_output['Cuisine Style'].apply(lambda x: len(x))
    
    # Создаем новый признак - ресторан монокухни
    df_output['Is Mono Cuisine'] = df_output['Number Of Cuisines'].apply(lambda x: 1 if x == 1 else 0 )
    #df_output['isDouble'] = df_output['Number Of Cuisines'].apply(lambda x: 1 if x == 2 else 0 )
    #df_output['isTriple'] = df_output['Number Of Cuisines'].apply(lambda x: 1 if x == 3 else 0 )
    
    # Создаем новый признак - ресторан с большим количеством кухонь
    df_output['Is Multi Cuisine'] = df_output['Number Of Cuisines'].apply(lambda x: 1 if x > 5 else 0 )

    # Переводим города в Dummy - Переменные
    df_output = pd.concat([df_output, pd.get_dummies(data['City'])], axis=1)

    # Создаем признак - город является столицей
    Capital_dict = {'Paris' : 1, 'Stockholm' : 1, 'London' : 1, 'Berlin': 1, 'Munich' : 0, 'Oporto': 0,
       'Milan' : 0, 'Bratislava' : 1, 'Vienna' : 1, 'Rome' : 1, 'Barcelona' : 0, 'Madrid' : 1,
       'Dublin' : 1, 'Brussels' : 1, 'Zurich' : 0, 'Warsaw' : 1, 'Budapest' : 1, 'Copenhagen': 1,
       'Amsterdam' : 1, 'Lyon' : 0, 'Hamburg' : 0, 'Lisbon' : 1, 'Prague' : 1, 'Oslo' : 1,
       'Helsinki': 1, 'Edinburgh': 0, 'Geneva' : 0 , 'Ljubljana' : 1, 'Athens' : 1,
       'Luxembourg': 1, 'Krakow' : 0}
    df_output['Capital'] = df_output['City'].apply(lambda x: Capital_dict[x])

    # Создаем признак - большой город (население больше миллиона)
    Big_dict = {'Paris' : 1, 'Stockholm' : 1, 'London' : 1, 'Berlin': 1, 'Munich' : 1, 'Oporto': 0,
       'Milan' : 1, 'Bratislava' : 0, 'Vienna' : 1, 'Rome' : 1, 'Barcelona' : 1, 'Madrid' : 1,
       'Dublin' : 0, 'Brussels' : 1, 'Zurich' : 0, 'Warsaw' : 1, 'Budapest' : 1, 'Copenhagen': 1,
       'Amsterdam' : 0, 'Lyon' : 0, 'Hamburg' : 1, 'Lisbon' : 0, 'Prague' : 1, 'Oslo' : 0,
       'Helsinki': 0, 'Edinburgh': 0, 'Geneva' : 0 , 'Ljubljana' : 0, 'Athens' : 1,
       'Luxembourg': 0, 'Krakow' : 0}
    df_output['Big_city'] = df_output['City'].apply(lambda x: Big_dict[x])
    
    # Создаем признак - население города в тысячах человек
    СityPop_dict= {'London' : 8908, 'Paris' : 2206, 'Madrid' : 3223, 'Barcelona' : 1620, 
                        'Berlin' : 6010, 'Milan' : 1366, 'Rome' : 2872, 'Prague' : 1308, 
                        'Lisbon' : 506, 'Vienna' : 1888, 'Amsterdam' : 860, 'Brussels' : 179, 
                        'Hamburg' : 1841, 'Munich' : 1457, 'Lyon' : 506, 'Stockholm' : 961, 
                        'Budapest' : 1752, 'Warsaw' : 1764, 'Dublin' : 553, 
                        'Copenhagen' : 616, 'Athens' : 665, 'Edinburgh' : 513, 
                        'Zurich' : 415, 'Oporto' : 240, 'Geneva' : 201, 'Krakow' : 769, 
                        'Oslo' : 681, 'Helsinki' : 643, 'Bratislava' : 426, 
                        'Luxembourg' : 119, 'Ljubljana' : 284}
    df_output['CityPop'] = df_output['City'].apply(lambda x: СityPop_dict[x])

    # Создаем признак - государство, и делаем из него Dummy-переменные
    Country_dict = {'Paris' : 'FR', 'Stockholm' : 'SW', 'London' : 'UK', 'Berlin': 'D', 'Munich' : 'D', 'Oporto': 'PT',
       'Milan' : 'IT', 'Bratislava' : 'SL', 'Vienna' : 'A', 'Rome' : 'IT', 'Barcelona' : 'S', 'Madrid' : 'S',
       'Dublin' : 'IE', 'Brussels' : 'BE', 'Zurich' : 'CH', 'Warsaw' : 'PL', 'Budapest' : 'HU', 'Copenhagen': 'DK',
       'Amsterdam' : 'NL', 'Lyon' : 'F', 'Hamburg' : 'D', 'Lisbon' : 'PT', 'Prague' : 'CR', 'Oslo' : 'NO',
       'Helsinki': 'FI', 'Edinburgh': 'UK', 'Geneva' : 'CH' , 'Ljubljana' : 'SV', 'Athens' : 'GR',
       'Luxembourg':  'LB', 'Krakow' : 'PL'}
    df_output['Country'] = df_output['City'].apply(lambda x: Country_dict[x])
    df_output = pd.concat([df_output, pd.get_dummies(df_output['Country'])], axis=1)
    
    # Отнормируем критерий Ranking по городам
    meanRankCity = df_output.groupby(['City'])['Ranking'].mean()
    countRestCity = df_output['City'].value_counts(ascending=False)
    df_output['meanRankCity'] = df_output['City'].apply(lambda x: meanRankCity[x])
    # Количество ресторанов в городе
    df_output['countRestCity'] = df_output['City'].apply(lambda x: countRestCity[x])
    # Нормализуем Ranking относительно количества ресторанов в городе
    df_output['normRankRestCity'] = (df_output['Ranking'] - df_output['meanRankCity']) / df_output['countRestCity']
    
    # Признак - количество ресторанов в городе на тысячу жителей
    df_output['RestCityDensity'] = df_output['countRestCity'] / df_output['CityPop']
    #df_output['normCityPop'] =  df_output['CityPop'] / df_output['countRestCity']

    
    # Новый признак - количество отзывов на тысячу жителей
    df_output['Number of Reviews'] = df_output['Number of Reviews'].fillna(0)
    df_output['ReviewsPerPop'] = df_output['Number of Reviews'] / df_output['CityPop']
    
    # Новый признак - среднее количество отзывов в городе
    ReviewsByCity = df_output.groupby("City")["Number of Reviews"].mean()
    df_output["ReviewsByCity"] = df_output["City"].apply(
        lambda x: ReviewsByCity[x])
    
    

    # Убираем ненужные признаки
    df_output = df_output.drop(['meanRankCity', 'CityPop'], axis = 1)

    # Создаем список всех возможных кухонь.
    dfc = (df_output['Cuisine Style'].explode()).reset_index()
    dfcl = list(dfc['Cuisine Style'].unique())
    
    # Заменяем список кухонь для ресторана на Dummy-переменные со стилем кухни.
    def find_item(cell):
        if item in cell:
            return 1
        return 0
    for item in dfcl:
        df_output[item] = df_output['Cuisine Style'].apply(find_item)
        
    # Функция расчета количества кухонь в городе
    def GetCuisinesByCity(data):
        GroupCity = data.explode("Cuisine Style").groupby("City")[
            "Cuisine Style"]
        return GroupCity.aggregate(lambda s: len(set(s.values))).sort_values(ascending=False)
    
    # Новый признак - количество видов кухни в городе
    CuisinesByCity = GetCuisinesByCity(df_output)
    df_output["CuisinesByCity"] = df_output["City"].apply(lambda s: CuisinesByCity[s])
    
    
    # Попробуем найти, предлагает ли ресторан кухню из N самых популярных
    # Функция определяет, есть ли в ресторане кухня из списка популярных
    def IsInPopular(cell):
        for element in list(cell):
            if element in MostPopCuis:
                return 1
        return 0
    # Новый признак - предлагается кухня из N популярных
    N = 5
    MostPopCuis = list(dfc['Cuisine Style'].value_counts().keys()[0:N+1])
    MostPopCuis.remove('Unknown')
    df_output['MostPopCuis'] = df_output['Cuisine Style'].apply(IsInPopular)
    
    
    # Попробуем найти, предлагает ли ресторан уникальную кухню (встречается меньше чем в N1 ресторанах) 
    # Функция определяет, есть ли в ресторане кухня из списка уникальных
    def IsInUnique(cell):
        for element in list(cell):
            if element in UniqueList:
                return 1
        return 0
    # Новый признак - предлагается кухня из уникальных
    N1 = 100
    CuisineList = dfc['Cuisine Style'].value_counts()
    UniqueList = CuisineList.where(CuisineList <= N1 ).dropna().keys()

    df_output['UniqueCuis'] = df_output['Cuisine Style'].apply(IsInUnique)

    
    # Очищаем строки с отзывами и превращаем отзывы в списки, пропущенные даты заменяем на 01/01/1900
    df_output['Reviews'].fillna('[[], []]', inplace=True)
    def RewFill(s):
        s = s.replace("nan]", "'']")
        s = s.replace("[nan", "[''")
        if len(s) < 15:
            return "[['',''], ['01/01/1900','01/01/1900']]"
        return s
    df_output['Reviews'] = df_output['Reviews'].apply(RewFill)
    df_output['Reviews'] = df_output['Reviews'].apply(lambda s: eval(s))
    
    # Создаем новые признаки - даты первого и второго отзыва
    df_output['Ans1'] = pd.to_datetime(df_output['Reviews'].apply(lambda x: x[1][0]))
    df_output['Ans2'] = pd.to_datetime(df_output['Reviews'].apply(lambda x: x[1][1] if (len(x[1]) > 1) else '01/01/1900'))
    
    # Заменяем пропущенные даты (01/01/1900) на среднее значение даты среди всех отзывов, округленное до дней
    M1min = df_output['Ans1'].min()
    M1 = df_output[df_output['Ans1'] != M1min]['Ans1'].mean().round('D')
    df_output['Ans1'] = df_output['Ans1'].apply(lambda x: x if x > M1min else M1)
    M2min = df_output['Ans2'].min().round('D')
    M2 = df_output[df_output['Ans2'] != M2min]['Ans2'].mean().round('D')
    df_output['Ans2'] = df_output['Ans2'].apply(lambda x: x if x > M2min else M2)

    # Заменяем дату на количество дней от даты отзыва до текущей даты
    today = pd.to_datetime("today").round('D')
    df_output['Ans1'] = df_output['Ans1'].apply(lambda x: (today - x).days )
    df_output['Ans2'] = df_output['Ans2'].apply(lambda x: (today - x).days )
    
    # Вводим новую переменную - количество дней между отзывами.
    df_output['DAns'] = (df_output['Ans1'] - df_output['Ans2']).apply(abs)


    
    #df_output['Number of Reviews'] = df_output['Number of Reviews'].fillna(df_output['Number of Reviews'].mean())
    #df_output['Number of Reviews'] = df_output['Number of Reviews'].round(-1)

    #df_output = df_output.drop(['City', 'Cuisine Style', 'Price Range', 'Reviews', 'URL_TA', 'ID_TA'], axis = 1)

    #df_output = df_output.drop(['Price_N' ], axis = 1)
    
    
    
    
    
    # ################### 5. Clean #################################################### 
    # убираем признаки которые еще не успели обработать, 
    # модель на признаках с dtypes "object" обучаться не будет, просто выберим их и удалим
    object_columns = [s for s in df_output.columns if df_output[s].dtypes == 'object']
    df_output.drop(object_columns, axis = 1, inplace=True)
    
    return df_output

>По хорошему, можно было бы перевести эту большую функцию в класс и разбить на подфункции (согласно ООП). 

#### Запускаем и проверяем что получилось

In [None]:
df_preproc = preproc_data(data)
df_preproc.sample(10)

In [None]:
df_preproc.info()

In [None]:
# Теперь выделим тестовую часть
train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

y = train_data.Rating.values            # наш таргет
X = train_data.drop(['Rating'], axis=1)

**Перед тем как отправлять наши данные на обучение, разделим данные на еще один тест и трейн, для валидации. 
Это поможет нам проверить, как хорошо наша модель работает, до отправки submissiona на kaggle.**

In [None]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)

In [None]:
# проверяем
test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

# Model 
Сам ML

In [None]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [None]:
# Создаём модель (НАСТРОЙКИ НЕ ТРОГАЕМ)
model = RandomForestRegressor(n_estimators=100, verbose=1, n_jobs=-1, random_state=RANDOM_SEED)

In [None]:
# Обучаем модель на тестовом наборе данных
model.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = model.predict(X_test)

In [None]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

In [None]:
# в RandomForestRegressor есть возможность вывести самые важные признаки для модели
plt.rcParams['figure.figsize'] = (10,10)
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(15).plot(kind='barh')

# Submission
Если все устраевает - готовим Submission на кагл

In [None]:
test_data.sample(10)

In [None]:
test_data = test_data.drop(['Rating'], axis=1)

In [None]:
sample_submission

In [None]:
predict_submission = model.predict(test_data)

In [None]:
predict_submission

In [None]:
sample_submission['Rating'] = predict_submission
sample_submission.to_csv('submission.csv', index=False)
sample_submission.head(10)

# What's next?
Или что делать, чтоб улучшить результат:
* Обработать оставшиеся признаки в понятный для машины формат
* Посмотреть, что еще можно извлечь из признаков
* Сгенерировать новые признаки
* Подгрузить дополнительные данные, например: по населению или благосостоянию городов
* Подобрать состав признаков

В общем, процесс творческий и весьма увлекательный! Удачи в соревновании!
