![](https://www.pata.org/wp-content/uploads/2014/09/TripAdvisor_Logo-300x119.png)
# Predict TripAdvisor Rating
## В этом соревновании нам предстоит предсказать рейтинг ресторана в TripAdvisor
**По ходу задачи:**
* Прокачаем работу с pandas
* Научимся работать с Kaggle Notebooks
* Поймем как делать предобработку различных данных
* Научимся работать с пропущенными данными (Nan)
* Познакомимся с различными видами кодирования признаков
* Немного попробуем [Feature Engineering](https://ru.wikipedia.org/wiki/Конструирование_признаков) (генерировать новые признаки)
* И совсем немного затронем ML
* И многое другое...   



## Проект подготовлен Дарьей Фесенко 

# import

### Импорт необходимых библиотек и модулей

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 
import pandas as pd
from collections import Counter
import numpy as np # linear algebra
import re
from re import findall
import datetime
import nltk
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('wordnet')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import gensim
import os
from gensim.utils import simple_preprocess
from gensim import corpora
sw = stopwords.words('english')
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
import pandas_profiling
from pandas_profiling import ProfileReport


import matplotlib.pyplot as plt
from plotly.subplots import make_subplots
import cufflinks as cf
import plotly.figure_factory as ff
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import plotly.express as px
import seaborn as sns 
%matplotlib inline

init_notebook_mode(connected=True)
cf.go_offline()

# Загружаем специальный удобный инструмент для разделения датасета:
from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestRegressor 
from sklearn import metrics

from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import LabelEncoder

import math
import copy
from IPython.display import display
pd.options.mode.chained_assignment = None
# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
from IPython.display import display
pd.set_option('display.max_columns', 200)  # показывать больше колонок
RANDOM_SEED = 581321
!pip freeze > requirements.txt
# Any results you write to the current directory are saved as output.
CURRENT_DATE = pd.to_datetime('01/10/2021')

# DATA

In [None]:
df_train = pd.read_csv('main_task.csv')
df_test = pd.read_csv('kaggle_task.csv')
sample_submission = pd.read_csv('sample_submission.csv')

In [None]:
display(df_train.head(2))
display(df_test.head(2))
display(sample_submission.head(2))

In [None]:
display(df_train.info())
display(df_test.info())
display(sample_submission.info())

In [None]:
# ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
df_train['sample'] = 1 # помечаем где у нас трейн
df_test['sample'] = 0 # помечаем где у нас тест
df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем


In [None]:
data.info()

Подробнее по признакам:
* City: Город 
* Cuisine Style: Кухня
* Ranking: Ранг ресторана относительно других ресторанов в этом городе
* Price Range: Цены в ресторане в 3 категориях
* Number of Reviews: Количество отзывов
* Reviews: 2 последних отзыва и даты этих отзывов
* URL_TA: страница ресторана на 'www.tripadvisor.com' 
* ID_TA: ID ресторана в TripAdvisor
* Rating: Рейтинг ресторана

In [None]:
data.sample(3)

In [None]:
data.Reviews[1]

Как видим, большинство признаков у нас требует очистки и предварительной обработки.

# Cleaning and Prepping Data


# 0   Restaurant_id 

In [None]:
df= data.copy()
df.columns = [column.replace(' ','_') for column in df.columns]
df.Restaurant_id.value_counts()

Как видим, многие повторяются, видимо, есть сетевые магазины

In [None]:
count_franchise = df['Restaurant_id'].value_counts()
df['count_franchise'] = df['Restaurant_id'].apply(lambda x: count_franchise[x])
df['count_franchise'].describe()

# 1   City

In [None]:
le = LabelEncoder()
le.fit(df['City'])
df['code_City'] = le.transform(df['City'])

count_rest_in_city = df['City'].value_counts()
df['count_rest_in_city'] = df['City'].apply(lambda x: count_rest_in_city[x])
df['count_rest_in_city'].describe()

In [None]:
plt.figure(figsize=(18,7))
sns.boxplot(x='City', y='Rating', data=df[df['sample']==1])
plt.xticks(rotation=90)

Добавим признак с населением, тыс. человек. Данные из Википедии

In [None]:
city_dict = {'Paris': 2148.327, 'Helsinki':656.611, 'Edinburgh':488.1, 'London':8961.989, 'Bratislava':437.725, 
             'Lisbon':505.526,'Budapest':1752.286, 'Stockholm':961.609, 'Rome':2870.500, 'Milan':1378.689, 
             'Munich':1471.508,'Hamburg':1841.179,'Prague':1335.084, 'Vienna':1897.491, 'Dublin':1173.179, 
             'Barcelona':1664.182, 'Brussels':185.103,'Madrid':3266.126,'Oslo':673.469, 'Amsterdam':872.757, 
             'Berlin':3644.826, 'Lyon': 506.615, 'Athens':664.046, 'Warsaw':1789.620,
             'Oporto':231.962, 'Krakow':769.307, 'Copenhagen':1358.608, 'Luxembourg':636.739, 
             'Zurich':1407.572, 'Geneva':620.131,'Ljubljana':284.355}

df['Population'] = df.apply(lambda row: city_dict[row['City']], axis=1)
df.head(2)

In [None]:
df_dum_Cit = pd.get_dummies(df['City'], dummy_na=False).astype('float64')

# 2   Cuisine_Style

In [None]:
df['Cuisine_Style'] = df['Cuisine_Style'].fillna("['cuis_isNaN']")
le.fit(df.Cuisine_Style)
df['code_Cuisine'] = le.transform(df['Cuisine_Style'])
df['Cuisine_Style'] = df['Cuisine_Style'].str.findall(r"'(\b.*?\b)'")
df['Count_cuisine'] = df.Cuisine_Style.apply(lambda x: len(x))

# функция для списка со списками
def list_unrar(list_of_lists):
    result=[]
    for lst in list_of_lists:
        result.extend(lst)
    return result

temp_list = df.Cuisine_Style.tolist()
temp_Counter = Counter(list_unrar(temp_list))

plt.figure(figsize=(18,7))
df.explode('Cuisine_Style')['Cuisine_Style'].value_counts(ascending=False).plot(kind='bar')

In [None]:
# список самых популярных кухонь
list_of_popular = [x[0] for x in temp_Counter.most_common(15)]
print(list_of_popular, len(list_of_popular))
# список довольно редких кухонь (менее 90 упоминаний)
list_of_niche = [x[0] for x in temp_Counter.most_common()[-50:]]
print(list_of_niche, len(list_of_niche))
# список кухонь средней частоты (все остальные)
list_of_regular = [x[0] for x in temp_Counter.most_common()[15:-50]]
print(list_of_regular, len(list_of_regular))

In [None]:
# сформируем новые признаки - редковстречающиеся и среднечасто встречающиеся кухни объединим 
# в соответсвующие категории
df['niche_Cuisine_Style'] = df['Cuisine_Style'].apply(lambda x: 1 if len(set(x) & set(list_of_niche))>0  else 0).astype('float64')

df['regular_Cuisine_Style'] = df['Cuisine_Style'].apply(lambda x: 1 if len(set(x) & set(list_of_regular))>0  else 0).astype('float64')

# а самые популярные 15 кухонь выведем в отдельные категории

for cuisine in list_of_popular:
    df[cuisine] = df['Cuisine_Style'].apply(lambda x: 1 if cuisine in x else 0 ).astype('float64')
    
df.head(3)

# 3   Ranking

Отнормируем по городам

In [None]:
mean_Ranking_on_City = df.groupby(['City'])['Ranking'].mean()
df['mean_Ranking_on_City'] = df['City'].apply(lambda x: mean_Ranking_on_City[x])
df['norm_Ranking_on_Rest_in_City'] = (df['Ranking'] - df['mean_Ranking_on_City']) / df['count_rest_in_city']

Отнормируем по населению в городе

In [None]:
df['norm_Ranking_on_Pop_in_City'] = (df['Ranking'] - df['mean_Ranking_on_City']) / df['Population']
df.describe()

# 4   Price Range 

In [None]:
# заполним пропуски и выделим ценовые категории
def price_range(x):
    if x=='$':
        return 'econom'
    elif x=='$$ - $$$':
        return 'regular'
    elif x=='$$$$':
        return 'luxury'
    return "price_isNaN"

df.Price_Range = df.Price_Range.apply(price_range)
print(df.Price_Range.value_counts())
sns.boxplot(x='Price_Range', y='Rating', data=df[df['sample']==1])

In [None]:
price_list = list(set(df.Price_Range.tolist()))
for price in price_list:
    df[price] = df['Price_Range'].apply(lambda x: 1 if price in x else 0 ).astype('float64') 
    
df.head(2)

#  5   Number_of_Reviews

In [None]:
# сохраним пропуски
df['Number_of_Reviews_isNAN'] = pd.isna(df['Number_of_Reviews']).astype('float64')
# заполним пропуски медианным по городу значением
grp = df.groupby(['City'])
df.Number_of_Reviews = grp.Number_of_Reviews.apply(lambda x: x.fillna(x.median()))
df.groupby('City')['Number_of_Reviews'].sum().sort_values(ascending=False).plot(kind='bar')

# 6   Reviews

Выделим даты отзывов

In [None]:
df['Reviews'] = df['Reviews'].fillna("[[], []]")
# найдем все даты в отзывах
df['Dates'] = df.Reviews.str.findall(r'\d{2}/\d{2}/\d{4}')
df['Dates_num'] = df['Dates'].apply(len)
df['Dates_num'].value_counts()

In [None]:
# сохраним рестораны с одним отзывом
df['one_Review'] = (df['Dates_num']==1).astype('float64')
# функция определяет насколько давно был сделан самый свежий отзыв
def time_to_now(row):
    if row['Dates'] == []:
        return None
    return datetime.datetime.now() - pd.to_datetime(row['Dates']).max()
# функция для определения перерыва между отзывами
def time_between_Reviews(row):
    if row['Dates'] == []:
        return None
    return pd.to_datetime(row['Dates']).max() - pd.to_datetime(row['Dates']).min()

df['time_to_now'] = df.apply(time_to_now, axis = 1).dt.days
print(df['time_to_now'].describe())
df['Period_rev'] = df[df['Dates_num']==2].apply(time_between_Reviews, axis = 1).dt.days
print(df['Period_rev'].describe())

In [None]:
# заполним пропуски средним значением по городу
grp = df.groupby(['City'])
df.time_to_now = grp.time_to_now.apply(lambda x: x.fillna(x.median()))
df.Period_rev = grp.Period_rev.apply(lambda x: x.fillna(x.median()))
df['time_to_now'].hist(bins=100)

In [None]:
df['Period_rev'].hist(bins=100)

### Теперь поработаем над текстом отзывов

In [None]:
# функция выдаст список слов отзыва сокращенных до корневой формы
def lemmatize_stemming(text):
    return stemmer.stem(WordNetLemmatizer().lemmatize(text, pos='v'))  
# функция удалит шумовые слова из текста
def preprocess(text):
    result=[]
    for token in gensim.utils.simple_preprocess(text) :
        if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
            result.append(lemmatize_stemming(token))
    return result
df['no_review'] = (df['Dates_num']==0).astype('float64')
df['Text_clean'] = df['Reviews'].apply(lemmatize_stemming)
df['Text_clean'] = df['Reviews'].apply(preprocess)
df['Text_clean_len'] = df['Text_clean'].apply(len) 
print(df['Text_clean_len'].value_counts())
df['Text_clean_len'].describe()

In [None]:
text_list = df['Text_clean'].tolist()
text_cnt = Counter(list_unrar(text_list))
print(len(text_cnt.most_common()))
text_cnt.most_common(10)

In [None]:
# выделим списки популярных слов в соответствии с оценкой
positive = ['good','great','nice','best','excel','delicio','love','delici','friendli','amaz','tasti',
            'atmospher','authent','fantast','quick''perfect','qualiti','wonder','cheap',
            'fresh','tast','surpris','cozi','reason','cosi','better','worth','famili','fast',
            'pleasant','awesom','super','like','real','beauti','relax','recommend','enjoy',
            'superb','special','yummi','welcom','cool','fabul','interest','healthi','quiet',
            'favourit','delight','high','brilliant','warm','favorit','charm','outstand','cute',
            'pricey','pretti','curri','happi','highli','ambianc','vibe','heart','comfort','incred',
            'modern','ambienc','fair','conveni','uniqu','surprisingli','clean','lover','heaven','chill',
            'sweet','fare','quirki','honest','genuin','class','true','attent','stylish','trendi','return',
            'popular','creativ','inexpens','flavor','romant','hospit','satisfi','atmosph','gorgeou','joint',
            'eleg','proper','usual','intim','treasur','gourmet','athen','truli','sure','reliabl','ideal',
            'ingredi','host','unusu','celebr','care','hearti','effici','perfectli','fanci','pleasur','smile',
            'thank','exquisit','fashion','paradis','refresh','pleasantli','jewel','lucki','freshli','fairli',
            'spectacular','innov','funki','magic','supper','unbeliev','feast','rustic','smoothi','entertain',
            'michelin','highlight','calm','ambient','posit','atmo','correct','inspir','dream','familiar','glad',
           'friendliest','greatest','nicest','wholesom','tranquil','comfi','attract','amazingli','frendli',
            'pleasent','flavoursom','yumm','excellen','atmosfer','luxuri','royal','freshest','perfecto','tremend',
            'deliciu','freindli','frindli','amateur','nicer','greater','brilliantli','coolest','respect','goood']
negative = ['disapoint','dissapoint','worst','tasteless','rat','horribl','prici','crepe','problem','wast',
            'terribl','bore','mediocr','dissapoint','rude','overpric','disappoint','lack','noisi','slow',
            'expens','poor','disgust','avoid','trap','shame','unfriendli','bewar','dirti','unpleas','unpleas',
            'underwhelm','rubbish','weird','worthi','scam','poorli','expensi','complaint','cheater','dishonest',
            'unwelcom','nope','uninterest','rough','horrend','rudest','disrespect','horrif','pour','slowest',
            'jerk','impolit']
neutral = ['averag','decent','ordinari','regular','simpl','alright','typic','okay','normal','casual','middl',
           'simpli','classi','standard']

# создадим признаки с эмоциональной окраской текста отзыва
df['positive'] = df['Text_clean'].apply(lambda x: 1 if len(set(x) & set(positive))>0  else 0).astype('float64')
df['negative'] = df['Text_clean'].apply(lambda x: 1 if len(set(x) & set(negative))>0  else 0).astype('float64')
df['neutral'] = df['Text_clean'].apply(lambda x: 1 if len(set(x) & set(neutral))>0  else 0).astype('float64')
df.describe()

In [None]:
# убираем не нужные для модели признаки
df.drop(['ID_TA','URL_TA','Dates'], axis = 1, inplace=True)

In [None]:
# добавим dummy признак по  городам
df = pd.concat([df,df_dum_Cit], axis=1)
df.head(3)

In [None]:
object_columns = [s for s in df.columns if df[s].dtypes == 'object']
df.drop(object_columns, axis = 1, inplace=True)
df.info()

# Стандартизация

Я пока не очень разобралась, как обрабатывать выбросы, поэтому воспользуюсь библиотекой для стандартизации RobustScaler, который не чувствителен к выбросам

In [None]:
# функция для стандартизации
def RobustScaler_column(d_col):
    scaler = RobustScaler()
    scaler.fit(df[[d_col]])
    return scaler.transform(df[[d_col]])
# стандартизируем все столбцы кроме целевой и Sample
for i  in list(df.columns):
    if i not in ['Rating','sample']:
        df[i] = RobustScaler_column(i)

df.describe()

In [None]:
sns.FacetGrid(df[['cuis_isNaN',
                     'price_isNaN',
                     'Number_of_Reviews_isNAN',
                     'no_review',
                     'Rating']].melt(
                         id_vars=["Rating"],
                         var_name="feature",
                         value_name="value"), col="feature").map(sns.boxplot, "value", "Rating")

In [None]:
sns.FacetGrid(df[['positive',
                     'negative',
                     'neutral',
                     'one_Review',
                     'Rating']].melt(
                         id_vars=["Rating"],
                         var_name="feature",
                         value_name="value"), col="feature").map(sns.boxplot, "value", "Rating")

In [None]:
sns.FacetGrid(df[['econom',
                     'regular',
                     'niche_Cuisine_Style',
                     'luxury',
                     'Rating']].melt(
                         id_vars=["Rating"],
                         var_name="feature",
                         value_name="value"), col="feature").map(sns.boxplot, "value", "Rating")

### Посмотрим распределение признака

In [None]:
plt.rcParams['figure.figsize'] = (10,7)
df_train['Ranking'].hist(bins=100)

У нас много ресторанов, которые не дотягивают и до 2500 места в своем городе, а что там по городам?

In [None]:
df_train['City'].value_counts(ascending=True).plot(kind='barh')

А кто-то говорил, что французы любят поесть=) Посмотрим, как изменится распределение в большом городе:

In [None]:
df_train['Ranking'][df_train['City'] =='London'].hist(bins=100)

In [None]:
# посмотрим на топ 10 городов
for x in (df_train['City'].value_counts())[0:10].index:
    df_train['Ranking'][df_train['City'] == x].hist(bins=100)
plt.show()

Получается, что Ranking имеет нормальное распределение, просто в больших городах больше ресторанов, из-за мы этого имеем смещение.

>Подумайте как из этого можно сделать признак для вашей модели. Я покажу вам пример, как визуализация помогает находить взаимосвязи. А далее действуйте без подсказок =) 


### Посмотрим распределение целевой переменной

In [None]:
df_train['Rating'].value_counts(ascending=True).plot(kind='barh')

### Посмотрим распределение целевой переменной относительно признака

In [None]:
df_train['Ranking'][df_train['Rating'] == 5].hist(bins=100)

In [None]:
df_train['Ranking'][df_train['Rating'] < 4].hist(bins=100)

### И один из моих любимых - [корреляция признаков](https://ru.wikipedia.org/wiki/Корреляция)
На этом графике уже сейчас вы сможете заметить, как признаки связаны между собой и с целевой переменной.

In [None]:
corrs = df.corr()
corrs.columns
figure = ff.create_annotated_heatmap(
    z=corrs.values,
    x=list(corrs.columns),
    y=list(corrs.index),
    annotation_text=corrs.round(2).values,
    showscale=True)
figure.update_layout(
    autosize=False,
    width=2500,
    height=1500,)

figure.show()

Вообще благодаря визуализации в этом датасете можно узнать много интересных фактов, например:
* где больше Пицерий в Мадриде или Лондоне?
* в каком городе кухня ресторанов более разнообразна?

придумайте свои вопрос и найдите на него ответ в данных)

# Подбор параметров для модели

In [None]:
'''# # блок тестирования оптимального набора
list_ofAllColumnsSortImportant = list(feat_importances.nlargest(len(train_data.columns)-1).index)
MAE = 0.1724375
min_MAE = round(MAE,3)
print(f"min_MAE = {min_MAE}")
remove_list = []
log = []
delta =0.002

for i in range(0,len(list_ofAllColumnsSortImportant),1):
    col = list_ofAllColumnsSortImportant[i]
    print(f"{i}.{col}")
    ###

    X = train_data.drop(['Rating']+[col], axis=1)
    y = train_data['Rating']

    # Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
    # выделим 20% данных на валидацию (параметр test_size)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)
    print(df.shape, y.shape, X.shape, X_train.shape, X_test.shape)
    
    model_ = RandomForestRegressor(n_estimators=100, verbose=1, n_jobs=-1, random_state=RANDOM_SEED)
    model_.fit(X_train, y_train)

    y_pred = model_.predict(X_test)
    for i in range(y_pred.size):
        y_pred[i]=rating(y_pred[i])
        
    temp_MAE = metrics.mean_absolute_error(y_test, y_pred)
     ###
    print(temp_MAE)
    log.append([col, temp_MAE])
    if round(temp_MAE,3) <= min_MAE-delta:
        remove_list.append(col)
        print(f"удаляем:= {col}")
    else:
        print(f"не удаляем:= {col}")
print(f"i={i}")
print(f"remove_list: {remove_list}")
print(f"log_list: {log}")'''

### Блок подбора параметров задокументирован, чтобы не запускать снова долгие расчеты, результат сохранен в log_list

In [None]:
log_list = [['norm_Ranking_on_Rest_in_City', 0.172875], ['Number_of_Reviews', 0.2376875], 
            ['Rome', 0.17325], ['norm_Ranking_on_Pop_in_City', 0.17325], 
            ['Number_of_Reviews_isNAN', 0.173875], ['Ranking', 0.1729375], 
            ['time_to_now', 0.1773125], ['Period_rev', 0.1751875], ['code_Cuisine', 0.1716875], 
            ['code_City', 0.1735625], ['count_franchise', 0.1724375], ['Count_cuisine', 0.1731875], 
            ['Text_clean_len', 0.173375], ['Madrid', 0.173125], ['Population', 0.171875], 
            ['mean_Ranking_on_City', 0.173125], ['count_rest_in_city', 0.173125], 
            ['negative', 0.172375], ['regular_Cuisine_Style', 0.1725625], ['positive', 0.171], 
            ['regular', 0.1728125], ['Edinburgh', 0.17325], ['price_isNaN', 0.1736875], 
            ['econom', 0.1734375], ['Dates_num', 0.1733125], ['Mediterranean', 0.1729375], 
            ['Spanish', 0.17175], ['Italian', 0.1723125], ['European', 0.174], ['one_Review', 0.1721875], 
            ['Vegetarian Friendly', 0.1728125], ['French', 0.1726875], ['Pizza', 0.172875], 
            ['Cafe', 0.173625], ['Hamburg', 0.1726875], ['neutral', 0.1733125], ['Stockholm', 0.1733125], 
            ['Amsterdam', 0.172625], ['Asian', 0.1731875], ['niche_Cuisine_Style', 0.17325], 
            ['Oporto', 0.1719375], ['Vegan Options', 0.1733125], ['cuis_isNaN', 0.173625], 
            ['Fast Food', 0.1716875], ['Berlin', 0.1725], ['Pub', 0.17275], ['Bar', 0.1719375], 
            ['luxury', 0.172], ['Bratislava', 0.1723125], ['Milan', 0.1720625], ['Munich', 0.172375], 
            ['Prague', 0.172875], ['Dublin', 0.1733125], ['no_review', 0.1729375], 
            ['Gluten Free Options', 0.173625], ['Krakow', 0.172625], ['Budapest', 0.1749375], 
            ['Barcelona', 0.171875], ['Athens', 0.1718125], ['Vienna', 0.173], ['Paris', 0.173], 
            ['Warsaw', 0.1738125], ['Lisbon', 0.1726875], ['Lyon', 0.1725625], ['Copenhagen', 0.17375], 
            ['Helsinki', 0.173], ['Geneva', 0.1735625], ['Brussels', 0.1725], ['London', 0.1730625], 
            ['Oslo', 0.172375], ['Zurich', 0.17275], ['Luxembourg', 0.174], ['Ljubljana', 0.1725]]

### Лишних признаков не было выявлено

# Data Preprocessing
Теперь, для удобства и воспроизводимости кода, завернем всю обработку в одну большую функцию.

In [None]:
def preproc_data(df_input):
    '''includes several functions to pre-process the predictor data.'''
    
    df_output = df_input.copy()
    df_output.columns = [column.replace(' ','_') for column in df_output.columns]
    ##### Обработка признаков
    
    ###  Restaurant_id
    count_franchise = df_output['Restaurant_id'].value_counts()
    df_output['count_franchise'] = df_output['Restaurant_id'].apply(lambda x: count_franchise[x])
    
    ###  City
    le = LabelEncoder()
    le.fit(df_output['City'])
    df_output['code_City'] = le.transform(df_output['City'])

    count_rest_in_city = df_output['City'].value_counts()
    df_output['count_rest_in_city'] = df_output['City'].apply(lambda x: count_rest_in_city[x])
    
    city_dict = {'Paris': 2148.327, 'Helsinki':656.611, 'Edinburgh':488.1, 'London':8961.989, 'Bratislava':437.725, 
             'Lisbon':505.526,'Budapest':1752.286, 'Stockholm':961.609, 'Rome':2870.500, 'Milan':1378.689, 
             'Munich':1471.508,'Hamburg':1841.179,'Prague':1335.084, 'Vienna':1897.491, 'Dublin':1173.179, 
             'Barcelona':1664.182, 'Brussels':185.103,'Madrid':3266.126,'Oslo':673.469, 'Amsterdam':872.757, 
             'Berlin':3644.826, 'Lyon': 506.615, 'Athens':664.046, 'Warsaw':1789.620,
             'Oporto':231.962, 'Krakow':769.307, 'Copenhagen':1358.608, 'Luxembourg':636.739, 
             'Zurich':1407.572, 'Geneva':620.131,'Ljubljana':284.355}

    df_output['Population'] = df_output.apply(lambda row: city_dict[row['City']], axis=1)
    df_dum_Cit = pd.get_dummies(df_output['City'], dummy_na=False).astype('float64')
    df_output = pd.concat([df_output,df_dum_Cit], axis=1)
    
    ###  Cuisine_Style
    le.fit(df_output.Cuisine_Style)
    df_output['code_Cuisine'] = le.transform(df_output.Cuisine_Style)
    
    df_output['Cuisine_Style'] = df_output.Cuisine_Style.fillna("['cuis_isNaN']")
    df_output['Cuisine_Style'] = df_output.Cuisine_Style.str.findall(r"'(\b.*?\b)'")
    df_output['Count_cuisine'] = df_output.Cuisine_Style.apply(lambda x: len(x))

    def list_unrar(list_of_lists):
        result=[]
        for lst in list_of_lists:
            result.extend(lst)
        return result

    temp_list = df_output.Cuisine_Style.tolist()
    temp_Counter = Counter(list_unrar(temp_list))
    # список самых популярных кухонь
    list_of_popular = [x[0] for x in temp_Counter.most_common(15)]
    # список довольно редких кухонь (менее 90 упоминаний)
    list_of_niche = [x[0] for x in temp_Counter.most_common()[-50:]]
    # список кухонь средней частоты (все остальные)
    list_of_regular = [x[0] for x in temp_Counter.most_common()[15:-50]]
    df_output['niche_Cuisine_Style'] = df_output.Cuisine_Style.apply(lambda x: 1 if len(set(x) & set(list_of_niche))>0  else 0).astype('float64')
    df_output['regular_Cuisine_Style'] = df_output.Cuisine_Style.apply(lambda x: 1 if len(set(x) & set(list_of_regular))>0  else 0).astype('float64')
    # а самые популярные 15 кухонь выведем в отдельные категории
    for cuisine in list_of_popular:
        df_output[cuisine] = df_output.Cuisine_Style.apply(lambda x: 1 if cuisine in x else 0 ).astype('float64')
        
    ###  Ranking
    mean_Ranking_on_City = df_output.groupby(['City'])['Ranking'].mean()
    df_output['mean_Ranking_on_City'] = df_output.City.apply(lambda x: mean_Ranking_on_City[x])
    df_output['norm_Ranking_on_Rest_in_City'] = (df_output.Ranking - df_output.mean_Ranking_on_City) / df_output.count_rest_in_city
    df_output['norm_Ranking_on_Pop_in_City'] = (df_output.Ranking - df_output.mean_Ranking_on_City) / df_output.Population
    
    ###  Price_Range
    # заполним пропуски и выделим ценовые категории
    def price_range(x):
        if x=='$':
            return 'econom'
        elif x=='$$ - $$$':
            return 'regular'
        elif x=='$$$$':
            return 'luxury'
        return "price_isNaN"

    df_output.Price_Range = df_output.Price_Range.apply(price_range)
    price_list = list(set(df_output.Price_Range.tolist()))
    for price in price_list:
        df_output[price] = df_output.Price_Range.apply(lambda x: 1 if price in x else 0 ).astype('float64') 
        
    ###  Number_of_Reviews
    df_output['Number_of_Reviews_isNAN'] = pd.isna(df_output['Number_of_Reviews']).astype('float64')
    # заполним пропуски медианным по городу значением
    grp = df_output.groupby(['City'])
    df_output.Number_of_Reviews = grp.Number_of_Reviews.apply(lambda x: x.fillna(x.median()))
    
    ###  Reviews
    df_output['Reviews'] = df_output['Reviews'].fillna("[[], []]")
    # Обработаем даты
    df_output['Dates'] = df_output.Reviews.str.findall(r'\d{2}/\d{2}/\d{4}')
    df_output['Dates_num'] = df_output['Dates'].apply(len)
    # сохраним рестораны с одним отзывом
    df_output['one_Review'] = (df_output['Dates_num']==1).astype('float64')
    # функция определяет насколько давно был сделан самый свежий отзыв
    def time_to_now(row):
        if row['Dates'] == []:
            return None
        return datetime.datetime.now() - pd.to_datetime(row['Dates']).max()
    # функция для определения перерыва между отзывами
    def time_between_Reviews(row):
        if row['Dates'] == []:
            return None
        return pd.to_datetime(row['Dates']).max() - pd.to_datetime(row['Dates']).min()

    df_output['time_to_now'] = df_output.apply(time_to_now, axis = 1).dt.days
    df_output['Period_rev'] = df_output[df_output['Dates_num']==2].apply(time_between_Reviews, axis = 1).dt.days
    grp = df_output.groupby(['City'])
    df_output.time_to_now = grp.time_to_now.apply(lambda x: x.fillna(x.median()))
    df_output.Period_rev = grp.Period_rev.apply(lambda x: x.fillna(x.median()))
    # обработка текста
    # функция выдаст список слов отзыва сокращенных до корневой формы
    def lemmatize_stemming(text):
        return stemmer.stem(WordNetLemmatizer().lemmatize(text, pos='v'))  
    # функция удалит шумовые слова из текста
    def preprocess(text):
        result=[]
        for token in gensim.utils.simple_preprocess(text) :
            if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
                result.append(lemmatize_stemming(token))
        return result
    df_output['no_review'] = (df_output['Dates_num']==0).astype('float64')
    df_output['Text_clean'] = df_output['Reviews'].apply(lemmatize_stemming)
    df_output['Text_clean'] = df_output['Reviews'].apply(preprocess)
    df_output['Text_clean_len'] = df_output['Text_clean'].apply(len) 
    
    # выделим списки популярных слов в соответствии с оценкой
    positive = ['good','great','nice','best','excel','delicio','love','delici','friendli','amaz','tasti',
                'atmospher','authent','fantast','quick''perfect','qualiti','wonder','cheap',
                'fresh','tast','surpris','cozi','reason','cosi','better','worth','famili','fast',
                'pleasant','awesom','super','like','real','beauti','relax','recommend','enjoy',
                'superb','special','yummi','welcom','cool','fabul','interest','healthi','quiet',
                'favourit','delight','high','brilliant','warm','favorit','charm','outstand','cute',
                'pricey','pretti','curri','happi','highli','ambianc','vibe','heart','comfort','incred',
                'modern','ambienc','fair','conveni','uniqu','surprisingli','clean','lover','heaven','chill',
                'sweet','fare','quirki','honest','genuin','class','true','attent','stylish','trendi','return',
                'popular','creativ','inexpens','flavor','romant','hospit','satisfi','atmosph','gorgeou','joint',
                'eleg','proper','usual','intim','treasur','gourmet','athen','truli','sure','reliabl','ideal',
                'ingredi','host','unusu','celebr','care','hearti','effici','perfectli','fanci','pleasur','smile',
                'thank','exquisit','fashion','paradis','refresh','pleasantli','jewel','lucki','freshli','fairli',
                'spectacular','innov','funki','magic','supper','unbeliev','feast','rustic','smoothi','entertain',
                'michelin','highlight','calm','ambient','posit','atmo','correct','inspir','dream','familiar','glad',
               'friendliest','greatest','nicest','wholesom','tranquil','comfi','attract','amazingli','frendli',
                'pleasent','flavoursom','yumm','excellen','atmosfer','luxuri','royal','freshest','perfecto','tremend',
                'deliciu','freindli','frindli','amateur','nicer','greater','brilliantli','coolest','respect','goood']
    negative = ['disapoint','dissapoint','worst','tasteless','rat','horribl','prici','crepe','problem','wast',
                'terribl','bore','mediocr','dissapoint','rude','overpric','disappoint','lack','noisi','slow',
                'expens','poor','disgust','avoid','trap','shame','unfriendli','bewar','dirti','unpleas','unpleas',
                'underwhelm','rubbish','weird','worthi','scam','poorli','expensi','complaint','cheater','dishonest',
                'unwelcom','nope','uninterest','rough','horrend','rudest','disrespect','horrif','pour','slowest',
                'jerk','impolit']
    neutral = ['averag','decent','ordinari','regular','simpl','alright','typic','okay','normal','casual','middl',
               'simpli','classi','standard']

    # создадим признаки с эмоциональной окраской текста отзыва
    df_output['positive'] = df_output['Text_clean'].apply(lambda x: 1 if len(set(x) & set(positive))>0  else 0).astype('float64')
    df_output['negative'] = df_output['Text_clean'].apply(lambda x: 1 if len(set(x) & set(negative))>0  else 0).astype('float64')
    df_output['neutral'] = df_output['Text_clean'].apply(lambda x: 1 if len(set(x) & set(neutral))>0  else 0).astype('float64')

    # убираем не нужные для модели признаки
    df_output.drop(['ID_TA','URL_TA','Dates', 'Restaurant_id'], axis = 1, inplace=True)
    # удалим все нечисловые колонки
    object_columns = [s for s in df_output.columns if df_output[s].dtypes == 'object']
    df_output.drop(object_columns, axis = 1, inplace=True)
    
    ###  Стандартизация
    # функция для стандартизации
    def RobustScaler_column(d_col):
        scaler = RobustScaler()
        scaler.fit(df_output[[d_col]])
        return scaler.transform(df_output[[d_col]])
    # стандартизируем все столбцы кроме целевой и Sample
    for i  in list(df_output.columns):
        if i not in ['Rating','sample']:
            df_output[i] = RobustScaler_column(i)
            
    return df_output

In [None]:
data.info()

#### Запускаем и проверяем что получилось

In [None]:
df_preproc = preproc_data(data)
df_preproc.head(10)

In [None]:
df_preproc.info()

In [None]:
# Теперь выделим тестовую часть
train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

y = train_data.Rating.values            # наш таргет
X = train_data.drop(['Rating'], axis=1)

**Перед тем как отправлять наши данные на обучение, разделим данные на еще один тест и трейн, для валидации. 
Это поможет нам проверить, как хорошо наша модель работает, до отправки submissiona на kaggle.**

In [None]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)

In [None]:
# проверяем
test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

# Model 
Сам ML

In [None]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [None]:
# Создаём модель (НАСТРОЙКИ НЕ ТРОГАЕМ)
model = RandomForestRegressor(n_estimators=100, verbose=1, n_jobs=-1, random_state=RANDOM_SEED)

In [None]:
# Обучаем модель на тестовом наборе данных
model.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = model.predict(X_test)

def rating(prediction):
        if prediction < 0.25:
            return 0
        elif 0.25 < prediction <= 0.75:
            return 0.5
        elif 0.75 < prediction <= 1.25:
            return 1
        elif 1.25 <prediction <= 1.75:
            return 1.5
        elif 1.75 < prediction <= 2.25:
            return 2
        elif 2.25 < prediction <= 2.75:
            return 2.5
        elif 2.75 < prediction <= 3.25:
            return 3
        elif 3.25 < prediction <= 3.75:
            return 3.5
        elif 3.75 < prediction <= 4.25:
            return 4
        elif 4.25 < prediction <= 4.75:
            return 4.5
        else:
            return 5
        
for i in range(y_pred.size):
        y_pred[i]=rating(y_pred[i])

In [None]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

In [None]:
# в RandomForestRegressor есть возможность вывести самые важные признаки для модели
plt.rcParams['figure.figsize'] = (10,10)
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(25).plot(kind='barh')

# Submission
Если все устраевает - готовим Submission на кагл

In [None]:
test_data.head(10)

In [None]:
test_data = test_data.drop(['Rating'], axis=1)

In [None]:
sample_submission

In [None]:
predict_submission = model.predict(test_data)

In [None]:
for i in range(predict_submission.size):
        predict_submission[i]=rating(predict_submission[i])
predict_submission

In [None]:
sample_submission['Rating'] = predict_submission
sample_submission.to_csv('submission.csv', index=False)
sample_submission.head(10)

# What's next?
Или что делать, чтоб улучшить результат:
* Обработать оставшиеся признаки в понятный для машины формат
* Посмотреть, что еще можно извлечь из признаков
* Сгенерировать новые признаки
* Подгрузить дополнительные данные, например: по населению или благосостоянию городов
* Подобрать состав признаков

В общем, процесс творческий и весьма увлекательный! Удачи в соревновании!
