![](https://www.pata.org/wp-content/uploads/2014/09/TripAdvisor_Logo-300x119.png)
# Predict TripAdvisor Rating
## В этом соревновании нам предстоит предсказать рейтинг ресторана в TripAdvisor
**По ходу задачи:**
* Прокачаем работу с pandas
* Научимся работать с Kaggle Notebooks
* Поймем как делать предобработку различных данных
* Научимся работать с пропущенными данными (Nan)
* Познакомимся с различными видами кодирования признаков
* Немного попробуем [Feature Engineering](https://ru.wikipedia.org/wiki/Конструирование_признаков) (генерировать новые признаки)
* И совсем немного затронем ML
* И многое другое...   



### И самое важное, все это вы сможете сделать самостоятельно!

*Этот Ноутбук являетсся Примером/Шаблоном к этому соревнованию (Baseline) и не служит готовым решением!*   
Вы можете использовать его как основу для построения своего решения.

> что такое baseline решение, зачем оно нужно и почему предоставлять baseline к соревнованию стало важным стандартом на kaggle и других площадках.   
**baseline** создается больше как шаблон, где можно посмотреть как происходит обращение с входящими данными и что нужно получить на выходе. При этом МЛ начинка может быть достаточно простой, просто для примера. Это помогает быстрее приступить к самому МЛ, а не тратить ценное время на чисто инженерные задачи. 
Также baseline являеться хорошей опорной точкой по метрике. Если твое решение хуже baseline - ты явно делаешь что-то не то и стоит попробовать другой путь) 

В контексте нашего соревнования baseline идет с небольшими примерами того, что можно делать с данными, и с инструкцией, что делать дальше, чтобы улучшить результат.  Вообще готовым решением это сложно назвать, так как используются всего 2 самых простых признака (а остальные исключаются).

# import

In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

from datetime import datetime
import re 
from collections import Counter
from sklearn import preprocessing

import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline

# Загружаем специальный удобный инструмент для разделения датасета:
from sklearn.model_selection import train_test_split

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [2]:
# всегда фиксируйте RANDOM_SEED, чтобы ваши эксперименты были воспроизводимы!
RANDOM_SEED = 42

In [3]:
# зафиксируем версию пакетов, чтобы эксперименты были воспроизводимы:
!pip freeze > requirements.txt

# DATA

In [4]:
DATA_DIR = '/kaggle/input/sf-dst-restaurant-rating/'
df_train = pd.read_csv(DATA_DIR+'/main_task.csv')
df_test = pd.read_csv(DATA_DIR+'kaggle_task.csv')
sample_submission = pd.read_csv(DATA_DIR+'/sample_submission.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/kaggle/input/sf-dst-restaurant-rating//main_task.csv'

In [None]:
#  Добавим дополнительные данные
worldcities = pd.read_csv('worldcities.csv')
сost_of_living_index = pd.read_csv('/kaggle/input/cost-of-living-index-by-country/Cost_of_living_index.csv')

In [None]:
df_train.info()

In [None]:
# отметим колонки которые будем удалять
drop_col = ['Restaurant_id', 'Cuisine Style' , 'Price Range',
            'Reviews', 'URL_TA', "ID_TA"] 

In [None]:
df_train.head(5)

In [None]:
df_test.info()

In [None]:
df_test.head(5)

In [None]:
sample_submission.head(5)

In [None]:
sample_submission.info()

In [None]:
# ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
df_train['sample'] = 1 # помечаем где у нас трейн
df_test['sample'] = 0 # помечаем где у нас тест
df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем

In [None]:
data.info()

Подробнее по признакам:
* City: Город 
* Cuisine Style: Кухня
* Ranking: Ранг ресторана относительно других ресторанов в этом городе
* Price Range: Цены в ресторане в 3 категориях
* Number of Reviews: Количество отзывов
* Reviews: 2 последних отзыва и даты этих отзывов
* URL_TA: страница ресторана на 'www.tripadvisor.com' 
* ID_TA: ID ресторана в TripAdvisor
* Rating: Рейтинг ресторана

In [None]:
data.sample(5)

In [None]:
data.Reviews[1]

Как видим, большинство признаков у нас требует очистки и предварительной обработки.

# Предобработка внешней информации.

# worldcities - Население

In [None]:
worldcities.head()


In [None]:
worldcities.info()

In [None]:
#замена наименований городов
worldcities.loc[worldcities.city_ascii == 'Porto', 'city_ascii'] = 'Oporto'
worldcities.loc[worldcities.city_ascii == 'Zürich', 'city_ascii'] = 'Zurich' 
worldcities.loc[worldcities.city_ascii == 'Kraków', 'city_ascii'] = 'Krakow'

In [None]:
# из дополнительного датасета по населению городов выбираем только нужные нам города Европы
worldcities = worldcities[(worldcities.city_ascii.isin(data.City.unique()))&
                  (worldcities.country != 'United States') &
                  (worldcities.country != 'Canada') &
                  (worldcities.country != 'Venezuela') &
                  (worldcities.country != 'Philippines') &
                  (worldcities.country != 'Colombia') &
                  (worldcities.country != 'Brazil')]
# удаляем ненужные столбцы
worldcities = worldcities.drop(['city', 'lat','lng','country','iso2','iso3','admin_name','id','capital'], axis=1)

In [None]:
worldcities

In [None]:
worldcities.describe()

Пропусков нету. Явные выбросы не обнаружены Данные можно вносить в наш дата фрейм.

# сost_of_living_index

In [None]:
сost_of_living_index.drop(сost_of_living_index[
    сost_of_living_index.City == 'London, Canada'].index, inplace = True)

In [None]:
# в датасете уровня жизни городов обрезаем в колоне City название города
сost_of_living_index.City = сost_of_living_index.City.apply(lambda x:x.split(',')[0])
# Преобразуем название городов которые не совпадают с названьями в тестовом дата фрейме
сost_of_living_index.loc[сost_of_living_index.City == 'Krakow (Cracow)', 'City'] = 'Krakow'
сost_of_living_index.loc[сost_of_living_index.City == 'Porto','City'] = 'Oporto'
# из дополнительного датасета по населению городов выбираем только нужные нам города Европы
сost_of_living_index = сost_of_living_index[(сost_of_living_index.City.isin(data.City.unique()))] 
сost_of_living_index

In [None]:
сost_of_living_index.info()

In [None]:
сost_of_living_index.describe()

Пропусков нету. Явные выбросы не обнаружены Данные можно вносить в наш дата фрейм.

# Cleaning and Prepping Data
Обычно данные содержат в себе кучу мусора, который необходимо почистить, для того чтобы привести их в приемлемый формат. Чистка данных — это необходимый этап решения почти любой реальной задачи.   
![](https://analyticsindiamag.com/wp-content/uploads/2018/01/data-cleaning.png)

## 1. Обработка NAN 
У наличия пропусков могут быть разные причины, но пропуски нужно либо заполнить, либо исключить из набора полностью. Но с пропусками нужно быть внимательным, **даже отсутствие информации может быть важным признаком!**   
По этому перед обработкой NAN лучше вынести информацию о наличии пропуска как отдельный признак 

Пройдемся по каждому столбцу, и познакомимся с данными по ближе.

# Restaurant_id 

In [None]:
# Посмотрим количество уникальных значений и их количество
data.Restaurant_id.value_counts()

In [None]:
yyy = data[['Restaurant_id',"Rating" ]].groupby("Restaurant_id")

В общем дата фрейме предоставлено 50000 строк, а у нас всего 13094 уникальных значений ID, отметим, что у нас есть сетевые рестораны, либо у ресторанов один владелец. Отсутствуют пропуски в признаке.

# City

In [None]:
# Посмотрим количество уникальных значений и их количество
print('Количество уникальных городов', len(data.City.unique()))
data.City.value_counts()

In [None]:
plt.figure(figsize=(18, 7))
sns.boxplot(x='City', y='Rating', data=data[data['sample'] == 1])
plt.xticks(rotation=90);

В дата фрейме 31 уникальный город. Отсутствуют пропуски в признаке.    
Отметим, у Рима самые высокие оценки.

# **Cuisine Style**

Первый столбце, где есть пропуски это Cuisine Style. Отметим данные пропуски в отдельном столбце. Предположим, что в данных ресторанах предложена местная кухня и заполним её значением значением local.

In [None]:
data['Number_of_Cuisine_Style_isNAN'] = pd.isna(data['Cuisine Style']).\
                                        astype('uint8')

In [None]:
data['Cuisine Style'].fillna("local", inplace=True)

# *Price Range*

В связи с тем, что в данных есть сетевые ресторыны, применим следующую логику.      
    1) для начала отметим все данные где есть пропуски.     
    2) если ресторан сетевой. То ставиь наиболее популярный ценовой рейтинг в данной сети.    
    3) если ресторан только один, то ставим минимальный рейнитинг.     

In [None]:
data['Price_Range_isNAN'] = pd.isna(data['Price Range']).astype('uint8')

Создадим список, который будет хранить ID ресторана и наиболее популярную категорию цену.
Пропуски сразу заполним "$"

In [None]:
most_com_price = data[["Restaurant_id", "Price Range"]].\
groupby("Restaurant_id").apply(lambda x: x.mode()).fillna("$")

Далее напишем код, который будет возвращать нам значение в соответствии с заданной нами логикой. И сразу же применим его к дата фрейму.

In [None]:
                                                                        
def fill_price_na(x):
    '''Код принимает в себя всю строку и возращает значение
    price range в зависемости нулевое это значение или нет'''
    if pd.isna(x['Price Range']):
        return most_com_price.loc[x["Restaurant_id"]]["Price Range"][0]
    else:
        return x["Price Range"]

In [None]:
data["Price Range"] = data.apply(lambda x: fill_price_na(x), axis = 1)

In [None]:
data.info()

# **Number of Reviews**

Данный столбик неразрывно связан с Reviews. Так же при более детальном просмотре, можно заметить, что в некоторых строках у нас есть комментарии, хотя их фактическое количество не указано.

In [None]:
# Например
data.iloc[74]

Поэтому будем использовать следующий подход к заполнению пропусков.    
Оставлять значение если оно указано.    
Если значение не указано, будем проверять есть ли комментарии в Reviews, подсчитывать их и возвращать значение комментариев либо 0 если пусто.    
Отметим, что в данных указано максимально 2 комментария в столбцу Reviews.   
А все пустые значение Reviews отмечены как [[], []], и длинна такой строки составляет 8. Больше комментариев с такой длинной нету. Поэтому пропуск можно вычислить по длине строки.
Количество комментариев (1 или 2) можно вычислить через функцию сплит.
Т.к. если в столбце указан два комментария, то используется шаблон "[['Good for a quick lunch', 'A good option'], ['01/10/2018', '12/29/2017']]", и если использовать сплит по ("', '"), то у нас получится лист длинной 3.    
При одном комментарии в столбце используется маска "[['Good, not Great'], ['01/20/2015']]"Если использовать такой же сплит этой маске, то получим лист с длинной один.  
Первым делом отметим все пропущенные значения.

In [None]:
data['Number_of_Reviews_isNAN'] = pd.isna(data['Number of Reviews'])\
                                  .astype('uint8')

Снова напишем функцию для заполнения. 

In [None]:
def fill_Number_of_Reviews(x):
    '''функция принимает в себя строку, и проверяет есть ли комментарии 
    в Reviews и возвращает соответствующие значение'''
    
    if pd.isna(x["Number of Reviews"]):
        if pd.isna(x["Reviews"]):
            return 0
        if len(x["Reviews"]) == 8:
            return 0
        else:
            list_ = x["Reviews"].split("', '")
            if len(list_) == 3:
                return 2
            else:
                return 1
    else:
        return x["Number of Reviews"]

In [None]:
data["Number of Reviews"] = data.apply(lambda x: fill_Number_of_Reviews(x),
                                       axis=1)

Теперь посмотрим на распределение признака.

In [None]:
data["Number of Reviews"].describe()

In [None]:
# Посмотрим на моду
data["Number of Reviews"].mode()

In [None]:
data["Number of Reviews"].hist()

In [None]:
sns.boxplot(data["Number of Reviews"])

Принимаем решение, все значение свыше 200 будет объединены в одну группу. И присвоим им значение рейтинга равное 200.

In [None]:
data["Number of Reviews"] = data["Number of Reviews"].apply(lambda x:
                                                            200 if x>200 else x)

# **Reviews**

Reviews содержит всего 2 Nan, заполним пропуски пустой строкой.

In [None]:
data['Reviews'].fillna("[[], []]", inplace=True)

In [None]:
# Проверим ещё раз данные на пропуски
data.info()

Все заполнено. Идем дальше

### 2. Обработка признаков
Для начала посмотрим какие признаки у нас могут быть категориальными.

In [None]:
data.nunique(dropna=False)

Прежде чем приступить к обработке столбца City мы сгенерируем новый признак - количество ресторанов в одном городе.

#### Возьмем следующий признак "Price Range".

In [None]:
data['Price Range'].value_counts()

По описанию 'Price Range' это - Цены в ресторане.  
Их можно поставить по возрастанию (значит это не категориальный признак). А это значит, что их можно заменить последовательными числами, например 1,2,3 

In [None]:
data['Price Range'].value_counts()

In [None]:
code_price_range = {"$$ - $$$": 2, "$": 1, "$$$$": 3}

In [None]:
data["label_encoding_price"] = data['Price Range'].apply(lambda x:
                                                   code_price_range[x])

> Для некоторых алгоритмов МЛ даже для не категориальных признаков можно применить One-Hot Encoding, и это может улучшить качество модели. Пробуйте разные подходы к кодированию признака - никто не знает заранее, что может взлететь.

### Обработка Cuisine Style

In [None]:
# Преобразуем значение str в лист. 
data["Cuisine Style"] = data["Cuisine Style"].str.replace("'", "")\
                        .str.strip('''['']''').str.split(', ')

In [None]:
# Найдем уникальные значения.
unique_cuisine_style = set()
for list_ in data["Cuisine Style"]:
    unique_cuisine_style.update(list_)

Закодируем данные перед построением модели, дабы не затруднять анализ данных на данном этапе.

### Обработка Reviews

#  Найдем в Reviews даты и занесем их в новый столбки


In [None]:
data['Reviews data'] = data['Reviews'].apply(lambda x:
                                             re.findall(r"\d\d\/\d\d\/\d{4}",
                                                        str(x)))
data[['Date_1','Date_2']] = data['Reviews data'].apply(pd.Series, 1)
data['Date_1'] = pd.to_datetime(data['Date_1'])
data['Date_2'] = pd.to_datetime(data['Date_2'])
# вычислим разницу между датами
data['Delta review'] = abs(data['Date_1'] - data['Date_2'])
# приведем разницу в дни
data['Delta review'] = data['Delta review'].dt.days
# пропуски заполняем средним значением
data['Delta review'].fillna(round(data['Delta review'].mean()), inplace=True)

In [None]:
# Сразу же удалим ненужные столбцы 
data.drop('Date_1', axis=1, inplace=True)
data.drop('Date_2', axis=1, inplace=True)

![](https://cs10.pikabu.ru/post_img/2018/09/06/11/1536261023140110012.jpg)

# EDA 
Теперь займемся самым интересным.   
[Exploratory Data Analysis](https://ru.wikipedia.org/wiki/Разведочный_анализ_данных) - Анализ данных
На этом этапе мы строим графики, ищем закономерности, аномалии, выбросы или связи между признаками.
В общем цель этого этапа понять, что эти данные могут нам дать и как признаки могут быть взаимосвязаны между собой.
Понимание изначальных признаков позволит сгенерировать новые, более сильные и, тем самым, сделать нашу модель лучше.
![](https://miro.medium.com/max/2598/1*RXdMb7Uk6mGqWqPguHULaQ.png)

Создадим новые признаки. 
1) Количество ресторанов с одним ID. Предположим, что это сетевые рестораны или рестораны с одним владельцем.     
2) Количество ресторанов в одном городе.    
3) Население в городе.   
4) Количество слов, которые придают положительный или негативный оттенок в комментариях.    
5) Добавим признак. Количество кухонь в ресторане.   
6) Отметим столицы.   
7) Присоединим таблицу сost_of_living_index..         
8) Отметим, к какой части Европы относятся города    
9) Отметим топ 10 самых встречающихся городов в выборке    
10) Добавим новый признак. Количество слов в комментариях    
Прежде чем мы начнем считать новые признаки на основе старых, нормализуем числовые признаки.    
11) Добавим признак. Население в городе, деленное на количество ресторанов.    
12) Добавим признак. Население в городе деленное, на количество кухонь.    
13) Добавим признак. Население в городе, деленное на рейтинг стоимости.   
14) Вычисляем относительную позицию ресторана среди всех ресторанов города    
15) Добавим признак. Рейтинг стоимости, умноженный на стоимость жизни     
16) Добавим признак. Рейтинг стоимости, деленный на покупательскую способность    
17) Добавим признак. Покупательскую способность разделим на население    
18) Добавим признак. Как часто оставляют отзывы. Разделим население на количество отзывов    



# 1) Количество ресторанов с одним ID. Предположим, что это сетевые рестораны или рестораны с одним владельцем. 

In [None]:
number_by_ID = data["Restaurant_id"].value_counts()
data["number_by_ID"] = data["Restaurant_id"].apply(
    lambda x: number_by_ID[x])

# 2) Количество ресторанов в одном городе.

In [None]:
# Количество ресторанов в одном городе.
number_by_city = data["City"].value_counts()
data["number_by_city"] = data["City"].apply(
    lambda x: number_by_city[x])

# 3) Население в городе.   

In [None]:
data = data.join(worldcities.set_index('city_ascii'), on='City') 

# 4) Количество слов, которые придают положительный или негативный оттенок в комментариях.    

In [None]:
def count_words(line, words):
    '''Функция принимает на вход строку и список слов
    и возвращает количество слов встреченных в строке из списка '''
    list_count = list()
    for text in line:
        text_words = set(re.findall(r'\w+', text.casefold()))
        test = sum(w in text_words for w in set(map(str.casefold, words)))
        list_count.append(test)
    return list_count


In [None]:
# Список слов с положительным оттенком.
good_words = ['good', 'great', 'nice', 'best', 'excellent', 'delicious',
             'friendly', 'lovely', 'amazing', 'tasty', 'fine',
              'Piping hot', 'Tender' , 'well', 'palatable']

In [None]:
# Список слов с отрицательным оттенком.
bad_words = ['terrible', 'horrible', 'awful', 'dreadful', 'horrendous',
             'Raw', 'Tasteless', 'Bland ','Salty', 'Bitter', 'Sour',
             'Rancid', 'Tough']

In [None]:
# Выделим отдельные списки, и запустим нашу функцию.
data_Reviews = data["Reviews"]
count_of_good_words = count_words(data_Reviews, good_words)
count_of_bad_words = count_words(data_Reviews, bad_words)

In [None]:
# Добавим результаты в дата фрейм
data["count_of_good_words"] = count_of_good_words
data["count_of_bad_words"] = count_of_bad_words

In [None]:
# Посмотрим сразу и на распределение новых признаков
data[["count_of_good_words", "count_of_bad_words"]].describe()

Смотря на данные можно сделать вывод, что люди чаще оставляют положительный отзыв.

# 5) Добавим признак. Количество кухонь в ресторане.     

In [None]:
# Количество кухонь в городе. 
def city_cuisine_count (cuis_st):
    '''функция принимает сгруппированные по городу данные
    и возвращает количество уникальных стилей кухонь по городу'''
    cuisine_set = set()
    
    for x in cuis_st["Cuisine Style"]:
        cuisine_set.update(x)
    return len(cuisine_set) 



number_of_unique_cuisines = data[['City','Cuisine Style']]\
.groupby('City').apply(lambda x: city_cuisine_count(x))

data['number_of_unique_cuisines'] = data.City.map(number_of_unique_cuisines)

# 6) Отметим столицы.    

In [None]:
# Отметим столицы.
# Для начала создадим список со столицами
capital = ['Barcelona', 'Milan', 'Hamburg', 'Munich', 
                          'Lyon', 'Zurich', 'Oporto', 'Geneva', 'Krakow']
data['is_capital'] = data['City'].apply(lambda x: 0 if x in capital else 1)

# 7) Присоеденим таблицу сost_of_living_index.         

In [None]:
data = data.join(сost_of_living_index.set_index('City'), on='City') 

# 8) Отметим, к какой части Европы относятся города.     

In [None]:
# Предварительно отсортируем и создадим списки. 
city = data['City']
westert_europe = ['Paris', 'Edinburgh', 'London', 'Munich', 'Hamburg',
                  'Vienna', 'Dublin', 'Brussels', 'Amsterdam', 'Berlin',
                  'Lyon', 'Luxembourg'
                 ]
northern_europe = ['Helsinki', 'Stockholm', 'Oslo', 'Copenhagen', 'Zurich',
                   'Geneva'
                  ]
eastern_europe = ['Bratislava', 'Budapest', 'Prague', 'Warsaw', 'Krakow']
southern_europe = ['Lisbon', 'Rome', 'Milan', 'Barcelona', 'Madrid', 'Athens',
                   'Oporto', 'Ljubljana'
                  ]

In [None]:
#  Напишем функцию для заполнения наших признаков.
def europe_coding(city, europe_type):
    '''Функция принимает списко городов и список городов входящих
    в определунню часть европу'''
    for i in city:
        if i in europe_type:
            return 1
        else:
            return 0

In [None]:
is_westert_europe = europe_coding(city, westert_europe)
is_northern_europe = europe_coding(city, northern_europe)
is_eastern_europe = europe_coding(city, eastern_europe)
is_southern_europe = europe_coding(city, southern_europe)
data['is_westert_europe'] = is_westert_europe
data['is_northern_europe'] = is_northern_europe
data['is_eastern_europe'] = is_eastern_europe
data['is_southern_europe'] = is_southern_europe

Отметим, что в выборке больше всего данных из Восточной Европы и меньше всего из Восточной Европы. 

# 9) Отметим топ 10 самых встречающихся городов в выборке. 

In [None]:
# Отметим топ 10 самых больших городов
top_10_city = data['City'].value_counts()[0:10].index
# Создадим наш будущий признак, воспользуемся функцией europe_coding
top_10_city_list = europe_coding(top_10_city,data["City"])
data["Top_10_City"] = top_10_city_list

# 10) Добавим новый признак. Количество слов в комментариях**

In [None]:
#  Напишем функцию, для нахождения количества слов
def count_words (rev):
    '''Функция принимает в себя строку 
    и возращает её длинну'''
    sentence = rev.split("], [")[0]
    sentence = sentence.replace('[',"").replace("'","")
    return (len(sentence.split(" ")))


In [None]:
data["count_words"] = data["Reviews"].apply(lambda x: count_words(x))

# **Прежде чем мы начнем считать новые признаки на основе старых, нормализуем числовые признаки.**

In [None]:
for i in data:
    if not(data[i].dtype == object):
        array_before =  np.array(data[i])
        array_before = array_before.reshape(1, -1)
        array_normalize = preprocessing.normalize(array_before)
        array_after = array_before.reshape(-1,1)
        data[i] = array_after

# 11) Добавим признак. Население в городе, деленное на количество ресторанов.

In [None]:
data['pop_res'] = data.apply(lambda x: x['population'] / x["number_by_city"],
                             axis=1)


# 12) Добавим признак. Население в городе деленное, на количество кухонь.  

In [None]:
data['pop_cuis'] = data.apply(lambda x:
                              x['population'] / x['number_of_unique_cuisines'],
                              axis=1)

# 13) Добавим признак. Население в городе, деленное на рейтинг стоимости.   

In [None]:
data['pop_price'] = data.apply(lambda x:
                              x['population'] / x['label_encoding_price'],
                              axis=1)

# 14) Вычисляем относительную позицию ресторана среди всех ресторанов города

In [None]:
data["rank_number_by_city"] = data['Ranking'] / data['number_by_city']

# 15) Добавим признак. Рейтинг стоимости, умноженный на стоимость жизни

In [None]:
data['price_cost_of_liv'] = data.apply(lambda x:
                            x['label_encoding_price']/ x['Cost of Living Index'],
                              axis=1)

# 16) Добавим признак. Рейтинг стоимости, деленный на покупательскую способность

In [None]:
data['price_pur_power'] = data.apply(lambda x:
                            x['label_encoding_price'] / x['Local Purchasing Power Index'],
                              axis=1) 

# 17) Добавим признак. Покупательскую способность умножим на население

In [None]:
data['pop_loc_pur'] = data.apply(lambda x:
                            x['Local Purchasing Power Index'] *  x['population'],
                              axis=1)

# 18) Добавим признак. Как часто оставляют отзывы. Разделим население на количество отзывов

In [None]:
data['pop_num_rev'] = data.apply(lambda x:
                            x['population'] / x['Number of Reviews']
                                 if x['Number of Reviews'] != 0  else 0,
                              axis=1)

### Посмотрим распределение признака

In [None]:
plt.rcParams['figure.figsize'] = (10,7)
df_train['Ranking'].hist(bins=100)

У нас много ресторанов, которые не дотягивают и до 2500 места в своем городе, а что там по городам?

In [None]:
df_train['City'].value_counts(ascending=True).plot(kind='barh')

А кто-то говорил, что французы любят поесть=) Посмотрим, как изменится распределение в большом городе:

In [None]:
df_train['Ranking'][df_train['City'] =='London'].hist(bins=100)

In [None]:
# посмотрим на топ 10 городов
for x in (df_train['City'].value_counts())[0:10].index:
    df_train['Ranking'][df_train['City'] == x].hist(bins=100)
plt.show()

### Посмотрим распределение целевой переменной

In [None]:
df_train['Rating'].value_counts(ascending=True).plot(kind='barh')

### Посмотрим распределение целевой переменной относительно признака

In [None]:
df_train['Ranking'][df_train['Rating'] == 5].hist(bins=100)

In [None]:
df_train['Ranking'][df_train['Rating'] < 4].hist(bins=100)

In [None]:
data.info()

# **Закодируем "Cuisine Style" и 'City'**

In [None]:
# закодируем City Способом One-Hot Encoding в pandas есть готовая функция - get_dummies. Особенно радует параметр dummy_na
data = pd.get_dummies(data, columns=[ 'City',], dummy_na=True)

Напишем функцию, которая проведет кодирование,    
но предварительно из уникальных кухонь удалим local    
т.к. данный столбец будет полностью повторять 'Number_of_Cuisine_Style_isNAN'


In [None]:
unique_cuisine_style.remove("local")

for cuisine in unique_cuisine_style:
    cuisine_array = list() # лист для добавления в датафрейм
    for cuisine_data in data["Cuisine Style"]:
        if cuisine in cuisine_data:
            cuisine_array.append(1)
        else:
            cuisine_array.append(0)
    data[cuisine] = cuisine_array

### И один из моих любимых - [корреляция признаков](https://ru.wikipedia.org/wiki/Корреляция)
На этом графике уже сейчас вы сможете заметить, как признаки связаны между собой и с целевой переменной.

In [None]:
plt.rcParams['figure.figsize'] = (15,10)
sns.heatmap(data.drop(['sample'], axis=1).corr())

# Data Preprocessing
Теперь, для удобства и воспроизводимости кода, завернем всю обработку в одну большую функцию.

#### Запускаем и проверяем что получилось

In [None]:
# Удалим все object признаки
for i in data:
    if data[i].dtype == object:
        data.drop(i,axis=1,inplace = True)

In [None]:
df_preproc = data

In [None]:
# Теперь выделим тестовую часть
train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

y = train_data.Rating.values            # наш таргет
X = train_data.drop(['Rating'], axis=1)

**Перед тем как отправлять наши данные на обучение, разделим данные на еще один тест и трейн, для валидации. 
Это поможет нам проверить, как хорошо наша модель работает, до отправки submissiona на kaggle.**

In [None]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)

In [None]:
# проверяем
test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

# Model 
Сам ML

In [None]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [None]:
# Создаём модель (НАСТРОЙКИ НЕ ТРОГАЕМ)
model = RandomForestRegressor(n_estimators=100, verbose=1, n_jobs=-1, random_state=RANDOM_SEED)

In [None]:
# Обучаем модель на тестовом наборе данных
model.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = model.predict(X_test)

# # Округлим предсказанные значения до степени округления целевой переменной

def rating(prediction):
        if prediction < 0.25:
            return 0
        elif 0.25 < prediction <= 0.75:
            return 0.5
        elif 0.75 < prediction <= 1.25:
            return 1
        elif 1.25 < prediction <= 1.75:
            return 1.5
        elif 1.75 < prediction <= 2.25:
            return 2
        elif 2.25 < prediction <= 2.75:
            return 2.5
        elif 2.75 < prediction <= 3.25:
            return 3
        elif 3.25 < prediction <= 3.75:
            return 3.5
        elif 3.75 < prediction <= 4.25:
            return 4
        elif 4.25 < prediction <= 4.75:
            return 4.5
        else:
            return 5
        
for i in range(y_pred.size):
        y_pred[i]=rating(y_pred[i])

In [None]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

In [None]:
# в RandomForestRegressor есть возможность вывести самые важные признаки для модели
plt.rcParams['figure.figsize'] = (10,10)
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(30).plot(kind='barh')

# Submission
Если все устраевает - готовим Submission на кагл

In [None]:
test_data.sample(10)

In [None]:
test_data = test_data.drop(['Rating'], axis=1)

In [None]:
sample_submission

In [None]:
predict_submission = model.predict(test_data)

In [None]:
# Применим постпроцессинг
for i in range(predict_submission.size):
        predict_submission[i]=rating(predict_submission[i])

In [None]:
predict_submission

In [None]:
sample_submission['Rating'] = predict_submission
sample_submission.to_csv('submission.csv', index=False)
sample_submission.head(10)