![](https://www.pata.org/wp-content/uploads/2014/09/TripAdvisor_Logo-300x119.png)
# Predict TripAdvisor Rating
## В этом соревновании нам предстоит предсказать рейтинг ресторана в TripAdvisor
**По ходу задачи:**
* Прокачаем работу с pandas
* Научимся работать с Kaggle Notebooks
* Поймем как делать предобработку различных данных
* Научимся работать с пропущенными данными (Nan)
* Познакомимся с различными видами кодирования признаков
* Немного попробуем [Feature Engineering](https://ru.wikipedia.org/wiki/Конструирование_признаков) (генерировать новые признаки)
* И совсем немного затронем ML
* И многое другое...   



### И самое важное, все это вы сможете сделать самостоятельно!

*Этот Ноутбук являетсся Примером/Шаблоном к этому соревнованию (Baseline) и не служит готовым решением!*   
Вы можете использовать его как основу для построения своего решения.

> что такое baseline решение, зачем оно нужно и почему предоставлять baseline к соревнованию стало важным стандартом на kaggle и других площадках.   
**baseline** создается больше как шаблон, где можно посмотреть как происходит обращение с входящими данными и что нужно получить на выходе. При этом МЛ начинка может быть достаточно простой, просто для примера. Это помогает быстрее приступить к самому МЛ, а не тратить ценное время на чисто инженерные задачи. 
Также baseline являеться хорошей опорной точкой по метрике. Если твое решение хуже baseline - ты явно делаешь что-то не то и стоит попробовать другой путь) 

В контексте нашего соревнования baseline идет с небольшими примерами того, что можно делать с данными, и с инструкцией, что делать дальше, чтобы улучшить результат.  Вообще готовым решением это сложно назвать, так как используются всего 2 самых простых признака (а остальные исключаются).

# import

In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline

# Загружаем специальный удобный инструмент для разделения датасета:
from sklearn.model_selection import train_test_split

from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.preprocessing import StandardScaler

import re


pd.set_option('display.max_rows', 50)
pd.set_option('display.max_columns', 50)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [None]:
# всегда фиксируйте RANDOM_SEED, чтобы ваши эксперименты были воспроизводимы!
RANDOM_SEED = 42

In [None]:
# зафиксируем версию пакетов, чтобы эксперименты были воспроизводимы:
!pip freeze > requirements.txt

# DATA

In [None]:
DATA_DIR = '/kaggle/input/sf-dst-restaurant-rating/'
df_train = pd.read_csv(DATA_DIR+'/main_task.csv')
df_test = pd.read_csv(DATA_DIR+'kaggle_task.csv')
sample_submission = pd.read_csv(DATA_DIR+'/sample_submission.csv')

In [None]:
df_train.info()

In [None]:
df_train.head(5)

In [None]:
df_test.info()

In [None]:
df_test.head(5)

In [None]:
sample_submission.head(5)

In [None]:
sample_submission.info()

In [None]:
# ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
df_train['sample'] = 1 # помечаем где у нас трейн
df_test['sample'] = 0 # помечаем где у нас тест
df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем

In [None]:
data.info()

Подробнее по признакам:
* City: Город 
* Cuisine Style: Кухня
* Ranking: Ранг ресторана относительно других ресторанов в этом городе
* Price Range: Цены в ресторане в 3 категориях
* Number of Reviews: Количество отзывов
* Reviews: 2 последних отзыва и даты этих отзывов
* URL_TA: страница ресторана на 'www.tripadvisor.com' 
* ID_TA: ID ресторана в TripAdvisor
* Rating: Рейтинг ресторана

В датасете три количественных признака:
* **Ranking**

* **Rating**

* **Number of Reviews**

Семь номинативных признаков:
* **Price Range**

* **City**

* **Cuisine Style**

* **Reviews**

* **Restaurant_id**

* **ID_TA**

* **URL_TA**

Причем последние три признака можно отнести к "техническим", для построения модели их вряд ли нужно будет использовать.


In [None]:
data.sample(5)

In [None]:
# Посмотрим внимательнее на сложные признаки
data['Cuisine Style'][1]

In [None]:
data.Reviews[1]

In [None]:
data['URL_TA'][1]

Как видим, большинство признаков у нас требует очистки и предварительной обработки.

# Cleaning and Prepping Data
Обычно данные содержат в себе кучу мусора, который необходимо почистить, для того чтобы привести их в приемлемый формат. Чистка данных — это необходимый этап решения почти любой реальной задачи.   
![](https://analyticsindiamag.com/wp-content/uploads/2018/01/data-cleaning.png)

## 1. Обработка NAN 
У наличия пропусков могут быть разные причины, но пропуски нужно либо заполнить, либо исключить из набора полностью. Но с пропусками нужно быть внимательным, **даже отсутствие информации может быть важным признаком!**   
По этому перед обработкой NAN лучше вынести информацию о наличии пропуска как отдельный признак 

In [None]:
# Посмотрим количество пропусков в каждом признаке и какой процент от всего датасета они занимают.
nan_df = pd.DataFrame(data.isna().sum(), columns=['Количество'])

nan_df['%'] = nan_df['Количество'].apply(lambda x: round((x/len(data))*100, 0))
print(nan_df)

Шесть из десяти колонок не имеют пропусков, в т.ч. целевая переменная - Rating.
Колонки с пропущенными значениями:

*Cuisine style*

*Price range*

*Number of Reviews*

*Reviews*

In [None]:
# Вынесем наличие пропусков в указанных колонках (кроме Reviews) в отдельные признаки.
data['Number_of_Reviews_isNAN'] = pd.isna(
    data['Number of Reviews']).astype('uint8')
data['Cuisine_style_isNAN'] = pd.isna(data['Cuisine Style']).astype('uint8')
data['Price_range_isNAN'] = pd.isna(data['Price Range']).astype('uint8')

## 2. Обработка числовых признаков


In [None]:
data.describe()

### Посмотрим распределение целевой переменной

In [None]:
df_train['Rating'].value_counts(ascending=True).plot(kind='barh')

### 2.1. Number of Reviews

In [None]:
fig = plt.figure()
axes = fig.add_axes([0, 0, 1, 0.8])
axes.hist(data['Number of Reviews'], bins=100)
axes.set_title('Распределение по количеству отзывов')
axes.set_ylabel('Количество ресторанов')
axes.set_xlabel('Количество отзывов')

In [None]:
# Заполняем пропуски в колонке средним количеством отзывов в зависимости от города
data['Number of Reviews'] = data.groupby('City')['Number of Reviews'].transform(
    lambda x: x.fillna(round(x.mean(), 0)))

### 2.2.  Ranking

In [None]:
plt.rcParams['figure.figsize'] = (10,7)
df_train['Ranking'].hist(bins=100)

У нас много ресторанов, которые не дотягивают и до 2500 места в своем городе, а что там по городам?

In [None]:
df_train['City'].value_counts(ascending=True).plot(kind='barh')

In [None]:
df_train['Ranking'][df_train['City'] == 'London'].hist(bins=100)

In [None]:
# посмотрим на топ 10 городов
for x in (df_train['City'].value_counts())[0:10].index:
    df_train['Ranking'][df_train['City'] == x].hist(bins=100)
plt.show()

Получается, что Ranking имеет нормальное распределение, просто в больших городах больше ресторанов, из-за мы этого имеем смещение.

In [None]:
# нормализуем признак Ranking в пределах каждого города
means = data.groupby('City')['Ranking'].mean()
std = data.groupby('City')['Ranking'].std()
data['Ranking'] = (data.Ranking - data.City.map(means))/(data.City.map(std))

## 3. Номинативные признаки

### 3.1. City

In [None]:
# Загружаем дополнительный датасет для обработки колонки.

df_cities = pd.read_csv('../input/world-cities-datasets/worldcities.csv')

In [None]:
# Приводим назвние 'Porto' к тому, что используется в датасете data - 'Oporto'
df_cities['city_ascii'] = df_cities.city_ascii.apply(
    lambda x: 'Oporto' if x == 'Porto' else x)

### 3.1.1. Country

In [None]:
# создадим словарь из датасета df_cities, где ключ - город, значение - страна.
df_cities_1 = df_cities.drop(
    ['city', 'lat', 'lng', 'iso2', 'iso3', 'admin_name', 'capital', 'population', 'id'], axis=1)
df_countries = df_cities_1[(df_cities_1['country'] != 'United States') & (
    df_cities_1['country'] != 'Canada') & (df_cities_1['country'] != 'Venezuela')]
df_countries.set_index("city_ascii", drop=True, inplace=True)
country_dict = df_countries.to_dict()
country_dict_n = country_dict['country']

In [None]:
# Добавим новый признак - страна
data['Country'] = data['City'].apply(lambda x: country_dict_n[x])

### 3.1.2. Population

In [None]:
# создадим словарь из датасета df_cities, где ключ - город, значение - размер населения
df_population = df_cities[(df_cities['country'] != 'United States') & (
    df_cities['country'] != 'Canada')]
df_population = df_population.drop(
    ['city', 'lat', 'lng', 'iso2', 'iso3', 'admin_name', 'capital', 'country', 'id'], axis=1)

df_population.set_index("city_ascii", drop=True, inplace=True)
population_dict = df_population.to_dict()
population_dict_n = population_dict['population']

In [None]:
# Дополним датасет признаком - население города
data['Population'] = data['City'].apply(lambda x: population_dict_n[x])

### 3.1.3. Capitals

In [None]:
# создаем множество из названий столиц из датасета df_cities
capitals = set(df_cities[df_cities['capital'] == 'primary']['city_ascii'])

In [None]:
# Функция для определения статуса города: столица или нет
def capital_check(city):
    if city in capitals:
        return 'capital' 
    return 'non_capital'

In [None]:
# Дополним датасет колонками, определяющими является город столицей или нет.
data['Сity_status'] = data['City'].apply(capital_check)

### 3.1.4. Tourists 

In [None]:
# Добавим словарь с количеством туристов в каждом городе. Нужного датасета не нашлось, данные берем из отчета за 2018 год Euripean Cities Marketing, сайта statista.com и Википедии
tourists_dict = {
    'London': 71.16,
    'Paris': 52.56,
    'Madrid': 19.83,
    'Barcelona': 19.29,
    'Berlin': 32.87,
    'Milan': 12.29,
    'Rome': 28.55,
    'Prague': 18.25,
    'Lisbon': 10.76,
    'Vienna': 17.41,
    'Amsterdam': 16.94,
    'Brussels': 3.91,
    'Hamburg': 14.53,
    'Munich': 17.12,
    'Lyon': 3.5,
    'Stockholm': 14.59,
    'Warsaw': 3.0,
    'Budapest' :12.5,
    'Dublin': 11.2,
    'Copenhagen': 5.9,
    'Athens': 5.7,
    'Edinburgh' :3.85,
    'Zurich': 4.2,
    'Oporto': 1.6,
    'Geneva': 2.6,
    'Krakow': 3.3,
    'Oslo': 3.6,
    'Helsinki': 1.2,
    'Bratislava': 0.88,
    'Luxembourg': 1.1,
    'Ljubljana': 0.39
}

In [None]:
# Добавим колонку с количеством иностранных туристов в каждом городе

data['tourists_qnt'] = data['City'].apply(lambda x: tourists_dict[x])

### 3.2. Cuisine_style

Определим самые популярные типы кухни

In [None]:
# Приводим строковые значения типов кухни к спискам
data['Cuisine Style'] = data['Cuisine Style'].astype(str).apply(
    lambda x: str(x).replace('[', '').replace(']', '').replace("'", "").strip())

data['Cuisine Style'] = data['Cuisine Style'].apply(lambda x:  None if x == 'nan' else [
    info.strip() for info in str(x).split(',')])

In [None]:
# Создаем список из 10 самых популярных типов кухни
cuisine_list = pd.DataFrame(data['Cuisine Style'].dropna(
).tolist()).stack().value_counts().reset_index()
top_cuisine = cuisine_list['index'][:10].tolist()

In [None]:
# Заменяем отсутствующие значения в колонке на 'not_define'
data['Cuisine Style'] = data['Cuisine Style'].apply(
    lambda x: 'not_define' if x == None else x)

### 3.2.1. Cuisine quantity[](http://)

In [None]:
# Дополняем датасет новым признаком 'cuisine_qnt' - количество типов кухни в каждом ресторане
data['cuisine_qnt'] = data['Cuisine Style'].apply(lambda x: len(x))

In [None]:
# Оставляем только самые популярные кухни, остальные заменим на 'other'
def check_cousine(raw):
    line = []
    top_list = ['Vegetarian Friendly', 'European', 'Mediterranean',
                'Italian', 'Vegan Options', 'Gluten Free Options', 'Bar', 'French', 'Asian']
    for item in raw:
        if item.strip() == 'not_define':
            line.append('not_define')
        elif item.strip() in top_cuisine:
            line.append(item.strip())
        else:
            line.append('other_cuisine')
    return line


data['Cuisine Style'] = data['Cuisine Style'].apply(check_cousine)

In [None]:
# Дополняем датасет колонками с типом кухни
mlb = MultiLabelBinarizer()

data = data.join(pd.DataFrame(mlb.fit_transform(
    data.pop('Cuisine Style')), index=data.index, columns=mlb.classes_))

### 3.3. Price Range

In [None]:
data['Price Range'].value_counts()

In [None]:
# Заменяем пропуски в 'Price Range' наиболее часто встречающейся категорией
data['Price Range'] = data['Price Range'].fillna('$$ - $$$')

In [None]:
# Переводим значения из номинативного признака в ординарный с помощью словаря
price_dict = {'$': 1, '$$ - $$$': 2, '$$$$': 3}
data['Price Range'] = data['Price Range'].replace(to_replace=price_dict)

### 3.4. Review

In [None]:
data['Reviews'].value_counts()

Пропущенных значений всего 2, но фактически пустых значений  гораздо больше, т.к. в 8112 строках указано '[[], []]' Заменим их на None и вынесем отсутствие отзывов в отдельный признак.

In [None]:
data['Reviews'] = data.Reviews.apply(lambda x: None if x == '[[], []]' else x)
data['Review_isNAN'] = pd.isna(data['Reviews']).astype('uint8')

In [None]:
# Разобьем на два признака: содержащий отзывы и содержащий даты.
data[['reviews_text', 'reviews_date']
     ] = data['Reviews'].str.split("'],", expand=True)

### 3.4.1. Reviews_date

In [None]:
# выделим даты
data['reviews_date'] = data.reviews_date.dropna().astype(str).apply(
    lambda x: None if pd.isnull(x) else re.compile('\d*/\d*/\d*').findall(x))

In [None]:
# функция для формирования списка из дат в нужном формате
def to_time(line):
    line = [pd.to_datetime(item) for item in line]
    return line


data['reviews_date'] = data.reviews_date.dropna().apply(to_time)

In [None]:
# функция для вычисления количество дней прошедших между первым и вторым отзывом
def find_delta(line):
    return (max(line) - min(line))


data['delta_reviews_date'] = data['reviews_date'].dropna().apply(find_delta).dt.days

In [None]:
# Заполним пропуски 0
data['delta_reviews_date'] = data['delta_reviews_date'].fillna(0)

### 3.4.2.  Reviews_text

In [None]:
# приведем все буквы к нижнему регистру
data['reviews_text'] = data.reviews_text.apply(
    lambda x: x if pd.isnull(x) else x.lower())

In [None]:
# Выделим из текста слова состоящие более чем из двух букв
data['reviews_text_1'] = data.reviews_text.astype(str).apply(
    lambda x: re.compile('[a-z][a-z]\w+').findall(x))

In [None]:
# Посмотрим какие слова в отзывах встречаются чаще всего
word_list = pd.DataFrame(data.reviews_text_1.dropna(
).tolist()).stack().value_counts().reset_index()
word_list[:40]

In [None]:
# Создадим список из наиболее часто встречающихся прилагательных, описывающих впечатление.  Также добавим в список частицу "not"
words_list = ['not', 'good', 'nice', 'great', 'very', 'best', 'excellent',
              'delicious', 'friendly', 'lovely', 'amazing', 'tasty', 'fantastic', 'average']

In [None]:
# Функция, которая оставляет в отзывах только наиболее часто встречающиеся слова
def check_words(raw):
    line = []
    for item in raw:
        if item in words_list:
            line.append(item)
        else:
            continue
    return line


data['reviews_text_1'] = data['reviews_text_1'].apply(check_words)

In [None]:
# Используем функцию для получения "One-Hot-Encoded" из списка.
mlb = MultiLabelBinarizer()

data = data.join(pd.DataFrame(mlb.fit_transform(
    data.pop('reviews_text_1')), index=data.index, columns=mlb.classes_))

In [None]:
# Для кодирования оставшихся категориальных признаков через подход One-Hot Encoding используем функцию get_dummies
data = pd.get_dummies(data, columns=['City', 'Country', 'Сity_status'])

In [None]:
data.info()

## Корреляция признаков

In [None]:
data_corr = data[data['sample'] == 1]
plt.rcParams['figure.figsize'] = (15,10)
sns.heatmap(data_corr.drop('sample', axis=1).corr())

## Data Preprocessing¶


In [None]:
# Удаляем оставшиеся номинативные признаки
object_columns = [s for s in data.columns if data[s].dtypes == 'object']
data.drop(object_columns, axis=1, inplace=True)

In [None]:
data.info()

In [None]:
# Нормализуем все данные кроме 'Rating','sample', 'Ranking'. Последний был нормализован ранее относительно городов.
def StandardScaler_column(d_col):
    scaler = StandardScaler()
    scaler.fit(data[[d_col]])
    return scaler.transform(data[[d_col]])


for i in list(data.columns):
    if i not in ['Rating', 'sample', 'Ranking']:
        data[i] = StandardScaler_column(i)
        if len(data[data[i].isna()]) < len(data):
            data[i] = data[i].fillna(0)

#### Запускаем и проверяем что получилось

In [None]:
df_preproc = data

df_preproc.head(10)

In [None]:
df_preproc.info()

In [None]:
# Теперь выделим тестовую часть
train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

y = train_data.Rating.values            # наш таргет
X = train_data.drop(['Rating'], axis=1)

**Перед тем как отправлять наши данные на обучение, разделим данные на еще один тест и трейн, для валидации. 
Это поможет нам проверить, как хорошо наша модель работает, до отправки submissiona на kaggle.**

In [None]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=RANDOM_SEED)

In [None]:
# проверяем
test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

# Model 
Сам ML

In [None]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [None]:
# Создаём модель (НАСТРОЙКИ НЕ ТРОГАЕМ)
model = RandomForestRegressor(n_estimators=100, verbose=1, n_jobs=-1, random_state=RANDOM_SEED)

In [None]:
# Обучаем модель на тестовом наборе данных
model.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = model.predict(X_test)

In [None]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

In [None]:
# в RandomForestRegressor есть возможность вывести самые важные признаки для модели
plt.rcParams['figure.figsize'] = (10, 10)
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(20).plot(kind='barh')

# Submission
Если все устраевает - готовим Submission на кагл

In [None]:
test_data.sample(10)

In [None]:
test_data = test_data.drop(['Rating'], axis=1)

In [None]:
sample_submission

In [None]:
predict_submission = model.predict(test_data)

In [None]:
predict_submission

In [None]:
sample_submission['Rating'] = predict_submission
sample_submission.to_csv('submission.csv', index=False)
sample_submission.head(10)

# What's next?
Или что делать, чтоб улучшить результат:
* Обработать оставшиеся признаки в понятный для машины формат
* Посмотреть, что еще можно извлечь из признаков
* Сгенерировать новые признаки
* Подгрузить дополнительные данные, например: по населению или благосостоянию городов
* Подобрать состав признаков

В общем, процесс творческий и весьма увлекательный! Удачи в соревновании!
