![](https://www.pata.org/wp-content/uploads/2014/09/TripAdvisor_Logo-300x119.png)
# Predict TripAdvisor Rating
## В этом соревновании нам предстоит предсказать рейтинг ресторана в TripAdvisor


In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline

# Загружаем специальный удобный инструмент для разделения датасета:
from sklearn.model_selection import train_test_split

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [None]:
# всегда фиксируйте RANDOM_SEED, чтобы ваши эксперименты были воспроизводимы!
RANDOM_SEED = 42

In [None]:
# зафиксируем версию пакетов, чтобы эксперименты были воспроизводимы:
!pip freeze > requirements.txt

# DATA

In [None]:
DATA_DIR = '/kaggle/input/sf-dst-restaurant-rating/'
df_train = pd.read_csv(DATA_DIR+'/main_task.csv')
df_test = pd.read_csv(DATA_DIR+'kaggle_task.csv')
sample_submission = pd.read_csv(DATA_DIR+'/sample_submission.csv')

Проверим данные 

In [None]:
df_train.info()

In [None]:
df_train.head(5)

In [None]:
df_test.info()

In [None]:
df_test.head(5)

In [None]:
sample_submission.head(5)

In [None]:
sample_submission.info()

In [None]:
# ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
df_train['sample'] = 1 # помечаем где у нас трейн
df_test['sample'] = 0 # помечаем где у нас тест
df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем

In [None]:
data.info()

Подробнее по признакам:
* City: Город 
* Cuisine Style: Кухня
* Ranking: Ранг ресторана относительно других ресторанов в этом городе
* Price Range: Цены в ресторане в 3 категориях
* Number of Reviews: Количество отзывов
* Reviews: 2 последних отзыва и даты этих отзывов
* URL_TA: страница ресторана на 'www.tripadvisor.com' 
* ID_TA: ID ресторана в TripAdvisor
* Rating: Рейтинг ресторана

In [None]:
data.head(5)

# Cleaning and Prepping Data

## 1. Обработка NAN 
У наличия пропусков могут быть разные причины, но пропуски нужно либо заполнить, либо исключить из набора полностью. Но с пропусками нужно быть внимательным, **даже отсутствие информации может быть важным признаком!**   
По этому перед обработкой NAN лучше вынести информацию о наличии пропуска как отдельный признак 

In [None]:
data.isna().sum() 


### 2. Обработка признаков
Для начала посмотрим какие признаки у нас могут быть категориальными.

In [None]:
data.nunique(dropna=False)

[](http://)признак City можно считать категориальным

In [None]:
data['Cuisine Style'] = data['Cuisine Style'].fillna('Nothing')

In [None]:
list_cuisin = []
for i in data['Cuisine Style']:
    i = i.strip("[]")
    i = i.replace("\'", '')
    i = i.split(", ")
    list_cuisin.append(i)
data['Cuisine Style'] = list_cuisin

In [None]:
data

![](http://)Создадим новый признак - количество кухонь в ресторане, поработав с Cuisine Style

In [None]:
data['# of Cuisines'] = data['Cuisine Style'].apply(lambda x: len(x))

In [None]:
data = pd.get_dummies(data, columns=[ 'City',], dummy_na=True)

In [None]:
data.head(2)

Возьмем  признак "Price Range".

In [None]:
data['Price Range'].value_counts()

По описанию 'Price Range' это - Цены в ресторане.  
Их можно поставить по возрастанию (значит это не категориальный признак). А это значит, что их можно заменить последовательными числами, например 1,2,3. все же попробуем поработать как с категориальным призгаком


In [None]:
data['Price Range']=data['Price Range'].fillna('$-$')

In [None]:
data['Price Range'] = data['Price Range'].replace(['$-$'], '0').replace(['$'], '1') .replace(['$$ - $$$'], '2').replace(['$$$$'], '3')

In [None]:
data = pd.get_dummies(data,columns=['Price Range'],prefix=['prices'])

In [None]:
data.info()

In [None]:
data

Отделим даты от текста в Reviews

In [None]:
# создадим функцию по вычленению даты из строки в Reviews
import re
def get_date (string): 
    dates = re.findall('\d+\/\d+\/\d+', str(string)) # зададим формат распознания даты (регулярные выражения)
    return dates # функция возвращает список из дат (строки)
data['date'] = data['Reviews'].apply(get_date) # создадим столбец date применив функцию к столбцу Reviews
data['date']

In [None]:
df1 = data[data['date'].apply(len)==3] # определяем в df1 какие строки содержат 3 даты (в основном храняться по 2 даты)
def change_date(dates): # создаем функцию поиска и корректировки даты
    if len(dates)== 3:
        if dates == ['29/9/2016', '09/30/2016', '08/25/2016']:
            return ['09/29/2016', '09/30/2016', '08/25/2016']
        else:
            return dates
    else:
        return dates
data['date'] = data['date'].apply(change_date) #применяем функцию к строке с с неправильным форматом даты

для вычесления разницы в датах комментариев создаем столбцы мин и макс дат

In [None]:
# создаем функцию по возврату максимальной даты из dates
def to_date_max (dates): 
    dates = pd.Series ([pd.to_datetime(i, format = '%m/%d/%Y',errors='coerce') for i in dates]) # переводим каждую строку из dates в формат datetime и сохраняем в виде Series
    return dates.max() # возвращаем max из Series
data['max']=data['date'].apply(to_date_max) # применяем to_date_max к df['date'] и сохраняем в df['max'] 

In [None]:
data

In [None]:
# создаем функцию по возврату минимальной даты из dates
def to_date_min (dates):
    dates = pd.Series ([pd.to_datetime(i, format = '%m/%d/%Y',errors='coerce') for i in dates])
    return dates.min()
data['min']=data['date'].apply(to_date_min)

In [None]:
# создаем функцию по возврату разницы min от max 
data['diff']=(data['max']-data['min']).apply(lambda x: x.days)

In [None]:
data['diff'] = data['diff'].fillna(data['diff'].mean())

Поработаем с Restaurant_id

In [None]:
data.Restaurant_id.value_counts()
# данные говорят о том, что некоторые ID имеют более 1 значения, то есть можно сделать вывод, что это сетевые рестораны

Создадим новый признак chain_restor , для понимания принадлежит ли ресторан к сети. если да, то присваиваем 1. ресторанам с Nan в Restaurant_id присвоим 0 

In [None]:
chain_restor = data.Restaurant_id.value_counts()[data.Restaurant_id.value_counts() > 1].index.tolist()
data['chain_restor'] = data[data.Restaurant_id.isin(chain_restor)].Restaurant_id.apply(lambda x: 1)
data.chain_restor=data['chain_restor'].fillna(0)

In [None]:
data.chain_restor.value_counts()

In [None]:
data = data.drop(['max', 'min'], axis=1)

In [None]:
data

In [None]:
len_rev = []
for i in data.date:
    len_rev.append(len(i))
data['# of reviews'] = len_rev

In [None]:
data['diff'] = data['diff'].apply(lambda x: 0 if x%1 != 0 else x)

In [None]:
dsa = set()
for i in data['Cuisine Style']:
    for q in i:
        dsa.add(q)
# Creating columns for each cuisine
for i in dsa:
    data[i] = 0

# For each cuisine we are adding 1 to the respective column
for index, row in data.iterrows():
    for i in row['Cuisine Style']:
        data[i][index] = 1

In [None]:
for i in data.columns:
    if data[i].dtype == 'object':
        data = data.drop([i], axis=1)
data = data.fillna(0)

In [None]:
# Теперь выделим тестовую часть
train_data = data.query('sample == 1').drop(['sample'], axis=1)
test_data = data.query('sample == 0').drop(['sample'], axis=1)

y = train_data.Rating.values            # наш таргет
X = train_data.drop(['Rating'], axis=1)

**Перед тем как отправлять наши данные на обучение, разделим данные на еще один тест и трейн, для валидации. 
Это поможет нам проверить, как хорошо наша модель работает, до отправки submissiona на kaggle.**

In [None]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)

In [None]:
# проверяем
test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

# Model 
Сам ML

In [None]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [None]:
# Создаём модель (НАСТРОЙКИ НЕ ТРОГАЕМ)
model = RandomForestRegressor(n_estimators=100, verbose=1, n_jobs=-1, random_state=RANDOM_SEED)

In [None]:
# Обучаем модель на тестовом наборе данных
model.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = model.predict(X_test)

In [None]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

In [None]:
# в RandomForestRegressor есть возможность вывести самые важные признаки для модели
plt.rcParams['figure.figsize'] = (10,10)
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(15).plot(kind='barh')

# Submission
Если все устраевает - готовим Submission на кагл

In [None]:
test_data.sample(10)

In [None]:
test_data = test_data.drop(['Rating'], axis=1)

In [None]:
sample_submission

In [None]:
predict_submission = model.predict(test_data)

In [None]:
predict_submission

In [None]:
sample_submission['Rating'] = predict_submission
sample_submission.to_csv('submission.csv', index=False)
sample_submission.head(10)