# Загрузка Pandas и очистка данных

In [494]:
import pandas as pd

In [495]:
df = pd.read_csv('main_task.csv')

## Price Range

In [496]:
# Замена значений Price Range на числовые:
dict_price_range = {'$': 1, '$$ - $$$': 2, '$$$$': 3}
df['Price Range'] = df['Price Range'].replace(to_replace=dict_price_range)

In [497]:
# Замена пустых значений Price Range на наиболее популярные значения:     
df['Price Range'] = df['Price Range'].\
fillna(df['Price Range'].value_counts().index[0])

## City

In [498]:
# Создание Dummy-переменных
city = pd.get_dummies(df['City'], drop_first=True)

In [499]:
# Конкатенация в один датафрейм
df = pd.concat([df, city], axis=1)

In [500]:
# Удаление столбца City
df = df.drop(['City'], axis=1)

## Cuisine Style

In [501]:
# Замена пустых значений на "Uknown":
df['Cuisine Style'] = df['Cuisine Style'].fillna("Uknown")

In [502]:
# Применение функции форматирования значений столбца:
def list_cuisine(cell):
    """Функция форматирует значения в ячейках столбца"""
    cell = str(cell)
    cell = cell.replace("[", "")
    cell = cell.replace("]", "")
    cell = cell.replace("'", "")
    cell = cell.split(', ')
    return cell


df['Cuisine Style'] = df['Cuisine Style'].apply(list_cuisine)


# Второй вариант решения:
# df['Cuisine Style'] = df['Cuisine Style'].apply(lambda x: str(x).replace("[", ""))
# df['Cuisine Style'] = df['Cuisine Style'].apply(lambda x: str(x).replace("]", ""))
# df['Cuisine Style'] = df['Cuisine Style'].apply(lambda x: str(x).replace("'", ""))
# df['Cuisine Style'] = df['Cuisine Style'].apply(lambda x: x.split(', '))

In [505]:
# Какое среднее количество кухонь предлагается в одном ресторане?
round(df['Cuisine Style'].apply(lambda x: len(x)).mean(), 1)

# Сколько типов кухонь представлено в наборе данных (без "Uknown")?
df = df.explode('Cuisine Style')
len(df['Cuisine Style'].value_counts())-1

# Какая кухня представлена в наибольшем количестве ресторанов?
df = df.explode('Cuisine Style')
df['Cuisine Style'].value_counts().index[0]

'Vegetarian Friendly'

## Number of Reviews

In [197]:
# Заполнение пропусков средним значением
df = df.drop(['Cuisine Style', 'Price Range', 'Reviews', \
           'URL_TA', 'ID_TA'], axis=1)
df['Number of Reviews'] = df['Number of Reviews'].fillna(df['Number of Reviews'].mean())

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [198]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = df.drop(['Restaurant_id', 'Rating'], axis = 1)
y = df['Rating']

In [199]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [200]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [201]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [202]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [203]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.2215755
