# Загрузка Pandas и очистка данных

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
main_df = pd.read_csv('main_task.csv', encoding='utf-8')

In [267]:
# Ваш код по очистке данных и генерации новых признаков
# При необходимости добавьте ячейки

In [268]:
def in_list_or_str(x, value):
    if isinstance(x, str):
        return value == x
    else:
        return value in x

# создать датафрейм, столбцы которого представлены уникальными значениями передаваемого столбца и
# содержат 1, если запись принадлежит к текущему столбцу, иначе 0
def to_dummy_var(column, new_columns=None):
    if not new_columns:
        new_columns = column.unique()
    store = []
    new_df = pd.DataFrame(columns=new_columns)
    for value in new_columns:
        series = column.apply(lambda x: 1 if in_list_or_str(x, value) else 0)
        new_df[value] = series
    return new_df

# строку в список
def to_list(data):
    pattern = re.compile(r'\[|\"|\'|\]')
    if isinstance(data, str):
        return re.sub(pattern, '', data).split(', ')
    else:
        return []

# количество каждой кухни
# функция используется для получения уникальных
def unique_cuisines(column):
    cuisines = set()
    for row in column:
        if row is not np.nan:
            cuisines = cuisines.union(set(row))
    return cuisines

# приводим Prise Range к числовому формату
def transform_price_range(data):
    if data == '$':
        return 1
    elif data == '$$ - $$$':
        return 2
    elif data == '$$$$':
        return 3
    else:
        return 0

# пронумеровать города
def numerate_city(data):
    for i in city:
        if data == i[1]:
            return i[0]
    return data

In [269]:
# переводим id ресторана в числовое значение
rid_df = main_df['Restaurant_id'].apply(lambda x: int(x.replace('id_', '')))

In [270]:
# dummy var City
c_df = to_dummy_var(main_df['City'])

In [271]:
# dummy var Price Range
value = main_df['Price Range'].value_counts().index[0]
main_df['Price Range'].fillna(value, inplace=True)
pr_df = to_dummy_var(main_df['Price Range'])
pr_df = pr_df.rename(columns = {"$$ - $$$":"medium_price", "$$$$":"high_price", "$":"low_price"})

In [272]:
# заполним пропуски в Number of Reviews средним значением
value = main_df['Number of Reviews'].mean()
nor_df = main_df['Number of Reviews'].fillna(value)

In [273]:
# количество типов кухни
ccs_df = main_df['Cuisine Style'].apply(to_list).apply(lambda x: len(x))
value = ccs_df.median()
ccs_df = ccs_df.replace(0, value)

In [274]:
# dummy var
styles = list(unique_cuisines(main_df['Cuisine Style'].apply(to_list)))
cs_df = to_dummy_var(main_df['Cuisine Style'].apply(to_list), new_columns=styles)

In [275]:
# зменяем названия городов на число
city = main_df['City'].unique()
city = list(enumerate(city, 10))
c = main_df['City'].apply(numerate_city)

In [276]:
# представляем столбец в числовом виде
pr = main_df['Price Range'].apply(transform_price_range)
value = pr.median()
pr = pr.replace(0, value)

In [277]:
# объединяем все подготовленные данные в один dataframe
new_df = pd.DataFrame(main_df['Rating']).join([rid_df, c_df, pr_df, nor_df, cs_df, c, pr, main_df['Ranking']])

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [278]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = new_df.drop(['Rating'], axis = 1)
y = new_df['Rating']

In [279]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [280]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [281]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [282]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [283]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.212403
