# Загрузка Pandas и очистка данных

In [59]:
import pandas as pd
import numpy as np
from datetime import datetime
import re

In [49]:
df = pd.read_csv('main_task.csv')

# очистка столбца виды кухонь
pattern = re.compile('\w+\s*\w*')
df['Cuisine Style'].fillna('no_information', inplace=True)
df['Cuisine Style'] = df['Cuisine Style'].apply(lambda x: pattern.findall(x))
# print(df.explode('Cuisine Style')['Cuisine Style'].nunique())
# print(df.explode('Cuisine Style')['Cuisine Style'].value_counts())
df['Cuisine Count'] = df['Cuisine Style'].apply(lambda x: len(x))
# round(df['Cuisine Count'].mean(),2)

# очистка столбца с отзывами
pattern = re.compile('\d+[-]\d+[-]\d+')
df['Reviews'] = df['Reviews'].apply(lambda x: str(x).split(','))
df['Reviews'] = df['Reviews'].apply(lambda x: str(x).replace('/', '-'))
df['Reviews'] = df['Reviews'].apply(lambda x: pattern.findall(x))

df['Reviews'] = df['Reviews'].apply(lambda x: pd.to_datetime(x))
df['Reviews'] = df['Reviews'].apply(lambda x: np.nan if len(x) == 0 else x)
df.head()

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA,Cuisine Count
0,id_5569,Paris,"[European, French, International]",5570.0,3.5,$$ - $$$,194.0,"DatetimeIndex(['2017-12-31', '2017-11-20'], dt...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643,3
1,id_1535,Stockholm,[no_information],1537.0,4.0,,10.0,"DatetimeIndex(['2017-07-06', '2016-06-19'], dt...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032,1
2,id_352,London,"[Japanese, Sushi, Asian, Grill, Vegetarian Fri...",353.0,4.5,$$$$,688.0,"DatetimeIndex(['2018-01-08', '2018-01-06'], dt...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781,8
3,id_3456,Berlin,[no_information],3458.0,5.0,,3.0,,/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776,1
4,id_615,Munich,"[German, Central European, Vegetarian Friendly]",621.0,4.0,$$ - $$$,84.0,"DatetimeIndex(['2017-11-18', '2017-02-19'], dt...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963,3


In [None]:
df['dif_day'] = df['Reviews'][df['Reviews'].isnull() == False].apply(lambda x: x[0] - x[-1])

In [78]:
data = [[2.2, 105], [1, 188], [8.9, 1706], 
         [3.6, 891], [1.5, 310], [0.3, 41,4], 
         [1.4, 181], [0.4, 368], [1.9, 414], 
         [2.9, 1287], [1.7, 101], [3.3, 607], 
         [1.2, 117], [0.2, 32.6], [0.4, 88], 
         [1.8, 517], [1.8, 525], [0.8, 86.4], 
         [0.9, 219], [0.5, 48], [1.9, 755], 
         [0.5,100], [1.3, 496], [0.7, 454], 
         [0.7,213], [0.5, 120], [0.2, 16], 
         [0.3, 163], [0.7, 39], [0.125, 51.5], 
         [0.8, 327]]
cities = df.City.unique()
city_dict = {}
for i in range(len(cities)):
    city_dict[cities[i]] = data[i] 
city_dict

{'Paris': [2.2, 105],
 'Stockholm': [1, 188],
 'London': [8.9, 1706],
 'Berlin': [3.6, 891],
 'Munich': [1.5, 310],
 'Oporto': [0.3, 41, 4],
 'Milan': [1.4, 181],
 'Bratislava': [0.4, 368],
 'Vienna': [1.9, 414],
 'Rome': [2.9, 1287],
 'Barcelona': [1.7, 101],
 'Madrid': [3.3, 607],
 'Dublin': [1.2, 117],
 'Brussels': [0.2, 32.6],
 'Zurich': [0.4, 88],
 'Warsaw': [1.8, 517],
 'Budapest': [1.8, 525],
 'Copenhagen': [0.8, 86.4],
 'Amsterdam': [0.9, 219],
 'Lyon': [0.5, 48],
 'Hamburg': [1.9, 755],
 'Lisbon': [0.5, 100],
 'Prague': [1.3, 496],
 'Oslo': [0.7, 454],
 'Helsinki': [0.7, 213],
 'Edinburgh': [0.5, 120],
 'Geneva': [0.2, 16],
 'Ljubljana': [0.3, 163],
 'Athens': [0.7, 39],
 'Luxembourg': [0.125, 51.5],
 'Krakow': [0.8, 327]}

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [11]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = df.drop(['Restaurant_id', 'Rating'], axis = 1)
y = df['Rating']

In [12]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [13]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [14]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [15]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

ValueError: could not convert string to float: 'Paris'

In [None]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', round(metrics.mean_absolute_error(y_test, y_pred),2))