**Restaurant_id** - идентификационный номер ресторана / сети ресторанов  
**City** - город, в котором находится ресторан  
**Cuisine Style** - кухня или кухни, к которым можно отнести блюда, предлагаемые в ресторане  
**Ranking** - место, которое занимает данный ресторан среди всех ресторанов своего города  
**Rating** - рейтинг ресторана по данным TripAdvisor (именно это значение должна была предсказывать модель)  
**Price Range** - диапазон цен в ресторане  
**Number of Reviews** - количетво отзывов в ресторане  
**Reviews** - данные о двух отзывах, которые отображаются на сайте ресторана  
**URL_TA** - URL страницы ресторана на TripAdvisor  
**ID_TA** - идентификатор ресторана в базе данных TripAdvisor

# Загрузка Pandas и очистка данных

In [1]:
import pandas as pd
import re
import datetime

In [100]:
df0 = pd.read_csv('main_task.csv')
df = df0.copy()

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Restaurant_id      40000 non-null  object 
 1   City               40000 non-null  object 
 2   Cuisine Style      30717 non-null  object 
 3   Ranking            40000 non-null  float64
 4   Rating             40000 non-null  float64
 5   Price Range        26114 non-null  object 
 6   Number of Reviews  37457 non-null  float64
 7   Reviews            40000 non-null  object 
 8   URL_TA             40000 non-null  object 
 9   ID_TA              40000 non-null  object 
dtypes: float64(3), object(7)
memory usage: 3.1+ MB


In [4]:
# количество пропущенных значений в каждом столбце
df.isnull().sum()

Restaurant_id            0
City                     0
Cuisine Style         9283
Ranking                  0
Rating                   0
Price Range          13886
Number of Reviews     2543
Reviews                  0
URL_TA                   0
ID_TA                    0
dtype: int64

In [5]:
df.head()

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA
0,id_5569,Paris,"['European', 'French', 'International']",5570.0,3.5,$$ - $$$,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643
1,id_1535,Stockholm,,1537.0,4.0,,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032
2,id_352,London,"['Japanese', 'Sushi', 'Asian', 'Grill', 'Veget...",353.0,4.5,$$$$,688.0,"[['Catch up with friends', 'Not exceptional'],...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781
3,id_3456,Berlin,,3458.0,5.0,,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776
4,id_615,Munich,"['German', 'Central European', 'Vegetarian Fri...",621.0,4.0,$$ - $$$,84.0,"[['Best place to try a Bavarian food', 'Nice b...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963


In [6]:
# удалить столбцы, содержащие данные типа object
# заполнить пропущенные значения нулём или средним арифметическим
#df1 = df.drop([col for col in df.columns if df[col].dtype == 'O'],axis=1)
df1 = df.drop(df.select_dtypes(include=['object']), axis = 1)
df1 = df1.fillna(df1.mean())
df1.head()

Unnamed: 0,Ranking,Rating,Number of Reviews
0,5570.0,3.5,194.0
1,1537.0,4.0,10.0
2,353.0,4.5,688.0
3,3458.0,5.0,3.0
4,621.0,4.0,84.0


In [7]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Ranking            40000 non-null  float64
 1   Rating             40000 non-null  float64
 2   Number of Reviews  40000 non-null  float64
dtypes: float64(3)
memory usage: 937.6 KB


In [8]:
df['City'].dtype

dtype('O')

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [9]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = df1.drop('Rating', axis = 1)
y = df1['Rating']

In [10]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [11]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [12]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [13]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [14]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.4292751246031747


In [15]:
# сколько вариантов непустых значений в столбце Price Range
b = df['Price Range'].value_counts()
len(b)

3

In [16]:
# сколько средних значений
b['$$ - $$$']

18412

In [17]:
# сколько городов
len(df['City'].value_counts())

31

In [26]:
# сколько типов кухонь -- разбить и посчитать
df1 = df.loc[:, ['Restaurant_id', 'Cuisine Style']]
df1 = df1.dropna()
df1['Cuisine Style'] = df1['Cuisine Style'].apply(lambda x: x[1:-1].replace("'", '').split(', ')) # убираем передние и задние кавычки/ убираем кавычки у каждого слова/ делаем список из значений
cuisine = df1['Cuisine Style'].explode().value_counts() # разбиваем по кухням/ считаем количество упоминаний каждой/ считаем количество разных кухонь
cuisine.count() # считаем количество разных кухонь

125

In [19]:
# какая кухня наиболее часто встречается
print(cuisine.index[0])

Vegetarian Friendly


In [25]:
# среднее количество кухонь на 1 ресторан. Если NaN, то 1. Округлить до 1
df2 = df.loc[:, ['Restaurant_id', 'Cuisine Style']] # выбираем 2 колонки - рестораны и кухни
df2.loc[:, 'Cuisine Style'].fillna('1', inplace = True) # заменяем отсутствующие значения любой строкой 
# убираем передние и задние кавычки/ убираем кавычки у каждого слова/ делаем список из значений/ считаем количество кухонь в ресторане
df2['Cuisine Style'] = df2.loc[:, 'Cuisine Style'].apply(lambda x: len(x[1:-1].replace("'", '').split(', ')))
round(df2['Cuisine Style'].mean(), 1) # считаем среднее значение количества кухонь по столбцу/ округляем до 1

2.6

In [27]:
# самый ранний отзыв
df3 = df.loc[:, 'Reviews'] # выбираем столбец с отзывами
df3 = df3.apply(lambda x: re.findall(r'\d{2}/\d{2}/\d{4}', x)) # выбираем даты отзывов
df3 = df3[df3.astype(bool)] # убираем пустые списки
df3 = df3.apply(lambda x: x[0]) # выбираем первую дату
df3 = pd.to_datetime(df3, format="%m/%d/%Y") # переводим данные столбца в формат даты
print(df3.max().date()) # находим последнюю дату

2018-02-26


In [137]:
# макс. количество дней между отзывами
df4 = df.loc[:, ['Restaurant_id', 'Reviews']] # выбираем столбец с отзывами
df4['Reviews'] = df4.loc[:, 'Reviews'].map(lambda x: re.findall(r'\d{2}/\d{2}/\d{4}', x)) # выбираем даты отзывов
df4 = df4[df4['Reviews'].apply(len) > 0] # удаляем пустые списки
df4['a'] = df4['Reviews'].apply(lambda x: x[0]) # создаём столбец с последней датой
df4['b'] = df4['Reviews'].apply(lambda x: x[-1]) # создаём столбец с предпоследней датой
df4['a'] = pd.to_datetime(df4['a'], format="%m/%d/%Y") # переводим данные столбца a в формат даты
df4['b'] = pd.to_datetime(df4['b'], format="%m/%d/%Y") # переводим данные столбца b в формат даты
df4['c'] = df4.a - df4.b # создаём столбец с разницей между отзывами
print(df4['c'].max()) # находим максимальной разницей

3207 days 00:00:00


In [136]:
df

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA
0,id_5569,Paris,"['European', 'French', 'International']",5570.0,3.5,$$ - $$$,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643
1,id_1535,Stockholm,,1537.0,4.0,,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032
2,id_352,London,"['Japanese', 'Sushi', 'Asian', 'Grill', 'Veget...",353.0,4.5,$$$$,688.0,"[['Catch up with friends', 'Not exceptional'],...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781
3,id_3456,Berlin,,3458.0,5.0,,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776
4,id_615,Munich,"['German', 'Central European', 'Vegetarian Fri...",621.0,4.0,$$ - $$$,84.0,"[['Best place to try a Bavarian food', 'Nice b...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963
...,...,...,...,...,...,...,...,...,...,...
39995,id_499,Milan,"['Italian', 'Vegetarian Friendly', 'Vegan Opti...",500.0,4.5,$$ - $$$,79.0,"[['The real Italian experience!', 'Wonderful f...",/Restaurant_Review-g187849-d2104414-Reviews-Ro...,d2104414
39996,id_6340,Paris,"['French', 'American', 'Bar', 'European', 'Veg...",6341.0,3.5,$$ - $$$,542.0,"[['Parisian atmosphere', 'Bit pricey but inter...",/Restaurant_Review-g187147-d1800036-Reviews-La...,d1800036
39997,id_1649,Stockholm,"['Japanese', 'Sushi']",1652.0,4.5,,4.0,"[['Good by swedish standards', 'A hidden jewel...",/Restaurant_Review-g189852-d947615-Reviews-Sus...,d947615
39998,id_640,Warsaw,"['Polish', 'European', 'Eastern European', 'Ce...",641.0,4.0,$$ - $$$,70.0,"[['Underground restaurant', 'Oldest Restaurant...",/Restaurant_Review-g274856-d1100838-Reviews-Ho...,d1100838
