In [1]:
import pandas as pd
import numpy as np
import re
from datetime import datetime, timedelta
import ast

# Импортируем инструмент для разбивки выборки
from sklearn.model_selection import train_test_split

# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [2]:
def restaurants_cuisines(df):
    """ Функция, которая считает в сколькких ресторанах предлагается каждая кухня"""
    
    all_cuisines = set()  # создаём пустое множество для хранения уникальных значений кухонь
    x = 0 # один ресторан
    y = 0
    df_len = df.shape[0]
    rest_cuis = {} 

    for x in range(0, df_len): # начинаем перебор всех ресторанов
        if df.iloc[x]['Cuisine_Style'] == df.iloc[x]['Cuisine_Style']:
            cuis_lst = ast.literal_eval(df.iloc[x]['Cuisine_Style'])
            for cuisine in cuis_lst:  # начинаем перебор всех кухонь в ресторане
                all_cuisines.add(cuisine)
        else:
            pass
        
    for item in all_cuisines:  # перебираем список кухонь
        rest_cuis[item] = 0 # добавляем в словарь ключ, соответствующий очередной кухне
    
    for y in range(0, df_len): # начинаем перебор всех ресторанов
        if df.iloc[y]['Cuisine_Style'] == df.iloc[y]['Cuisine_Style']:
            for item in ast.literal_eval(df.iloc[y]['Cuisine_Style']):   # и список кухонь в каждом ресторане
                rest_cuis[item] += 1   # увеличиваем значение нужного ключа в словаре на 1
    
    return rest_cuis

## Загрузка и осмотр данных

1. Restaurant_id — идентификационный номер ресторана / сети ресторанов;
2. City — город, в котором находится ресторан;
3. Cuisine Style — кухня или кухни, к которым можно отнести блюда, предлагаемые в ресторане;
4. Ranking — место, которое занимает данный ресторан среди всех ресторанов своего города;
5. Rating — рейтинг ресторана по данным TripAdvisor (именно это значение должна будет предсказывать модель);
6. Price Range — диапазон цен в ресторане;
7. Number of Reviews — количество отзывов о ресторане;
8. Reviews — данные о двух отзывах, которые отображаются на сайте ресторана;
9. URL_TA — URL страницы ресторана на TripAdvosor;
10. ID_TA — идентификатор ресторана в базе данных TripAdvisor.

In [3]:
restaurants = pd.read_csv("main_task.csv")
# Сразу переименую столбцы с пробелами, чтобы было удобнее, убрав пробелы
restaurants = restaurants.rename(columns = {'Cuisine Style': 'Cuisine_Style',
                                            'Price Range':'Price_Range',
                                            'Number of Reviews':'Number_of_Reviews'
                                           })
restaurants.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Restaurant_id      40000 non-null  object 
 1   City               40000 non-null  object 
 2   Cuisine_Style      30717 non-null  object 
 3   Ranking            40000 non-null  float64
 4   Rating             40000 non-null  float64
 5   Price_Range        26114 non-null  object 
 6   Number_of_Reviews  37457 non-null  float64
 7   Reviews            40000 non-null  object 
 8   URL_TA             40000 non-null  object 
 9   ID_TA              40000 non-null  object 
dtypes: float64(3), object(7)
memory usage: 3.1+ MB


In [4]:
restaurants.head(2)

Unnamed: 0,Restaurant_id,City,Cuisine_Style,Ranking,Rating,Price_Range,Number_of_Reviews,Reviews,URL_TA,ID_TA
0,id_5569,Paris,"['European', 'French', 'International']",5570.0,3.5,$$ - $$$,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643
1,id_1535,Stockholm,,1537.0,4.0,,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032


In [5]:
type(restaurants.Cuisine_Style)

pandas.core.series.Series

In [6]:
type(restaurants.Reviews)

pandas.core.series.Series

## Первая итерация

### Очистка данных

In [7]:
# Удалим столбцы со строковыми значениями
restaurants_iter1 = restaurants.drop(['City', 'Cuisine_Style', 'Price_Range', 
                                      'Reviews', 'URL_TA', 'ID_TA'], axis = 1) # id ресторана удаляем дальше

In [8]:
restaurants_iter1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Restaurant_id      40000 non-null  object 
 1   Ranking            40000 non-null  float64
 2   Rating             40000 non-null  float64
 3   Number_of_Reviews  37457 non-null  float64
dtypes: float64(3), object(1)
memory usage: 1.2+ MB


In [11]:
# Заполним пропуски в поле Number_of_Reviews значением 0 (нет информации значит не было отзывов)
restaurants_iter1.Number_of_Reviews = restaurants_iter1.Number_of_Reviews.fillna(0)

### Подготовка к моделированию

In [12]:
# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели 

X = restaurants_iter1.drop(['Restaurant_id', 'Rating'], axis = 1) # данные с информацией о ресторанах
y = restaurants_iter1.Rating # целевая переменная (рейтинги ресторанов)

In [13]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования 
# Для тестирования мы будем использовать 25% от исходного датасета. 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)  

### Создание, обучение и тестирование модели

In [14]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [15]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.

print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.4330090093614719


## Вторая итерация

### Очистка данных

In [164]:
restaurants_iter2 = restaurants.copy(deep = True)

In [165]:
restaurants_iter2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Restaurant_id      40000 non-null  object 
 1   City               40000 non-null  object 
 2   Cuisine_Style      30717 non-null  object 
 3   Ranking            40000 non-null  float64
 4   Rating             40000 non-null  float64
 5   Price_Range        26114 non-null  object 
 6   Number_of_Reviews  37457 non-null  float64
 7   Reviews            40000 non-null  object 
 8   URL_TA             40000 non-null  object 
 9   ID_TA              40000 non-null  object 
dtypes: float64(3), object(7)
memory usage: 3.1+ MB


In [166]:
# Заполним пропуски в поле Number_of_Reviews значением 0 (нет информации значит не было отзывов)
restaurants_iter2.Number_of_Reviews = restaurants_iter2.Number_of_Reviews.fillna(0)

In [167]:
# Заполним пропуски в поле Cuisine_Style значением самой популярной кухни
rest_cuisines = restaurants_cuisines(restaurants_iter2)

keys_list = rest_cuisines.keys()
max_val = 0
max_val_key = ''

for key in keys_list:
    if rest_cuisines[key] > max_val:
        max_val = rest_cuisines[key]
        max_val_key = key

restaurants_iter2.Cuisine_Style = restaurants_iter2.Cuisine_Style.fillna("['" + max_val_key + "']")

In [168]:
# Price_Range - можно заменить символы на числовой рейтинг 1,2,3, 0 - нет данных (как в примере из модуля)
price_range_dict = {'$$$$':3, '$$ - $$$':2, '$':1}
restaurants_iter2.Price_Range = restaurants_iter2.Price_Range.replace(to_replace=price_range_dict)
restaurants_iter2.Price_Range = restaurants_iter2.Price_Range.fillna(0)

#### Добавляем новые признаки

In [173]:
# Количество городов, в которых представлен данный ресторан
rest_in_city = (restaurants_iter2
                .groupby('Restaurant_id')['City'].nunique().reset_index()
                .rename(columns = {'City':'In_Cities'}))

restaurants_iter2 = pd.merge(restaurants_iter2, rest_in_city, 
                             how = 'left', left_on = ['Restaurant_id'], right_on = ['Restaurant_id'])

In [174]:
# Количество кухонь, представленных в данном ресторане
restaurants_iter2['Cuisines_Cnt'] = restaurants_iter2.Cuisine_Style.apply(lambda x: len(ast.literal_eval(x)))

In [177]:
# Среднее количество кухонь среди ресторанов одной сети в разных городах
avg_cuis_in_rest = (restaurants_iter2
                    .groupby('Restaurant_id')['Cuisines_Cnt'].mean().reset_index()
                    .rename(columns = {'Cuisines_Cnt':'Cuisines_Avg'}))

restaurants_iter2 = pd.merge(restaurants_iter2, avg_cuis_in_rest, 
                             how = 'left', left_on = ['Restaurant_id'], right_on = ['Restaurant_id'])

In [178]:
# Cредний рейтинг (Ranking) ресторана среди всех ресторанов одной сети в разных городах
avg_rating_by_rest = (restaurants_iter2
                      .groupby('Restaurant_id')['Ranking'].mean().reset_index()
                      .rename(columns = {'Ranking':'Ranking_Avg'}))

restaurants_iter2 = pd.merge(restaurants_iter2, avg_rating_by_rest, 
                             how = 'left', left_on = ['Restaurant_id'], right_on = ['Restaurant_id'])

In [184]:
# Разница в днях между опубликованными отзывами
restaurants_iter2['Reviews_Dates'] = (restaurants_iter2['Reviews']
                                      .apply(lambda x: re.findall(r"""\d{2}/\d{2}/\d{4}""", x))
                                      )
restaurants_iter2['Review1_Date'] = (restaurants_iter2['Reviews_Dates']
                                     .apply(lambda x: datetime.strptime(x[0],'%m/%d/%Y') if len(x)!= 0 else None))
restaurants_iter2['Review2_Date'] = (restaurants_iter2['Reviews_Dates']
                                     .apply(lambda x: datetime.strptime(x[1],'%m/%d/%Y') if len(x) > 1 else None))                                 

restaurants_iter2['Days_Between_Reviews'] = restaurants_iter2['Review1_Date'] - restaurants_iter2['Review2_Date']
restaurants_iter2['Days_Between_Reviews'] = restaurants_iter2['Days_Between_Reviews'].dt.days
restaurants_iter2['Days_Between_Reviews'] = restaurants_iter2['Days_Between_Reviews'].fillna(0)

# Удаляем вспомогательные колонки
restaurants_iter2 = restaurants_iter2.drop(['Reviews', 'Reviews_Dates', 'Review1_Date', 'Review2_Date'], axis=1)

In [None]:
# 2DO что-то можно нормализовать?

### Подготовка к моделированию

In [186]:
# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели 
# + Удаляю признаки, которые не использую на текущей терации
X = restaurants_iter2.drop(['Restaurant_id', 'Rating', 'URL_TA', 'ID_TA', 'City', 'Cuisine_Style'], axis = 1) # данные с информацией о ресторанах
y = restaurants_iter2.Rating # целевая переменная (рейтинги ресторанов)

In [187]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования 
# Для тестирования мы будем использовать 25% от исходного датасета. 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)  

### Создание, обучение и тестирование модели

In [188]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [189]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.

print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.3808936630952381


## Третья итерация

In [226]:
restaurants_iter3 = restaurants_iter2.copy(deep=True)

In [228]:
# Представим города в виде dummy-переменных
restaurants_iter3['City_Rest'] = 1 #  доп столбец чтобы анстакнуть нормально
restaurants_iter3 = restaurants_iter3.set_index(['Restaurant_id', 'Ranking', 'Cuisine_Style',
                                                 'Rating', 'Number_of_Reviews', 'URL_TA', 'ID_TA', 
                                                 'In_Cities', 'Cuisines_Cnt', 'Cuisines_Avg', 'Ranking_Avg',
                                                 'Days_Between_Reviews', 'Price_Range', 'City'
                                                ])['City_Rest'].unstack('City', fill_value = 0).reset_index()

In [231]:
# Для признака Price_Range заменить пропуски на 0 возможно было не совсем верным решением, т.к пропуск в данных
# по своей сути не меньше, чем любой ценовой диапазон, стоит попробовать сделать из этого признака dummy-переменные

restaurants_iter3 = pd.get_dummies(data = restaurants_iter3, columns = ['Price_Range'])

In [211]:
restaurants_iter3['Cuisine_Style'] = restaurants_iter3.Cuisine_Style.apply(lambda x: ast.literal_eval(x))

### Подготовка к моделированию

In [237]:
# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели 
# + Удаляю признаки, которые не использую на текущей терации
X = restaurants_iter3.drop(['Restaurant_id', 'Rating', 'URL_TA', 'ID_TA', 'Cuisine_Style'], axis = 1) # данные с информацией о ресторанах
y = restaurants_iter3.Rating # целевая переменная (рейтинги ресторанов)

In [239]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования 
# Для тестирования мы будем использовать 25% от исходного датасета. 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)  

### Создание, обучение и тестирование модели

In [240]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [241]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.

print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.21355


В тренировочном забеге MAE: 0.21355 - добились неплохого результата.
На kaggle еще улучшила эту метрику.