# Загрузка Pandas и очистка данных

In [1]:
import pandas as pd
import numpy as np
import re
from datetime import datetime

In [6]:
df = pd.read_csv('main_task.csv')
df.head()

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA
0,id_5569,Paris,"['European', 'French', 'International']",5570.0,3.5,$$ - $$$,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643
1,id_1535,Stockholm,,1537.0,4.0,,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032
2,id_352,London,"['Japanese', 'Sushi', 'Asian', 'Grill', 'Veget...",353.0,4.5,$$$$,688.0,"[['Catch up with friends', 'Not exceptional'],...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781
3,id_3456,Berlin,,3458.0,5.0,,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776
4,id_615,Munich,"['German', 'Central European', 'Vegetarian Fri...",621.0,4.0,$$ - $$$,84.0,"[['Best place to try a Bavarian food', 'Nice b...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963


In [5]:

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Restaurant_id      40000 non-null  object 
 1   City               40000 non-null  object 
 2   Ranking            40000 non-null  float64
 3   Rating             40000 non-null  float64
 4   Price Range        40000 non-null  float64
 5   Number of Reviews  37457 non-null  float64
 6   Reviews            40000 non-null  object 
 7   URL_TA             40000 non-null  object 
 8   ID_TA              40000 non-null  object 
 9   Price_range_isNAN  40000 non-null  uint8  
 10  cuisine_len        40000 non-null  int64  
dtypes: float64(4), int64(1), object(5), uint8(1)
memory usage: 3.1+ MB


In [4]:
df['Price Range'].value_counts()

2.0    32298
1.0     6279
3.0     1423
Name: Price Range, dtype: int64

In [3]:
# Ваш код по очистке данных и генерации новых признаков
# При необходимости добавьте ячейки

# Для начала приведем стобец с идентификатором ресторана в числовой формат
df.Restaurant_id = df.Restaurant_id.str.replace('id_', '')

# преобразование признака в dummy переменные
df['Price_range_isNAN'] = pd.isna(df['Price Range']).astype('uint8')


def price_range(rang):
    if rang == '$':
        return round(1)
    elif rang == '$$ - $$$':
        return round(2)
    elif rang == '$$$$':
        return round(3)
    else:
        return rang

df['Price Range'] = df['Price Range'].apply(lambda x: price_range(x))

df['Price Range'].fillna(2, inplace=True)

In [11]:
df = df.copy()
df['Cuisine Style'] = df['Cuisine Style'].str.split(',')
df['cuisine_len'] = df['Cuisine Style'].apply(lambda x: len(x))

df.head()

TypeError: object of type 'NoneType' has no len()

In [None]:

# Отсутствующие значения типа кухонь заменили на Regular, так как минимум одна кухня должна быть представлена,
# либо некоторые виды являются сочетанием нескольких кухонь
df['Cuisine Style'] = df['Cuisine Style'].fillna(value='Regular', inplace=True)

df = df.copy()
df['Cuisine Style'] = df['Cuisine Style'].str.split(',')
df['cuisine_len'] = df['Cuisine Style'].apply(lambda x: len(x))

# Преобразуем строковые значения из Cuisine Style в списки:
data['Cuisine_Style_List'] = data['Cuisine Style'].str.findall(r'\w+\s*\w*\s*\w*\s*\w*\s*\w*')

display(type(data.loc[0,'Cuisine Style']))        # проверка
display(type(data.loc[0,'Cuisine_Style_List']))   # проверка

df = df.copy()
df['Cuisine Style'] = df['Cuisine Style'].str.split(',')
df['cuisine_len'] = df['Cuisine Style'].apply(lambda x: len(x))
df.drop(['Cuisine Style'], inplace=True, axis=1)

In [4]:
# Так как столбцы URL_TA и ID_TA не несут никакой практической информации было принято решение их удалить
df.drop(['URL_TA'], inplace=True, axis=1)
df.drop(['ID_TA'], inplace=True, axis=1)

#Пропуски в признаке Number of Reviews заполним средним количеством отзывов по городам
for city in df['City'].unique():
    df.loc[df.City == city, ['Number of Reviews']] = df['Number of Reviews'].loc[df.City == city].\
    fillna(round(df['Number of Reviews'].loc[df.City == city].mean(),2))

# Переведем все даты из отзывов в формат datetime и положим в отдельный признак
def review_to_date(review):
    # Задаем паттерн для даты
    pattern = re.compile('\'\d+\/\d+\/\d+\'?')
    # Записываем даты в переменную
    dat = pattern.findall(review)
    # Переводим даты в формат datetime
    if len(dat) >= 2:
        datetime_list = []
        for date in dat:
            date = date[1:-1]
            dt = datetime.strptime(date, '%m/%d/%Y')
            datetime_list.append(dt)
        return datetime_list


df['review_dates'] = df['Reviews'].apply(lambda x: review_to_date(x))

# Находим разницу в днях между датами каждого второго отзыва с предыдущим


def tworeview_day(date):
    if date is not None:
        delta = date[0] - date[1]
        return abs(round(delta.days))


df['tworeview_day'] = df['review_dates'].apply(lambda x: tworeview_day(x))
df.drop(['Reviews'], inplace=True, axis=1)

# пропуски заполняем нулями, так как нет объективных данных о разнице дней
df['tworeview_day'] = df['tworeview_day'].fillna(value='0')

# Попробуем вычленить год/месяц/день/день недели отзывов
def get_year(date):
    if date is not None:
        date_year = (date[1].year+date[0].year)/2
        return round(round(date_year))


def get_month(date):
    if date is not None:
        date_month = (date[1].month+date[0].month)/2
        return round(round(date_month))


def get_day(date):
    if date is not None:
        date_day = (date[1].day+date[0].day)/2
        return round(round(date_day))


df['rev_year'] = df['review_dates'].apply(lambda x: get_year(x))
df['rev_month'] = df['review_dates'].apply(lambda x: get_month(x))
df['rev_day'] = df['review_dates'].apply(lambda x: get_day(x))

# Пропуски в ново созданных признаках заполним средней
df['rev_year'] = df['rev_year'].fillna(0)
yl = []
for year in df['rev_year']:
    if year > 0:
        yl.append(year)
yearm = round(np.mean(yl))

def fillna_year(date):
    if date == 0:
        return yearm
    else:
        return date
df['rev_year'] = df['rev_year'].apply(lambda x: fillna_year(x))


df['rev_month'] = df['rev_month'].fillna(0)
ml = []
for month in df['rev_month']:
    if month > 0:
        ml.append(month)
monm = round(np.mean(ml))

def fillna_month(date):
    if date == 0:
        return monm
    else:
        return date
df['rev_month'] = df['rev_month'].apply(lambda x: fillna_month(x))


df['rev_day'] = df['rev_day'].fillna(0)
dl = []
for day in df['rev_day']:
    if day > 0:
        dl.append(day)
daym = round(np.mean(dl))

def fillna_day(date):
    if date == 0:
        return daym
    else:
        return date
df['rev_day'] = df['rev_day'].apply(lambda x: fillna_day(x))

df.drop(['review_dates'], inplace=True, axis=1)

Unnamed: 0,Restaurant_id,City,Ranking,Rating,Number of Reviews,$,$$,$$$,cuisine_len,tworeview_day,rev_year,rev_month,rev_day
0,5569,Paris,5570.0,3.5,194.0,0,1,0,3,41,2017.0,12.0,26.0
1,1535,Stockholm,1537.0,4.0,10.0,0,1,0,1,382,2016.0,6.0,12.0
2,352,London,353.0,4.5,688.0,0,0,1,7,2,2018.0,1.0,7.0
3,3456,Berlin,3458.0,5.0,3.0,0,1,0,1,0,2017.0,7.0,15.0
4,615,Munich,621.0,4.0,84.0,0,1,0,3,272,2017.0,6.0,18.0


Так в стоблце city нет пропусков, нет ошибок в названии городов и представлено всего 31 город, то было принято решение признак city преобразовать в dummy-переменные

In [5]:
city_dummy = pd.get_dummies(df.City)

df = pd.concat([df, city_dummy], axis=1)      
df.drop(['City'], inplace=True, axis=1)

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [6]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = df.drop(['Restaurant_id', 'Rating'], axis = 1)
y = df['Rating']

In [7]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [8]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [9]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [10]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [11]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.2153775
