# Загрузка Pandas и очистка данных

In [1]:
import re
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from collections import Counter

In [2]:
data = pd.read_csv('main_task_new.csv')

In [3]:
# Ваш код по очистке данных и генерации новых признаков
# При необходимости добавьте ячейки

In [4]:
# Заполнение пропусков средними значениями
data['Number of Reviews'].fillna(data['Number of Reviews'].mean(), inplace =True)
data['Ranking'].fillna(data['Ranking'].mean(), inplace =True)
data['Rating'].fillna(data['Rating'].mean(), inplace =True)
data['Cuisine Style'].fillna("International", inplace=True)

# подготовка колонки к обработке
def len_cuisine(style1):
    style = str(style1)
    style = style.replace("[",'').replace("]",'').replace("'","").replace(", ",",")
    return style.split(',')


data['Cuisine Style'] = data['Cuisine Style'].apply(lambda x:len_cuisine(x))

# подсчет количества свойств строки
def len_cuisine1(style):

    if style == None:
        return 1
    else: 
        l_style = style.split(', ')
        return len(l_style)

data['len Cuisine Style'] = data['Cuisine Style'].apply(lambda x:len(x))

# расчет разности отзывов в днях
def review_to_variance(review):
    pattern = re.compile('\'\d+\/\d+\/\d+\'?')
    dat = pattern.findall(review)
    if len(dat) >= 2:
        datetime_list = []
        for date in dat:
            date = date[1:-1]
            dt = pd.to_datetime(date)#datetime.datetime.strptime(date, '%m/%d/%Y')
            datetime_list.append(dt)
        if datetime_list[0] > datetime_list[1]:
            variance = (datetime_list[0] - datetime_list[1]).days
        else:
            variance = (datetime_list[1] - datetime_list[0]).days
            
        #проверка на ошибки в отзывах, больше года ошибка    
        if variance > 365:
            return 365
        else:
            return variance
        
    else:
        return 0
    
data['review_variance'] = data['Reviews'].apply(lambda x: review_to_variance(x))

# выделение последнего отзыва
def review_to_date(review):
    pattern = re.compile('\'\d+\/\d+\/\d+\'?')
    dat = pattern.findall(review)
    if len(dat) == 0:
        return pd.to_datetime(np.nan)  
    else:
        datetime_list = []
        for date in dat:
            dt = pd.to_datetime(date)#datetime.datetime.strptime(date, '%m/%d/%Y')
            datetime_list.append(dt)
        if len(datetime_list)>1:
            if datetime_list[0] > datetime_list[1]:
                return datetime_list[0]
            else:
                return datetime_list[1]
        else: return datetime_list[0]
                
    
data['review_last'] = data['Reviews'].apply(lambda x: review_to_date(x))

# проверка nan даты последнего отзыва
data['review_last'].isna().sum()

6471

In [5]:
# заполнение nan даты последнего отзыва ближайшей датой
max_data = data['review_last'].max()
data['review_last'].fillna(max_data, inplace=True)

# новая колонка день последнего отзыва
data['review_day'] = data['review_last'].dt.weekday
data['review_month'] = data['review_last'].dt.month
data['review_year'] = data['review_last'].dt.year
#data['review_day'].fillna(data['review_day'].mean(), inplace =True)

# новая колонка объединенный рэйтинг
data['Rating_union'] =data['Ranking']**0.5

def count_range1(colum):
    colum = str(colum)
    if (np.nan == colum)or('nan'==colum):
        return 0
    elif '$$$$' in colum:   #colum.isnan():
        return 3
    elif '$$ - $$$' in colum:   #colum.isnan():
        return 2
    else:
        return 1

# новая колока классификация цены    
data['Price Range count'] = data['Price Range'].apply(lambda x: count_range1(x))


In [6]:
# добавление dummy variables plus_world и mins_world соответственно комплимент и ругательства
#вражения из словаря в интернете
plus_world = "good,better,yummy,mouth-watering,scrumptious,very rich,decadent,amazing,fresh,delicious,sweet"
plus_world = plus_world.split(',')

minus_world = "bad,worst,don't, not "
minus_world = minus_world.split(',')

def count_plus_word(colum):
    colum= str(colum).lower()
    sum = 0
    for word in plus_world:
        if word in colum:
            sum += 1
    return sum

data['plus_word'] = data['Reviews'].apply(lambda x: count_plus_word(x))

def count_minus_word(colum):
    colum= str(colum).lower()
    sum = 0
    for word in minus_world:
        if word in colum:
            sum += 1
    return sum    
    
data['minus_world'] = data['Reviews'].apply(lambda x: count_minus_word(x))

data = pd.get_dummies(data, columns=[ 'City',], dummy_na=True)

# Добавляем также dummies признак для типов кухни
df1 = data[['Cuisine Style']].copy()
df1 = pd.get_dummies(df1['Cuisine Style'].explode(), prefix = 'cuis').sum(level=0)
data = pd.concat([data,df1],axis=1)
#data.info(5)

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [7]:
df = data.drop(['Restaurant_id','review_last',], axis = 1)
object_columns = [s for s in df.columns if df[s].dtypes == 'object']
df.drop(object_columns, axis = 1, inplace=True)

# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
#X = df.drop(['Restaurant_id', 'Rating'], axis = 1)
X = df.drop(['Rating'], axis = 1)
y = df['Rating']
#df.info()
#object_columns
#df.columns

In [8]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [9]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [10]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [11]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [12]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.21665749999999998
