# Загрузка Pandas и очистка данных

In [1]:
# Импорт необходимых библиотек
import pandas as pd
import re
import datetime as dt

RANDOM_SEED = 124680
df = pd.read_csv('../data/main_task.csv')

In [2]:
# Импорт собственных функций
import nbimporter
from RDS01_ML01_func import *

Importing Jupyter notebook from RDS01_ML01_func.ipynb


In [3]:
try:
    X_all_cols = pd.read_csv('../data/all_cols.csv')
except:
    # Создаем копию датафрейма и оставляем только необходимые числовые колонки
    X_all_cols = df.copy()
    X_all_cols = df.drop(['Restaurant_id', 'City', 'Cuisine Style', 'Price Range', 
                 'Reviews', 'URL_TA', 'ID_TA', 'Rating'], axis=1)

    # Сбрасываем данные в файл. Потом этот файл будем дополнять новыми признаками
    X_all_cols.to_csv('../data/all_cols.csv', index=False)

    '''После создания всех придуманных признаков, будем экспериментировать с ними: какие оставить 
    в датафрейме X, а какие убрать для получения наилучшего результата MAE'''

X_all_cols.info() #проверка

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 2 columns):
Ranking              40000 non-null float64
Number of Reviews    37457 non-null float64
dtypes: float64(2)
memory usage: 625.1 KB


- Запускаем функцию ЗАПОЛНЕНИЯ / ГЕНЕРАЦИИ НОВЫХ ПРИЗНАКОВ по одному разу и комментируем ее вызов
- После этого проверяем корректность полученных данных
- При необходимости правим код и повторяем запуск

## ===== Заполнение пропусков =====

In [4]:
# %%time
# X_all_cols = fill_NumberOfReviews(df, X_all_cols)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 2 columns):
Ranking              40000 non-null float64
Number of Reviews    40000 non-null float64
dtypes: float64(2)
memory usage: 625.1 KB
None
Wall time: 2.06 s


## ===== Генерация новых признаков =====

In [4]:
X_all_cols = create_IsPriceLev(df, X_all_cols) #Попадание ур. цен в ресторане в определ. диапазон

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 5 columns):
Ranking              40000 non-null float64
Number of Reviews    37457 non-null float64
newIsPriceLevMin     40000 non-null int64
newIsPriceLevMdl     40000 non-null int64
newIsPriceLevMax     40000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 1.5 MB
None


## //--> *** Города

### Новый признак ['newIsCapital'] - является ли город нахождения ресторана столицей (1=Да / 0=Нет)

In [321]:
df['newIsCapital'] = None
df['newIsCapital'] = df['newIsCapital'].fillna(1) #сначала записываем везде 1
#теперь определяем НЕстолицы:
df.loc[(df['City']=='Munich') | (df['City']=='Oporto') | (df['City']=='Milan') | 
   (df['City']=='Barcelona') | (df['City']=='Zurich') | (df['City']=='Lyon') | 
   (df['City']=='Hamburg') | (df['City']=='Geneva') | (df['City']=='Krakow'), 'newIsCapital'] = 0

write_to_csv(df, 'newIsCapital')

prn_info(df, 'newIsCapital')

    *** value_counts of [newIsCapital]:
1    30424
0     9576
Name: newIsCapital, dtype: int64
    ***    rows qnty of [newIsCapital]: 40000


## *** <--//

## //--> *** Кухни

### Новый признак ['newQntyCS'] - кол-во представленных в ресторане кухонь
# ---
### Новые признаки ['newQntyCSeql01'], ['newQntyCS02-05'], ['newQntyCSgrt05']:
 - для каждого ресторана кол-во представленных в нем кухонь разбить по колонкам "Кол-во кухонь = 1", "Кол-во кухонь от 2 до 5", "Кол-во кухонь более 5"

In [284]:
df['newQntyCS'] = 0
df['newIsQntyCSeql01'] = 0
df['newIsQntyCS02-05'] = 0
df['newIsQntyCSgrt05'] = 0
idx = -1

for v in df['Cuisine Style'].apply(lambda x: str(x).strip('[]')):
    idx += 1
#     if idx>5:
#         break
    QntyCS = 0

    if pd.isna(str(v)) or str(v).lower() == 'nan':
        QntyCS = 1
        df.loc[idx, 'newQntyCS'] = 1
    elif ',' not in v:
        QntyCS = 1
        df.loc[idx, 'newQntyCS'] = 1
    else:
        for cs in v.split(','):
            QntyCS += 1
            df.loc[idx, 'newQntyCS'] += 1

    if QntyCS == 1:
        df.loc[idx, 'newIsQntyCSeql01'] = 1
    if 2 <= QntyCS <= 5:
        df.loc[idx, 'newIsQntyCS02-05'] = 1
    elif 5 < QntyCS:
        df.loc[idx, 'newIsQntyCSgrt05'] = 1

write_to_csv('newQntyCS')
write_to_csv('newIsQntyCSeql01')
write_to_csv('newIsQntyCS02-05')
write_to_csv('newIsQntyCSgrt05')

prn_info('Cuisine Style')
prn_info('newQntyCS')
prn_info('newIsQntyCSeql01')
prn_info('newIsQntyCS02-05')
prn_info('newIsQntyCSgrt05')

    *** value_counts of [Cuisine Style]:
['Italian']                                                                                  1032
['French']                                                                                    805
['Spanish']                                                                                   695
['French', 'European']                                                                        405
['Cafe']                                                                                      403
                                                                                             ... 
['Italian', 'Steakhouse', 'Mediterranean', 'Barbecue', 'European', 'Gluten Free Options']       1
['Mediterranean', 'Cafe', 'European', 'Vegetarian Friendly', 'Vegan Options']                   1
['American', 'Delicatessen', 'Contemporary']                                                    1
['French', 'Contemporary', 'Fusion', 'Gastropub']                            

### Новый признак ['newIsUniqueCS'] - присутствует ли в ресторане тип кухни в единственном экземпляре среди всех ресторанов (1=Да / 0=Нет)

In [286]:
df['newIsUniqueCS'] = 0 #для нового признака
#Ручное заполнение

Список кухонь, встречающихся по 1 разу:
['Mexican', 'Latin', 'Salvadoran', 'Central American', 'Spanish']
['Asian', 'Thai', 'Yunnan', 'Vegetarian Friendly', 'Vegan Options']
['Chinese', 'Xinjiang']
['Chinese', 'Asian', 'Thai', 'Burmese']
['Mexican', 'American', 'European', 'Latvian', 'Eastern European', 'Hungarian']

idxList = df.index[(df['Cuisine Style'] == 
   "['Mexican', 'Latin', 'Salvadoran', 'Central American', 'Spanish']") |
   (df['Cuisine Style'] == 
    "['Asian', 'Thai', 'Yunnan', 'Vegetarian Friendly', 'Vegan Options']") |
   (df['Cuisine Style'] == "['Chinese', 'Xinjiang']") |
   (df['Cuisine Style'] == "['Chinese', 'Asian', 'Thai', 'Burmese']") |
   (df['Cuisine Style'] == 
    "['Mexican', 'American', 'European', 'Latvian', 'Eastern European', 'Hungarian']")
      ].to_list()
df.loc[idxList, 'newIsUniqueCS'] = 1

write_to_csv('newIsUniqueCS')

prn_info('newIsUniqueCS')

SyntaxError: invalid syntax (<ipython-input-286-dfc5c76710f6>, line 4)

## *** <--//

## //--> *** Отзывы

### Новый признак ['newQntyLastReview'] - кол-во свежих отзывов (0=Нет отзывов / 1 / 2)
# ---
### Новый признак ['newIsPositiveRev']
 - newIsPositiveRev - явно позитивный отзыв (1=Да / 0=Нет)

# ---
### Новые признаки ['newLastRevYear'], ['newLastRevMonth'], ['newLastRevDofM'], ['newLastRevDofW']
 - самый свежий отзыв: год, месяц, день месяца, день недели, час суток, когда оставлен отзыв

In [None]:
# df['newQntyLastReview'] = 0
df['newIsPositiveRev'] = 0
# df['newLastRevYear'] = 1900
# df['newLastRevMonth'] = 1
# df['newLastRevDofM'] = 1
# df['newLastRevDofW'] = 1

cnt = 0
idxList = df.index[df['Reviews'] != '[[], []]'].to_list()
for idx in idxList:
    cnt += 1
#     if cnt>5:
#         break
    
    #newQntyLastReview
#     lst = re.findall(r'\d\d\/\d\d\/\d{4}', df['Reviews'].iloc[idx])
#     df.loc[idx, 'newQntyLastReview'] = len(lst)

    #newLastRevYear, newLastRevMonth, newLastRevDofM, newLastRevDofW
#     t = None
#     if len(lst) == 1:
#         t = pd.to_datetime(lst[0])
#     elif len(lst) == 2:
#         t1 = pd.to_datetime(lst[0])
#         t2 = pd.to_datetime(lst[1])
#         if t1>t2:
#             t = t1
#         else:
#             t = t2
#     if not pd.isnull(t):
#         #print(t, ',', t.hour)
#         df.loc[idx, 'newLastRevYear'] = t.year
#         df.loc[idx, 'newLastRevMonth'] = t.month
#         df.loc[idx, 'newLastRevDofM'] = t.day
#         df.loc[idx, 'newLastRevDofW'] = t.weekday()
    
    #newIsPositiveRev
    lst = re.findall(r'good|delic|lovin|wonderf|awesom|best|great|fantast|pleasan', 
                     str(df['Reviews'].iloc[idx]).lower())
    if len(lst) > 0:
         df.loc[idx, 'newIsPositiveRev'] = 1

write_to_csv('newIsPositiveRev')

prn_info('Reviews')
# prn_info('newQntyLastReview')
prn_info('newIsPositiveRev')
# prn_info('newLastRevYear')
# prn_info('newLastRevMonth')
# prn_info('newLastRevDofM')
# prn_info('newLastRevDofW')

### Новый признак ['newQntyDaysBetwRev'] - кол-во дней между двумя последними отзывами (365x200=73000 - нет ни одного отзыва /  365x100=36500 - есть только 1 отзыв / N - кол-во дней между двумя последними отзывами)

In [None]:
df['newQntyDaysBetwRev'] = 365 * 200
cnt = 0
    
idxList = df.index[df['Reviews'] != '[[], []]'].to_list()
for idx in idxList:
    cnt += 1
#     if cnt>5:
#         break
    Tdiff = dt.timedelta(days=0)
    lst = re.findall(r'\d\d\/\d\d\/\d{4}', df['Reviews'].iloc[idx])
    if len(lst) == 1:
        df.loc[idx, 'newQntyDaysBetwRev'] = 365 * 100
    else:
        t1 = pd.to_datetime(lst[0])
        t2 = pd.to_datetime(lst[1])
        if t1 > t2:
            Tdiff = t1 - t2
        else:
            Tdiff = t2 - t1
        df.loc[idx, 'newQntyDaysBetwRev'] = Tdiff.days
        #print(Tdiff, Tdiff.days)

write_to_csv('newQntyDaysBetwRev')

prn_info('Reviews')
prn_info('newQntyDaysBetwRev')

## *** <--//

## //--> *** Рестораны

### Новый признак ['newIsChain'] - сетевой ресторан (1=Да / 0=Нет)

In [None]:
df['newIsChain'] = 1
df_chain = pd.DataFrame(df.groupby(df['Restaurant_id']).newIsChain.count())
df_chain.columns = ['cnt']
idxList = df_chain.index[df_chain['cnt'] == 1].to_list() #это НЕсетевые рестораны
# len(idxList)
cnt=0
for idx in idxList:
    cnt += 1
#     if cnt>5:
#         break
    df['newIsChain'].iloc[df.index[df['Restaurant_id'] == idx]] = 0

write_to_csv('newIsChain')

prn_info('newIsChain')

## *** <--//

# =========================================

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [289]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = df.drop(['Restaurant_id','City', 'Cuisine Style', 'Price Range', 
             'Reviews','URL_TA','ID_TA','Rating'], axis=1)
y = df['Rating']

In [290]:
X.iloc[29591]#[15290]

Ranking              1242.0
Number of Reviews       6.0
newIsPriceLevMin        1.0
newIsPriceLevMdl        0.0
newIsPriceLevMax        0.0
newIsCapital            1.0
newQntyCS               1.0
newIsQntyCSeql01        1.0
newIsQntyCS02-05        0.0
newIsQntyCSgrt05        0.0
Name: 29591, dtype: float64

In [291]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 10 columns):
Ranking              40000 non-null float64
Number of Reviews    40000 non-null float64
newIsPriceLevMin     40000 non-null int64
newIsPriceLevMdl     40000 non-null int64
newIsPriceLevMax     40000 non-null int64
newIsCapital         40000 non-null int64
newQntyCS            40000 non-null int64
newIsQntyCSeql01     40000 non-null int64
newIsQntyCS02-05     40000 non-null int64
newIsQntyCSgrt05     40000 non-null int64
dtypes: float64(2), int64(8)
memory usage: 3.1 MB


In [292]:
X

Unnamed: 0,Ranking,Number of Reviews,newIsPriceLevMin,newIsPriceLevMdl,newIsPriceLevMax,newIsCapital,newQntyCS,newIsQntyCSeql01,newIsQntyCS02-05,newIsQntyCSgrt05
0,5570.0,194.0,0,1,0,1,3,0,1,0
1,1537.0,10.0,1,0,0,1,1,1,0,0
2,353.0,688.0,0,0,1,1,7,0,0,1
3,3458.0,3.0,1,0,0,1,1,1,0,0
4,621.0,84.0,0,1,0,0,3,0,1,0
...,...,...,...,...,...,...,...,...,...,...
39995,500.0,79.0,0,1,0,0,4,0,1,0
39996,6341.0,542.0,0,1,0,1,5,0,1,0
39997,1652.0,4.0,1,0,0,1,2,0,1,0
39998,641.0,70.0,0,1,0,1,5,0,1,0


In [293]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [294]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=RANDOM_SEED)

# Создаём, обучаем и тестируем модель

In [295]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [296]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100, #число деревьев в "лесу" (по дефолту – 10)
                             n_jobs=-1, #количество ядер для построения модели и предсказаний (по дефолту 1, если поставить -1, то будут использоваться все ядра)
                             random_state=RANDOM_SEED #начальное значение для генерации случайных чисел (по дефолту его нет, если хотите воспроизводимые результаты, то нужно указать любое число типа int
                            )

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [297]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))
#0 - MAE: 0.42803726567460315
#1 - MAE: 0.3444311738095238 / 0.35086609166666666
#2 - MAE: 0.34706674175824176 / 0.3427020345238095
#3 - MAE: 0.3475678107142857 / 0.3453844226190476
#4 - MAE: 0.3434115404761905 / 0.34369832023809516
#5 - MAE: 0.37630070396825394
#         0.3817714027777777

MAE: 0.3817714027777777
