# Загрузка Pandas и очистка данных

In [56]:
import pandas as pd
import re
from datetime import datetime, timedelta
import random
from textblob import TextBlob
from textblob.classifiers import NaiveBayesClassifier

In [57]:
train = [
    ('Good food at your doorstep', 'pos'),
    ('A good hotel restaurant', 'net'),
    ('Unique cuisine', 'pos'),
    ('Delicious Nepalese food', 'pos'),
    ('Everything changed to the worth', 'pos'),
    ('Excellent beers', 'pos'),
    ('Special place', 'pos'),
    ('Our favorite restaurant in Rome', 'pos'),
    ('Nice building but improvements need to be.', 'neg'),
    ("When you need a change", "net"),
    ("Wasting of money", 'neg'),
    ("poor food", 'neg'),
    ("some rude staf...", 'neg'),
    ("Early dinner but disappointed", 'neg'),
    ("The worst experience ever", 'neg'),
    ("I really did not enjoy the place", 'neg'),
    ("Disgusting service and awful food", 'neg'),
    ("Russian cousin", "net"),
    ("Sad aperitivo yet nice location", "net"),
    ("Tapas lunch", "net"),
    ("Lunch", "net"),
    ("Not for couples", "net"),
    ("westernised but still ok", "net"),
    ("A great breakfast place", "pos"),
    ("Most welcoming place ever", "pos")
]
cl = NaiveBayesClassifier(train)
# cl.classify('Authentic but way too expensive')

In [192]:
# Ваш код по очистке данных и генерации новых признаков
# При необходимости добавьте ячейки

df = pd.read_csv('main_task.csv')
df.columns = ['restaurant_id', 'city', 'cuisine_style', 'ranking', 'rating', 'price_range', 'number_of_reviews', 'reviews', 'url_ta', 'id_ta']

# start changing reviews number
def get_list_from_str(s):
    return s.split('], [')[0].replace('[', '').replace("'", '').split(', ')

def get_reviews_list():
    v_list = []
    for i, x in enumerate(df['number_of_reviews'].isnull().values):
        if x:
            v = get_list_from_str(df['reviews'].values[i])
            v = list(filter(lambda x: len(x) > 0, v))
            v_list.append(len(v))
        else:
            v_list.append(df['number_of_reviews'][i])
    return v_list

df['number_of_reviews'] = pd.Series(get_reviews_list())
# end changing reviews number

df['price_range'] = df['price_range'].fillna("$$ - $$$")
prices_dummies = df.price_range.replace(to_replace={"$": "low_price", "$$ - $$$": "medium_price", "$$$$": "high_price"})
df = df.join(pd.get_dummies(prices_dummies))

def get_time(s):#поиск даты по заданному шаблону и создание списка
    t_list = [pd.to_datetime(x) for x in re.findall(r'\d+/\d+/\d+', s)]

    if len(t_list) == 0:
        return None
    
    t_list.sort(reverse=True)
    return t_list[0]

def get_diff_days(s):#поиск даты по заданному шаблону, расчет разницы между днями и их сортировка по убыванию
    t_list = [pd.to_datetime(x) for x in re.findall(r'\d+/\d+/\d+', s)]

    if len(t_list) == 0:
        return 0
    
    if len(t_list) == 1:
        return 0
    
    t_list.sort(reverse=True)
    return (t_list[0] - t_list[1]).days


def del_bracket(value):#замена квадратных скобок и одинарных кавычек на пробел
    if type(value) == str:
        return value.replace("[", "").replace("]", "").replace("'", "")
    return value

def get_list_columns_by_cuisine():#поиск уникальных значений в колонке Cuisine Style
    restorans = df['cuisine_style'].apply(del_bracket).str.split(', ').explode()
    return restorans.value_counts().index

def get_cuisine_row_value(k, v):
    if type(v) == str: 
        if k in del_bracket(v):
            return 1
    return 0


df['fresh_date'] = df['reviews'].apply(get_time)
df['diff_date'] = df['reviews'].apply(get_diff_days)


# df['vegetarian_option'] = df['cuisine_style'].fillna('').apply(lambda x: 1 if 'Vegetarian Friendly' in x else 0 )

# df['cuisine_style'] = df['cuisine_style'].fillna("['Vegetarian Friendly']")

def get_cuisine_num(v):
    if type(v) != str:
        return 0
    l = del_bracket(v).split(', ')
    return len(list(filter(lambda x: len(x) > 0, l)))
df['cuisine_number'] = df['cuisine_style'].apply(get_cuisine_num)

for k, j in enumerate(get_list_columns_by_cuisine()):
    df[j] = df['cuisine_style'].apply(lambda x: get_cuisine_row_value(j, x))


start_date = df['fresh_date'].dropna()

d = start_date.sort_values(ascending=False).values[0]

y = pd.Timestamp(d).year

def get_date(d):
    if pd.Timestamp(d).year == y:
        return "norm"
    return "outdate"

df['fresh_date'] = df['fresh_date'].apply(get_date)
df = df.join(pd.get_dummies(df['fresh_date']))


def exist_review(v):
    if type(v) == str:
        v_l = v.split('], [')[0].replace('[', '').replace("'", '').split(', ')
        for t in v_l:
            if len(t) == 0:
                return 0
            return 1
            
    return 0
    
f_list = lambda x: list(filter(lambda y: len(y), x))

def convert_review(v):
    if type(v) == str:
        v_l = v.split('], [')[0].replace('[', '').replace("'", '').split(', ')
        v_l = f_list(v_l)
        if len(v_l) == 0:
            return 'net'
        s = []
        for t in v_l:
            s.append(cl.classify(t))
        return ', '.join(s)
            
    return 'net'
def get_pos_number(v):
    return len(list(filter(lambda y: y == 'pos', v.split(', '))))
def get_neg_number(v):
    return len(list(filter(lambda y: y == 'neg', v.split(', '))))
def get_net_number(v):
    return len(list(filter(lambda y: y == 'net', v.split(', '))))

buff = df['reviews'].apply(convert_review)
for i in ['pos', 'net', 'neg']:
    df[i] = buff.apply(lambda x: 1 if i in x else 0)
df['neg_number'] = buff.apply(get_neg_number)
df['reviews_exist'] = df['reviews'].apply(exist_review)

df = df.join(pd.get_dummies(df['city']))


In [193]:
def get_drop_headers():
    l = []
    for i, j in enumerate(df.values[0]):
        if type(j) != float and type(j) != int:
            l.append(df.columns[i])
    return l
df = df.drop(get_drop_headers(), axis = 1)

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [195]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = df.drop(['rating'], axis = 1)  
y = df['rating']

In [196]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [197]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [198]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [199]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [200]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.2124785
