# Загрузка Pandas и очистка данных

In [3]:
import pandas as pd
import numpy as np
import re
from datetime import datetime, timedelta 
import seaborn as sns
import matplotlib.pyplot as plt
from geopy.geocoders import Nominatim
geolocator = Nominatim(user_agent="example app")
import pycountry

In [6]:
data = pd.read_csv('main_task.csv')

# Ниже, код по очистке данных и генерации новых признаков. 

## 1. Очистка дубликатов

In [7]:
data.drop_duplicates(subset = 'ID_TA', inplace = True)

## 2. Преобразование и заполнение пропусков Price Range

In [8]:
#Создание словоря для преобразования класса цены в число, где 1 - самые дешевые рестораны.
mapping_dict = {data['Price Range'].unique()[0]: 2,
                data['Price Range'].unique()[2]: 3,
                data['Price Range'].unique()[3]: 1}

In [9]:
# Преобразование признака в числовой формат для работы с пропусками
data['price_class'] = data['Price Range'].map(mapping_dict)

In [10]:
# Функция вычисления среднего класса по городу и квинтилю Ranking для города
def main_price(city, i):
    data_c = data[data.City == city]
    result = data_c[(data_c.Ranking.quantile(i) <= data_c.Ranking) & (data_c.Ranking < data_c.Ranking.quantile(i+0.2))].price_class.dropna().mean()
    return result

In [11]:
# Функция вычисляющая скрию значений по городам для определенного квинтиля
def quantile(quantile):
    series=[]
    for i in data.City.unique():
        series.append(main_price(i, quantile))
    return series

In [12]:
# Создание DF c итоговыми значениями
city_price = pd.DataFrame({'city': data.City.unique()})
quantiles = [x/10 for x in range(8, -1, -2)]
for i in quantiles:
    city_price[i]=quantile(i)

In [13]:
city_price

Unnamed: 0,city,0.8,0.6,0.4,0.2,0.0
0,Paris,1.843182,1.812796,1.808544,1.86095,2.049948
1,Stockholm,1.827586,1.857143,1.79661,1.931034,2.075949
2,London,1.676976,1.727592,1.705405,1.789901,1.985179
3,Berlin,1.746154,1.652174,1.666667,1.701923,1.864407
4,Munich,1.815789,1.746667,1.876404,1.891156,2.056497
5,Oporto,1.782609,1.605263,1.56,1.630435,1.796117
6,Milan,1.597315,1.65873,1.606195,1.698061,1.919048
7,Bratislava,1.789474,1.8,1.777778,1.774194,1.928571
8,Vienna,1.813187,1.699029,1.717172,1.86911,1.982533
9,Rome,1.58794,1.624161,1.671348,1.8,1.835784


В большинстве случаев, среднеарифметический класс соответствует самому популярному значению в DF (средний). Тем не менее, иммется несколько исключений.

In [14]:
#Создание списка содержащего вложенный список [город-квинтиль],
#где преоблядают дешевые рестораны.
class1_price=[]
for i in quantiles:
    for j in city_price[city_price[i]<1.5].city:
        class1_price.append([j, i])
class1_price

[['Edinburgh', 0.8], ['Krakow', 0.8], ['Ljubljana', 0.6], ['Krakow', 0.6]]

In [15]:
#Заполнение соответствующих значений
class1_indexes=[]
if len(class1_price)>0:
    #Цикл достает индексы строк соответствующих парам [город-квинтиль]
    for pair in class1_price:
        city = pair[0]
        Q = pair[1]
        df = data[(data.City == city) & (data[data.City == city].Ranking.quantile(Q) <= data.Ranking) & (data[data.City == city].Ranking < data.Ranking.quantile(Q+0.2))]
        #Цикл оставляет только пустые ячейки
        for i in df[df.price_class.isna()].index:
            class1_indexes.append(i)
    #Цикл заполния пустых значений
    for i in class1_indexes:
        data.xs(i)['price_class'] = 1   

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.xs(i)['price_class'] = 1


In [16]:
#Создание списка содержащего вложенный список [город-квинтиль], где преоблядают дорогие рестораны.
#Не сотря на то, что список пуст, он может быть актуален для других данных
class3_price=[]
for i in quantiles:
    for j in city_price[city_price[i]>=2.5].city:
        class1_price.append([j, i])
class3_price

[]

In [17]:
#Заполнение соответствующих значений аналогично дешевым ресторанам
class3_indexes=[]
if len(class3_price)>0:
    for pair in class3_price:
        city = pair[0]
        Q = pair[1]
        df = data[(data.City == city) & (data[data.City == city].Ranking.quantile(Q) <= data.Ranking) & (data[data.City == city].Ranking < data.Ranking.quantile(Q+0.2))]
        for i in df[df.price_class.isna()].index:
            class3_indexes.append(i)
    for i in class3_indexes:
        data.xs(i)['price_class'] = 1 

In [18]:
#Заполнение оставшихся ячеек самым популярным значением
data.price_class.fillna(value = 2, inplace =True)

## 3. Преобразование и заполнение пропусков Cuisine Style

In [19]:
#Создание списка из строки
data['Cuisine Style'] = data['Cuisine Style'].str.findall(r'\w+\s*\w*\s*\w*\s*\w*\s*\w*')

In [20]:
#Функция вычисляющая самую популярную кухню в городе.
#Значение "European" опущено, т.к. говорит о географическом происхождении не достаточно точно
def popular_cuisine(city):
    popular_values = pd.Series(data[data.City == city]['Cuisine Style'].dropna().sum()).value_counts()
    if popular_values.index[0] != 'European':
        result = popular_values.index[0]
    else:
        result = popular_values.index[1]
    return result

In [21]:
#Создание вспомогательного DF для более быстрого заполнения пропусков
city_cuisine = pd.DataFrame({'city': data.City.unique()})
city_cuisine['cuisine'] = city_cuisine.city.apply(popular_cuisine)
city_cuisine

Unnamed: 0,city,cuisine
0,Paris,French
1,Stockholm,Vegetarian Friendly
2,London,Vegetarian Friendly
3,Berlin,Vegetarian Friendly
4,Munich,Vegetarian Friendly
5,Oporto,Portuguese
6,Milan,Italian
7,Bratislava,Central European
8,Vienna,Vegetarian Friendly
9,Rome,Italian


In [22]:
#Функция заполнения пропусков популярным значением для города
def associated_cuisine(city):
    result = city_cuisine[city_cuisine.city == city].iloc[0][1]
    return result

In [23]:
#Функция преобразования заполненных строк в список
def making_list(cell):
    if type(cell) == list:
        result = cell
    elif type(cell) == str:
        result = re.findall(r'\w+\s*\w*\s*\w*\s*\w*\s*\w*', cell)
    return result

In [24]:
#Применение вышеописанных функций + создание столбца кол-ва кухонь
data['Cuisine Style'].fillna(value=data.City.apply(associated_cuisine), inplace=True)
data['Cuisine Style'] = data['Cuisine Style'].apply(making_list)
data['cuisine_amount'] = data['Cuisine Style'].apply(lambda x: len(x))

## 4. Преобразование и создание доп. парметров из Reviews

In [25]:
# Функция преобразоватия строковой даты в формат datetime
def date_conversion(cell):
    resulting_list=[]
    for i in cell:
        if int(i[:i.find('/')])<=12:
            converted_time = datetime.strptime(i, '%m/%d/%Y')
            resulting_list.append(converted_time)
        else:
            converted_time = datetime.strptime(i, '%d/%m/%Y')
            resulting_list.append(converted_time)
    return resulting_list

In [26]:
# Создание параметра review_dates содержащего список дат отзывов
data['review_dates'] = data.Reviews.str.findall(r'\d+/\d+/\d+')
data.review_dates = data.review_dates.dropna().apply(date_conversion)

In [27]:
# Фунция вычисляет разницу между превым и последним отзывом
def review_t_dif(cell):
    if len(cell)>=2:
        dif=max(cell)-min(cell)
    else:
        dif=timedelta(days = 0)
    return dif

In [28]:
# Параметр review_time_span отбражает разницу между превым и последним отзывом
data['review_time_span'] = data.review_dates.dropna().apply(review_t_dif)

In [29]:
#Перевод результата в секунды
data.review_time_span = data.review_time_span.apply(lambda x: x.total_seconds())

In [30]:
# Параметр visible_reviews отбражает кол-во видимых отзывов
data['visible_reviews'] = data.review_dates.apply(lambda x: len(x))

## 5. Применение списков ключевых слов для данных

In [31]:
# Параметр review_wordbox включает список слов используемых в Reviews
data.Reviews = data.Reviews.apply(lambda x: x.lower())
data['review_wordbox'] = data.Reviews.str.findall(r'\w[a-z]+')

In [32]:
# Загрузка списков, созданных при анализе имеещихся данных
# Подробнее в ноутбуке data_prep
pw_df = pd.read_csv('key_p_words.csv')
positive_review_predictors = list(pw_df.key_words)

nw_df = pd.read_csv('key_n_words.csv')
negative_review_predictors = list(nw_df.key_words)

In [33]:
# Функция расчитывающая рейтинг по ключевым словам. Нейтральное значение = 0.5
def valued_review_score(wordbox):
    positives = 1
    negatives = 1
    for i in wordbox:
        if i in positive_review_predictors:
            positives += 1
        elif i in negative_review_predictors:
            negatives += 1
    result = positives/(positives + negatives)
    return result

In [34]:
# Параметр valued_review содержит условный рейтинг, расчитаный на осонове слов, содежащихся в Reviews
data['valued_review'] = data.review_wordbox.apply(valued_review_score)

## 6. Заполнение пропусков Number of Reviews

In [35]:
# Функция вычисления среднего класса по городу и квинтилю Ranking для города
def avg_reviews(city, i):
    data_c = data[data.City == city]
    result = data_c[(data_c.Ranking.quantile(i) <= data_c.Ranking) & (data_c.Ranking < data_c.Ranking.quantile(i+0.2))]['Number of Reviews'].dropna().mean()
    return result

In [36]:
# Функция вычисляющая серию значений по городам для определенного квинтиля
def quantile(quantile):
    series=[]
    for i in data.City.unique():
        series.append(avg_reviews(i, quantile))
    return series

In [37]:
# Создание DF c итоговыми значениями
city_rev = pd.DataFrame({'city': data.City.unique()})
quantiles = [x/10 for x in range(8, -1, -2)]
for i in quantiles:
    city_rev[i]=quantile(i)

In [38]:
city_rev

Unnamed: 0,city,0.8,0.6,0.4,0.2,0.0
0,Paris,47.579978,33.3732,56.03139,115.480082,331.170408
1,Stockholm,25.30137,14.235294,22.317568,47.609756,258.134146
2,London,30.219925,27.47042,44.765358,118.10947,438.194444
3,Berlin,19.604336,14.316754,16.331361,44.269142,214.577726
4,Munich,21.828947,24.024096,32.705882,57.651685,249.882682
5,Oporto,41.609195,17.52439,38.514563,107.166667,436.446602
6,Milan,55.735516,47.481675,64.369347,180.326291,491.648712
7,Bratislava,24.62,10.4,18.684211,26.568627,160.5
8,Vienna,20.517413,21.6,24.117347,52.218884,274.566524
9,Rome,54.766854,98.325301,195.413462,304.457831,759.689904


In [39]:
# Функция возвращает соответсвующее значение из city_rev по City и Ranking
def aprx_rev_amount(x):
    d = data[data.City == x['City']]
    quantiles = [n/10 for n in range(8, -1, -2)]
    for i in quantiles:
        if d.Ranking.quantile(i) <= x['Ranking'] <= d.Ranking.quantile(i+0.2):
            result = float(int(city_rev[city_rev.city == x['City']][i]))
    return result

In [40]:
# Создание серии, содержащей индексы пустых значений с соответствующее значение из city_rev
# fillna() не ипользовал, т.к. рачеты занимали больше времени
reviews_for_nan = data[data['Number of Reviews'].isna() == True].apply(aprx_rev_amount, axis=1)

In [41]:
# Заполнение пропусков в основном DF
for i in list(reviews_for_nan.index):
    data['Number of Reviews'].loc[i] = reviews_for_nan[i]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)


## 7. Нормолизация Ranking в зависимости от City

In [42]:
# Создание словаря, содержащего пары город: длинна вектора Ranking по городу
v_lengths = {}
for i in list(data.City.unique()):
    v_lengths[i] = np.linalg.norm(data[data.City == i].Ranking)

In [43]:
# Функция возражает произведение значения Ranking и длинны вектора Ranking по городу
def normalization(row):
    result = row.Ranking/v_lengths[row.City]
    return result

In [44]:
# Параметр ranking_norm содержит нормализованный Ranking
data['ranking_norm'] = data.apply(normalization, axis = 1)

## 8. Dummy-variables

## 8.1 City

In [45]:
# Функция для заполнения категории City
def dummy_str(cell):
    if item == cell:
        return 1
    return 0

In [46]:
# Список уникальных значений переменной
all_cities = data.City.unique()

In [47]:
# Применение функции
for item in all_cities:
    data[item] = data.City.apply(dummy_str)

## 8.2 Cuisine Style

In [48]:
# Функция для заполнения категории Cuisine Style
def dummy_cuisine(cell):
    if item in cell:
        return 1
    return 0

In [49]:
# Список уникальных значений переменной
all_cuisines = pd.Series(data['Cuisine Style'].sum()).unique()

In [50]:
# Применение функции
for item in all_cuisines:
    data[item] = data['Cuisine Style'].apply(dummy_cuisine)

In [51]:
## 8.3 Price Range

In [52]:
# Создание трех столбцов соответсвующизх классам Price Range
for item in range(1,4):
    data[item] = data.price_class.apply(dummy_str)

In [53]:
# Удаление числовой переменной
data.drop('price_class', axis = 'columns', inplace = True)

In [54]:
## 8.4 Native cuisine

In [55]:
#Создание списка уникальных значений City
city_state = pd.DataFrame({'city': data.City.unique()})

In [56]:
# Функция возвращает код страны по названию города
def country(city):
    coordinates = geolocator.geocode(city)[1]
    location = geolocator.reverse(coordinates, exactly_one=True)
    address = location.raw['address']
    country = address.get('country_code', '')
    return country

In [57]:
# Применение функции, перевод кода страны в верхгий регистр, замена на название страны по коду
city_state['country'] = city_state.city.apply(country)
city_state.country = city_state.country.apply(lambda x: x.upper())
city_state.country = city_state.country.apply(lambda x: pycountry.countries.get(alpha_2=x).name)

In [58]:
# Список с GIT, содержащий пары страна, прилагательное
demonyms = pd.read_csv('demonyms.csv')

In [59]:
# Функция возвращает список прилагательных соответствующих стране
# Если функция возващает пустой список, сокращенное название страны меняется на официальное
def adjectives(country):
    result = list(demonyms[demonyms.Aalborg == country].Aalborgenser)
    if len(result) == 0:
        alternative = pycountry.countries.get(name=country).official_name
        result = list(demonyms[demonyms.Aalborg == alternative].Aalborgenser)
    return result

In [60]:
# Применение функции
city_state['adjectives'] = city_state.country.apply(adjectives)

In [61]:
# Функция заполняет параметр native_cuisine.
# ==1, если один из тегов Cuisine Style совпадает с прилагательными города
def native(row):
    result = 0
    for i in city_state[city_state.city == row.City].adjectives.sum():
        if i in row['Cuisine Style']:
            result = 1
    return result

In [62]:
# Параметр native_cuisine отбражает евляется ли кухня национальной
data['native_cuisine'] = data.apply(native, axis = 1)

# Конец обработки

In [63]:
df = data

In [64]:
df.sample(5)

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA,...,Canadian,Xinjiang,Burmese,Fujian,Welsh,Latvian,1,2,3,native_cuisine
4058,id_1744,Vienna,[Vegetarian Friendly],1745.0,5.0,,24.0,"[[], []]",/Restaurant_Review-g190454-d12394472-Reviews-M...,d12394472,...,0,0,0,0,0,0,0,1,0,0
1185,id_85,Prague,"[French, Vegetarian Friendly, Gluten Free Opti...",86.0,4.5,$$$$,166.0,"[['superb dining', 'nice food in the city cent...",/Restaurant_Review-g274707-d694876-Reviews-Res...,d694876,...,0,0,0,0,0,0,0,0,1,0
18553,id_1033,Athens,[Cafe],1035.0,5.0,$$ - $$$,3.0,"[['excellent!', 'a pleasant break'], ['01/22/2...",/Restaurant_Review-g189400-d8661484-Reviews-St...,d8661484,...,0,0,0,0,0,0,0,1,0,0
17909,id_3436,Prague,"[Fast Food, Asian]",3443.0,3.5,,4.0,"[['our personal go-to comfort food in letna'],...",/Restaurant_Review-g274707-d7246435-Reviews-No...,d7246435,...,0,0,0,0,0,0,0,1,0,0
25916,id_689,Prague,"[Bar, Pub, Czech, Eastern European, Central Eu...",690.0,4.0,$,170.0,"[['beer for adults', 'beer and quick snack - o...",/Restaurant_Review-g274707-d1438918-Reviews-U_...,d1438918,...,0,0,0,0,0,0,1,0,0,1


In [65]:
df.drop(columns=['City', 'Cuisine Style', 'Price Range', 
                 'Reviews', 'URL_TA', 'ID_TA','review_dates','review_wordbox'], inplace=True)

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [69]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = df.drop(['Restaurant_id', 'Rating'], axis = 1)
y = df['Rating']

In [70]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [71]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [72]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [73]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [74]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.2096968484242121
