# Загрузка Pandas и очистка данных

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('main_task.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 10 columns):
Restaurant_id        40000 non-null object
City                 40000 non-null object
Cuisine Style        30717 non-null object
Ranking              40000 non-null float64
Rating               40000 non-null float64
Price Range          26114 non-null object
Number of Reviews    37457 non-null float64
Reviews              40000 non-null object
URL_TA               40000 non-null object
ID_TA                40000 non-null object
dtypes: float64(3), object(7)
memory usage: 3.1+ MB


In [4]:
df.head()

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA
0,id_5569,Paris,"['European', 'French', 'International']",5570.0,3.5,$$ - $$$,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643
1,id_1535,Stockholm,,1537.0,4.0,,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032
2,id_352,London,"['Japanese', 'Sushi', 'Asian', 'Grill', 'Veget...",353.0,4.5,$$$$,688.0,"[['Catch up with friends', 'Not exceptional'],...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781
3,id_3456,Berlin,,3458.0,5.0,,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776
4,id_615,Munich,"['German', 'Central European', 'Vegetarian Fri...",621.0,4.0,$$ - $$$,84.0,"[['Best place to try a Bavarian food', 'Nice b...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963


## Признак 'Price Range'

In [5]:
df.loc[:, 'Price Range'].unique()

array(['$$ - $$$', nan, '$$$$', '$'], dtype=object)

In [6]:
df[df.loc[:, 'Price Range'] == '$$ - $$$'].shape

(18412, 10)

In [7]:
df.loc[:, 'Price Range'].value_counts()

$$ - $$$    18412
$            6279
$$$$         1423
Name: Price Range, dtype: int64

#### Идея! 
 - Пустые значения признака 'Price Range' можно заполнять модой
 - делаем замену строковые значения на колличественные, например на 1, 2, 3 в порядке возрастания уровня цен

In [8]:
price_mode = df.loc[:, 'Price Range'].mode()[0]
df.loc[:, 'Price Range'].fillna(price_mode, inplace=True)
df.loc[:, 'Price Range'].replace(['$', '$$ - $$$', '$$$$'], [1, 2, 3], inplace=True)

## Признак 'City'

In [9]:
df.loc[:, 'City'].nunique()

31

In [10]:
df.loc[:, 'City'].isna().sum()

0

#### Идея!
Создаем новые 31 столбец и заполняем 1 в случае наименование признака совпадает с назвнаием города

In [11]:
cities = df.loc[:, 'City'].unique()
cities

array(['Paris', 'Stockholm', 'London', 'Berlin', 'Munich', 'Oporto',
       'Milan', 'Bratislava', 'Vienna', 'Rome', 'Barcelona', 'Madrid',
       'Dublin', 'Brussels', 'Zurich', 'Warsaw', 'Budapest', 'Copenhagen',
       'Amsterdam', 'Lyon', 'Hamburg', 'Lisbon', 'Prague', 'Oslo',
       'Helsinki', 'Edinburgh', 'Geneva', 'Ljubljana', 'Athens',
       'Luxembourg', 'Krakow'], dtype=object)

In [12]:
for item in cities:
    df.loc[:, item] = df.loc[:, 'City'].apply(lambda x: 1 if x == item else 0)

In [13]:
df.head()

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA,...,Lisbon,Prague,Oslo,Helsinki,Edinburgh,Geneva,Ljubljana,Athens,Luxembourg,Krakow
0,id_5569,Paris,"['European', 'French', 'International']",5570.0,3.5,2,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643,...,0,0,0,0,0,0,0,0,0,0
1,id_1535,Stockholm,,1537.0,4.0,2,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032,...,0,0,0,0,0,0,0,0,0,0
2,id_352,London,"['Japanese', 'Sushi', 'Asian', 'Grill', 'Veget...",353.0,4.5,3,688.0,"[['Catch up with friends', 'Not exceptional'],...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781,...,0,0,0,0,0,0,0,0,0,0
3,id_3456,Berlin,,3458.0,5.0,2,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776,...,0,0,0,0,0,0,0,0,0,0
4,id_615,Munich,"['German', 'Central European', 'Vegetarian Fri...",621.0,4.0,2,84.0,"[['Best place to try a Bavarian food', 'Nice b...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963,...,0,0,0,0,0,0,0,0,0,0


## Признак 'Cuisine Style'

In [14]:
df.loc[:, 'Cuisine Style']

0                  ['European', 'French', 'International']
1                                                      NaN
2        ['Japanese', 'Sushi', 'Asian', 'Grill', 'Veget...
3                                                      NaN
4        ['German', 'Central European', 'Vegetarian Fri...
                               ...                        
39995    ['Italian', 'Vegetarian Friendly', 'Vegan Opti...
39996    ['French', 'American', 'Bar', 'European', 'Veg...
39997                                ['Japanese', 'Sushi']
39998    ['Polish', 'European', 'Eastern European', 'Ce...
39999                                          ['Spanish']
Name: Cuisine Style, Length: 40000, dtype: object

In [15]:
df.loc[:, 'Cuisine Style'].isna().sum()

9283

In [16]:
df.loc[:, 'Cuisine Style'] = df.loc[:, 'Cuisine Style'].apply(
    lambda s: [] if s != s else s.strip('[]').replace('\'', '').split(', '))

In [17]:
cuisines = set()  # создаём пустое множество для хранения уникальных значений стилей кухонь

for items in df.loc[:, 'Cuisine Style']:  # начинаем перебор всех списков кухонь      
    for cuisine in items:  # начинаем перебор всех стилей        
        cuisines.add(cuisine) # добавляем стиль кухни к множеству

In [59]:
len(cuisines)

125

Добавим 125 признаков, соответсвующих каждому стилю кухни

In [61]:
for item in cuisines:
    df.loc[:, item] = df.loc[:, 'Cuisine Style'].apply(lambda x: 1 if item in x else 0)

In [62]:
df.head()

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA,...,Singaporean,Irish,Healthy,Polish,Bangladeshi,Xinjiang,Israeli,Mongolian,Southwestern,Central Asian
0,id_5569,Paris,"[European, French, International]",5570.0,3.5,2,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643,...,0,0,0,0,0,0,0,0,0,0
1,id_1535,Stockholm,[],1537.0,4.0,2,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032,...,0,0,0,0,0,0,0,0,0,0
2,id_352,London,"[Japanese, Sushi, Asian, Grill, Vegetarian Fri...",353.0,4.5,3,688.0,"[['Catch up with friends', 'Not exceptional'],...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781,...,0,0,0,0,0,0,0,0,0,0
3,id_3456,Berlin,[],3458.0,5.0,2,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776,...,0,0,0,0,0,0,0,0,0,0
4,id_615,Munich,"[German, Central European, Vegetarian Friendly]",621.0,4.0,2,84.0,"[['Best place to try a Bavarian food', 'Nice b...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963,...,0,0,0,0,0,0,0,0,0,0


Сколько типов кухонь представлено в наборе данных?
Какая кухня представлена в наибольшем количестве ресторанов? Введите название кухни без кавычек или апострофов.

In [19]:
ls = []
for s in df.loc[:, 'Cuisine Style']:
    ls += s

In [20]:
ser = pd.Series(ls)

In [21]:
ser.value_counts()[ser.value_counts() > 1000]

Vegetarian Friendly    11189
European               10060
Mediterranean           6277
Italian                 5964
Vegan Options           4486
Gluten Free Options     4113
Bar                     3297
French                  3190
Asian                   3011
Pizza                   2849
Spanish                 2798
Pub                     2449
Cafe                    2325
Fast Food               1705
British                 1595
International           1584
Seafood                 1505
Japanese                1464
Central European        1393
American                1315
Sushi                   1156
Chinese                 1145
Portuguese              1107
Indian                  1041
dtype: int64

Какое среднее количество кухонь предлагается в одном ресторане? Если в данных отсутствует информация о типах кухонь, то считайте, что в этом ресторане предлагается только один тип кухни. Ответ округлите до одного знака после запятой.

In [22]:
ser_mean = ser.apply(lambda x: 1 if x == [] else len(x))
ser_mean.mean()

9.727589344545198

#### Идея!
 - Ввести новый признак, который равен отклонению количества кухонь и среднего
 - Можно создать 125 новых признаков на каждую кухню (пока не будем, так как у нас есть пустые списки и чем их заполнять не понятно)

In [23]:
df.loc[:, 'Cuisine number'] = df.loc[:, 'Cuisine Style'].apply(lambda x: 1 if x == [] else len(x))

In [24]:
(df.loc[:, 'Cuisine Style'].apply(lambda x: len(x)) == 0).sum()

9283

In [25]:
df[df.loc[:, 'Cuisine Style'].apply(lambda x: len(x)) == 0]['City'].value_counts()

Paris         1038
London         982
Madrid         957
Berlin         725
Barcelona      651
Milan          559
Hamburg        407
Vienna         316
Lisbon         311
Lyon           302
Brussels       265
Munich         257
Stockholm      255
Rome           254
Prague         249
Warsaw         204
Copenhagen     170
Budapest       163
Amsterdam      153
Zurich         129
Athens         119
Oporto         119
Dublin         111
Bratislava     110
Geneva          97
Krakow          89
Helsinki        84
Oslo            74
Edinburgh       68
Luxembourg      36
Ljubljana       29
Name: City, dtype: int64

## Признак Reviews

In [26]:
df.loc[:, 'Reviews']

0        [['Good food at your doorstep', 'A good hotel ...
1        [['Unique cuisine', 'Delicious Nepalese food']...
2        [['Catch up with friends', 'Not exceptional'],...
3                                                 [[], []]
4        [['Best place to try a Bavarian food', 'Nice b...
                               ...                        
39995    [['The real Italian experience!', 'Wonderful f...
39996    [['Parisian atmosphere', 'Bit pricey but inter...
39997    [['Good by swedish standards', 'A hidden jewel...
39998    [['Underground restaurant', 'Oldest Restaurant...
39999    [['Average', 'Nice an informal'], ['01/31/2016...
Name: Reviews, Length: 40000, dtype: object

### Можно использовать поиск по регулярным выражениям, чтобы сразу получить столбец со списком дат


In [27]:
import re

In [28]:
# Паттерн для дат вида '07/06/2017'
pattern = re.compile('\'\d+\/\d+\/\d+\'')

df.loc[:, 'Reviews date'] = df['Reviews'].apply(lambda x: pattern.findall(x))

In [29]:
df.loc[:, 'Reviews date']

0        ['12/31/2017', '11/20/2017']
1        ['07/06/2017', '06/19/2016']
2        ['01/08/2018', '01/06/2018']
3                                  []
4        ['11/18/2017', '02/19/2017']
                     ...             
39995    ['12/16/2017', '11/12/2017']
39996    ['12/21/2017', '12/12/2017']
39997    ['11/03/2016', '04/12/2008']
39998    ['07/11/2017', '06/18/2017']
39999    ['01/31/2016', '07/04/2012']
Name: Reviews date, Length: 40000, dtype: object

### Можно дважды использовать функцию split(), чтобы получить столбец со списком дат


In [30]:
df.loc[:, 'Reviews date new'] = df.loc[:, 'Reviews'].apply(lambda s: s.split('], [')[1])
df.loc[:, ['Reviews date new']]

Unnamed: 0,Reviews date new
0,"'12/31/2017', '11/20/2017']]"
1,"'07/06/2017', '06/19/2016']]"
2,"'01/08/2018', '01/06/2018']]"
3,]]
4,"'11/18/2017', '02/19/2017']]"
...,...
39995,"'12/16/2017', '11/12/2017']]"
39996,"'12/21/2017', '12/12/2017']]"
39997,"'11/03/2016', '04/12/2008']]"
39998,"'07/11/2017', '06/18/2017']]"


In [31]:
df.loc[:, 'Reviews date new'] = df.loc[:, 'Reviews date new'].apply(
    lambda s: [] if s == ']]' else s.strip('[]').replace('\'', '').split(', '))
df.loc[:, ['Reviews date new']]

Unnamed: 0,Reviews date new
0,"[12/31/2017, 11/20/2017]"
1,"[07/06/2017, 06/19/2016]"
2,"[01/08/2018, 01/06/2018]"
3,[]
4,"[11/18/2017, 02/19/2017]"
...,...
39995,"[12/16/2017, 11/12/2017]"
39996,"[12/21/2017, 12/12/2017]"
39997,"[11/03/2016, 04/12/2008]"
39998,"[07/11/2017, 06/18/2017]"


In [32]:
display(df.loc[:, 'Reviews date'].apply(lambda x: len(x)).value_counts())
display(df.loc[:, 'Reviews date new'].apply(lambda x: len(x)).value_counts())

2    28973
0     6471
1     4556
Name: Reviews date, dtype: int64

2    28973
0     6471
1     4556
Name: Reviews date new, dtype: int64

Удалим дублирующий столбец

In [33]:
df.drop(['Reviews date new'], axis = 1, inplace=True)

In [34]:
df.head()

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA,...,Oslo,Helsinki,Edinburgh,Geneva,Ljubljana,Athens,Luxembourg,Krakow,Cuisine number,Reviews date
0,id_5569,Paris,"[European, French, International]",5570.0,3.5,2,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643,...,0,0,0,0,0,0,0,0,3,"['12/31/2017', '11/20/2017']"
1,id_1535,Stockholm,[],1537.0,4.0,2,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032,...,0,0,0,0,0,0,0,0,1,"['07/06/2017', '06/19/2016']"
2,id_352,London,"[Japanese, Sushi, Asian, Grill, Vegetarian Fri...",353.0,4.5,3,688.0,"[['Catch up with friends', 'Not exceptional'],...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781,...,0,0,0,0,0,0,0,0,7,"['01/08/2018', '01/06/2018']"
3,id_3456,Berlin,[],3458.0,5.0,2,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776,...,0,0,0,0,0,0,0,0,1,[]
4,id_615,Munich,"[German, Central European, Vegetarian Friendly]",621.0,4.0,2,84.0,"[['Best place to try a Bavarian food', 'Nice b...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963,...,0,0,0,0,0,0,0,0,3,"['11/18/2017', '02/19/2017']"


Создадим два дополнительных признака и заполним их так:

 - Если в список дат два элемента, то заполняем один признак первым элементом, второй - вторым 
 - Если в списке дат один или ноль элементов, то оставляем значения признаков пустыми

In [35]:
df.loc[:, 'Reviews date 1'] = df.loc[:, 'Reviews date'].apply(
    lambda x: x[0].replace('\'', '') if len(x) == 2 else None)
df.loc[:, 'Reviews date 2'] = df.loc[:, 'Reviews date'].apply(
    lambda x: x[1].replace('\'', '') if len(x) == 2 else None)

In [36]:
df.loc[:, ['Reviews date 1', 'Reviews date 2']]

Unnamed: 0,Reviews date 1,Reviews date 2
0,12/31/2017,11/20/2017
1,07/06/2017,06/19/2016
2,01/08/2018,01/06/2018
3,,
4,11/18/2017,02/19/2017
...,...,...
39995,12/16/2017,11/12/2017
39996,12/21/2017,12/12/2017
39997,11/03/2016,04/12/2008
39998,07/11/2017,06/18/2017


Переведем значения новых признаков в тип datetime

In [37]:
df.loc[:, 'Reviews date 1'] = pd.to_datetime(df.loc[:, 'Reviews date 1'].dropna(), format='%m/%d/%Y')
df.loc[:, 'Reviews date 2'] = pd.to_datetime(df.loc[:, 'Reviews date 2'].dropna(), format='%m/%d/%Y')

In [38]:
display(df.loc[:, 'Reviews date 1'].max())
display(df.loc[:, 'Reviews date 2'].max())

display(df.loc[:, 'Reviews date 1'].min())
display(df.loc[:, 'Reviews date 2'].min())

Timestamp('2018-02-26 00:00:00')

Timestamp('2018-02-26 00:00:00')

Timestamp('2008-04-07 00:00:00')

Timestamp('2007-11-14 00:00:00')

- Создаем новый признак - разность между датами двух отзывов
- Пустые поля заполняем средним значением

In [39]:
df.loc[:, 'Reviews time delta'] = abs(df.loc[:, 'Reviews date 1'] - df.loc[:, 'Reviews date 2'])

In [40]:
display(df.loc[:, 'Reviews time delta'].max())
display(df.loc[:, 'Reviews time delta'].min())

Timedelta('3207 days 00:00:00')

Timedelta('0 days 00:00:00')

In [41]:
df.loc[:, 'Reviews time delta'] = df.loc[:, 'Reviews time delta'].dt.days

In [42]:
dt_mean = df.loc[:, 'Reviews time delta'].mean()
df.loc[:, 'Reviews time delta'].fillna(dt_mean, inplace=True)

 - Создаем новый признак - разность поледнего отзыва для данной строки и последнего отзыва для всех 
 - Необходимо заполнить пустые поля, средним значением

In [43]:
max_date = df.loc[:, 'Reviews date 1'].max()
max_date

Timestamp('2018-02-26 00:00:00')

Если втрорая дата больше первой, то она будет ближе к последней (максимальной дате)

In [44]:
index = df.loc[:, 'Reviews date 1'] < df.loc[:, 'Reviews date 2']
df.loc[index, 'Reviews last delta'] = max_date - df[index].loc[:, 'Reviews date 2']

Если первая дата больше второй, то она будет ближе к последней (максимальной дате)

In [45]:
index = df.loc[:, 'Reviews date 1'] > df.loc[:, 'Reviews date 2']
df.loc[index, 'Reviews last delta'] = max_date - df[index].loc[:, 'Reviews date 1']

Пустые поля заполняем средним значением

In [46]:
df.loc[:, 'Reviews last delta'] = df.loc[:, 'Reviews last delta'].dt.days

In [47]:
ld_mean = round(df.loc[:, 'Reviews last delta'].mean())

df.loc[:, 'Reviews last delta'].fillna(ld_mean, inplace=True)

#### Идея!
 - Создаем новый признак - разность между датами двух отзывов
 - Создаем новый признак - разность поледнего отзыва для данной строки и последнего отзыва для всех 
 - Необходимо заполнить пустые поля, средним значением

In [48]:
columns_delete = [
    'Restaurant_id',
    'City',
    'Cuisine Style',
    'Reviews',
    'URL_TA',
    'ID_TA',
    'Reviews date',
    'Reviews date 1',
    'Reviews date 2',
    'Rating' # целевая переменная
]

Заполним пустые значения признака 'Number of Reviews' средним

In [49]:
nr_mean = round(df.loc[:, 'Number of Reviews'].mean())

df.loc[:, 'Number of Reviews'].fillna(nr_mean, inplace=True)

Проверим что пустых значений у выбранных признаков нет

In [64]:
(df.drop(columns_delete, axis=1).isna().sum()).sum()

0

# Разбиваем датафрейм на части, необходимые для обучения и тестирования модели

In [65]:
# Х - данные с информацией о ресторанах, у - целевая переменная (рейтинги ресторанов)
X = df.drop(columns_delete, axis = 1)
y = df['Rating']

In [66]:
# Загружаем специальный инструмент для разбивки:
from sklearn.model_selection import train_test_split

In [67]:
# Наборы данных с меткой "train" будут использоваться для обучения модели, "test" - для тестирования.
# Для тестирования мы будем использовать 25% от исходного датасета.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Создаём, обучаем и тестируем модель

In [68]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [69]:
# Создаём модель
regr = RandomForestRegressor(n_estimators=100)

# Обучаем модель на тестовом наборе данных
regr.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = regr.predict(X_test)

In [70]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.20833399999999996
