In [61]:
import pandas as pd
import numpy as np
import requests
import warnings
import time
import re

from collections import Counter
from bs4 import BeautifulSoup
from datetime import datetime
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn import metrics

warnings.filterwarnings('ignore')

In [2]:
data = pd.read_csv('main_task.csv')

Описание столбцов
1. Restaurant_id — идентификационный номер ресторана;
2. City — город, в котором находится ресторан;
3. Cuisine Style — стиль или стили, к которым можно отнести блюда, предлагаемые в ресторане;
4. Ranking — место, которое занимает данный ресторан среди всех ресторанов своего города;
5. Rating — рейтинг ресторана по данным TripAdvisor (именно это значение должна будет предсказывать модель);
6. Price Range — диапазон цен в ресторане;
7. Number of Reviews — количество отзывов о ресторане;
8. Reviews — данные о двух отзывах, которые отображаются на сайте ресторана;
9. URL_TA — URL страницы ресторана на TripAdvosor;
10. ID_TA — идентификатор ресторана в базе данных TripAdvisor.

In [4]:
data.head(10)

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA
0,id_5569,Paris,"['European', 'French', 'International']",5570.0,3.5,$$ - $$$,194.0,"[['Good food at your doorstep', 'A good hotel ...",/Restaurant_Review-g187147-d1912643-Reviews-R_...,d1912643
1,id_1535,Stockholm,,1537.0,4.0,,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032
2,id_352,London,"['Japanese', 'Sushi', 'Asian', 'Grill', 'Veget...",353.0,4.5,$$$$,688.0,"[['Catch up with friends', 'Not exceptional'],...",/Restaurant_Review-g186338-d8632781-Reviews-RO...,d8632781
3,id_3456,Berlin,,3458.0,5.0,,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776
4,id_615,Munich,"['German', 'Central European', 'Vegetarian Fri...",621.0,4.0,$$ - $$$,84.0,"[['Best place to try a Bavarian food', 'Nice b...",/Restaurant_Review-g187309-d6864963-Reviews-Au...,d6864963
5,id_1418,Oporto,,1419.0,3.0,,2.0,"[['There are better 3 star hotel bars', 'Amazi...",/Restaurant_Review-g189180-d12503536-Reviews-D...,d12503536
6,id_1720,Milan,"['Italian', 'Pizza']",1722.0,4.0,$,50.0,"[['Excellent simple local eatery.', 'Excellent...",/Restaurant_Review-g187849-d5808504-Reviews-Pi...,d5808504
7,id_825,Bratislava,['Italian'],826.0,3.0,,9.0,"[['Wasting of money', 'excellent cuisine'], ['...",/Restaurant_Review-g274924-d3199765-Reviews-Ri...,d3199765
8,id_2690,Vienna,,2692.0,4.0,,,"[[], []]",/Restaurant_Review-g190454-d12845029-Reviews-G...,d12845029
9,id_4209,Rome,"['Italian', 'Pizza', 'Fast Food']",4210.0,4.0,$,55.0,"[['Clean efficient staff', 'Nice little pizza ...",/Restaurant_Review-g187791-d8020681-Reviews-Qu...,d8020681


In [5]:
# посмотрим на заполнение стобцов
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 10 columns):
Restaurant_id        40000 non-null object
City                 40000 non-null object
Cuisine Style        30717 non-null object
Ranking              40000 non-null float64
Rating               40000 non-null float64
Price Range          26114 non-null object
Number of Reviews    37457 non-null float64
Reviews              40000 non-null object
URL_TA               40000 non-null object
ID_TA                40000 non-null object
dtypes: float64(3), object(7)
memory usage: 3.1+ MB


9283 строки не содержат информацию о стиле/стилях кухни ресторанов (23,2% от количества объектов), 13886 строк не содержат информацию о диапазоне цен (34,7%), 2543 строки не содержат информации о количестве отзывов (6,3%)

In [12]:
reviews_without_number = data[data['Number of Reviews'].isnull()]
reviews_without_number.head(10)

Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA
8,id_2690,Vienna,,2692.0,4.0,,,"[[], []]",/Restaurant_Review-g190454-d12845029-Reviews-G...,d12845029
21,id_5844,Madrid,,5847.0,4.0,,,"[[], []]",/Restaurant_Review-g187514-d10058810-Reviews-B...,d10058810
32,id_1327,Budapest,,1328.0,5.0,,,"[['Absolutely amazing, tasty, fresh, cheap Ch....",/Restaurant_Review-g274887-d8791087-Reviews-Bu...,d8791087
102,id_1409,Budapest,"['French', 'European', 'Hungarian']",1410.0,5.0,,,"[[], []]",/Restaurant_Review-g274887-d13197631-Reviews-L...,d13197631
108,id_2047,Prague,"['Italian', 'Mediterranean']",2050.0,5.0,$$ - $$$,,"[[], []]",/Restaurant_Review-g274707-d12243659-Reviews-T...,d12243659
167,id_8305,Paris,,8306.0,5.0,,,"[[], []]",/Restaurant_Review-g187147-d13284434-Reviews-S...,d13284434
180,id_5023,Berlin,,5025.0,4.0,,,"[['Free Wi-Fi, Peaceful, Pleasant'], ['01/19/2...",/Restaurant_Review-g187323-d12068247-Reviews-K...,d12068247
183,id_3566,Berlin,['Italian'],3568.0,5.0,,,"[['Wonderful ambiance, delicious food, fantas....",/Restaurant_Review-g187323-d2424319-Reviews-Fo...,d2424319
187,id_2847,Lisbon,,2850.0,4.0,,,[['Affordable little cafe in the middle of Al....,/Restaurant_Review-g189158-d13139218-Reviews-C...,d13139218
199,id_16034,London,,16046.0,2.0,,,"[[], []]",/Restaurant_Review-g186338-d7243246-Reviews-Yu...,d7243246


Оказывается, как видно, тексты отзывов есть не у всех ресторанов, но некоторые значения в столбце Reviews заполнены пустыми списками, что не равняется NaN. Можно будет заполнить отсутствующее значение в ячейке Number of Reviews для ресторанов, у которых есть список отзывов, взяв его длину. Для остальных заполнить значения нулями (как вариант, тут может измениться логика, пока не проходил дальше по заданиям)

Еще посмотрим на значения диапазона цен и рейтинга

In [27]:
print('Price range values = {}'.format(data['Price Range'].unique()))
print('Rating interval = {}'.format(data['Rating'].value_counts(bins=1).index[0]))
print('Rating values = {}'.format(data['Rating'].unique()))

Price range values = ['$$ - $$$' nan '$$$$' '$']
Rating interval = (0.995, 5.0]
Rating values = [ 3.5  4.   4.5  5.   3.   2.5  2.   1.   1.5]


##  Задание

<b>Из постановки задачи: мы должны использовать в модели датафрейм, содержащий только количественные признаки и не содержащий None-значений. На первом этапе для создания такого датафрейма давайте просто удалим столбцы, содержащие данные типа object, и заполним пропущенные значения (None или NaN) каким-то одним значением (нулём или средним арифметическим) для  всего столбца.<b>

Таким образом, удалим столбцы типа object, убедимся, что количество отзывов и место ресторана - целые значения и заполним нолями пропуски в столбце количества отзывов. Сохраним все в отдельную переменную task_df 

In [43]:
# проверим, что количество отзывов и места - целые числа
number_of_reviews = data['Number of Reviews'].dropna().apply(lambda x: x.is_integer())
ranking = data['Ranking'].dropna().apply(lambda x: x.is_integer())

print(number_of_reviews.unique(), ranking.unique())

[ True] [ True]


In [9]:
task_df = data.drop(labels=['Restaurant_id','City','Cuisine Style','Price Range','Reviews','URL_TA','ID_TA'], axis=1).fillna(0)

In [24]:
# Убедимся, что не осталось пропущенных значений
values = task_df.isnull().values
values[values == True].size

0

In [25]:
# Итоговый датафрейм
task_df.head()

Unnamed: 0,Ranking,Rating,Number of Reviews
0,5570.0,3.5,194.0
1,1537.0,4.0,10.0
2,353.0,4.5,688.0
3,3458.0,5.0,3.0
4,621.0,4.0,84.0


Применим базовую модель из ноутбука you_first_model

In [37]:
X = task_df.iloc[:, [0, 2]]
y = task_df.iloc[:, 1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

In [38]:
regr = RandomForestRegressor(n_estimators=100)
regr.fit(X_train, y_train)
y_pred = regr.predict(X_test)

print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

MAE: 0.4316716077380952


Метрика MAE приняла значение 0.43. Учитывая, что рейтинг изменяется в интервале от 1 до 5 с шагом 0.5 (Rating values = [ 3.5  4.   4.5  5.   3.   2.5  2.   1.   1.5]), отклонение получилось довольно существенным. Очевидно, что нужно вводить больше признаков.

### Функции для обработки данных 

In [46]:
SITE = 'https://www.tripadvisor.com'

In [3]:
# Преобразование строкового представления списка в list (для признака "стили кухни")
def cuisines_to_list(string):
    return string.strip('[]').split(', ')

In [43]:
# Извлечение дат из значений признака Reviews
def get_dates(string):
    # [0-9|/]+
    pattern = re.compile('[0-9]{2}/[0-9]{2}/[0-9]{4}')
    dates = pattern.findall(string)
    
    if dates == []:
        return [np.nan] * 2
    elif len(dates) == 1:
        return dates + [np.nan]
    
    return dates

In [115]:
# Преобразование строкового представления списков в list (для признака Reviews)
def reviews_to_list(string, dates=False):
    pattern = re.compile('\'[^\']+\'')
    reviews = [word[1:-1] for word in pattern.findall(string)]
    
    if reviews == []:
        return [np.nan] * 2
    
    if dates:
        return reviews[-2:] if len(reviews) == 4 else [reviews[-1], np.nan]
    else:
        return reviews[:2] if len(reviews) == 4 else [reviews[0], np.nan]

In [87]:
def get_price_range_from_site(df):
    result = pd.Series()
    pattern = re.compile('\$\$ - \$\$\$|\$+')
    filtered_df = df[df['Price Range'].isnull()]
    
    for i in range(filtered_df.shape[0]):
        time.sleep(2)
        response = requests.get(SITE + filtered_df.iloc[i]['URL_TA'], verify=False)
        page = BeautifulSoup(response.text, 'html.parser')
        string = page.find(class_='header_links')
        print('url = {}\nstring = {}'.format(filtered_df.iloc[i]['URL_TA'], string))
        
        if string is None:
            continue
        
        pr = pattern.findall(string.text)
        print('pr = {}\n'.format(pr))
        
        if pr != []:
            filtered_df.iloc[i]['Price Range'] = pr[0]
        else:
            continue
    
    return filtered_df['Price Range']

## Наполнение выборки данными 

In [12]:
# Сколько городов представлено в наборе данных?
data['City'].nunique()

31

In [8]:
data['City'].unique()

array(['Paris', 'Stockholm', 'London', 'Berlin', 'Munich', 'Oporto',
       'Milan', 'Bratislava', 'Vienna', 'Rome', 'Barcelona', 'Madrid',
       'Dublin', 'Brussels', 'Zurich', 'Warsaw', 'Budapest', 'Copenhagen',
       'Amsterdam', 'Lyon', 'Hamburg', 'Lisbon', 'Prague', 'Oslo',
       'Helsinki', 'Edinburgh', 'Geneva', 'Ljubljana', 'Athens',
       'Luxembourg', 'Krakow'], dtype=object)

In [11]:
# Сколько ресторанов расположены в столичных городах?
data.query('City not in ["Munich", "Oporto", "Milan", "Barcelona", "Zurich", "Lyon", "Hamburg", "Geneva", "Krakow"]').shape[0]

30424

In [5]:
# Сколько типов кухонь представлено в наборе данных?
all_cuisines = set()

for cuisine in data['Cuisine Style'].dropna():
    all_cuisines.update(cuisine.strip('[]').split(', '))
    
len(all_cuisines)

125

In [33]:
# Какая кухня представлена в наибольшем количестве ресторанов? Введите название кухни без кавычек или апострофов.
c = Counter()

for cuisines in data['Cuisine Style'].dropna():
    for cuisine in cuisines.strip('[]').split(', '):
        c[cuisine.strip("\'")] += 1
        
print(c)

Counter({'Vegetarian Friendly': 11189, 'European': 10060, 'Mediterranean': 6277, 'Italian': 5964, 'Vegan Options': 4486, 'Gluten Free Options': 4113, 'Bar': 3297, 'French': 3190, 'Asian': 3011, 'Pizza': 2849, 'Spanish': 2798, 'Pub': 2449, 'Cafe': 2325, 'Fast Food': 1705, 'British': 1595, 'International': 1584, 'Seafood': 1505, 'Japanese': 1464, 'Central European': 1393, 'American': 1315, 'Sushi': 1156, 'Chinese': 1145, 'Portuguese': 1107, 'Indian': 1041, 'Middle Eastern': 782, 'Thai': 743, 'Wine Bar': 697, 'German': 662, 'Healthy': 620, 'Greek': 604, 'Halal': 598, 'Czech': 595, 'Fusion': 577, 'Steakhouse': 573, 'Barbecue': 555, 'Contemporary': 523, 'Vietnamese': 513, 'Eastern European': 496, 'Soups': 494, 'Grill': 490, 'Gastropub': 471, 'Mexican': 445, 'Turkish': 444, 'Delicatessen': 392, 'Austrian': 380, 'South American': 372, 'Polish': 365, 'Hungarian': 352, 'Scandinavian': 342, 'Lebanese': 329, 'Latin': 302, 'Diner': 295, 'Dutch': 294, 'Irish': 284, 'Belgian': 270, 'Street Food': 26

In [43]:
# Какое среднее количество кухонь предлагается в одном ресторане?
# Если в данных отсутствует информация о типах кухонь, то считайте, что в этом ресторане предлагается только один тип кухни. 
# Ответ округлите до одного знака после запятой.

cuisines = data.loc[:, 'Cuisine Style'].fillna('[Vegetarian Friendly]')
cuisines = cuisines.apply(lambda x: cuisines_to_list(x))

cuisines_in_all_restaurants = []

for cuisine in cuisines:
    cuisines_in_all_restaurants.append(len(cuisine))

print(np.mean(cuisines_in_all_restaurants))

2.6224


In [34]:
reviews = data.loc[:, 'Reviews']
reviews_dates = reviews.apply(lambda x: get_dates(x))

dates_df = pd.concat([pd.Series([date[0] for date in reviews_dates]),
                      pd.Series([date[1] for date in reviews_dates])], axis=1)

dates_df.columns = ['FRDate', 'SRDate']
dates_df['FRDate'] = pd.to_datetime(dates_df['FRDate'])
dates_df['SRDate'] = pd.to_datetime(dates_df['SRDate'])

dates_df.head()

Unnamed: 0,FRDate,SRDate
0,2017-12-31,2017-11-20
1,2017-07-06,2016-06-19
2,2018-01-08,2018-01-06
3,NaT,NaT
4,2017-11-18,2017-02-19


In [40]:
dates_df['Days Delta'] = dates_df['FRDate'] - dates_df['SRDate']
dates_df[dates_df['Days Delta'] == dates_df['Days Delta'].max()]

Unnamed: 0,FRDate,SRDate,Days Delta
7990,2016-10-02,2007-12-22,3207 days


In [42]:
# Когда был оставлен самый свежий отзыв?
print(dates_df['FRDate'].max(), dates_df['SRDate'].max())

2018-02-26 00:00:00 2018-02-26 00:00:00


In [63]:
reviews_to_list("[['Fresh, hot, wonderful dumplings!'], ['03/19/2017']]", False)

['Fresh', 'hot']

In [84]:
"[['Fresh, hot, wonderful dumplings!'], ['03/19/2017']]"[1:-1]#.replace('[', '').replace(']', '').split('\', \'')

"['Fresh, hot, wonderful dumplings!'], ['03/19/2017']"

In [18]:
#(\'\d\d\/\d\d\/\d\d\d\d\')
#(\'[^\']+\')|(\"\".*\"\")
#(\'[^\']+\')|(""(?:[^"\\]++|\\.)*+"")|(\"\".*\"\")
pattern = re.compile('[0-9]{2}/[0-9]{2}/[0-9]{4}')

In [19]:
pattern.findall("[['Great selection of Portugese cuisine. Grea...', 'New year 2017/18'], ['01/03/2018', '12/31/2017']]")

['01/03/2018', '12/31/2017']

Итак, наполним основной датафрейм данными. Для начала признак Price Range переведем в текстовое представление по ценовому диапазону. Заменим значения в столбце, а диапазон зададим значениями low, middle, high. Перед этим попробуем сделать запрос на сайт TripAdvisor и для ресторанов, у которых нет ценового диапазона, получить его

In [6]:
data.iloc[1].URL_TA

'/Restaurant_Review-g189852-d7992032-Reviews-Buddha_Nepal-Stockholm.html'

In [89]:
url = 'https://www.tripadvisor.com'
response = requests.get('https://www.tripadvisor.com/Restaurant_Review-g190454-d12556149-Reviews-Ra_mien-Vienna.html',
                         verify=False)

page = BeautifulSoup(response.text, 'html.parser')
string = page.find(class_='header_links')


In [90]:
string

<div class="header_links"><a href="/Restaurants-g190454-Vienna.html?pid=6">$$ - $$$</a>, <a href="/Restaurants-g190454-c3-Vienna.html">Asian</a>, <a href="/Restaurants-g190454-c11-Vienna.html">Chinese</a>, <a href="/Restaurants-g190454-c22-Vienna.html">International</a></div>

In [91]:
pattern = re.compile('\$\$ - \$\$\$|\$+')
pattern.findall(string.text)

['$$ - $$$']

In [88]:
%timeit
t_df = data.copy()
pr = get_price_range_from_site(t_df)

url = /Restaurant_Review-g189852-d7992032-Reviews-Buddha_Nepal-Stockholm.html
string = <div class="header_links"><a href="/Restaurants-g189852-Stockholm.html?pid=6">$$ - $$$</a>, <a href="/Restaurants-g189852-c3-Stockholm.html">Asian</a>, Nepali</div>
pr = ['$$ - $$$']

url = /Restaurant_Review-g187323-d1358776-Reviews-Esplanade-Berlin.html
string = None
url = /Restaurant_Review-g189180-d12503536-Reviews-Dick_s_Bar-Porto_Porto_District_Northern_Portugal.html
string = <div class="header_links"><a href="/Restaurants-g189180-Porto_Porto_District_Northern_Portugal.html?pid=6">$$ - $$$</a>, Bar, <a href="/Restaurants-g189180-c18-Porto_Porto_District_Northern_Portugal.html">European</a>, <a href="/Restaurants-g189180-c10680-Porto_Porto_District_Northern_Portugal.html">Portuguese</a></div>
pr = ['$$ - $$$']

url = /Restaurant_Review-g274924-d3199765-Reviews-Ristorante_Italiano_San_Cono-Bratislava_Bratislava_Region.html
string = <div class="header_links"><a href="/Restaurants-g274924-c26-Brati

url = /Restaurant_Review-g1136488-d5599563-Reviews-Le_Chalet_de_la_Foret-Uccle_Brussels.html
string = <div class="header_links"><a href="/Restaurants-g1136488-Uccle_Brussels.html?pid=8">$$$$</a>, <a href="/Restaurants-g1136488-c20-Uccle_Brussels.html">French</a>, <a href="/Restaurants-g1136488-c18-Uccle_Brussels.html">European</a></div>
pr = ['$$$$']

url = /Restaurant_Review-g187265-d7623654-Reviews-Creperie_Caramel_Sale-Lyon_Rhone_Auvergne_Rhone_Alpes.html
string = <div class="header_links"><a href="/Restaurants-g187265-Lyon_Rhone_Auvergne_Rhone_Alpes.html?pid=1">$</a>, <a href="/Restaurants-g187265-c20-Lyon_Rhone_Auvergne_Rhone_Alpes.html">French</a>, <a href="/Restaurants-g187265-zfz10665-Lyon_Rhone_Auvergne_Rhone_Alpes.html">Vegetarian Friendly</a></div>
pr = ['$']

url = /Restaurant_Review-g274707-d4768085-Reviews-McDonald_s_Florenc-Prague_Bohemia.html
string = <div class="header_links"><a href="/Restaurants-g274707-Prague_Bohemia.html?pid=1">$</a>, <a href="/Restaurants-g274707-

url = /Restaurant_Review-g186338-d10677156-Reviews-Bombay_Spice-London_England.html
string = <div class="header_links"><a href="/Restaurants-g186338-London_England.html?pid=1">$</a>, <a href="/Restaurants-g186338-c24-London_England.html">Indian</a>, <a href="/Restaurants-g186338-c3-London_England.html">Asian</a>, <a href="/Restaurants-g186338-zfz10665-London_England.html">Vegetarian Friendly</a></div>
pr = ['$']

url = /Restaurant_Review-g187514-d9562461-Reviews-Ottawa_Burger-Madrid.html
string = <div class="header_links"><a href="/Restaurants-g187514-Madrid.html?pid=6">$$ - $$$</a>, <a href="/Restaurants-g187514-c2-Madrid.html">American</a>, <a href="/Restaurants-g187514-c10646-Madrid.html">Fast Food</a></div>
pr = ['$$ - $$$']

url = /Restaurant_Review-g189158-d5979704-Reviews-Pastelaria_Anaflor-Lisbon_Lisbon_District_Central_Portugal.html
string = None
url = /Restaurant_Review-g189158-d13139218-Reviews-Cafe_Cunha-Lisbon_Lisbon_District_Central_Portugal.html
string = None
url = /Rest

KeyboardInterrupt: 

In [None]:
pr = t_df[t_df['Price Range'].isnull()]['Price Range'].fillna(0)

for item in pr:
    print(item)

In [68]:
t_df[t_df['Price Range'].isnull()]


Unnamed: 0,Restaurant_id,City,Cuisine Style,Ranking,Rating,Price Range,Number of Reviews,Reviews,URL_TA,ID_TA
1,id_1535,Stockholm,,1537.0,4.0,,10.0,"[['Unique cuisine', 'Delicious Nepalese food']...",/Restaurant_Review-g189852-d7992032-Reviews-Bu...,d7992032
3,id_3456,Berlin,,3458.0,5.0,,3.0,"[[], []]",/Restaurant_Review-g187323-d1358776-Reviews-Es...,d1358776
5,id_1418,Oporto,,1419.0,3.0,,2.0,"[['There are better 3 star hotel bars', 'Amazi...",/Restaurant_Review-g189180-d12503536-Reviews-D...,d12503536
7,id_825,Bratislava,['Italian'],826.0,3.0,,9.0,"[['Wasting of money', 'excellent cuisine'], ['...",/Restaurant_Review-g274924-d3199765-Reviews-Ri...,d3199765
8,id_2690,Vienna,,2692.0,4.0,,,"[[], []]",/Restaurant_Review-g190454-d12845029-Reviews-G...,d12845029
10,id_6578,Barcelona,,6579.0,3.0,,6.0,"[[], []]",/Restaurant_Review-g187497-d10696479-Reviews-R...,d10696479
16,id_5257,Berlin,"['Japanese', 'Asian', 'Thai', 'Vietnamese']",5259.0,4.0,,3.0,"[['This is a real hidden Sushi-gem'], ['04/12/...",/Restaurant_Review-g187323-d10266473-Reviews-A...,d10266473
21,id_5844,Madrid,,5847.0,4.0,,,"[[], []]",/Restaurant_Review-g187514-d10058810-Reviews-B...,d10058810
26,id_2763,Madrid,,2765.0,5.0,,11.0,"[['Heavenly meat slices and craft beer too.'],...",/Restaurant_Review-g187514-d10060659-Reviews-G...,d10060659
27,id_2108,Budapest,,2109.0,3.5,,2.0,"[['Good value canteen lunch stop.'], ['01/26/2...",/Restaurant_Review-g274887-d11616946-Reviews-P...,d11616946
