In [127]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor # дерево решений для задачи регрессии
from sklearn.metrics import mean_absolute_error # средняя абсолютная ошибка, по которой мы оценим качество модели
from sklearn.model_selection import train_test_split # разделение на обучающую и тестовую выборки

import warnings 
warnings.simplefilter('ignore') # игнорировать предупреждения

Загрузим данные:

In [128]:
df = pd.read_csv('../data/nyc_airbnb.csv')

In [129]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48895 entries, 0 to 48894
Data columns (total 10 columns):
id                   48895 non-null int64
name                 48879 non-null object
host_id              48895 non-null int64
host_name            48874 non-null object
neighbourhood        48895 non-null object
room_type            48895 non-null object
price                48895 non-null int64
minimum_nights       48895 non-null int64
number_of_reviews    48895 non-null int64
reviews_per_month    38843 non-null float64
dtypes: float64(1), int64(5), object(4)
memory usage: 3.7+ MB


1. Удалите из таблицы колонку `name` с названием объявления, ибо мы не знаем, как работать с текстовыми данными. Также удалите колонки `host_name` и `id` так как в них слишком много уникальных значений.

In [130]:
# Ваш код здесь

2. Пропуски есть в колонке `reviews_per_month`. Заполните их:

In [131]:
# Ваш код здесь

3. Закодируйте категориальные признаки с помощью численного кодирования или dummy-переменных.

Колонки с категориальными признаками: `neighbourhood`, `room_type`.

In [132]:
# Ваш код здесь

4. Разделим таблицу на признаки и целевой признак, затем разобьем данные на обучающую и тестовую выборки:

In [133]:
X = df.drop('price', axis=1)
y = df['price']

In [134]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

5. Давайте перед применением машинного обучения посмотрим на качество "тупого" предсказания на обучающей и на тестовой выборках - просто медианным значением.

In [145]:
train_mean_price = y_train.median() # посчитаем среднюю цену в обучающей выборке
X_train['mean_price'] = train_mean_price # добавим ее в виде колонки
print(
    mean_absolute_error(y_train,
                        X_train['mean_price'])
) # посчитаем качество предсказания
X_train = X_train.drop('mean_price', axis=1) # выкинем эту колонку за ненадобностью

При средней цене аренды в 152 доллара ошибка плюс-минус на 90 долларов это очень много. Что для тестовой выборки?

In [144]:
test_mean_price = y_test.median() # посчитаем среднюю цену в обучающей выборке
X_test['mean_price'] = test_mean_price # добавим ее в виде колонки
print(
mean_absolute_error(y_test,
                    X_test['mean_price']
) # посчитаем качество предсказания
X_test = X_test.drop('mean_price', axis=1) # выкинем эту колонку за ненадобностью

Ситуация примерно такая же, ошибка на тестовой выборке практически совпадает с ошибкой на тестовой. 

Теперь, у нас есть глупый baseline, с которым мы можем сравнивать "умные" модели машинного обучения.

4. Обучим дерево решений на обучающей выборке:

In [140]:
tree = DecisionTreeRegressor(max_depth=100, # глубина дерева, чем она меньше, тем сложнее дереву переобучиться
                            max_leaf_nodes=20 # количество листов у дерева, чем оно больше, тем легче дереву переобучиться, по умолчанию не ограничено
                            ) 

tree.fit(X_train, y_train) # запустим процесс обучения дерева

Посмотрим MAE на обучающей выборке:

In [141]:
y_train_prediction = tree.predict(X_train)
mean_absolute_error(y_train, y_train_prediction)

Посмотрим MAE на тестовой выборке:

In [142]:
y_test_prediction = tree.predict(X_test)
mean_absolute_error(y_test, y_test_prediction)