### Домашнее задание 1.6

In [30]:
import numpy as np
import pandas as pd
import random

Попробуем создать датасет для предсказания цены на квартиру. Изначально для предсказания можно использовать множество признаков. При этом мы попробуем создать синтетический(ие) признак(и) или отбросить ненужные столбцы для упрощения и повышения качества модели.

Предикторы:
- Категория: эконом, бизнес, премиум
- Год постройки
- Время до метро пешком
- Количество комнат
- Площадь одной комнаты

Целевая переменная:
- Цена

Генерируем случайные значения для ключевых предикторов

In [31]:
# категория квартиры
cat_names = ['Economy', 'Business', 'Premium']
categories = random.choices(cat_names, k=1000)

# время до метро (mu, sigma)
time_to_metro = np.abs(np.random.normal(10, 3, 1000).astype(int))

Создаем датафрейм с ключевыми предикторами

In [32]:
data = pd.DataFrame({'category': categories, 'time_to_metro': time_to_metro})
data.head()

Unnamed: 0,category,time_to_metro
0,Economy,10
1,Premium,7
2,Premium,8
3,Business,5
4,Premium,7


In [33]:
data.shape

(1000, 2)

Теперь можем добавить ряд дополнительных признаков

- Количество комнат и площадь каждой комнаты зависит от категории квартиры
- Год зависит от близости к метро (близко от метро либо старые дома, либо совсем новые; дальше от метро любые)

In [34]:
rooms = []
area = []
year = []

In [35]:
for cat in data.category:
    if cat == 'Economy':
        rooms.append(random.randrange(1, 4, 1))
        area.append(random.randrange(15, 20, 1) * rooms[-1])
    elif cat == 'Business':
        rooms.append(random.randrange(1, 5, 1))
        area.append(random.randrange(19, 25, 1) * rooms[-1])
    else:
        rooms.append(random.randrange(2, 5, 1))
        area.append(random.randrange(25, 45, 1) * rooms[-1])

In [36]:
data['rooms'] = np.array(rooms)

In [37]:
data['area'] = np.array(area)

In [38]:
data.head()

Unnamed: 0,category,time_to_metro,rooms,area
0,Economy,10,1,17
1,Premium,7,4,136
2,Premium,8,2,88
3,Business,5,1,20
4,Premium,7,4,112


In [39]:
for time_to_metro in data.time_to_metro:
    if time_to_metro <= 10:
        a = random.randrange(1950, 1961, 1)
        b = random.randrange(2000, 2022, 1)
        year.append(random.choice([a, b]))
    else:
        year.append(random.randrange(1950, 2022, 1))

In [40]:
data['year'] = np.array(year)

In [41]:
data.head()

Unnamed: 0,category,time_to_metro,rooms,area,year
0,Economy,10,1,17,2007
1,Premium,7,4,136,2018
2,Premium,8,2,88,2008
3,Business,5,1,20,2001
4,Premium,7,4,112,2013


Создаем целевую переменную "цена"

In [42]:
price = []

# год постройки
for cat, time_to_metro in zip(data.category, data.time_to_metro):
    if cat == 'Economy':
        if time_to_metro <= 10:
            price.append(int(np.abs(np.random.normal(120000000, 1000000, 1))))
        else:
            price.append(int(np.abs(np.random.normal(70000000, 1000000, 1))))
    elif cat == 'Business':
        if time_to_metro <= 10:
            price.append(int(np.abs(np.random.normal(270000000, 2000000, 1))))
        else:
            price.append(int(np.abs(np.random.normal(200000000, 2000000, 1))))
    else:
        if time_to_metro <= 10:
            price.append(int(np.abs(np.random.normal(450000000, 2000000, 1))))
        else:
            price.append(int(np.abs(np.random.normal(350000000, 2000000, 1))))

Идея данного синтетического датасета заключается в том, чтобы создать два реальных предиктора (категория и время до метро), от которых зависит цена на жилье, а все остальные предикторы вывести из них. Таким образом, при обратном упрощении модели (сведении количества признаков к двум), ошибка модели должна уменьшиться.

In [43]:
data['price'] = np.array(price)
data.head()

Unnamed: 0,category,time_to_metro,rooms,area,year,price
0,Economy,10,1,17,2007,120537001
1,Premium,7,4,136,2018,449714749
2,Premium,8,2,88,2008,448531820
3,Business,5,1,20,2001,265917421
4,Premium,7,4,112,2013,451549618


In [44]:
data.describe()

Unnamed: 0,time_to_metro,rooms,area,year,price
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,9.495,2.55,66.296,1984.397,258199100.0
std,2.874411,1.033716,40.335659,25.716001,133431000.0
min,1.0,1.0,15.0,1950.0,67238720.0
25%,8.0,2.0,34.0,1957.0,120505500.0
50%,9.0,3.0,57.0,1987.5,268870600.0
75%,11.0,3.0,90.0,2009.0,351900700.0
max,19.0,4.0,176.0,2021.0,455123600.0


Строим модель

In [45]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [46]:
data = pd.get_dummies(data, drop_first=True)

In [47]:
data.head()

Unnamed: 0,time_to_metro,rooms,area,year,price,category_Economy,category_Premium
0,10,1,17,2007,120537001,1,0
1,7,4,136,2018,449714749,0,1
2,8,2,88,2008,448531820,0,1
3,5,1,20,2001,265917421,0,0
4,7,4,112,2013,451549618,0,1


In [48]:
y = data['price']
X = data.drop('price', axis = 1)

In [49]:
model = LinearRegression().fit(X, y)
print('Weights: {}'.format(model.coef_))
print('Bias: {}'.format(model.intercept_))

y_pred = model.predict(X)
print('Error: {}'.format(mean_absolute_error(y_pred, y)))

Weights: [-9.92408612e+06 -1.00600657e+06  3.96694130e+04 -3.20710521e+04
 -1.46255665e+08  1.64536962e+08]
Bias: 404670827.5075698
Error: 20186510.845780935


In [50]:
# R-squared
model.score(X,y)

0.9675305190418286

Так как по сути цена квартиры зависит только от двух предикторов, мы можем отбросить год постройки. Кроме этого, для упрощения модели мы можем объединить количество комнат и площадь комнаты в одну переменную - общую площадь квартиры.

In [51]:
X = X.drop('year', axis = 1)

In [52]:
X['total_area'] = X['rooms'] * X['area']
X = X.drop(['rooms', 'area'], axis = 1)
X.head()

Unnamed: 0,time_to_metro,category_Economy,category_Premium,total_area
0,10,1,0,17
1,7,0,1,544
2,8,0,1,176
3,5,0,0,20
4,7,0,1,448


In [53]:
new_model = LinearRegression().fit(X, y)

In [54]:
print('Weights: {}'.format(new_model.coef_))
print('Bias: {}'.format(new_model.intercept_))

y_pred = new_model.predict(X)
print('Error: {}'.format(mean_absolute_error(y_pred, y)))

Weights: [-9.93028807e+06 -1.46506259e+08  1.65887419e+08  9.19517204e+02]
Bias: 340565801.0995694
Error: 20228130.988555983


In [55]:
# R-squared
new_model.score(X,y)

0.9674771611463121

Ошибка по-прежнему велика, при этом коэффициенты в целом верно отражают зависимость цены от предикторов. Попробуем дополнительно упростить модель, отбросив все признаки, кроме изначальных: времени до метро и категории.

In [56]:
X = X.drop('total_area', axis = 1)
X.head()

Unnamed: 0,time_to_metro,category_Economy,category_Premium
0,10,1,0
1,7,0,1
2,8,0,1
3,5,0,0
4,7,0,1


In [57]:
simple_model = LinearRegression().fit(X, y)

In [59]:
print('Weights: {}'.format(simple_model.coef_))
print('Bias: {}'.format(simple_model.intercept_))

y_pred = simple_model.predict(X)
print('Error: {}'.format(mean_absolute_error(y_pred, y)))

Weights: [-9.93052351e+06 -1.46585123e+08  1.66059652e+08]
Bias: 340719195.00804526
Error: 20230287.697116967


In [60]:
# R-squared
simple_model.score(X,y)

0.9674763048747452

Ошибку снизить не удалось, возможно из-за того, что хотя цена напрямую зависит от времени до метро и категории, при формировании синтетического датасета мы ввели элемент случайности/вариативности цены (что отличается от примера из практики, где цена есть строгая линейная зависимость от предикторов).

Тем не менее, мы продемонстрировали, что убрав второстепенные признаки мы сохраняем коэффициент детерминации и при этом не увеличиваем MAE.