# Линейная регрессия. Практика с данными по прокату велосипедов

In [1]:
from __future__ import division, print_function
# отключим всякие предупреждения Anaconda
import warnings
warnings.filterwarnings('ignore')
import statsmodels
import scipy as sc
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
from statsmodels.graphics.regressionplots import plot_leverage_resid2
%pylab inline
figsize(8,6)
import matplotlib.pyplot as plt
# conda install seaborn
import seaborn as sns

Populating the interactive namespace from numpy and matplotlib


## Данные

Данные по прокату велосипедов (целевой признак – cnt).

Известные признаки:

- instant: индекс записи
- dteday : дата
- season : время года (1:весна, 2:лето, 3:осень, 4:зима)
- yr : год (0: 2011, 1:2012)
- mnth : месяц ( 1 to 12)
- hr : час (0 to 23)
- holiday : индикатор выходного дня/праздника
- weekday : день недели
- workingday : индикатор рабочего дня
+ weathersit : 
- 1: Clear, Few clouds, Partly cloudy, Partly cloudy
- 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
- 3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
- 4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
- temp : температура по шкале Цельсия
- atemp: ощущаемая температура по шкале Цельсия
- hum: влажность воздуха
- windspeed: скорость ветра
- casual: число прокатов велосипедов случайными пользователями
- registered: число прокатов велосипедов зарегистрированными пользователями
- cnt: общее число прокатов

[Ссылка](https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset) на описание в репозитории UCI.

[1] Fanaee-T, Hadi, and Gama, Joao, 'Event labeling combining ensemble detectors and background knowledge', Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin Heidelberg. 

In [2]:
data = pd.read_csv("../../data/bikes.csv", index_col='instant') 
data.head()

Unnamed: 0_level_0,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [3]:
data.shape

(17379, 16)

**Удалите признаки *casual* и *registered* – не будем их различать. Также удалите информацию о конкретном дне (dteday).**

In [None]:
data.drop ''' ВАШ КОД ЗДЕСЬ'''

## Визуальный анализ признаков и предобработка данных

**Посмотрите на корреляции признаков – corr для DataFrame, раскрасить с помощью Seaborn.heatmap.**

In [None]:
''' ВАШ КОД ЗДЕСЬ'''

**Выкиньте месяц как сильно коррелирующий со временем года, а также ощущаемую температуру.**

In [None]:
data.drop ''' ВАШ КОД ЗДЕСЬ'''

In [None]:
numeric_features = ['windspeed', 'hum', 'temp', 'cnt']
cat_features = ['season', 'yr', 'hr', 'holiday', 'weekday', 'workingday', 'weathersit']

**Постройте матрицу диаграмм рассеяния по количественным признакам *windspeed*, *hum*, *temp* и *cnt* **

In [None]:
pd.scatter_matrix ''' ВАШ КОД ЗДЕСЬ'''

**Оцените сбалансированность выборки по категориальным признакам:**

In [None]:
for col in cat_features:
    ''' ВАШ КОД ЗДЕСЬ'''

Посмотрим на распределение целевого признака — числа прокатов велосипедов: 

In [None]:
plt.figure(figsize(16,7))
plt.subplot(121)
data['cnt'].plot.hist()
plt.xlabel('Num bikes', fontsize=14)

plt.subplot(122)
np.log(data['cnt']).plot.hist()
plt.xlabel('Log num. bikes', fontsize=14)
pylab.show()

**Постройте ящики с усами (boxplots) для исследования зависимости числа прокатов от всех категориальных признаков.**

In [None]:
sns.boxplot ''' ВАШ КОД ЗДЕСЬ'''
sns.boxplot ''' ВАШ КОД ЗДЕСЬ'''
sns.boxplot ''' ВАШ КОД ЗДЕСЬ'''
...

## Построение модели

### Простейшая модель

Постройте линейную модель по всем признакам.

In [None]:
m1 = smf.ols ''' ВАШ КОД ЗДЕСЬ'''
fitted = m1.fit()
print(fitted.summary())

Посмотрите на распределение остатков:

In [None]:
plt.figure(figsize(16,7))
plt.subplot(121)
sc.stats.probplot(fitted.resid, dist="norm", plot=pylab)
plt.subplot(122)
np.log(fitted.resid).plot.hist()
plt.xlabel('Residuals', fontsize=14)
pylab.show()

**Прологарифмируйте целевой признак и повторите.**

In [None]:
m2 = smf.ols ''' ВАШ КОД ЗДЕСЬ'''
fitted = m2.fit()
print(fitted.summary())

plt.figure(figsize(16,7))
plt.subplot(121)
sc.stats.probplot(fitted.resid, dist="norm", plot=pylab)
plt.subplot(122)
np.log(fitted.resid).plot.hist()
plt.xlabel('Residuals', fontsize=14)
pylab.show()

Теперь стало лучше. Посмотрите теперь на зависимость остатков от непрерывных признаков:

In [None]:
plt.figure(figsize(16,7))
plt.subplot(131)
scatter(data['windspeed'],fitted.resid)
plt.xlabel('Windspeed', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
plt.subplot(132)
scatter(data['hum'],fitted.resid)
plt.xlabel('Humidity', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
plt.subplot(133)
scatter(data['temp'],fitted.resid)
plt.xlabel('Temperature', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
pylab.show()

** Добавьте в модель квадраты непрерывных признаков**

In [None]:
m3 = smf.ols ''' ВАШ КОД ЗДЕСЬ'''
fitted = m3.fit()
print(fitted.summary())

plt.figure(figsize(16,7))
plt.subplot(121)
sc.stats.probplot(fitted.resid, dist="norm", plot=pylab)
plt.subplot(122)
np.log(fitted.resid).plot.hist()
plt.xlabel('Residuals', fontsize=14)
plt.subplot(131)
scatter(data['windspeed'],fitted.resid)
plt.xlabel('Windspeed', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
plt.subplot(132)
scatter(data['hum'],fitted.resid)
plt.xlabel('Humidity', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
plt.subplot(133)
scatter(data['temp'],fitted.resid)
plt.xlabel('Temperature', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
pylab.show()
plt.subplot(141)
scatter(data['windspeed'] ** 2,fitted.resid)
plt.xlabel('Windspeed^2', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
plt.subplot(142)
scatter(data['hum'] ** 2,fitted.resid)
plt.xlabel('Humidity^2', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
plt.subplot(143)
scatter(data['temp'] ** 2,fitted.resid)
plt.xlabel('Temperature^2', fontsize=14)
plt.ylabel('Residuals', fontsize=14)
pylab.show()

Используем критерий Бройша-Пагана для проверки гомоскедастичности ошибок:

In [None]:
print('Breusch-Pagan test: p=%f' % sms.het_breushpagan(fitted.resid, fitted.model.exog)[1])

Ошибки гетероскедастичны, значит, значимость признаков может определяться неверно. Сделаем поправку Уайта:

In [None]:
m4 = smf.ols('np.log(cnt) ~ season + yr  + hr + holiday +\
             weekday + workingday + weathersit + temp + np.power(temp, 2)  + hum + \
             + np.power(hum, 2) + windspeed + np.power(windspeed, 2)', data=data)
fitted = m4.fit(cov_type='HC1')
print(fitted.summary())


plt.figure(figsize(16,7))
plt.subplot(121)
sc.stats.probplot(fitted.resid, dist="norm", plot=pylab)
plt.subplot(122)
np.log(fitted.resid).plot.hist()
plt.xlabel('Residuals', fontsize=14)
pylab.show()

**Удалите незначимые признаки**

In [None]:
m5 = smf.ols ''' ВАШ КОД ЗДЕСЬ'''
fitted = m5.fit(cov_type='HC1')
print(fitted.summary())


plt.figure(figsize(16,7))
plt.subplot(121)
sc.stats.probplot(fitted.resid, dist="norm", plot=pylab)
plt.subplot(122)
np.log(fitted.resid).plot.hist()
plt.xlabel('Residuals', fontsize=14)
pylab.show()

Посмотрим, не стала ли модель от удаления трёх признаков значимо хуже, с помощью критерия Фишера:

In [None]:
print("F=%f, p=%f, k1=%f" % m4.fit().compare_f_test(m5.fit()))

Не стала.

Проверьте, нет ли наблюдений, которые слишком сильно влияют на регрессионное уравнение:

In [None]:
 ''' ВАШ КОД ЗДЕСЬ'''

Посмотрите на сильно выбивающиеся случаи.

In [None]:
data.loc  ''' ВАШ КОД ЗДЕСЬ'''

**Сделайте выводы, проинтерпретируйте коэффициент в модели при температуре.**