In [33]:
from matplotlib.colors import ListedColormap
from sklearn import model_selection, datasets, linear_model, metrics

In [2]:
%pylab inline

Populating the interactive namespace from numpy and matplotlib


# Линейные модели

In [35]:
# Построим облака точек из готового датасета. Эти облака накладываются друг на друга
blobs = datasets.make_blobs(centers=2, cluster_std=5.5, random_state=1)

In [36]:
# 70% - обучение, 30% - тест. Random_state - чтобы эксперименты были воспроизводимы
train_data, test_data, train_labels, test_labels = model_selection.train_test_split(blobs[0], blobs[1], 
                                                                                   test_size=0.3, random_state=1)

In [37]:
# Создание объекта-классификатора
ridge_classifier = linear_model.RidgeClassifier(random_state=1)

In [39]:
# Обучение классификатора
ridge_classifier.fit(train_data, train_labels) 
# Получили обученную модель.
# Теперь можно строить предсказания по тестовой выборке

RidgeClassifier(alpha=1.0, class_weight=None, copy_X=True, fit_intercept=True,
        max_iter=None, normalize=False, random_state=1, solver='auto',
        tol=0.001)

In [40]:
# Посмотрим, как модель работает на тестовой выборке
ridge_predictions = ridge_classifier.predict(test_data)

In [41]:
# Сравним правильные и предсказанные метки
print(test_labels) # тестовые (правильные) метки
print(ridge_predictions) # предсказания

[0 0 0 1 0 0 0 0 0 1 0 1 0 1 1 1 0 0 0 1 0 0 0 1 1 1 1 0 0 1]
[0 0 0 1 0 1 0 0 0 1 0 1 0 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 1]


In [42]:
# Оценка качества классификации
metrics.accuracy_score(test_labels, ridge_predictions)

0.8666666666666667

## Логистическая регрессия

**Логистическая регрессия** применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков.
По сути это статистическая модель, используемая для предсказания вероятности возникновения некоторого события путём подгонки данных к логистической кривой.

In [44]:
log_regressor = linear_model.LogisticRegression(random_state=1)

In [45]:
log_regressor.fit(train_data, train_labels)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=1, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [46]:
lr_predictions = log_regressor.predict(test_data)

In [48]:
# Мы работаем с вероятностой моделью - можно вывести, с какой вероятностью каждый объект принадлежит первому и нулевому классам
lr_proba_predictions = log_regressor.predict_proba(test_data)

In [49]:
# Посмотрим тестовые метки
print(test_labels)

[0 0 0 1 0 0 0 0 0 1 0 1 0 1 1 1 0 0 0 1 0 0 0 1 1 1 1 0 0 1]


In [50]:
# Посмотрим предсказания
print(lr_predictions)

[0 1 1 1 0 1 0 0 0 1 0 1 0 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 1]


In [79]:
# Посмотрим вероятности предсказаний
print(lr_proba_predictions)
# Первое значение - вероятность принадлежать нулевому классу, второе - принадлежать первому классу

[[ 0.99873457  0.00126543]
 [ 0.38956803  0.61043197]
 [ 0.45000737  0.54999263]
 [ 0.00536816  0.99463184]
 [ 0.70965944  0.29034056]
 [ 0.23304944  0.76695056]
 [ 0.98983143  0.01016857]
 [ 0.9709671   0.0290329 ]
 [ 0.93909394  0.06090606]
 [ 0.15103335  0.84896665]
 [ 0.90324667  0.09675333]
 [ 0.0100448   0.9899552 ]
 [ 0.82338574  0.17661426]
 [ 0.05238427  0.94761573]
 [ 0.00443451  0.99556549]
 [ 0.00102911  0.99897089]
 [ 0.20817393  0.79182607]
 [ 0.91074564  0.08925436]
 [ 0.22580526  0.77419474]
 [ 0.00101709  0.99898291]
 [ 0.09600944  0.90399056]
 [ 0.99367624  0.00632376]
 [ 0.9779897   0.0220103 ]
 [ 0.29889823  0.70110177]
 [ 0.00210487  0.99789513]
 [ 0.00929423  0.99070577]
 [ 0.2670277   0.7329723 ]
 [ 0.85210662  0.14789338]
 [ 0.98871444  0.01128556]
 [ 0.00407572  0.99592428]]


In [52]:
# Оценим качество нашей модели
print(metrics.accuracy_score(test_labels, lr_predictions))

0.8


## Модели регрессии

In [53]:
# Сгенерируем данные для обучения.
# Модель будет с двумя признаками - 1 признак будет информативный, второй избыточный. Добавим также шум.

# coef нужен, чтобы вернуть приближаемое уравнение
data, target, coef = datasets.make_regression(n_features=2, n_informative=1, n_targets=1, 
                                              noise=5., coef=True, random_state=2)

In [55]:
# Python 3 не воспроизводит график. Но там синее - 
#pylab.scatter(map(lambda x: x[0], data), target, color='r')
#pylab.scatter(map(lambda x: x[1], data), target, color='b')

In [56]:
train_data, test_data, train_labels, test_labels = model_selection.train_test_split(data, target, test_size=0.3)

## Линейная регрессия

In [61]:
# Обучим классификатор

linear_regressor = linear_model.LinearRegression()
linear_regressor.fit(train_data, train_labels)
predictions = linear_regressor.predict(test_data)

In [62]:
# Исходное значение функции
print(test_labels)

[  -4.38652971  -45.38589148   12.74038341   25.7124082   -76.75213382
   44.66274342   17.64282734  -18.57607726   11.06961035   11.96165156
   21.20540389  -21.47606913  -57.46293828  -18.86438755   28.15553021
   25.24428409   13.31981235   27.83791274   10.33267887  -22.33224966
  -61.47026695   38.36241814   22.2276832    20.87713077 -105.77758163
  -52.37232463   41.95683853  -45.27502383   45.05465366   18.17188553]


In [64]:
# То, как приблизили функцию на тестовых объектах
print(predictions)

[  -4.69446281  -43.34748622    8.03988387   28.2384002   -68.32745726
   50.18546249   20.15627225  -25.32617123   26.2332619    13.30671744
   15.82945952  -18.00113684  -54.20405148  -18.00856068   22.38726932
   14.65824852   13.97456869   22.65358283    8.65836136  -28.79402759
  -56.77780571   41.89766762   18.73042739   13.10421744 -101.28317513
  -40.74756997   44.42383563  -48.17986794   42.01290108   18.8274965 ]


In [67]:
# Для того, чтобы понять, насколько хорошо получилось, 
# будем использовать метрику - среднее отклонение нашего приближения от исходного значения функции

metrics.mean_absolute_error(test_labels, predictions)

4.5757932042316662

In [72]:
# Сделаем свой собственный scorer, который считает, какая модель лучше по отобранным нами параметрам, и выдаёт нам этот результат
scorer = metrics.make_scorer(metrics.mean_absolute_error, greater_is_better=True)

In [78]:
# cv = 10 -> разбиваем на 10 фолдов. Оценим качество модели по кросс-валидации
linear_scoring = model_selection.cross_val_score(linear_regressor, data, target, scoring=scorer, cv=10) 
print('Mean: {}, std: {}'.format(linear_scoring.mean(), linear_scoring.std()))

Mean: 4.070071498779695, std: 1.0737104492890204


## Регрессия с регуляризацией L1

*Регуляризация L1 (Лассо-регулярация)* - нужна тогда, когда нужно обнулить какие-нибудь избыточные признаки, чтобы искусственно сократить количество признаков для описания модели

In [75]:
lasso_regressor = linear_model.Lasso(random_state=3)
lasso_regressor.fit(train_data, train_labels)
lasso_predictions = lasso_regressor.predict(test_data)

In [77]:
# Оценим качество модели по кросс-валидации. 
lasso_scoring = model_selection.cross_val_score(lasso_regressor, data, target, scoring=scorer, cv=10)
print('Mean: {}, std: {}'.format(lasso_scoring.mean(), lasso_scoring.std()))

Mean: 4.154478246666398, std: 1.0170354384993354


## Регрессия с регуляризацией L2

*Регуляризация L2* - штрафует за сложность модели. L2-регуляризатор является гладким и выпуклым.

# Пример использования линейной регрессии

### Предобработка данных

In [3]:
import pandas as pd
df = pd.read_csv('bikes_rent.csv')
df.head(5)

Unnamed: 0,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed(mph),windspeed(ms),cnt
0,1,0,1,0,6,0,2,14.110847,18.18125,80.5833,10.749882,4.80549,985
1,1,0,1,0,0,0,2,14.902598,17.68695,69.6087,16.652113,7.443949,801
2,1,0,1,0,1,1,1,8.050924,9.47025,43.7273,16.636703,7.43706,1349
3,1,0,1,0,2,1,1,8.2,10.6061,59.0435,10.739832,4.800998,1562
4,1,0,1,0,3,1,1,9.305237,11.4635,43.6957,12.5223,5.59781,1600


Давайте посчитаем корреляции между вещественными признаками.

In [13]:
cols = ["temp","atemp","hum","windspeed(mph)","windspeed(ms)","cnt"]      
df[cols].corr()

Unnamed: 0,temp,atemp,hum,windspeed(mph),windspeed(ms),cnt
temp,1.0,0.991702,0.126963,-0.157944,-0.157944,0.627494
atemp,0.991702,1.0,0.139988,-0.183643,-0.183643,0.631066
hum,0.126963,0.139988,1.0,-0.248489,-0.248489,-0.100659
windspeed(mph),-0.157944,-0.183643,-0.248489,1.0,1.0,-0.234545
windspeed(ms),-0.157944,-0.183643,-0.248489,1.0,1.0,-0.234545
cnt,0.627494,0.631066,-0.100659,-0.234545,-0.234545,1.0


Выведем среднее признаков:

In [5]:
df.mean(axis=0)

season               2.496580
yr                   0.500684
mnth                 6.519836
holiday              0.028728
weekday              2.997264
workingday           0.683995
weathersit           1.395349
temp                20.310776
atemp               23.717699
hum                 62.789406
windspeed(mph)      12.762576
windspeed(ms)        5.705220
cnt               4504.348837
dtype: float64

Признаки имеют разный масштаб, значит для дальнейшей работы нам лучше нормировать матрицу объекты-признаки.

### Масштабирование признаков, L1/L2-регуляризация

Для начала проведем масштабирование, или стандартизацию признаков: из каждого признака вычтем его среднее и поделим на стандартное отклонение. Это можно сделать с помощью метода scale.

Кроме того, нужно перемешать выборку, это потребуется для кросс-валидации.

In [6]:
from sklearn.preprocessing import scale
from sklearn.utils import shuffle

In [7]:
df_shuffled = shuffle(df, random_state=123) # перемешаем выборку
X = scale(df_shuffled[df_shuffled.columns[:-1]]) # все остальные столбцы, за исключением целевой переменной
y = df_shuffled["cnt"] # целевая переменная 

In [8]:
# Давайте обучим нашу модель

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso, Ridge

lrg = Ridge() # L1-регуляризация
lrg.fit(X, y) # обучаем модель
list(zip(df.columns, lrg.coef_)) # выведем веса признаков

[('season', 563.06457225201655),
 ('yr', 1018.9483787875298),
 ('mnth', -131.87332028247582),
 ('holiday', -86.746097997092377),
 ('weekday', 138.00511117871895),
 ('workingday', 55.903110375064827),
 ('weathersit', -332.34978849907384),
 ('temp', 386.45788919192529),
 ('atemp', 566.34704706004982),
 ('hum', -145.07132729867186),
 ('windspeed(mph)', -99.259441081817997),
 ('windspeed(ms)', -99.259441154314999)]

In [9]:
lrg = Lasso() # L2-регуляризация
lrg.fit(X, y)
list(zip(df.columns, lrg.coef_)) # выведем веса признаков

[('season', 560.24161603088635),
 ('yr', 1019.4634940657196),
 ('mnth', -128.7306270367873),
 ('holiday', -86.152781333711062),
 ('weekday', 137.34789390496297),
 ('workingday', 55.212370641356834),
 ('weathersit', -332.36985696234859),
 ('temp', 376.36323620969853),
 ('atemp', 576.53079350455096),
 ('hum', -144.12915500348598),
 ('windspeed(mph)', -197.13968940248651),
 ('windspeed(ms)', -2.8049408831785242e-08)]