In [3]:
import sklearn.datasets
from sklearn.cross_validation import cross_val_score, KFold
from sklearn.linear_model import LassoCV, RidgeCV, Lasso, Ridge
from sklearn import linear_model
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
import numpy as np
import pandas as pd

In [19]:
dataset = sklearn.datasets.load_boston()

In [20]:
print(dataset.DESCR)

Boston House Prices dataset

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
      

Признаки:

 - CRIM - количество преступлений на душу населения
 - ZN - процент жилых участков площадью больше 25 тыс. кв. футов
 - INDUS - процент площадей под оптовую торговлю
 - CHAS - протекает ли река
 - NOX - концентрация оксидов азота
 - RM - среднее число комнат в здании
 - AGE - доля зданий, построенных до 1940 года
 - DIS - взвешенное расстояние до 5 деловых центров Бостона
 - RAD - индекс доступности скоростных магистралей
 - TAX - уровень налогов
 - PTRATIO - среднее число учащихся на одного преподавателя
 - B - процент афроамериканцев
 - LSTAT - процент граждан с низким уровнем жизни
 - MEDV (целевой) - медианная стоимости домов в районе

In [21]:
dataset.keys()

dict_keys(['data', 'DESCR', 'feature_names', 'target'])

In [29]:
X = pd.DataFrame(dataset.data)
X.columns = dataset.feature_names
y = pd.DataFrame(dataset.target)

In [30]:
X.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [31]:
y.head()

Unnamed: 0,0
0,24.0
1,21.6
2,34.7
3,33.4
4,36.2


In [110]:
# разбиение всех данных на обучающую и тустовую выборку
boundary = len(X) * 80 // 100
train_x, test_x = X[:boundary], X[:boundary]
train_y, test_y = y[:boundary], y[:boundary]

In [109]:
# также разбиение можно сделать в одну строчку
from sklearn.cross_validation import train_test_split
train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=0)

## model1

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [43]:
# инициализируем модель (она пока пустая)
model1 = linear_model.LinearRegression()

In [44]:
# все знавения по дефолту
model1

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [46]:
# обучаем
model1.fit(train_x, train_y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [48]:
# наши коэффициенты модели, которые мы обучили
model1.coef_

array([[ -2.02135297e-01,   4.41276341e-02,   5.26739364e-02,
          1.88474315e+00,  -1.49281487e+01,   4.76038673e+00,
          2.88734527e-03,  -1.30025278e+00,   4.61661953e-01,
         -1.55434673e-02,  -8.11632369e-01,  -1.97174433e-03,
         -5.32273431e-01]])

In [56]:
# Returns the coefficient of determination R^2 of the prediction.
model1.score(train_x, train_y)

#  это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными.

0.73375564039475538

In [58]:
# предсказываем значения y по x, на которых модель не обучалась
predictions = model1.predict(test_x)

In [63]:
# считаем ошибку, это помогает нам узнать, насколько хорошая наша модель. 
# Вид функции ошибки зависит от задачи. Здесь приведен пример двух.
# больше - здесь http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics
error1 = mean_absolute_error(predictions, test_y)
print("Mean absolute error = {0}".format(error1))
error2 = mean_squared_error(predictions, test_y)
print("Mean squared error = {0}".format(error2))

Mean absolute error = 3.3105184155364777
Mean squared error = 22.778379521800787


т.е. мы получили последовательность действий:
    - инициализировать модель
    - обучить (fit)
    - если надо, посмотреть полученные коэффициенты
    - получить предсказанные значения на тестовой выборке
    - оценить нашу ошибку
    
Но всегда ли хватит этих действий для построения наилучшей модели?
Дальше подумаем и узнаем

## model2

На прошлом уроке мы разбирали регуляризацию моделей, чтобы избежать переобучения (когда модель очень хорошо научилась на обучающей выборке, но при работе над значениями не из обучающей выборки, работает очень плохо). Вспомните картинки с синусом и звездочками.

In [69]:
# используем последовательность действий, описанную выше. Только опустим разделение на обучающую/тестовую выборку
lasso = Lasso()
lasso.fit(train_x,train_y)
print(lasso.coef_)
predictions = lasso.predict(test_x)

error1 = mean_absolute_error(predictions, test_y)
print("Mean absolute error = {0}".format(error1))
error2 = mean_squared_error(predictions, test_y)
print("Mean squared error = {0}".format(error2))

[-0.08177086  0.04852305 -0.          0.         -0.          1.72260732
  0.02710625 -0.73265847  0.34674122 -0.01755513 -0.64918947  0.00786308
 -0.79511685]
Mean absolute error = 3.6864888614765534
Mean squared error = 27.209156591390467


In [70]:
lasso

Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

Так, эта модель получилась хуже, чем просто линейная регрессия. Но не надо отчаиваться, мы использовали модель с дефолтными параметрами

Мысли как получить лучшую модель?
Да, на прошлом уроке подбирали лучший коэффициент регуляризации (альфа). То же самое надо сделать и сейчас.

Изменим нашу последовательность:
    - инициализация пустой модели
    - для каждого альфа:
        - подставляем в модель новую альфа
        - обучаем 
        - считаем ошибку
        - запоминаем ее
    - ищем альфа, при котором модель показывает минимальную ошибку

In [146]:
# генерируем 200 возможных альфа в диапазоне 0,01 - 10 с шагом 200
n_alphas = 200
alphas = np.linspace(0.0001, 10, n_alphas)

In [117]:
from sklearn.grid_search import GridSearchCV

In [158]:
parameters = {'alpha': alphas}
lasso_model = Lasso()
clf = GridSearchCV(lasso_model, parameters, scoring='mean_squared_error', cv=3)
clf.fit(X, y)

GridSearchCV(cv=3, error_score='raise',
       estimator=Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False),
       fit_params={}, iid=True, n_jobs=1,
       param_grid={'alpha': array([  1.00000e-04,   5.03508e-02, ...,   9.94975e+00,   1.00000e+01])},
       pre_dispatch='2*n_jobs', refit=True, scoring='mean_squared_error',
       verbose=0)

In [159]:
clf.best_params_

{'alpha': 0.15085226130653265}

Таким образом, мы подобрали наилучший параметр альфа, при котором модель ошибается меньше всего

Резюме:
    - линейные модели
    - регуляризация
    - кросс-валидация
    - обучение моделей