In [1]:
from pandas import read_csv
from sklearn.model_selection import KFold # задаем части, на которые разобьем выборку
from sklearn.model_selection import cross_val_score

## Построение классической регрессии (линейная регрессия)

In [2]:
from sklearn.linear_model import LinearRegression

In [4]:
filename = 'git/data/housing.csv'
names = ['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PTRATIO','B','LSTAT','MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names) 

CRIM - доля преступности
ZN - доля земли для застройки
INDUS - 
CHAS - фиктивная переменная (1 - граничит с рекой, 0 - не граничет)
NOX - концентрация аксидов азота
RM - среднее кол-во комнат в доме
AGE - доля живых единиц до 1940
DIS - взвешанные растояния до 5 центров занятости
RAD - индекс доступности транспортных магистралей
TAX - ставка налоги на имущество
PTRATIO - соотношение количество учеников к учителям 
B - доля чернокожих
LSTAT - доля населения низкого статуса

MEDV - результативный признак - средняя стоимость домов

In [5]:
dataframe.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [6]:
array = dataframe.values
X = array[:,0:13]
y = array[:,13]

In [7]:
kFold = KFold(n_splits = 10, random_state = 7, shuffle = True)
model = LinearRegression() #экземпляр класса

In [10]:
# метод, которым будет оценен результат (среднеквадратичная ошибка)
scoring = 'neg_mean_squared_error'

# применим кросс-валидацию
results = cross_val_score(model, X, y, cv = kFold, scoring = scoring)
print('Среднеквадратичная ошибка: ',results.mean())

Среднеквадратичная ошибка:  -23.746501811313447


# Регрессия с резуляризацией (резуляризация - переобучаемость модели)

## Ridge Regression

In [11]:
from sklearn.linear_model import Ridge

In [12]:
model = Ridge()

In [13]:
# применим кросс-валидацию
results = cross_val_score(model, X, y, cv = kFold, scoring = scoring)
print('Среднеквадратичная ошибка: ',results.mean())

Среднеквадратичная ошибка:  -23.889890185053428


Результат похуже, чем у линейной регрессии

## Lasso Regression (L1-регуляризация: удаление незначимых признаков)

In [22]:
from sklearn.linear_model import Lasso

In [23]:
model = Lasso()

In [24]:
# применим кросс-валидацию
results = cross_val_score(model, X, y, cv = kFold, scoring = scoring)
print('Среднеквадратичная ошибка: ',results.mean())

Среднеквадратичная ошибка:  -28.74589007585154


Лучше всех предыдущих результатов

## Elastic Net Regression

In [18]:
from sklearn.linear_model import ElasticNet

In [20]:
model = ElasticNet()

In [21]:
# применим кросс-валидацию
results = cross_val_score(model, X, y, cv = kFold, scoring = scoring)
print('Среднеквадратичная ошибка: ',results.mean())

Среднеквадратичная ошибка:  -27.90842036023106
