# Подбор параметров

Взять boston house-prices datase (sklearn.datasets.load_boston) и 
для 5 любых алгоритмов регрессии подобрать параметры и вывести итоговое качество.

In [1]:
import pandas as pd

In [2]:
from sklearn.datasets import load_boston

In [3]:
boston = load_boston()

In [4]:
X = boston['data']

In [5]:
y = boston['target']

In [6]:
X.shape, y.shape

((506, 13), (506,))

In [7]:
from sklearn.model_selection import train_test_split

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [9]:
from sklearn.preprocessing import StandardScaler

In [10]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [11]:
from sklearn.model_selection import GridSearchCV

In [12]:
# 1-я модель - Ridge

In [13]:
from sklearn.linear_model import Ridge

In [14]:
# Используем в качестве гиперпараметра alpha. alpha - это сила регуляризации. 
# Большие значения указывают на более сильную регуляризацию. 
# alpha соответствует 1/(2C) в других линейных моделях, например, LogisticRegression

In [15]:
grid_params = {'alpha': [0.001, 0.01, 0.1, 1, 10, 100]}

In [16]:
ridge = GridSearchCV(Ridge(), param_grid=grid_params, cv=10, scoring = 'r2')
ridge.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=Ridge(),
             param_grid={'alpha': [0.001, 0.01, 0.1, 1, 10, 100]},
             scoring='r2')

In [17]:
print('Правильность на тестовом наборе: {:.3f}'.format(ridge.score(X_test, y_test)))
print('Наилучшие значения параметров: {}'.format(ridge.best_params_))
print('Наилучшее значение кросс-валид. правильности: {:.3f}'.format(ridge.best_score_))
print('Наилучшая модель: {}'.format(ridge.best_estimator_))

Правильность на тестовом наборе: 0.673
Наилучшие значения параметров: {'alpha': 10}
Наилучшее значение кросс-валид. правильности: 0.715
Наилучшая модель: Ridge(alpha=10)


In [18]:
# 2-я модель KNeighborsRegressor

In [19]:
from sklearn.neighbors import KNeighborsRegressor

In [20]:
# Используем в качестве гиперпараметра n_neighbors - число соседей

In [21]:
grid_params = {'n_neighbors': list(range(1, 30))}

In [22]:
knr = GridSearchCV(KNeighborsRegressor(), param_grid=grid_params, cv=10, scoring = 'r2')
knr.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=KNeighborsRegressor(),
             param_grid={'n_neighbors': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
                                         13, 14, 15, 16, 17, 18, 19, 20, 21, 22,
                                         23, 24, 25, 26, 27, 28, 29]},
             scoring='r2')

In [23]:
print('Правильность на тестовом наборе: {:.3f}'.format(knr.score(X_test, y_test)))
print('Наилучшие значения параметров: {}'.format(knr.best_params_))
print('Наилучшее значение кросс-валид. правильности: {:.3f}'.format(knr.best_score_))
print('Наилучшая модель: {}'.format(knr.best_estimator_))

Правильность на тестовом наборе: 0.690
Наилучшие значения параметров: {'n_neighbors': 4}
Наилучшее значение кросс-валид. правильности: 0.748
Наилучшая модель: KNeighborsRegressor(n_neighbors=4)


In [24]:
# 3-я модель DecisionTreeRegressor

In [25]:
from sklearn.tree import DecisionTreeRegressor

In [26]:
# Используем в качестве гиперпараметра max_depth - максимальная глубина дерева

In [27]:
grid_params = {'max_depth': list(range(1, 20))}

In [28]:
tree = GridSearchCV(DecisionTreeRegressor(), param_grid=grid_params, cv=10, scoring = 'r2')
tree.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=DecisionTreeRegressor(),
             param_grid={'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
                                       13, 14, 15, 16, 17, 18, 19]},
             scoring='r2')

In [29]:
print('Правильность на тестовом наборе: {:.3f}'.format(tree.score(X_test, y_test)))
print('Наилучшие значения параметров: {}'.format(tree.best_params_))
print('Наилучшее значение кросс-валид. правильности: {:.3f}'.format(tree.best_score_))
print('Наилучшая модель: {}'.format(tree.best_estimator_))

Правильность на тестовом наборе: 0.776
Наилучшие значения параметров: {'max_depth': 5}
Наилучшее значение кросс-валид. правильности: 0.766
Наилучшая модель: DecisionTreeRegressor(max_depth=5)


In [30]:
# 4-я модель RandomForestRegressor

In [31]:
from sklearn.ensemble import RandomForestRegressor

In [32]:
# Используем в качестве гиперпараметров:
# n_estimators - количество деревьев в лесу
# max_depth - максимальная глубина дерева

In [33]:
grid_params = {'max_depth': list(range(1, 20)), 'n_estimators': [30, 50, 70, 100, 120]}

In [34]:
forest = GridSearchCV(RandomForestRegressor(), param_grid=grid_params, cv=10, scoring = 'r2')
forest.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=RandomForestRegressor(),
             param_grid={'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
                                       13, 14, 15, 16, 17, 18, 19],
                         'n_estimators': [30, 50, 70, 100, 120]},
             scoring='r2')

In [35]:
print('Правильность на тестовом наборе: {:.3f}'.format(forest.score(X_test, y_test)))
print('Наилучшие значения параметров: {}'.format(forest.best_params_))
print('Наилучшее значение кросс-валид. правильности: {:.3f}'.format(forest.best_score_))
print('Наилучшая модель: {}'.format(forest.best_estimator_))

Правильность на тестовом наборе: 0.869
Наилучшие значения параметров: {'max_depth': 11, 'n_estimators': 30}
Наилучшее значение кросс-валид. правильности: 0.856
Наилучшая модель: RandomForestRegressor(max_depth=11, n_estimators=30)


In [36]:
# 5-я модель SGDRegressor

In [37]:
from sklearn.linear_model import SGDRegressor

In [38]:
# Используем в качестве гиперпараметров:
# penalty - штраф
# loss - функция потерь
# learning_rate - шаг обучения

In [39]:
grid_params = {'penalty': ['l2', 'l1', 'elasticnet'], \
              'loss': ['squared_loss', 'huber', 'epsilon_insensitive','squared_epsilon_insensitive'], \
              'learning_rate': ['constant', 'optimal', 'invscaling', 'adaptive']}

In [40]:
sgd = GridSearchCV(SGDRegressor(), param_grid=grid_params, cv=10, scoring = 'r2')
sgd.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=SGDRegressor(),
             param_grid={'learning_rate': ['constant', 'optimal', 'invscaling',
                                           'adaptive'],
                         'loss': ['squared_loss', 'huber',
                                  'epsilon_insensitive',
                                  'squared_epsilon_insensitive'],
                         'penalty': ['l2', 'l1', 'elasticnet']},
             scoring='r2')

In [41]:
print('Правильность на тестовом наборе: {:.3f}'.format(sgd.score(X_test, y_test)))
print('Наилучшие значения параметров: {}'.format(sgd.best_params_))
print('Наилучшее значение кросс-валид. правильности: {:.3f}'.format(sgd.best_score_))
print('Наилучшая модель: {}'.format(sgd.best_estimator_))

Правильность на тестовом наборе: 0.676
Наилучшие значения параметров: {'learning_rate': 'invscaling', 'loss': 'squared_epsilon_insensitive', 'penalty': 'elasticnet'}
Наилучшее значение кросс-валид. правильности: 0.716
Наилучшая модель: SGDRegressor(loss='squared_epsilon_insensitive', penalty='elasticnet')


In [42]:
estimators = {
    'Ridge': ridge,
    'KNeighborsRegressor': knr,
    'DecisionTreeRegressor': tree,
    'RandomForestRegressor': forest,
    'SGDRegressor': sgd
}

In [43]:
for k in estimators:
    v = estimators[k]
    print('Model:',k, "CV R2: {:.3f}".format(v.best_score_), "Validation R2: {:.3f}".format(v.best_estimator_.score(X_test, y_test)))

Model: Ridge CV R2: 0.715 Validation R2: 0.673
Model: KNeighborsRegressor CV R2: 0.748 Validation R2: 0.690
Model: DecisionTreeRegressor CV R2: 0.766 Validation R2: 0.776
Model: RandomForestRegressor CV R2: 0.856 Validation R2: 0.869
Model: SGDRegressor CV R2: 0.716 Validation R2: 0.676


In [44]:
# Наибольшее качество показывает модель RandomForestRegressor