# Домашняя работа.
### Тема: Cross validation

```
Взять boston house-prices datase (sklearn.datasets.load_boston) и сделать тоже самое для задачи регрессии
(попробовать разные алгоритмы, поподбирать параметры, вывести итоговое качество)
```

In [1]:
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge, SGDRegressor
from sklearn.metrics import r2_score
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor


In [2]:
data = load_boston()

In [3]:
X = data['data']
y = data['target']

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

### 1-я модель - Ridge

Используем в качестве гиперпараметра **alpha**.

In [5]:
grid_params = {'alpha': [0.001, 0.01, 0.1, 1, 10, 100]}

In [6]:
ridge = GridSearchCV(Ridge(), param_grid=grid_params, cv=10, scoring = 'r2')
ridge.fit(X_train, y_train)

GridSearchCV(cv=10, error_score=nan,
             estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True,
                             max_iter=None, normalize=False, random_state=None,
                             solver='auto', tol=0.001),
             iid='deprecated', n_jobs=None,
             param_grid={'alpha': [0.001, 0.01, 0.1, 1, 10, 100]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='r2', verbose=0)

In [7]:
y_pred = ridge.best_estimator_.predict(X_test)

In [8]:
print(f'R2-score на тестовом наборе: {format(r2_score(y_test, y_pred))}')
print(f'Наилучшие значения параметров: {format(ridge.best_params_)}')
print(f'Наилучшее значение кросс-валид.: {format(ridge.best_score_)}')
print(f'Наилучшая модель: {format(ridge.best_estimator_)}')

R2-score на тестовом наборе: 0.7983414406587053
Наилучшие значения параметров: {'alpha': 10}
Наилучшее значение кросс-валид.: 0.6979611562009532
Наилучшая модель: Ridge(alpha=10, copy_X=True, fit_intercept=True, max_iter=None, normalize=False,
      random_state=None, solver='auto', tol=0.001)


### 2-я модель KNeighborsRegressor

Используем в качестве гиперпараметра **n_neighbors** - число соседей.

In [9]:
grid_params = {'n_neighbors': list(range(1, 30))}

In [10]:
knr = GridSearchCV(KNeighborsRegressor(), param_grid=grid_params, cv=10, scoring = 'r2')
knr.fit(X_train, y_train)

GridSearchCV(cv=10, error_score=nan,
             estimator=KNeighborsRegressor(algorithm='auto', leaf_size=30,
                                           metric='minkowski',
                                           metric_params=None, n_jobs=None,
                                           n_neighbors=5, p=2,
                                           weights='uniform'),
             iid='deprecated', n_jobs=None,
             param_grid={'n_neighbors': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
                                         13, 14, 15, 16, 17, 18, 19, 20, 21, 22,
                                         23, 24, 25, 26, 27, 28, 29]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='r2', verbose=0)

In [11]:
y_pred = knr.best_estimator_.predict(X_test)

In [12]:
print(f'R2-score на тестовом наборе: {format(r2_score(y_test, y_pred))}')
print(f'Наилучшие значения параметров: {format(knr.best_params_)}')
print(f'Наилучшее значение кросс-валид.: {format(knr.best_score_)}')
print(f'Наилучшая модель: {format(knr.best_estimator_)}')

R2-score на тестовом наборе: 0.7944727951173655
Наилучшие значения параметров: {'n_neighbors': 3}
Наилучшее значение кросс-валид.: 0.7645539715100422
Наилучшая модель: KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                    weights='uniform')


### 3-я модель DecisionTreeRegressor

Используем в качестве гиперпараметра **max_depth** - максимальная глубина дерева.

In [13]:
grid_params = {'max_depth': list(range(1, 20))}

In [14]:
tree = GridSearchCV(DecisionTreeRegressor(), param_grid=grid_params, cv=10, scoring = 'r2')
tree.fit(X_train, y_train)

GridSearchCV(cv=10, error_score=nan,
             estimator=DecisionTreeRegressor(ccp_alpha=0.0, criterion='mse',
                                             max_depth=None, max_features=None,
                                             max_leaf_nodes=None,
                                             min_impurity_decrease=0.0,
                                             min_impurity_split=None,
                                             min_samples_leaf=1,
                                             min_samples_split=2,
                                             min_weight_fraction_leaf=0.0,
                                             presort='deprecated',
                                             random_state=None,
                                             splitter='best'),
             iid='deprecated', n_jobs=None,
             param_grid={'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
                                       13, 14, 15, 16, 17, 18, 19]},
       

In [15]:
y_pred = tree.best_estimator_.predict(X_test)

In [16]:
print(f'R2-score на тестовом наборе: {format(r2_score(y_test, y_pred))}')
print(f'Наилучшие значения параметров: {format(tree.best_params_)}')
print(f'Наилучшее значение кросс-валид.: {format(tree.best_score_)}')
print(f'Наилучшая модель: {format(tree.best_estimator_)}')

R2-score на тестовом наборе: 0.8331841843124459
Наилучшие значения параметров: {'max_depth': 5}
Наилучшее значение кросс-валид.: 0.8042641100768012
Наилучшая модель: DecisionTreeRegressor(ccp_alpha=0.0, criterion='mse', max_depth=5,
                      max_features=None, max_leaf_nodes=None,
                      min_impurity_decrease=0.0, min_impurity_split=None,
                      min_samples_leaf=1, min_samples_split=2,
                      min_weight_fraction_leaf=0.0, presort='deprecated',
                      random_state=None, splitter='best')


### 4-я модель RandomForestRegressor

Используем:  
- **n_estimators** - количество деревьев в лесу  
- **max_depth** - максимальная глубина дерева

In [17]:
grid_params = {'max_depth': list(range(1, 20)), 'n_estimators': [30, 50, 70, 100, 120]}

In [None]:
%%time
forest = GridSearchCV(RandomForestRegressor(), param_grid=grid_params, cv=10, scoring = 'r2')
forest.fit(X_train, y_train)

In [None]:
y_pred = forest.best_estimator_.predict(X_test)

In [None]:
print(f'R2-score на тестовом наборе: {format(r2_score(y_test, y_pred))}')
print(f'Наилучшие значения параметров: {format(forest.best_params_)}')
print(f'Наилучшее значение кросс-валид.: {format(forest.best_score_)}')
print(f'Наилучшая модель: {format(forest.best_estimator_)}')

### 5-я модель SGDRegressor

Используем:
- **penalty** - штраф
- **loss** - функция потерь
- **learning_rate** - шаг обучения

In [None]:
grid_params = {'penalty': ['l2', 'l1', 'elasticnet'], \
              'loss': ['squared_loss', 'huber', 'epsilon_insensitive','squared_epsilon_insensitive'], \
              'learning_rate': ['constant', 'optimal', 'invscaling', 'adaptive']}

In [None]:
sgd = GridSearchCV(SGDRegressor(), param_grid=grid_params, cv=10, scoring = 'r2')
sgd.fit(X_train, y_train)

In [None]:
y_pred = sgd.best_estimator_.predict(X_test)

In [None]:
print(f'R2-score на тестовом наборе: {format(r2_score(y_test, y_pred))}')
print(f'Наилучшие значения параметров: {format(sgd.best_params_)}')
print(f'Наилучшее значение кросс-валид.: {format(sgd.best_score_)}')
print(f'Наилучшая модель: {format(sgd.best_estimator_)}')

In [None]:
estimators = {
    'Ridge': ridge,
    'KNeighborsRegressor': knr,
    'DecisionTreeRegressor': tree,
    'RandomForestRegressor': forest,
    'SGDRegressor': sgd
}

In [None]:
for k in estimators:
    v = estimators[k]
    print('Model:',k, "CV R2: {:.3f}".format(v.best_score_), "Validation R2: {:.3f}".format(v.best_estimator_.score(X_test, y_test)))

**Лучшее качество показывает модель RandomForestRegressor**

In [None]:
lgbm = LGBMRegressor()

In [None]:
lgbm.fit(X_train, y_train)

In [None]:
y_pred = lgbm.predict(X_test)

In [None]:
r2_score(y_test, y_pred)

```
Получилось, что даже без подбора гиперпараметров, LGBMRegressor дает также очень хороший результат,  
сопоставимый с RandomForestRegressor
```