In [151]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import Ridge, Lasso

In [152]:
df = pd.read_csv('DATA/clean.csv')
df.head()

Unnamed: 0,Соотношение матрица-наполнитель,"Плотность, кг/м3","модуль упругости, ГПа","Количество отвердителя, м.%","Содержание эпоксидных групп,%_2","Температура вспышки, С_2","Поверхностная плотность, г/м2","Модуль упругости при растяжении, ГПа","Прочность при растяжении, МПа","Потребление смолы, г/м2","Угол нашивки, град",Шаг нашивки,Плотность нашивки
0,1.857143,2030.0,738.736842,50.0,23.75,284.615385,210.0,70.0,3000.0,220.0,0.0,4.0,60.0
1,1.857143,2030.0,738.736842,129.0,21.25,300.0,210.0,70.0,3000.0,220.0,0.0,5.0,47.0
2,2.771331,2030.0,753.0,111.86,22.267857,284.615385,210.0,70.0,3000.0,220.0,0.0,5.0,57.0
3,2.767918,2000.0,748.0,111.86,22.267857,284.615385,210.0,70.0,3000.0,220.0,0.0,5.0,60.0
4,2.56962,1910.0,807.0,111.86,22.267857,284.615385,210.0,70.0,3000.0,220.0,0.0,5.0,70.0


In [153]:
df.shape

(922, 13)

# Модели для прогноза модуля упругости при растяжении

## Нормализация данных

In [4]:
#зададим X и y
X = df.drop(['Прочность при растяжении, МПа','Модуль упругости при растяжении, ГПа'], axis=1)
y = df['Модуль упругости при растяжении, ГПа']

In [5]:
minmax_scaler = MinMaxScaler()

In [6]:
# нормализуем X
X_norm = pd.DataFrame(minmax_scaler.fit_transform(X))

In [7]:
#создадим обучающую и тестовую выборки 
X_train_norm, X_test_norm, y_train, y_test = train_test_split(X_norm, y, test_size=0.3, random_state=42)

## Модель линейной регрессии

In [8]:
#создаем и обучаем модель
model = LinearRegression()
model.fit(X_train_norm, y_train)

LinearRegression()

In [9]:
# предсказания модели
lr_predict = model.predict(X_test_norm)

In [10]:
#вычисляем ошибки модели
mae_lr = round(mean_absolute_error(y_test, lr_predict), 3)
mse_lr = round(mean_squared_error(y_test, lr_predict), 3)
mape_lr = round(mean_absolute_percentage_error(y_test, lr_predict), 3)
rmse_lr = round(np.sqrt(mean_squared_error(y_test, lr_predict)), 3)

In [11]:
# выводим ошибки
print("Метрики оценки качества работы линейной регрессии:")
print("MAE: ", mae_lr) 
print("MSE: ", mse_lr)
print("MAPE: ", mape_lr)
print("RMSE:", rmse_lr)

Метрики оценки качества работы линейной регрессии:
MAE:  2.611
MSE:  10.153
MAPE:  0.035
RMSE: 3.186


## Гребневая регрессия

In [12]:
# создаем объект класса ridge
ridge_model = Ridge()

# задаем значения параметра
param_grid_rr = {'alpha':[100.0, 200.0, 290.0, 300.0]}

# создаем объект класса GridSearchCV 
ridge_model = GridSearchCV(estimator=ridge_model, param_grid=param_grid_rr,
                         scoring='neg_mean_squared_error',
                         cv=10)

In [13]:
# обучаем
ridge_model.fit(X_train_norm,y_train)

GridSearchCV(cv=10, estimator=Ridge(),
             param_grid={'alpha': [100.0, 200.0, 290.0, 300.0]},
             scoring='neg_mean_squared_error')

In [14]:
# лучший параметр для модели
ridge_model.best_params_

{'alpha': 200.0}

In [15]:
# создаем модель с найденным параметром
model_rr = Ridge(alpha=200)

In [16]:
# обучаем модель
model_rr.fit(X_train_norm, y_train)

Ridge(alpha=200)

In [17]:
# предсказание модели
ridge_pred = model.predict(X_test_norm)

In [18]:
# вычисляем ошибки
mae_rr = round(mean_absolute_error(y_test, ridge_pred), 3)
mse_rr = round(mean_squared_error(y_test, ridge_pred), 3)
mape_rr = round(mean_absolute_percentage_error(y_test, ridge_pred), 3)
rmse_rr = round(np.sqrt(mean_squared_error(y_test, ridge_pred)), 3)

In [19]:
# выводим ошибки
print("Метрики оценки качества работы гребневой регресии:")
print("MAE: ", mae_rr)
print("MSE: ", mse_rr) 
print("MAPE: ", mape_rr)
print("RMSE:", rmse_rr)

Метрики оценки качества работы гребневой регресии:
MAE:  2.611
MSE:  10.153
MAPE:  0.035
RMSE: 3.186


## Лассо регрессии

In [20]:
# создаем объект класса Lasso
lasso_model = Lasso()

# задаем значения параметра
param_grid_lasso = {'alpha':[100.0, 200.0, 290.0, 300.0]}

# создаем объект класса GridSearchCV 
lasso_model = GridSearchCV(estimator=lasso_model, param_grid=param_grid_lasso,
                         scoring='neg_mean_squared_error',
                         cv=10)

In [21]:
# обучаем
lasso_model.fit(X_train_norm,y_train)

GridSearchCV(cv=10, estimator=Lasso(),
             param_grid={'alpha': [100.0, 200.0, 290.0, 300.0]},
             scoring='neg_mean_squared_error')

In [22]:
# лучший параметр для модели
lasso_model.best_params_

{'alpha': 100.0}

In [23]:
# создаем модель с найденным параметром
model_lasso = Lasso(alpha=100)

In [24]:
# обучаем модель
model_lasso.fit(X_train_norm, y_train)

Lasso(alpha=100)

In [25]:
# предсказание модели
lasso_pred = model_lasso.predict(X_test_norm)

In [26]:
# вычисляем ошибки
mae_lasso = round(mean_absolute_error(y_test, lasso_pred), 3)
mse_lasso = round(mean_squared_error(y_test, lasso_pred), 3)
mape_lasso = round(mean_absolute_percentage_error(y_test, lasso_pred), 3)
rmse_lasso = round(np.sqrt(mean_squared_error(y_test, lasso_pred)), 3)

In [27]:
# выводим ошибки
print("Метрики оценки качества работы лассо регресии:")
print("MAE: ", mae_lasso)
print("MSE: ", mse_lasso) 
print("MAPE: ", mape_lasso)
print("RMSE:", rmse_lasso)

Метрики оценки качества работы лассо регресии:
MAE:  2.58
MSE:  9.998
MAPE:  0.035
RMSE: 3.162


## Случайный лес

In [36]:
# задаем значения параметров
param_grid = {'n_estimators':[64,100,128,140]}
# создаем объект класса RandomForestRegressor
model = RandomForestRegressor()

In [37]:
# создаем объект класса GridSearchCV 
grid_model = GridSearchCV(estimator=model,
                          param_grid=param_grid,
                          scoring='neg_mean_squared_error',
                          cv=10)

In [38]:
# обучаем
grid_model.fit(X_train_norm,y_train)

GridSearchCV(cv=10, estimator=RandomForestRegressor(),
             param_grid={'n_estimators': [64, 100, 128, 140]},
             scoring='neg_mean_squared_error')

In [39]:
# лучший параметр для модели
grid_model.best_params_

{'n_estimators': 128}

In [40]:
# создаем модель с найденным параметром
model_forest = RandomForestRegressor(n_estimators=128)

In [41]:
# обучаем модель
model_forest.fit(X_train_norm,y_train)

RandomForestRegressor(n_estimators=128)

In [42]:
# предсказания модели
forest_pred = model_forest.predict(X_test_norm)

In [43]:
#вычисляем и выводим на экран метрики ошибок
mae_rf = round(mean_absolute_error(y_test, forest_pred), 3)
mse_rf = round(mean_squared_error(y_test, forest_pred), 3)
mape_rf = round(mean_absolute_percentage_error(y_test, forest_pred), 3)
rmse_rf = round(np.sqrt(mean_squared_error(y_test, forest_pred)), 3)
print("Метрики оценки качества работы случайного леса:")
print("MAE: ", mae_rf)
print("MSE: ", mse_rf) 
print("MAPE: ", mape_rf)
print("RMSE:", rmse_rf)

Метрики оценки качества работы случайного леса:
MAE:  2.603
MSE:  10.304
MAPE:  0.035
RMSE: 3.21


## Метод опорных векторов

In [44]:
# создаем объект класса DecisionTreeRegressor
svr_model = SVR()

In [45]:
# задаем значения параметров
param_grid = {'kernel':['linear', 'poly', 'rbf', 'sigmoid'],
             'gamma':['scale', 'auto'], 'C':[0.5, 1.0, 2.0, 10.0]}

In [46]:
# создаем объект класса GridSearchCV 
model_svr = GridSearchCV(estimator=svr_model, param_grid=param_grid,
                         scoring='neg_mean_squared_error',
                         cv=10)

In [47]:
# обучаем
model_svr.fit(X_train_norm, y_train)

GridSearchCV(cv=10, estimator=SVR(),
             param_grid={'C': [0.5, 1.0, 2.0, 10.0], 'gamma': ['scale', 'auto'],
                         'kernel': ['linear', 'poly', 'rbf', 'sigmoid']},
             scoring='neg_mean_squared_error')

In [48]:
# лучшие параметры для модели
model_svr.best_params_

{'C': 1.0, 'gamma': 'auto', 'kernel': 'poly'}

In [49]:
# создаем модель с найденными параметрами
svr_model = SVR(C=1.0, gamma='auto', kernel='poly')

In [50]:
# обучаем модель
svr_model.fit(X_train_norm, y_train)

SVR(gamma='auto', kernel='poly')

In [51]:
# предсказания модели
svr_preds = svr_model.predict(X_test_norm)

In [52]:
#вычисляем метрики ошибок 
mae_svr = round(mean_absolute_error(y_test, svr_preds), 3)
mse_svr = round(mean_squared_error(y_test, svr_preds), 3)
mape_svr = round(mean_absolute_percentage_error(y_test, svr_preds), 3)
rmse_svr = round(np.sqrt(mean_squared_error(y_test, svr_preds)), 3)

In [53]:
# выводим на экран метрики ошибок
print("Метрики оценки качества работы метода опорных векторов:")
print("MAE: ", mae_svr)
print("MSE: ", mse_svr)
print("MAPE: ", mape_svr)
print("RMSE:", rmse_svr)

Метрики оценки качества работы метода опорных векторов:
MAE:  2.591
MSE:  10.071
MAPE:  0.035
RMSE: 3.174


## Градиентный бустинг

In [54]:
# задаем значения параметров
param_grid = {'n_estimators':[2,5,10,15],
              'learning_rate':[0.1,0.05,0.2], 'max_depth':[5,6,7]}

In [55]:
# создаем объект класса GradientBoostingRegressor
model_gb = GradientBoostingRegressor()

In [56]:
# создаем объект класса GridSearchCV 
grid = GridSearchCV(estimator=model_gb,param_grid=param_grid,
                          scoring='neg_mean_squared_error',
                          cv=10)

In [57]:
# обучаем
grid.fit(X_train_norm,y_train)

GridSearchCV(cv=10, estimator=GradientBoostingRegressor(),
             param_grid={'learning_rate': [0.1, 0.05, 0.2],
                         'max_depth': [5, 6, 7],
                         'n_estimators': [2, 5, 10, 15]},
             scoring='neg_mean_squared_error')

In [58]:
# лучшие параметры для модели
grid.best_params_

{'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 2}

In [59]:
# создаем модель с найденными параметрами
gb_model = GradientBoostingRegressor(learning_rate=0.05, max_depth=5, n_estimators=2)

In [60]:
# обучаем модель
gb_model.fit(X_train_norm, y_train)

GradientBoostingRegressor(learning_rate=0.05, max_depth=5, n_estimators=2)

In [61]:
# предсказания модели
gb_pred = gb_model.predict(X_test_norm)

In [62]:
#вычисляем и выводим на экран метрики ошибок
mae_gb = round(mean_absolute_error(y_test, gb_pred), 3)
mse_gb = round(mean_squared_error(y_test, gb_pred), 3)
mape_gb = round(mean_absolute_percentage_error(y_test, gb_pred), 3)
rmse_gb = round(np.sqrt(mean_squared_error(y_test, gb_pred)), 3)
print("Метрики оценки качества работы градиентного бустинга:")
print("MAE: ", mae_gb)
print("MSE: ", mse_gb)
print("MAPE: ", mape_gb)
print("RMSE:", rmse_gb)

Метрики оценки качества работы градиентного бустинга:
MAE:  2.588
MSE:  10.038
MAPE:  0.035
RMSE: 3.168


## Адаптивный бустинг 

In [63]:
# задаем параметры для поиска по сетке
param_grid = {'n_estimators':[5,10,15,20],
              'learning_rate':[0.1,0.05,0.2,0.25]}

In [64]:
# создаем объект класса AdaBoostRegressor
model_ab = AdaBoostRegressor()

In [65]:
# создаем объект класса GridSearchCV 
grid_ab = GridSearchCV(estimator=model_ab, param_grid=param_grid,
                          scoring='neg_mean_squared_error',
                          cv=10)

In [66]:
# обучаем
grid_ab.fit(X_train_norm, y_train)

GridSearchCV(cv=10, estimator=AdaBoostRegressor(),
             param_grid={'learning_rate': [0.1, 0.05, 0.2, 0.25],
                         'n_estimators': [5, 10, 15, 20]},
             scoring='neg_mean_squared_error')

In [67]:
# лучшие параметры для модели
grid_ab.best_params_

{'learning_rate': 0.05, 'n_estimators': 20}

In [68]:
# создаем модель с найденными параметрами
ab_model = AdaBoostRegressor(learning_rate=0.05, n_estimators=20)

In [69]:
# обучаем модель
ab_model.fit(X_train_norm, y_train)

AdaBoostRegressor(learning_rate=0.05, n_estimators=20)

In [70]:
# предсказания модели
ab_predict = ab_model.predict(X_test_norm)

In [71]:
#вычисляем и выводим на экран метрики ошибок
mae_ab = round(mean_absolute_error(y_test, ab_predict), 3)
mse_ab = round(mean_squared_error(y_test, ab_predict), 3)
mape_ab = round(mean_absolute_percentage_error(y_test, ab_predict), 3)
rmse_ab = round(np.sqrt(mean_squared_error(y_test, ab_predict)), 3)
print("Метрики оценки качества работы AdaBoost:")
print("MAE: ", mae_ab)
print("MSE: ", mse_ab) 
print("MAPE: ", mape_ab)
print("RMSE:", rmse_ab)

Метрики оценки качества работы AdaBoost:
MAE:  2.568
MSE:  9.872
MAPE:  0.035
RMSE: 3.142


## Метод ближайших соседей

In [72]:
# создаем объект класса KNeighborsRegressor
knn_model = KNeighborsRegressor()
# задаем значения параметра
param_grid_knn = {'n_neighbors':[20,30,35,39]}
# создаем объект класса GridSearchCV 
grid_knn = GridSearchCV(estimator=knn_model, param_grid=param_grid_knn,
                          scoring='neg_mean_squared_error',
                          cv=10)

In [73]:
# обучаем
grid_knn.fit(X_train_norm, y_train)

GridSearchCV(cv=10, estimator=KNeighborsRegressor(),
             param_grid={'n_neighbors': [20, 30, 35, 39]},
             scoring='neg_mean_squared_error')

In [74]:
# лучший параметр для модели
grid_knn.best_params_

{'n_neighbors': 39}

In [75]:
# создаем модель с найденными параметрами
model_knn = KNeighborsRegressor(n_neighbors=39)
# обучаем модель
model_knn.fit(X_train_norm, y_train)

KNeighborsRegressor(n_neighbors=39)

In [76]:
# предсказания модели
knn_preds = model_knn.predict(X_test_norm)

In [77]:
#вычисляем и выводим на экран метрики ошибок
mae_knn = round(mean_absolute_error(y_test, knn_preds), 3)
mse_knn = round(mean_squared_error(y_test, knn_preds), 3)
mape_knn = round(mean_absolute_percentage_error(y_test, knn_preds), 3)
rmse_knn = round(np.sqrt(mean_squared_error(y_test, knn_preds)), 3)
print("Метрики оценки качества работы метода ближайших соседей:")
print("MAE: ", mae_knn)
print("MSE: ", mse_knn) 
print("MAPE: ", mape_knn)
print("RMSE:", rmse_knn)

Метрики оценки качества работы метода ближайших соседей:
MAE:  2.619
MSE:  10.22
MAPE:  0.036
RMSE: 3.197


## Сравнение моделей по метрикам

In [149]:
#создадим объединенный датафрейм со значеними ошибок модели
algorithms = {'Алгоритм':['Линейная регрессия', 'Гребневая регрессия', 'Лассо регрессии', 
                          'Метод опорных векторов', 'Случайный лес', 
                          'Градиентный бустинг', 'Адаптивный бустинг', 'KNN'], 
              'MAE':[mae_lr, mae_rr, mae_lasso, mae_svr, mae_rf, mae_gb, mae_ab, mae_knn],
              'RMSE':[rmse_lr, rmse_rr, rmse_lasso, rmse_svr, rmse_rf, rmse_gb, rmse_ab, rmse_gb]} 
 
metrics_df = pd.DataFrame(algorithms) 

In [150]:
# выводим на экран датафрейм
metrics_df

Unnamed: 0,Алгоритм,MAE,RMSE
0,Линейная регрессия,2.611,3.186
1,Гребневая регрессия,2.611,3.186
2,Лассо регрессии,2.58,3.162
3,Метод опорных векторов,2.591,3.174
4,Случайный лес,2.603,3.21
5,Градиентный бустинг,2.588,3.168
6,Адаптивный бустинг,2.568,3.142
7,KNN,2.619,3.168


Вывод: \
    На данном этапе лучшим алгоритмом является лассо регрессии.

## Предсказания прочности при растяжении, МПа

In [78]:
#зададим X и y
X_dens = df.drop(['Прочность при растяжении, МПа','Модуль упругости при растяжении, ГПа'], axis=1)
y_dens = df['Прочность при растяжении, МПа']

X состоит из 11 признаков поскольку значения модуля упругости при растяжении не участвуют в прогнозировании прочности при растяжении, так как являются вторым прогнозируемым свойством композиционного материала

In [79]:
# создаем объект класса MinMaxScaler
min_max_scaler = MinMaxScaler()

In [80]:
# нормализуем X
X_dens_norm = min_max_scaler.fit_transform(X_dens)

In [81]:
# создаем обучающую и тестовую выборки
X_train_normal, X_test_normal, y_train_dens, y_test_dens = train_test_split(X_dens_norm, y_dens, test_size=0.3, random_state=42)

## Линейная регрессия

In [82]:
# создаем модель линейной регрессии
model_lr = LinearRegression()

In [83]:
# обучаем модель
model_lr.fit(X_train_normal, y_train_dens)

LinearRegression()

In [84]:
# предсказания модели
lr_pred = model_lr.predict(X_test_normal)

In [85]:
#вычисляем метрики ошибок 
mae_dens_lr = round(mean_absolute_error(y_test_dens, lr_pred), 3)
mse_lr_dens = round(mean_squared_error(y_test_dens, lr_pred), 3)
mape_lr_dens = round(mean_absolute_percentage_error(y_test_dens, lr_pred), 3)
rmse_lr_dens = round(np.sqrt(mean_squared_error(y_test_dens, lr_pred)), 3)

In [86]:
# выводим на экран метрики ошибок
print("Метрики оценки качества работы линейной регрессии:")
print("MAE: ", mae_dens_lr) 
print("MSE: ", mse_lr_dens)
print("MAPE: ", mape_lr_dens)
print("RMSE:", rmse_lr_dens)

Метрики оценки качества работы линейной регрессии:
MAE:  372.052
MSE:  214801.91
MAPE:  0.163
RMSE: 463.467


## Гребневая регрессия

In [87]:
# создаем объект класса Ridge
ridge_model_dens = Ridge()
# задаем значения параметров
param_grid_rr_dens = {'alpha':[100.0, 200.0, 300.0, 600.0, 800.0]}
# создаем объект класса GridSearchCV 
ridge_cv_model = GridSearchCV(estimator=ridge_model_dens, param_grid=param_grid_rr_dens,
                         scoring='neg_mean_squared_error',
                         cv=10)

In [88]:
# обучаем
ridge_cv_model.fit(X_train_normal, y_train_dens)

GridSearchCV(cv=10, estimator=Ridge(),
             param_grid={'alpha': [100.0, 200.0, 300.0, 600.0, 800.0]},
             scoring='neg_mean_squared_error')

In [89]:
# лучший параметр для модели
ridge_cv_model.best_params_

{'alpha': 800.0}

In [90]:
# создаем модель с найденным параметром
model_rr_dens = Ridge(alpha=800)

In [91]:
# обучаем модель
model_rr_dens.fit(X_train_normal, y_train_dens)

Ridge(alpha=800)

In [92]:
# предсказания модели
ridge_preds = model_rr_dens.predict(X_test_normal)

In [93]:
#вычисляем и выводим на экран метрики ошибок
mae_rr_dens = round(mean_absolute_error(y_test_dens, ridge_preds), 3)
mse_rr_dens = round(mean_squared_error(y_test_dens, ridge_preds), 3)
mape_rr_dens = round(mean_absolute_percentage_error(y_test_dens, ridge_preds), 3)
rmse_rr_dens = round(np.sqrt(mean_squared_error(y_test_dens, ridge_preds)), 3)
print("Метрики оценки качества работы гребневой регресии:")
print("MAE: ", mae_rr_dens)
print("MSE: ", mse_rr_dens) 
print("MAPE: ", mape_rr_dens)
print("RMSE:", rmse_rr_dens)

Метрики оценки качества работы гребневой регресии:
MAE:  368.959
MSE:  214063.523
MAPE:  0.162
RMSE: 462.67


## Лассо регрессии

In [94]:
# создаем объект класса Lasso
lasso_model_dens = Lasso()
# задаем значения параметра
param_grid_lasso = {'alpha':[5, 10, 15]}
# создаем объект класса GridSearchCV 
grid_lasso_dens = GridSearchCV(estimator=lasso_model_dens, param_grid=param_grid_lasso,
                         scoring='neg_mean_squared_error',
                         cv=10)

In [95]:
# обучаем
grid_lasso_dens.fit(X_train_normal,y_train_dens)

GridSearchCV(cv=10, estimator=Lasso(), param_grid={'alpha': [5, 10, 15]},
             scoring='neg_mean_squared_error')

In [96]:
# лучший параметр для модели
grid_lasso_dens.best_params_

{'alpha': 10}

In [98]:
# создаем модель с найденным параметром
model_lasso_dens = Lasso(alpha=10)

In [99]:
# обучаем модель
model_lasso_dens.fit(X_train_normal, y_train_dens)

Lasso(alpha=10)

In [100]:
# предсказания модели
lasso_predict = model_lasso_dens.predict(X_test_normal)

In [101]:
#вычисляем метрики ошибок 
mae_dens_lasso = round(mean_absolute_error(y_test_dens, lasso_predict), 3)
mse_lr_lasso = round(mean_squared_error(y_test_dens, lasso_predict), 3)
mape_lr_lasso = round(mean_absolute_percentage_error(y_test_dens, lasso_predict), 3)
rmse_lasso_dens = round(np.sqrt(mean_squared_error(y_test_dens, lasso_predict)), 3)

In [102]:
# выводим на экран метрики ошибок
print("Метрики оценки качества работы лассо регрессии:")
print("MAE: ", mae_dens_lasso) 
print("MSE: ", mse_lr_lasso)
print("MAPE: ", mape_lr_lasso)
print("RMSE:", rmse_lasso_dens)

Метрики оценки качества работы лассо регрессии:
MAE:  368.867
MSE:  214058.583
MAPE:  0.162
RMSE: 462.665


## Метод опорных векторов

In [103]:
svr_model_dens = SVR()
param_grid = {'kernel':['linear', 'poly', 'rbf', 'sigmoid'],
             'gamma':['scale', 'auto'], 'C':[0.5, 1.0, 1.5, 2.0]}

In [104]:
model_svr_dens = GridSearchCV(estimator=svr_model_dens, param_grid=param_grid,
                         scoring='neg_mean_squared_error',
                         cv=10)

In [105]:
model_svr_dens.fit(X_train_normal,y_train_dens)

GridSearchCV(cv=10, estimator=SVR(),
             param_grid={'C': [0.5, 1.0, 1.5, 2.0], 'gamma': ['scale', 'auto'],
                         'kernel': ['linear', 'poly', 'rbf', 'sigmoid']},
             scoring='neg_mean_squared_error')

In [106]:
#получаем лучшие параметры для модели
model_svr_dens.best_params_

{'C': 2.0, 'gamma': 'auto', 'kernel': 'poly'}

In [107]:
svr_model_dens = SVR(C=2.0, gamma='auto', kernel='poly')

In [108]:
svr_model_dens.fit(X_train_normal, y_train_dens)

SVR(C=2.0, gamma='auto', kernel='poly')

In [109]:
svr_predict = svr_model_dens.predict(X_test_normal)

In [110]:
mae_svr_dens = round(mean_absolute_error(y_test_dens, svr_predict), 3)
mse_svr_dens = round(mean_squared_error(y_test_dens, svr_predict), 3)
mape_svr_dens = round(mean_absolute_percentage_error(y_test_dens, svr_predict), 3)
rmse_svr_dens = round(np.sqrt(mean_squared_error(y_test_dens, svr_predict)), 3)
print("Метрики оценки качества работы лассо регрессии:")
print("MAE: ", mae_svr_dens) 
print("MSE: ", mse_svr_dens)
print("MAPE: ", mape_svr_dens)
print("RMSE: ", rmse_svr_dens)

Метрики оценки качества работы лассо регрессии:
MAE:  368.853
MSE:  214067.001
MAPE:  0.162
RMSE:  462.674


## Случайный лес

In [115]:
#производим поиск оптимальных гиперпараметров по сетке
param_grid_rf_d = {'n_estimators':[64,80,100,128]}
model_rf_d = RandomForestRegressor()

In [116]:
grid_model_rf_d = GridSearchCV(estimator=model_rf_d,
                          param_grid=param_grid_rf_d,
                          scoring='neg_mean_squared_error',
                          cv=10)

In [117]:
grid_model_rf_d.fit(X_train_normal,y_train_dens)

GridSearchCV(cv=10, estimator=RandomForestRegressor(),
             param_grid={'n_estimators': [64, 80, 100, 128]},
             scoring='neg_mean_squared_error')

In [118]:
#лучшие параметры
grid_model_rf_d.best_params_

{'n_estimators': 100}

In [119]:
#строим модель, используя рекомендованный гипрепараметр
model_forest_dens = RandomForestRegressor(n_estimators=100)

In [120]:
model_forest_dens.fit(X_train_normal,y_train_dens)

RandomForestRegressor()

In [121]:
forest_preds = model_forest_dens.predict(X_test_normal)

In [122]:
#вычисляем и выводим на экран метрики ошибок
mae_rf_dens = round(mean_absolute_error(y_test_dens, forest_preds), 3)
mse_rf_dens = round(mean_squared_error(y_test_dens, forest_preds), 3)
mape_rf_dens = round(mean_absolute_percentage_error(y_test_dens, forest_preds), 3)
rmse_rf_dens = round(np.sqrt(mean_squared_error(y_test_dens, forest_preds)), 3)
print("Метрики оценки качества работы случайного леса:")
print("MAE: ", mae_rf_dens)
print("MSE: ", mse_rf_dens) 
print("MAPE: ", mape_rf_dens)
print("RMSE:", rmse_rf_dens)

Метрики оценки качества работы случайного леса:
MAE:  371.192
MSE:  218073.303
MAPE:  0.163
RMSE: 466.983


## Градиентый бустинг

In [123]:
model_gb_dens = GradientBoostingRegressor()
param_grid = {'n_estimators':[5,10,15],
              'learning_rate':[0.1,0.05,0.2], 'max_depth':[5,6,7]}

In [124]:
grid = GridSearchCV(estimator=model_gb_dens,param_grid=param_grid,
                          scoring='neg_mean_squared_error',
                          cv=10)

In [125]:
grid.fit(X_train_normal,y_train_dens)

GridSearchCV(cv=10, estimator=GradientBoostingRegressor(),
             param_grid={'learning_rate': [0.1, 0.05, 0.2],
                         'max_depth': [5, 6, 7], 'n_estimators': [5, 10, 15]},
             scoring='neg_mean_squared_error')

In [126]:
#лучшие параметры для модели
grid.best_params_

{'learning_rate': 0.05, 'max_depth': 6, 'n_estimators': 5}

In [127]:
#строим модель по гиперпараметрам
gb_model_dens = GradientBoostingRegressor(learning_rate=0.05, max_depth=6, n_estimators=5)

In [128]:
gb_model_dens.fit(X_train_normal, y_train_dens)

GradientBoostingRegressor(learning_rate=0.05, max_depth=6, n_estimators=5)

In [129]:
gb_preds = gb_model_dens.predict(X_test_normal)

In [130]:
#вычисляем метрики ошибок
mae_gb_dens = round(mean_absolute_error(y_test_dens, gb_preds), 3)
mse_gb_dens = round(mean_squared_error(y_test_dens, gb_preds), 3)
mape_gb_dens = round(mean_absolute_percentage_error(y_test_dens, gb_preds), 3)
rmse_gb_dens = round(np.sqrt(mean_squared_error(y_test_dens, gb_preds)), 3)
# выводим на экран метрики ошибок
print("Метрики оценки качества работы градиентного бустинга:")
print("MAE: ", mae_gb_dens)
print("MSE: ", mse_gb_dens)
print("MAPE: ", mape_gb_dens)
print("RMSE:", rmse_gb_dens)

Метрики оценки качества работы градиентного бустинга:
MAE:  370.013
MSE:  213492.151
MAPE:  0.162
RMSE: 462.052


## Адаптивный бустинг

In [131]:
model_ab_dens = AdaBoostRegressor()
param_grid = {'n_estimators':[3,5,10,15,20],
              'learning_rate':[0.1,0.05,0.2]}

In [132]:
grid_ab = GridSearchCV(estimator=model_ab_dens, param_grid=param_grid,
                          scoring='neg_mean_squared_error',
                          cv=10)

In [133]:
grid_ab.fit(X_train_normal, y_train_dens)

GridSearchCV(cv=10, estimator=AdaBoostRegressor(),
             param_grid={'learning_rate': [0.1, 0.05, 0.2],
                         'n_estimators': [3, 5, 10, 15, 20]},
             scoring='neg_mean_squared_error')

In [134]:
#лучшие параметры для модели
grid_ab.best_params_

{'learning_rate': 0.2, 'n_estimators': 15}

In [135]:
ab_model_dens = AdaBoostRegressor(learning_rate=0.2, n_estimators=15)

In [136]:
ab_model_dens.fit(X_train_normal, y_train_dens)

AdaBoostRegressor(learning_rate=0.2, n_estimators=15)

In [137]:
ab_pred = ab_model_dens.predict(X_test_normal)

In [138]:
#вычисляем метрики ошибок
mae_ab_dens = round(mean_absolute_error(y_test_dens, ab_pred), 3)
mse_ab_dens = round(mean_squared_error(y_test_dens, ab_pred), 3)
mape_ab_dens = round(mean_absolute_percentage_error(y_test_dens, ab_pred), 3)
rmse_ab_dens = round(np.sqrt(mean_squared_error(y_test_dens, ab_pred)), 3)

In [139]:
#выводим на экран метрики ошибок
print("Метрики оценки качества работы AdaBoost:")
print("MAE: ", mae_ab_dens)
print("MSE: ", mse_ab_dens) 
print("MAPE: ", mape_ab_dens)
print("RMSE:", rmse_ab_dens)

Метрики оценки качества работы AdaBoost:
MAE:  371.652
MSE:  214165.537
MAPE:  0.163
RMSE: 462.78


## Метод ближайших соседей

In [140]:
knn_model_dens = KNeighborsRegressor()
param_grid_knn_dens = {'n_neighbors':[20,30,35,36]}
grid_knn_dens = GridSearchCV(estimator=knn_model, param_grid=param_grid_knn_dens,
                          scoring='neg_mean_squared_error',
                          cv=10)

In [141]:
grid_knn_dens.fit(X_train_normal, y_train_dens)

GridSearchCV(cv=10, estimator=KNeighborsRegressor(),
             param_grid={'n_neighbors': [20, 30, 35, 36]},
             scoring='neg_mean_squared_error')

In [142]:
grid_knn_dens.best_params_

{'n_neighbors': 35}

In [143]:
model_knn_dens = KNeighborsRegressor(n_neighbors=35)
model_knn_dens.fit(X_train_normal, y_train_dens)

KNeighborsRegressor(n_neighbors=35)

In [144]:
knn_pred = model_knn_dens.predict(X_test_normal)

In [145]:
#вычисляем и выводим на экран метрики ошибок
mae_knn_dens = round(mean_absolute_error(y_test_dens, knn_pred), 3)
mse_knn_dens = round(mean_squared_error(y_test_dens, knn_pred), 3)
mape_knn_dens = round(mean_absolute_percentage_error(y_test_dens, knn_pred), 3)
rmse_knn_dens = round(np.sqrt(mean_squared_error(y_test_dens, knn_pred)), 3)
print("Метрики оценки качества работы метода ближайших соседей:")
print("MAE: ", mae_knn_dens)
print("MSE: ", mse_knn_dens) 
print("MAPE: ", mape_knn_dens)
print("RMSE:", rmse_knn_dens)

Метрики оценки качества работы метода ближайших соседей:
MAE:  371.124
MSE:  216445.26
MAPE:  0.162
RMSE: 465.237


In [147]:
#создадим объединенный датафрейм с ошибками
methods = {'Алгоритм':['Линейная регрессия', 'Гребневая регрессия', 'Лассо регрессии', 
                          'Метод опорных векторов', 'Случайный лес', 
                          'Градиентный бустинг', 'Адаптивный бустинг', 'KNN'], 
              'MAE':[mae_dens_lr, mae_rr_dens, mae_dens_lasso, mae_svr_dens, mae_rf_dens, mae_gb_dens, mae_ab_dens, mae_knn_dens],
              'RMSE':[rmse_lr_dens, rmse_rr_dens, rmse_lasso_dens, rmse_svr_dens, rmse_rf_dens, rmse_gb_dens, rmse_ab_dens, rmse_knn_dens]} 
 
metric_df = pd.DataFrame(methods) 

In [148]:
metric_df

Unnamed: 0,Алгоритм,MAE,RMSE
0,Линейная регрессия,372.052,463.467
1,Гребневая регрессия,368.959,462.67
2,Лассо регрессии,368.867,462.665
3,Метод опорных векторов,368.853,462.674
4,Случайный лес,371.192,466.983
5,Градиентный бустинг,370.013,462.052
6,Адаптивный бустинг,371.652,462.78
7,KNN,371.124,465.237


Вывод: лучшая модель- градиентный бустинг