# Подготовка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn import model_selection, metrics

In [2]:
# Импорт предобработанного датафрейма
df = pd.read_csv('insurance_preprocessed.csv', index_col=0)

In [3]:
# Вывод первых пяти записей из датафрейма
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,0,27.9,0,1,1,16884.924
1,18,1,33.77,1,0,2,1725.5523
2,28,1,33.0,3,0,2,4449.462
3,33,1,22.705,0,0,3,21984.47061
4,32,1,28.88,0,0,3,3866.8552


In [4]:
# Информация о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   int64  
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   int64  
 5   region    1338 non-null   int64  
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(5)
memory usage: 83.6 KB


In [5]:
# Количество неопределенных элементов
df.isnull().sum()

age         0
sex         0
bmi         0
children    0
smoker      0
region      0
charges     0
dtype: int64

In [6]:
# Разделение признаков 
y = df['charges'].values
df.pop('charges')
X = df.values

In [7]:
# Разбиение датасета на обучаемую и тестовую выборки
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.25)

In [8]:
# Масштабирование признаков в векторе X
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# Обучение моделей

## Линейная регрессия

In [9]:
# Импорт модели линейной регрессии
from sklearn.linear_model import LinearRegression

In [10]:
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

# Создание линейного регрессора
lin_reg = LinearRegression()

# Обучение линейного регрессора
lin_reg.fit(X_train, y_train)

LinearRegression()

### Качество модели до подбора гиперпараметров

In [11]:
# R^2 score
metrics.r2_score(y_test, lin_reg.predict(X_test))

0.7364181846771853

In [12]:
# MSE score
metrics.mean_squared_error(y_test,lin_reg.predict(X_test))

35773427.99292946

In [13]:
# RMSE score
metrics.mean_squared_error(y_test, lin_reg.predict(X_test), squared=False)

5981.089197874368

In [14]:
# MAE score
metrics.mean_absolute_error(y_test, lin_reg.predict(X_test))

4231.616641467516

### Подбор гиперпараметров

In [15]:
# Текущие гиперпараметры модели
lin_reg.get_params()

{'copy_X': True, 'fit_intercept': True, 'n_jobs': None, 'normalize': False}

In [16]:
# Словарь гиперпараметров, с помощью которых будет искаться оптимальная модель
params = {
    'fit_intercept' : [False, True],
    'normalize' : [False, True]
}

In [17]:
# Поиск оптимальной модели линейной регрессии
grid_lin_reg = model_selection.GridSearchCV(lin_reg, params)

# Обучение оптимальной модели
grid_lin_reg.fit(X_train, y_train)

GridSearchCV(estimator=LinearRegression(),
             param_grid={'fit_intercept': [False, True],
                         'normalize': [False, True]})

In [18]:
# Оптимальная модель
grid_lin_reg.best_estimator_

LinearRegression()

### Качество модели после подбора гиперпараметров

In [19]:
# R^2 score
metrics.r2_score(y_test, grid_lin_reg.predict(X_test))

0.7364181846771853

In [20]:
# MSE score
metrics.mean_squared_error(y_test, grid_lin_reg.predict(X_test))

35773427.99292946

In [21]:
# RMSE score
metrics.mean_squared_error(y_test, grid_lin_reg.predict(X_test), squared=False)

5981.089197874368

In [22]:
# MAE score
metrics.mean_absolute_error(y_test, grid_lin_reg.predict(X_test))

4231.616641467516

## Регрессия дерева решений

In [23]:
# Импорт модели дерева решений 
from sklearn.tree import DecisionTreeRegressor

In [24]:
# https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

# Создание модели дерева решений
tree_reg = DecisionTreeRegressor()

# Обучение модели дерева решений
tree_reg.fit(X_train, y_train)

DecisionTreeRegressor()

### Качество модели до подбора гиперпараметров

In [25]:
# R^2 score
metrics.r2_score(y_test, tree_reg.predict(X_test))

0.7031119463328444

In [26]:
# MSE score
metrics.mean_squared_error(y_test,tree_reg.predict(X_test))

40293763.804667436

In [27]:
# RMSE score
metrics.mean_squared_error(y_test, tree_reg.predict(X_test), squared=False)

6347.736904178326

In [28]:
# MAE score
metrics.mean_absolute_error(y_test, tree_reg.predict(X_test))

2852.600401910448

### Подбор гиперпараметров

In [29]:
# Текущие гиперпараметры модели
tree_reg.get_params()

{'ccp_alpha': 0.0,
 'criterion': 'mse',
 'max_depth': None,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'presort': 'deprecated',
 'random_state': None,
 'splitter': 'best'}

In [30]:
# Словарь гиперпараметров, с помощью которых будет искаться оптимальная модель
params = {
    'ccp_alpha' : list(np.arange(0, 1, 0.1)),
    'criterion' : ["mse", "friedman_mse", "mae"],
    'max_depth' : list(range(5, 15)),
    'max_features' : ["auto", "log2", "sqrt"],
}

In [31]:
# Поиск оптимальной модели решающего дерева
grid_tree_reg = model_selection.GridSearchCV(tree_reg, params)

# Обучение оптимальной модели
grid_tree_reg.fit(X_train, y_train)

GridSearchCV(estimator=DecisionTreeRegressor(),
             param_grid={'ccp_alpha': [0.0, 0.1, 0.2, 0.30000000000000004, 0.4,
                                       0.5, 0.6000000000000001,
                                       0.7000000000000001, 0.8, 0.9],
                         'criterion': ['mse', 'friedman_mse', 'mae'],
                         'max_depth': [5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
                         'max_features': ['auto', 'log2', 'sqrt']})

In [32]:
# Оптимальная модель
grid_tree_reg.best_estimator_

DecisionTreeRegressor(ccp_alpha=0.6000000000000001, criterion='mae',
                      max_depth=5, max_features='auto')

### Качество модели после подбора гиперпараметров

In [33]:
# R^2 score
metrics.r2_score(y_test, grid_tree_reg.predict(X_test))

0.832477575814086

In [34]:
# MSE score
metrics.mean_squared_error(y_test, grid_tree_reg.predict(X_test))

22736209.51990256

In [35]:
# RMSE score
metrics.mean_squared_error(y_test, grid_tree_reg.predict(X_test), squared=False)

4768.250152823629

In [36]:
# MAE score
metrics.mean_absolute_error(y_test, grid_tree_reg.predict(X_test))

1996.3337386268656

## Lasso

In [37]:
# Импорт модели линейного регрессора с регуляризатором L1
from sklearn.linear_model import Lasso

In [38]:
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso

# Создание модели
lasso_reg = Lasso()

# Обучение модели
lasso_reg.fit(X_train, y_train)

Lasso()

### Качество модели до подбора гиперпараметров

In [39]:
# R^2 score
metrics.r2_score(y_test, lasso_reg.predict(X_test))

0.7364125240150512

In [40]:
# MSE score
metrics.mean_squared_error(y_test,lasso_reg.predict(X_test))

35774196.260228164

In [41]:
# RMSE score
metrics.mean_squared_error(y_test, lasso_reg.predict(X_test), squared=False)

5981.153422227871

In [42]:
# MAE score
metrics.mean_absolute_error(y_test, lasso_reg.predict(X_test))

4231.618012074886

### Подбор гиперпараметров

In [43]:
# Текущие гиперпараметры модели
lasso_reg.get_params()

{'alpha': 1.0,
 'copy_X': True,
 'fit_intercept': True,
 'max_iter': 1000,
 'normalize': False,
 'positive': False,
 'precompute': False,
 'random_state': None,
 'selection': 'cyclic',
 'tol': 0.0001,
 'warm_start': False}

In [44]:
# Словарь гиперпараметров, с помощью которых будет искаться оптимальная модель
params = {
    'alpha': list(np.arange(0.1, 1.1, 0.1)),
    'fit_intercept': [False, True],
    'normalize': [False, True],
    'positive': [False, True],
    'selection': ['random', 'cyclic'],
    'tol': [1e-4, 1e-5, 1e-6, 1e-7],
    'warm_start': [False, True]
}

In [45]:
# Поиск оптимальной модели
grid_lasso_reg = model_selection.GridSearchCV(lasso_reg, params)

# Обучение модели
grid_lasso_reg.fit(X_train, y_train)

GridSearchCV(estimator=Lasso(),
             param_grid={'alpha': [0.1, 0.2, 0.30000000000000004, 0.4, 0.5, 0.6,
                                   0.7000000000000001, 0.8, 0.9, 1.0],
                         'fit_intercept': [False, True],
                         'normalize': [False, True], 'positive': [False, True],
                         'selection': ['random', 'cyclic'],
                         'tol': [0.0001, 1e-05, 1e-06, 1e-07],
                         'warm_start': [False, True]})

In [46]:
# Оптимальная модель
grid_lasso_reg.best_estimator_

Lasso(alpha=0.4, normalize=True, positive=True, selection='random')

### Качество модели после подбора гиперпараметров

In [47]:
# R^2 score
metrics.r2_score(y_test, grid_lasso_reg.predict(X_test))

0.7363262724382486

In [48]:
# MSE score
metrics.mean_squared_error(y_test, grid_lasso_reg.predict(X_test))

35785902.35826928

In [49]:
# RMSE score
metrics.mean_squared_error(y_test, grid_lasso_reg.predict(X_test), squared=False)

5982.131924177975

In [50]:
# MAE score
metrics.mean_absolute_error(y_test, grid_lasso_reg.predict(X_test))

4231.909316936627

## Гребневая регрессия

In [51]:
# Импорт модели линейного регрессора с регуляризатором L2
from sklearn.linear_model import Ridge

In [52]:
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge

# Создание модели
ridge_reg = Ridge()

# Обучение модели
ridge_reg.fit(X_train, y_train)

Ridge()

### Качество модели до подбора гиперпараметров

In [53]:
# R^2 score
metrics.r2_score(y_test, ridge_reg.predict(X_test))

0.7364448348645076

In [54]:
# MSE score
metrics.mean_squared_error(y_test, ridge_reg.predict(X_test))

35769811.0189891

In [55]:
# RMSE score
metrics.mean_squared_error(y_test, ridge_reg.predict(X_test), squared=False)

5980.786822734038

In [56]:
# MAE score
metrics.mean_absolute_error(y_test, ridge_reg.predict(X_test))

4232.888848810736

### Подбор гиперпараметров

In [57]:
# Текущие гиперпараметры модели
ridge_reg.get_params()

{'alpha': 1.0,
 'copy_X': True,
 'fit_intercept': True,
 'max_iter': None,
 'normalize': False,
 'random_state': None,
 'solver': 'auto',
 'tol': 0.001}

In [58]:
# Словарь гиперпараметров, с помощью которых будет искаться оптимальная модель
params = {
    'alpha' : list(np.arange(0.1, 1.1, 0.1)),
    'fit_intercept': [True, False],
    'max_iter' : [1000, 1100, 1200, 1250, 1300],
    'normalize': [False, True],
    'solver': ['auto', 'svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag', 'saga'],
    'tol': [1e-4, 1e-5, 1e-6, 1e-7]
}

In [59]:
# Поиск оптимальной модели
grid_ridge_reg = model_selection.GridSearchCV(ridge_reg, params)

# Обучение оптимальной модели
grid_ridge_reg.fit(X_train, y_train)

GridSearchCV(estimator=Ridge(),
             param_grid={'alpha': [0.1, 0.2, 0.30000000000000004, 0.4, 0.5, 0.6,
                                   0.7000000000000001, 0.8, 0.9, 1.0],
                         'fit_intercept': [True, False],
                         'max_iter': [1000, 1100, 1200, 1250, 1300],
                         'normalize': [False, True],
                         'solver': ['auto', 'svd', 'cholesky', 'lsqr',
                                    'sparse_cg', 'sag', 'saga'],
                         'tol': [0.0001, 1e-05, 1e-06, 1e-07]})

In [60]:
# Оптимальная модель
grid_ridge_reg.best_estimator_

Ridge(alpha=0.9, max_iter=1000, solver='sag', tol=0.0001)

### Качество модели после подбора гиперпараметров

In [61]:
# R^2 score
metrics.r2_score(y_test, grid_ridge_reg.predict(X_test))

0.7364276609336424

In [62]:
# MSE score
metrics.mean_squared_error(y_test, grid_ridge_reg.predict(X_test))

35772141.87166347

In [63]:
# RMSE score
metrics.mean_squared_error(y_test, grid_ridge_reg.predict(X_test), squared=False)

5980.9816812680065

In [64]:
# MAE score
metrics.mean_absolute_error(y_test, grid_ridge_reg.predict(X_test))

4233.193339974997

## Elastic Net регрессия

In [65]:
# Импорт модели
from sklearn.linear_model import ElasticNet

In [66]:
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html#sklearn.linear_model.ElasticNet

# Создание модели
el_net_reg = ElasticNet()

# Обучение модели
el_net_reg.fit(X_train, y_train)

ElasticNet()

### Качество модели до подбора гиперпараметров

In [67]:
# R^2 score
metrics.r2_score(y_test, el_net_reg.predict(X_test))

0.6624100687794348

In [68]:
# MSE score
metrics.mean_squared_error(y_test, el_net_reg.predict(X_test))

45817838.68840204

In [69]:
# RMSE score
metrics.mean_squared_error(y_test, el_net_reg.predict(X_test), squared=False)

6768.887551762257

In [70]:
# MAE score
metrics.mean_absolute_error(y_test, el_net_reg.predict(X_test))

5119.807520785347

### Подбор гиперпараметров

In [71]:
# Текущие гиперпараметры модели
el_net_reg.get_params()

{'alpha': 1.0,
 'copy_X': True,
 'fit_intercept': True,
 'l1_ratio': 0.5,
 'max_iter': 1000,
 'normalize': False,
 'positive': False,
 'precompute': False,
 'random_state': None,
 'selection': 'cyclic',
 'tol': 0.0001,
 'warm_start': False}

In [72]:
# Словарь гиперпараметров, с помощью которых будет искаться оптимальная модель
params = {
    'alpha' : list(np.arange(0.1, 1.1, 0.1)),
    'fit_intercept': [False, True],
    'max_iter': [1000, 1100, 1200],
    'normalize': [False, True],
    'positive': [False, True],
    'selection': ['cyclic', 'random'],
    'tol': [1e-4, 1e-5, 1e-6, 1e-7],
    'warm_start': [False, True]
}

In [73]:
# Поиск оптимальной модели
grid_el_net_reg = model_selection.GridSearchCV(el_net_reg, params)

# Обучение оптимальной модели
grid_el_net_reg.fit(X_train, y_train)

GridSearchCV(estimator=ElasticNet(),
             param_grid={'alpha': [0.1, 0.2, 0.30000000000000004, 0.4, 0.5, 0.6,
                                   0.7000000000000001, 0.8, 0.9, 1.0],
                         'fit_intercept': [False, True],
                         'max_iter': [1000, 1100, 1200],
                         'normalize': [False, True], 'positive': [False, True],
                         'selection': ['cyclic', 'random'],
                         'tol': [0.0001, 1e-05, 1e-06, 1e-07],
                         'warm_start': [False, True]})

In [74]:
# Оптимальная модель
grid_el_net_reg.best_estimator_

ElasticNet(alpha=0.1, positive=True, selection='random', warm_start=True)

### Качество модели после подбора гиперпараметров

In [75]:
# R^2 score
metrics.r2_score(y_test, grid_el_net_reg.predict(X_test))

0.7360342485096452

In [76]:
# MSE score
metrics.mean_squared_error(y_test, grid_el_net_reg.predict(X_test))

35825535.96110076

In [77]:
# RMSE score
metrics.mean_squared_error(y_test, grid_el_net_reg.predict(X_test), squared=False)

5985.443672870104

In [78]:
# MAE score
metrics.mean_absolute_error(y_test, grid_el_net_reg.predict(X_test))

4303.439635716908