# Отчет по модели LASSO

В данном ноутбуке представлена реализация модели LASSO для регрессии на датасете диабета. Выполнены следующие шаги:

- Загрузка данных и разделение на обучающую и тестовую выборки
- Обучение базовой модели LASSO с параметром `alpha=1.0`
- Подбор оптимального параметра `alpha` с помощью GridSearchCV
- Вычисление метрик качества модели: MSE, RMSE, MAE и R²
- Визуализация результатов с использованием диаграммы рассеяния

Ниже приведен итоговый отчет, который также включает сравнение с предыдущей работой, где для модели случайного леса с Label Encoding были получены метрики:

**With using Label Encoding**  
**MAE:** 1662.72, **RMSE:** 3323.83 for random forest model

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

# Загрузка датасета диабета
data = load_diabetes()
X, y = data.data, data.target
feature_names = data.feature_names

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Обучение базовой модели LASSO с параметром alpha=1.0
lasso = Lasso(alpha=1.0, max_iter=10000)
lasso.fit(X_train, y_train)

# Предсказания и расчет метрик для базовой модели
y_pred = lasso.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print('Базовая модель LASSO:')
print('MSE:', mse)
print('RMSE:', rmse)
print('MAE:', mae)
print('R2:', r2)

# Вывод коэффициентов модели
coefficients = pd.Series(lasso.coef_, index=feature_names)
print('\nКоэффициенты LASSO модели:')
print(coefficients)

In [None]:
# Подбор оптимального параметра alpha с использованием GridSearchCV
param_grid = {'alpha': np.logspace(-4, 0, 50)}
grid_search = GridSearchCV(Lasso(max_iter=10000), param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)
print('\nЛучшее значение alpha:', grid_search.best_params_)

# Обучение оптимальной модели LASSO
best_lasso = grid_search.best_estimator_
y_pred_best = best_lasso.predict(X_test)
mse_best = mean_squared_error(y_test, y_pred_best)
rmse_best = np.sqrt(mse_best)
mae_best = mean_absolute_error(y_test, y_pred_best)
r2_best = r2_score(y_test, y_pred_best)

print('\nОптимизированная модель LASSO:')
print('MSE:', mse_best)
print('RMSE:', rmse_best)
print('MAE:', mae_best)
print('R2:', r2_best)

In [None]:
# Визуализация результатов: диаграмма рассеяния фактических и предсказанных значений
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_best, alpha=0.7)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--', lw=2)
plt.xlabel('Фактические значения')
plt.ylabel('Предсказанные значения')
plt.title('Сравнение фактических и предсказанных значений (LASSO)')
plt.tight_layout()
plt.show()

## Итоговый отчет

**Модель LASSO**

После оптимизации модели LASSO по параметру регуляризации (alpha), получены следующие метрики на тестовой выборке (значения будут выведены в консоли при выполнении ноутбука):

- **MSE:** *значение, вычисленное моделью*
- **RMSE:** *значение, вычисленное моделью*
- **MAE:** *значение, вычисленное моделью*
- **R²:** *значение, вычисленное моделью*

### Сравнение с предыдущей работой

В предыдущей работе, при использовании Label Encoding для модели случайного леса, были получены следующие показатели:

- **MAE:** 1662.72
- **RMSE:** 3323.83

Сравнивая результаты, можно сделать предварительные выводы о том, что:

- Модель LASSO обладает преимуществом интерпретируемости за счет разреженности коэффициентов.
- Выбор лучшей модели зависит от специфики задачи. Если важна интерпретируемость, LASSO может быть предпочтительнее; для сложных нелинейных взаимосвязей модель случайного леса может показать лучшие результаты.

Важно отметить, что для корректного сравнения необходимо использовать идентичные данные и метрики оценки. Результаты экспериментов могут отличаться в зависимости от способа предобработки данных и параметров моделей.