In [5]:
# Load the Diabetes dataset from scikit-learn.
# Split the dataset into training and testing sets.
# Apply Lasso regression for feature selection.
# Train a model using selected features and evaluate its performance.
# ----------- Nurtas Serikkanov ------------

from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score

data = load_diabetes()
X = data.data  
y = data.target

X1, X2, y1, y2 = train_test_split(X, y, test_size=0.2, random_state=42)

l = Lasso(alpha=0.1)
l.fit(X1, y1)

# Выводим коэффициенты модели (важность признаков)
print(lasso.coef_)

# Lasso использует штраф на абсолютные значения коэффициентов, который приводит к тому, 
# что менее важные признаки получают коэффициенты, стремящиеся к нулю. 
# Если коэффициент близок к нулю, это означает, что модель не использует данный признак для предсказания.

[   0.         -152.66477923  552.69777529  303.36515791  -81.36500664
   -0.         -229.25577639    0.          447.91952518   29.64261704]


In [11]:
y_pred = l.predict(X2) # делает предсказания на тестовом наборе данных X2.

mse = mean_squared_error(y2, y_pred)
r2 = r2_score(y2, y_pred)

print(f"Средняя квадратичная ошибка: {mse:.2f}")
print(f"R^2: {r2:.2f}")

Средняя квадратичная ошибка: 2798.19
R^2: 0.47


In [None]:
# MSE помогает понять, насколько сильно предсказания отклоняются от истинных значений. Чем меньше значение MSE, тем точнее модель.

# R² измеряет, насколько хорошо модель объясняет вариацию данных, 
# и показывает, насколько модель хороша в сравнении с базовой моделью 
# (например, модель, которая всегда предсказывает среднее значение целевой переменной).
