# Лабораторная работа №6. Линейная регрессия

Выполните следующие задания:

1. Откройте в файл в Google Colab (используйте собственный форк репозитория).
2. Решите задачи.
3. Сохраните результат в ваш репозиторий github в директорию ./les06
4. Создайте pull request в репозиторий https://github.com/chebotarevsa/dap-2024. Название pull request должно иметь формат "<Номер лабораторной работы>  <Номер группы> <ФИО>"
5. Сдайте работу в системе "Пегас", в отчет укажите ссылку на pull request

Набор данных Diabetes (Диабет) содержит 442 образца с 10-ю признаками: возраст, пол, индекс массы тела, средний показатель давления крови и шесть измерений сыворотки крови. Целевое значение - количественный показатель прогрессирования заболевания через год после анализов.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Извлечение данных

In [None]:
from sklearn import datasets
diabetes = datasets.load_diabetes()

1. Выведете описание набора данных и наименование признаков.

In [None]:
print(diabetes.DESCR)
print("\nFeature names:", diabetes.feature_names)

### Подготовка данных

2. Из загруженного набора данных создайте DataFrame, содержащий как признаки, так и целевое значение. Выведите первые 5 строк набора.

In [None]:
import pandas as pd

df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target
print(df.head())

3. Выведете информацию о типах данных в наборе. Имеются ли в наборе категориальные признаки? Имеются ли в наборе данные имеющие значение null?

In [None]:
print(df.dtypes)
print("\nCategorical features:", df.select_dtypes(include=['object', 'category']).columns.tolist())
print("\nNull values per column:\n", df.isnull().sum())
print("\nTotal null values:", df.isnull().sum().sum())

## Исследование данных

4. Постройте матрицу корреляции.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', center=0, square=True)
plt.title('Матрица корреляции')
plt.show()

5. Постройте диаграмму рассеяния целевого значение и признака, коэффициент корреляции которого с  целевым значением, самый высокий.

In [None]:
corr_with_target = df.corr()['target'].abs().sort_values(ascending=False)
top_feature = corr_with_target.index[1]  # Исключаем target

plt.figure(figsize=(8, 6))
plt.scatter(df[top_feature], df['target'], alpha=0.6)
plt.xlabel(top_feature)
plt.ylabel('Target')
plt.title(f'Рассеяние: {top_feature} vs Target (corr = {corr_with_target[top_feature]:.3f})')
plt.grid(True, alpha=0.3)
plt.show()

6. Сформируйте набор признаков (X) из 5 признаков с самым высоким коэффициентом корреляции с целевым значением. Сформируйте набор для целевого значения (y).

In [None]:
corr_with_target = df.corr()['target'].abs().sort_values(ascending=False)
top_features = corr_with_target.index[1:6]  # Топ-5, исключая target
X = df[top_features]
y = df['target']
print("Топ-5 признаков:", top_features.tolist())

## Предсказательная модель

7. Разделите набор данных на два, одни для обучения модели другой для проверки. Тестовый набор должен содержать 25 процентов данных.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42
)

print(f"Размер обучающей выборки: {X_train.shape[0]} объектов, {X_train.shape[1]} признаков")
print(f"Размер тестовой выборки: {X_test.shape[0]} объектов, {X_test.shape[1]} признаков")

8. Выполните обучение модели.

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train, y_train)
print("Модель обучена")

## Проверка модели

9. Расчитайте Root mean squared error (RMSE)

In [None]:
from sklearn.metrics import mean_squared_error
import numpy as np

y_pred = model.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"RMSE: {rmse:.3f}")

10. Расчитайте R² (коэффициент детерминации)

In [None]:
from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print(f"R²: {r2:.3f}")

## Вопросы для защиты

1. Какие типы машинного обучения вы знаете?
2. Чем отличается обучение с учителем и без учителя?
3. Чем пакетное обучение отличается от динамического?
4. Чем обучение на основе образцов отличается от обучения на основе модели?
5. Что такое линейная регрессия?
6. Что такое градиентный спуск?
7. Как правильно обрабатывать категориальные признаки?
8. Что такое матрица корреляции?
9. Что показывает метрика RMSE?
10. Что показывает метрика R²?