# Лабораторная работа 3: Генерация датасета для регрессии

В этой лабораторной работе мы создадим синтетический датасет для задачи регрессии с использованием `sklearn.datasets.make_regression` и выполним необходимое масштабирование данных.


## 1. Импорт необходимых библиотек


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_regression
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# Настройка стиля графиков
plt.style.use('default')
sns.set_palette("husl")


## 2. Генерация синтетического датасета для регрессии

Создадим датасет с помощью `make_regression` с следующими параметрами:
- **n_samples**: 1000 - количество образцов
- **n_features**: 5 - количество признаков (больше минимальных 2)
- **n_informative**: 3 - количество информативных признаков  
- **noise**: 10 - уровень шума
- **random_state**: 42 - для воспроизводимости результатов


In [None]:
# Генерация датасета для регрессии
X, y = make_regression(
    n_samples=1000,      # количество образцов
    n_features=5,        # количество признаков (больше минимальных 2)
    n_informative=3,     # количество информативных признаков
    n_redundant=1,       # количество избыточных признаков
    noise=10,            # уровень шума
    random_state=42      # для воспроизводимости
)

print("Форма матрицы признаков X:", X.shape)
print("Форма вектора целевых значений y:", y.shape)
print("\nИнформация о данных:")
print("Количество образцов:", X.shape[0])
print("Количество признаков:", X.shape[1])
print("Количество весов (включая bias):", X.shape[1] + 1)


In [None]:
# Создание DataFrame для удобства работы
feature_names = [f'feature_{i+1}' for i in range(X.shape[1])]
df = pd.DataFrame(X, columns=feature_names)
df['target'] = y

print("Первые 5 строк датасета:")
print(df.head())

print("\nСтатистическое описание:")
print(df.describe())


## 3. Анализ необходимости масштабирования данных

Проверим распределение значений признаков и целевой переменной, чтобы определить необходимость масштабирования.


In [None]:
# Анализ масштаба признаков
print("Диапазоны значений признаков:")
for col in feature_names:
    print(f"{col}: [{df[col].min():.2f}, {df[col].max():.2f}], std: {df[col].std():.2f}")

print(f"\nЦелевая переменная: [{df['target'].min():.2f}, {df['target'].max():.2f}], std: {df['target'].std():.2f}")

# Проверка необходимости масштабирования
feature_ranges = [df[col].max() - df[col].min() for col in feature_names]
max_range = max(feature_ranges)
min_range = min(feature_ranges)
range_ratio = max_range / min_range

print(f"\nОтношение максимального к минимальному диапазону: {range_ratio:.2f}")
if range_ratio > 10:
    print("⚠️  Рекомендуется масштабирование - большая разница в диапазонах признаков")
else:
    print("✅ Масштабирование не критично, но может улучшить производительность алгоритмов")


## 4. Применение масштабирования данных

Применим два популярных метода масштабирования:
1. **StandardScaler** (стандартизация) - приводит данные к нулевому среднему и единичной дисперсии
2. **MinMaxScaler** (нормализация) - масштабирует данные в диапазон [0, 1]


In [None]:
# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Размеры выборок:")
print(f"Обучающая выборка: X_train {X_train.shape}, y_train {y_train.shape}")
print(f"Тестовая выборка: X_test {X_test.shape}, y_test {y_test.shape}")

# 1. Стандартизация (StandardScaler)
scaler_standard = StandardScaler()
X_train_standard = scaler_standard.fit_transform(X_train)
X_test_standard = scaler_standard.transform(X_test)

# 2. Нормализация (MinMaxScaler)
scaler_minmax = MinMaxScaler()
X_train_minmax = scaler_minmax.fit_transform(X_train)
X_test_minmax = scaler_minmax.transform(X_test)

print("\n✅ Масштабирование выполнено успешно!")


In [None]:
# Сравнение статистик до и после масштабирования
print("Сравнение статистик признаков:")
print("="*60)

# Оригинальные данные
print("ОРИГИНАЛЬНЫЕ ДАННЫЕ:")
print(f"Среднее: {X_train.mean(axis=0)}")
print(f"Стд. отклонение: {X_train.std(axis=0)}")
print(f"Минимум: {X_train.min(axis=0)}")
print(f"Максимум: {X_train.max(axis=0)}")

print("\n" + "="*60)

# После стандартизации
print("ПОСЛЕ СТАНДАРТИЗАЦИИ (StandardScaler):")
print(f"Среднее: {X_train_standard.mean(axis=0)}")
print(f"Стд. отклонение: {X_train_standard.std(axis=0)}")
print(f"Минимум: {X_train_standard.min(axis=0)}")
print(f"Максимум: {X_train_standard.max(axis=0)}")

print("\n" + "="*60)

# После нормализации
print("ПОСЛЕ НОРМАЛИЗАЦИИ (MinMaxScaler):")
print(f"Среднее: {X_train_minmax.mean(axis=0)}")
print(f"Стд. отклонение: {X_train_minmax.std(axis=0)}")
print(f"Минимум: {X_train_minmax.min(axis=0)}")
print(f"Максимум: {X_train_minmax.max(axis=0)}")


## 5. Визуализация датасета

Создадим графики для анализа сгенерированного датасета и эффектов масштабирования.


In [None]:
# 1. Распределение признаков и целевой переменной
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
fig.suptitle('Распределение признаков и целевой переменной', fontsize=16)

# Распределение признаков
for i, col in enumerate(feature_names):
    if i < 5:  # показываем первые 5 признаков
        axes[i//3, i%3].hist(df[col], bins=30, alpha=0.7, color=f'C{i}')
        axes[i//3, i%3].set_title(f'{col}')
        axes[i//3, i%3].set_xlabel('Значение')
        axes[i//3, i%3].set_ylabel('Частота')

# Распределение целевой переменной
axes[1, 2].hist(df['target'], bins=30, alpha=0.7, color='red')
axes[1, 2].set_title('target')
axes[1, 2].set_xlabel('Значение')
axes[1, 2].set_ylabel('Частота')

plt.tight_layout()
plt.show()


In [None]:
# 2. Корреляционная матрица
plt.figure(figsize=(10, 8))
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, fmt='.2f')
plt.title('Корреляционная матрица признаков и целевой переменной')
plt.show()

# Выводим наиболее коррелированные с целевой переменной признаки
target_correlations = correlation_matrix['target'].abs().sort_values(ascending=False)
print("Корреляция признаков с целевой переменной:")
for feature, corr in target_correlations.items():
    if feature != 'target':
        print(f"{feature}: {corr:.3f}")


In [None]:
# 3. Scatter plots наиболее информативных признаков с целевой переменной
# Выберем 3 наиболее коррелированных признака
top_features = target_correlations[1:4].index.tolist()  # исключаем саму target

fig, axes = plt.subplots(1, 3, figsize=(15, 5))
fig.suptitle('Зависимость целевой переменной от наиболее информативных признаков', fontsize=14)

for i, feature in enumerate(top_features):
    axes[i].scatter(df[feature], df['target'], alpha=0.6, s=20)
    axes[i].set_xlabel(feature)
    axes[i].set_ylabel('target')
    axes[i].set_title(f'{feature} vs target (r={target_correlations[feature]:.3f})')
    
    # Добавим линию тренда
    z = np.polyfit(df[feature], df['target'], 1)
    p = np.poly1d(z)
    axes[i].plot(df[feature], p(df[feature]), "r--", alpha=0.8)

plt.tight_layout()
plt.show()


In [None]:
# 4. Сравнение эффектов масштабирования
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# Выберем первый признак для демонстрации
feature_idx = 0
feature_name = feature_names[feature_idx]

# Оригинальные данные
axes[0].hist(X_train[:, feature_idx], bins=30, alpha=0.7, color='blue', label='Обучающая')
axes[0].hist(X_test[:, feature_idx], bins=30, alpha=0.5, color='red', label='Тестовая')
axes[0].set_title(f'Оригинальные данные\n{feature_name}')
axes[0].set_xlabel('Значение')
axes[0].set_ylabel('Частота')
axes[0].legend()

# Стандартизированные данные
axes[1].hist(X_train_standard[:, feature_idx], bins=30, alpha=0.7, color='blue', label='Обучающая')
axes[1].hist(X_test_standard[:, feature_idx], bins=30, alpha=0.5, color='red', label='Тестовая')
axes[1].set_title(f'После стандартизации\n{feature_name}')
axes[1].set_xlabel('Значение')
axes[1].set_ylabel('Частота')
axes[1].legend()

# Нормализованные данные
axes[2].hist(X_train_minmax[:, feature_idx], bins=30, alpha=0.7, color='blue', label='Обучающая')
axes[2].hist(X_test_minmax[:, feature_idx], bins=30, alpha=0.5, color='red', label='Тестовая')
axes[2].set_title(f'После нормализации\n{feature_name}')
axes[2].set_xlabel('Значение')
axes[2].set_ylabel('Частота')
axes[2].legend()

plt.suptitle('Сравнение методов масштабирования данных', fontsize=16)
plt.tight_layout()
plt.show()


## 6. Сохранение данных

Сохраним обработанные данные для дальнейшего использования в задачах машинного обучения.


In [None]:
# Создание итогового DataFrame с различными версиями данных
datasets = {
    'original': {
        'X_train': X_train,
        'X_test': X_test,
        'y_train': y_train,
        'y_test': y_test
    },
    'standardized': {
        'X_train': X_train_standard,
        'X_test': X_test_standard,
        'y_train': y_train,
        'y_test': y_test
    },
    'normalized': {
        'X_train': X_train_minmax,
        'X_test': X_test_minmax,
        'y_train': y_train,
        'y_test': y_test
    }
}

# Сохранение в CSV для дальнейшего использования
original_df = pd.DataFrame(X_train, columns=feature_names)
original_df['target'] = y_train
original_df.to_csv('train_data_original.csv', index=False)

print("Данные успешно сгенерированы и обработаны!")
print(f"Сохранены обучающие данные в файл: train_data_original.csv")
print("\nДоступные варианты датасета:")
for key in datasets.keys():
    print(f"- {key}: готов для использования в переменных X_train_{key.replace('original', '').replace('ized', '').replace('ed', '')}")

print(f"\nИтоговая информация о датасете:")
print(f"Количество образцов: {X.shape[0]}")
print(f"Количество признаков: {X.shape[1]}")
print(f"Количество весов модели (с bias): {X.shape[1] + 1}")
print(f"Размер обучающей выборки: {X_train.shape[0]}")
print(f"Размер тестовой выборки: {X_test.shape[0]}")


## Заключение

В данной лабораторной работе мы успешно:

1. **Сгенерировали синтетический датасет** с помощью `sklearn.datasets.make_regression`:
   - 1000 образцов
   - 5 признаков (больше минимальных 2)
   - 3 информативных признака
   - 6 весов в модели (включая bias)

2. **Проанализировали данные**:
   - Изучили распределения признаков и целевой переменной
   - Построили корреляционную матрицу
   - Определили наиболее информативные признаки

3. **Применили масштабирование данных**:
   - StandardScaler (стандартизация) - среднее = 0, стд. отклонение = 1
   - MinMaxScaler (нормализация) - диапазон [0, 1]

4. **Визуализировали результаты**:
   - Распределения признаков
   - Корреляции с целевой переменной
   - Эффекты масштабирования

Датасет готов для использования в задачах машинного обучения!


t