In [None]:
# Блок 1: Введение в Задачи Регрессии с Учителем (Supervised Regression)

# Что такое Регрессия с Учителем?
# Это тип задач машинного обучения с учителем (supervised learning),
# где целью является предсказание **непрерывного** числового значения.
# В отличие от задач классификации, где предсказывается дискретная метка класса
# (например, "спам"/"не спам", "кошка"/"собака"), регрессия предсказывает
# количественное значение (например, цену дома, температуру, спрос на товар).

# Цель Регрессии:
# Построить модель, которая изучает взаимосвязь между входными признаками
# (независимыми переменными) и непрерывной выходной переменной (зависимой переменной)
# на основе размеченных обучающих данных, а затем может предсказывать
# это выходное значение для новых, невиданных входных данных.

# Примеры Задач Регрессии:
# - Предсказание цены дома на основе его площади, количества комнат, района.
# - Прогнозирование температуры воздуха на завтра на основе погодных данных за сегодня.
# - Оценка стоимости автомобиля на основе его марки, года выпуска, пробега.
# - Предсказание спроса на продукт на основе цены, рекламных расходов, сезона.
# - Оценка времени выполнения задачи на основе ее сложности и характеристик исполнителя.

# --------------------------------------------------

# Блок 2: Ключевые Концепции

# 1. Признаки (Features / Независимые Переменные / Предикторы):
#    - Входные переменные ( \(X\) ), которые используются для предсказания.
#    - Могут быть числовыми (площадь, температура) или категориальными (район, марка).
#    - Представляются как вектор или матрица признаков.

# 2. Целевая Переменная (Target / Зависимая Переменная / Отклик):
#    - Непрерывная числовая переменная ( \(y\) ), которую мы хотим предсказать.

# 3. Обучающие Данные:
#    - Набор примеров \( (X_i, y_i) \), где \(X_i\) - вектор признаков для i-го примера,
#      а \(y_i\) - соответствующее ему истинное значение целевой переменной.
#    - Модель "учится" на этих данных находить закономерности.

# 4. Модель Регрессии:
#    - Математическая функция \( f \), которая отображает пространство признаков \(X\)
#      в пространство целевой переменной \(y\): \( \hat{y} = f(X) \), где \( \hat{y} \) - предсказанное значение.
#    - Параметры модели настраиваются в процессе обучения для минимизации ошибки.

# 5. Функции Потерь (Loss Functions):
#    - Измеряют ошибку между предсказанным значением \( \hat{y}_i \) и истинным значением \( y_i \).
#    - Используются для оценки модели и в процессе обучения (минимизация потерь).
#    - Основные функции потерь для регрессии:
#      - **Среднеквадратичная Ошибка (Mean Squared Error - MSE):**
#        $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
#        # Сильно штрафует за большие ошибки. Чувствительна к выбросам.
#      - **Корень из Среднеквадратичной Ошибки (Root Mean Squared Error - RMSE):**
#        $$ RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} $$
#        # Имеет ту же размерность, что и целевая переменная, что облегчает интерпретацию.
#      - **Средняя Абсолютная Ошибка (Mean Absolute Error - MAE):**
#        $$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $$
#        # Менее чувствительна к выбросам, чем MSE.
#      - **Средняя Абсолютная Процентная Ошибка (Mean Absolute Percentage Error - MAPE):**
#        $$ MAPE = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| $$
#        # Измеряет ошибку в процентах. Не работает, если \( y_i = 0 \).
#      - **Коэффициент Детерминации (R-squared / \(R^2\)):**
#        $$ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $$
#        # Где \( \bar{y} \) - среднее значение истинных \( y_i \).
#        # Показывает долю дисперсии целевой переменной, объясненную моделью.
#        # Значения от \(-\infty\) до 1. Ближе к 1 - лучше модель (объясняет больше дисперсии).
#        # 0 означает, что модель работает не лучше, чем простое предсказание среднего.
#        # Отрицательные значения означают, что модель работает хуже среднего.

# 6. Метрики Оценки Качества:
#    - Используются для оценки производительности модели на тестовых данных.
#    - Обычно используются те же метрики, что и функции потерь: RMSE, MAE, \(R^2\).
#    - Выбор метрики зависит от задачи и того, как мы хотим интерпретировать ошибку.

# --------------------------------------------------

# Блок 3: Распространенные Алгоритмы Регрессии

# --- 3.1 Линейные Модели ---
# # Предполагают линейную зависимость между признаками и целевой переменной.
# # Модель: \( \hat{y} = w_0 + w_1 x_1 + w_2 x_2 + ... + w_p x_p \)
# # Где \( w_i \) - веса (коэффициенты) модели, \( w_0 \) - свободный член (intercept).

# # - Простая Линейная Регрессия (Simple Linear Regression):
# #   - Один входной признак (\( \hat{y} = w_0 + w_1 x_1 \)).
# # - Множественная Линейная Регрессия (Multiple Linear Regression):
# #   - Несколько входных признаков.
# #   - Обучение: Метод наименьших квадратов (Ordinary Least Squares - OLS) для минимизации MSE.
# #   - Библиотека: `sklearn.linear_model.LinearRegression`

# # - Полиномиальная Регрессия (Polynomial Regression):
# #   - Моделирует нелинейные зависимости путем добавления полиномиальных признаков
# #     (например, \( x^2, x^3, x_1 x_2 \)) к исходным данным, а затем применяет линейную регрессию.
# #   - Библиотека: `sklearn.preprocessing.PolynomialFeatures` + `LinearRegression`.

# # - Гребневая Регрессия (Ridge Regression):
# #   - Линейная регрессия с L2-регуляризацией (добавляет штраф к функции потерь, пропорциональный квадрату нормы весов).
# #   - Помогает бороться с мультиколлинеарностью (сильной корреляцией между признаками) и переобучением. Уменьшает величину коэффициентов.
# #   - Библиотека: `sklearn.linear_model.Ridge`

# # - Лассо Регрессия (Lasso Regression):
# #   - Линейная регрессия с L1-регуляризацией (штраф пропорционален абсолютной величине весов).
# #   - Может обнулять веса некоторых признаков, выполняя таким образом отбор признаков.
# #   - Библиотека: `sklearn.linear_model.Lasso`

# # - Elastic Net:
# #   - Комбинация L1 и L2 регуляризации.
# #   - Библиотека: `sklearn.linear_model.ElasticNet`

# --- 3.2 Метод Опорных Векторов для Регрессии (Support Vector Regression - SVR) ---
# # Адаптация SVM для задач регрессии.
# # Идея: Найти гиперплоскость, которая аппроксимирует данные так, чтобы максимальное
# # количество точек попадало в "трубку" (margin) определенной ширины \( \epsilon \) вокруг нее.
# # Штрафуются только точки, выходящие за пределы трубки.
# # Может моделировать нелинейные зависимости с помощью ядер (kernel trick: 'linear', 'poly', 'rbf').
# # Чувствителен к масштабированию признаков.
# # Библиотека: `sklearn.svm.SVR`

# --- 3.3 Деревья Решений для Регрессии (Decision Tree Regressor) ---
# # Строит дерево, где каждый узел представляет собой проверку значения признака,
# # а каждый лист содержит предсказание (обычно среднее значение целевой переменной
# # для всех обучающих примеров, попавших в этот лист).
# # Легко интерпретируется, не требует масштабирования признаков.
# # Склонен к переобучению.
# # Библиотека: `sklearn.tree.DecisionTreeRegressor`

# --- 3.4 Ансамблевые Методы (Деревянные) ---
# # Комбинируют предсказания нескольких деревьев для повышения точности и устойчивости.

# # - Случайный Лес для Регрессии (Random Forest Regressor):
# #   - Строит множество деревьев решений на случайных подвыборках данных и признаков.
# #   - Предсказание - усредненное предсказание всех деревьев.
# #   - Устойчив к переобучению, не требует масштабирования. Мощный алгоритм.
# #   - Библиотека: `sklearn.ensemble.RandomForestRegressor`

# # - Градиентный Бустинг (Gradient Boosting Machines - GBM):
# #   - Строит деревья последовательно, каждое следующее дерево пытается исправить ошибки предыдущих.
# #   - Очень мощный и точный метод, но может быть чувствителен к настройке гиперпараметров и склонен к переобучению при большом количестве деревьев.
# #   - Библиотеки:
# #     - `sklearn.ensemble.GradientBoostingRegressor` (классический GBM)
# #     - `xgboost.XGBRegressor` (XGBoost - оптимизированная реализация GBM с регуляризацией)
# #     - `lightgbm.LGBMRegressor` (LightGBM - быстрая реализация GBM, хорошо работает на больших данных)
# #     - `catboost.CatBoostRegressor` (CatBoost - хорошо обрабатывает категориальные признаки, устойчив к переобучению)

# --- 3.5 Нейронные Сети для Регрессии ---
# # Многослойные перцептроны (MLP) или другие архитектуры нейронных сетей могут
# # использоваться для регрессии.
# # Выходной слой обычно имеет один нейрон с линейной функцией активации (или без активации).
# # Функция потерь - MSE или MAE.
# # Могут моделировать очень сложные нелинейные зависимости.
# # Требуют много данных, тщательной настройки архитектуры и гиперпараметров, масштабирования признаков.
# # Библиотеки: PyTorch (`torch.nn`), TensorFlow/Keras (`tf.keras`).

# --------------------------------------------------

# Блок 4: Подготовка Данных для Регрессии

# Качество данных и их подготовка критически важны для регрессионных моделей.

# 1. Обработка Пропущенных Значений:
#    - Удаление строк/столбцов с пропусками (если их мало).
#    - Заполнение пропусков (Imputation):
#      - Средним/медианой/модой (для числовых/категориальных).
#      - Более сложными методами (например, предсказание пропусков с помощью другой модели).
#    - `sklearn.impute.SimpleImputer`, `sklearn.impute.KNNImputer`.

# 2. Кодирование Категориальных Признаков:
#    - Преобразование текстовых категорий в числа.
#    - **One-Hot Encoding:** Создает бинарные столбцы для каждой категории. Подходит для большинства алгоритмов. `sklearn.preprocessing.OneHotEncoder`.
#    - **Label Encoding:** Присваивает каждой категории число (0, 1, 2...). **Осторожно:** Может внести ложный порядок, не подходит для линейных моделей или моделей, основанных на расстоянии, но может использоваться для древовидных моделей. `sklearn.preprocessing.LabelEncoder`.
#    - Другие методы: Target Encoding, Frequency Encoding.

# 3. Масштабирование Числовых Признаков (Feature Scaling):
#    - **Критически важно** для алгоритмов, чувствительных к масштабу (Линейная регрессия, Ridge, Lasso, SVR, Нейронные сети, KNN). Менее важно для древовидных моделей.
#    - **Стандартизация (Standardization):** Приводит данные к нулевому среднему и единичной дисперсии (\( (X - \mu) / \sigma \)). `sklearn.preprocessing.StandardScaler`.
#    - **Нормализация (Normalization / Min-Max Scaling):** Масштабирует данные в заданный диапазон, обычно [0, 1] (\( (X - X_{min}) / (X_{max} - X_{min}) \)). `sklearn.preprocessing.MinMaxScaler`.

# 4. Инжиниринг Признаков (Feature Engineering):
#    - Создание новых признаков из существующих для улучшения модели.
#    - Примеры:
#      - Полиномиальные признаки (для моделирования нелинейности).
#      - Взаимодействия признаков ( \(x_1 * x_2\) ).
#      - Извлечение компонентов даты/времени (час, день недели, месяц).
#      - Агрегация данных.

# 5. Разделение Данных (Train/Test Split):
#    - Разделение исходного набора данных на обучающую и тестовую выборки.
#    - Обучающая выборка используется для тренировки модели.
#    - Тестовая выборка используется для финальной оценки производительности модели на невиданных данных.
#    - `sklearn.model_selection.train_test_split`.

# --------------------------------------------------

# Блок 5: Оценка Модели и Выбор

# 1. Использование Метрик:
#    - Рассчитайте выбранные метрики ( \(R^2\), MAE, MSE, RMSE) на тестовой выборке.
#    - `sklearn.metrics`: `r2_score`, `mean_absolute_error`, `mean_squared_error`.
#    - Интерпретируйте метрики в контексте задачи (например, MAE в $5000 для цен на дома может быть приемлемым, а для цен на продукты - нет).

# 2. Кросс-Валидация (Cross-Validation):
#    - Более надежный способ оценки модели, чем однократное разделение train/test.
#    - Данные делятся на K фолдов (частей). Модель обучается K раз, каждый раз используя K-1 фолд для обучения и 1 фолд для валидации.
#    - Метрики усредняются по K итерациям.
#    - Помогает оценить стабильность модели и избежать случайного удачного/неудачного разделения.
#    - `sklearn.model_selection.cross_val_score`, `sklearn.model_selection.KFold`.

# 3. Настройка Гиперпараметров (Hyperparameter Tuning):
#    - Большинство моделей имеют гиперпараметры, которые не обучаются на данных, а задаются заранее (например, `alpha` в Ridge/Lasso, `C` и `epsilon` в SVR, глубина дерева, количество деревьев в ансамблях).
#    - Подбор оптимальных гиперпараметров улучшает производительность модели.
#    - Методы:
#      - **Grid Search:** Перебирает все возможные комбинации заданных гиперпараметров. `sklearn.model_selection.GridSearchCV`.
#      - **Randomized Search:** Случайным образом выбирает комбинации гиперпараметров из заданных диапазонов. Часто эффективнее Grid Search. `sklearn.model_selection.RandomizedSearchCV`.
#    - Используют кросс-валидацию для оценки каждой комбинации гиперпараметров.

# 4. Анализ Остатков (Residual Analysis):
#    - Остатки - это разница между истинными и предсказанными значениями (\( e_i = y_i - \hat{y}_i \)).
#    - Анализ распределения остатков помогает проверить предположения модели (особенно линейной регрессии) и выявить проблемы.
#    - Идеально: остатки должны быть случайно распределены вокруг нуля без видимых паттернов.
#    - Построение графика остатков против предсказанных значений или признаков.

# --------------------------------------------------

# Блок 6: Пример Задачи и Решения (Линейная Регрессия с Scikit-learn)

# --- Условие Задачи ---
# Задача: Предсказать значение Y на основе одного признака X,
# используя простую линейную регрессию. Данные сгенерируем синтетически.

# --- Решение (Полный Код) ---

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.preprocessing import StandardScaler # Хотя для простой лин. регрессии не строго обязательно

# 1. Генерация Синтетических Данных
np.random.seed(42) # для воспроизводимости
X = 2 * np.random.rand(100, 1) # 100 примеров, 1 признак (от 0 до 2)
# Истинная зависимость y = 4 + 3*X + шум (Гауссовский)
y = 4 + 3 * X + np.random.randn(100, 1)

# print("Shape of X:", X.shape)
# print("Shape of y:", y.shape)
# print("Sample X:", X[:5])
# print("Sample y:", y[:5])

# Визуализация данных
# plt.figure(figsize=(8, 6))
# plt.scatter(X, y)
# plt.title("Синтетические данные для регрессии")
# plt.xlabel("Признак X")
# plt.ylabel("Целевая переменная Y")
# plt.grid(True)
# plt.show()

# 2. Разделение Данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# print(f"Train samples: {X_train.shape[0]}, Test samples: {X_test.shape[0]}")

# 3. Масштабирование Признаков (Хорошая практика, хотя здесь не критично)
# scaler = StandardScaler()
# X_train_scaled = scaler.fit_transform(X_train)
# X_test_scaled = scaler.transform(X_test)
# # Используем немасштабированные для простоты интерпретации коэффициентов в этом примере
X_train_scaled = X_train
X_test_scaled = X_test


# 4. Создание и Обучение Модели Линейной Регрессии
lin_reg = LinearRegression()
# print("\nTraining Linear Regression model...")
lin_reg.fit(X_train_scaled, y_train)
# print("Training complete.")

# Вывод коэффициентов модели
# print(f"Intercept (w0): {lin_reg.intercept_[0]:.4f}") # Ожидаем около 4
# print(f"Coefficient (w1): {lin_reg.coef_[0][0]:.4f}") # Ожидаем около 3

# 5. Предсказание на Тестовой Выборке
y_pred = lin_reg.predict(X_test_scaled)

# 6. Оценка Модели
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("\n--- Model Evaluation ---")
print(f"Mean Squared Error (MSE): {mse:.4f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.4f}")
print(f"Mean Absolute Error (MAE): {mae:.4f}")
print(f"R-squared (R2): {r2:.4f}") # Должен быть близок к 1

# 7. Визуализация Результатов
# plt.figure(figsize=(8, 6))
# plt.scatter(X_test, y_test, label='Actual Data')
# plt.plot(X_test, y_pred, color='red', linewidth=2, label='Linear Regression Fit')
# plt.title("Линейная Регрессия - Предсказания vs Истинные значения")
# plt.xlabel("Признак X")
# plt.ylabel("Целевая переменная Y")
# plt.legend()
# plt.grid(True)
# plt.show()

# 8. Предсказание на Новом Значении
# X_new = np.array([[1.5]]) # Новое значение признака X = 1.5
# X_new_scaled = X_new # scaler.transform(X_new) # Масштабируем, если использовали scaler
# y_new_pred = lin_reg.predict(X_new_scaled)
# print(f"\nPrediction for X = {X_new[0][0]}: {y_new_pred[0][0]:.4f}")
# Ожидаемое значение: 4 + 3 * 1.5 = 8.5 (плюс/минус шум)

# --- Конец Примера ---

# --------------------------------------------------

In [None]:
# Блок 1: Введение в Деревья Решений (Decision Trees)

# Что такое Дерево Решений?
# Дерево решений - это непараметрический алгоритм машинного обучения с учителем,
# который используется как для задач классификации, так и для регрессии.
# Модель представляет собой древовидную структуру, где:
# - Внутренние узлы (Internal Nodes): Представляют проверку значения некоторого признака.
# - Ветви (Branches): Представляют результат этой проверки (например, "признак > порога" или "признак <= порога").
# - Листовые узлы (Leaf Nodes / Terminal Nodes): Содержат конечный результат (предсказание).

# Деревья Решений для Регрессии:
# В отличие от классификационных деревьев, которые предсказывают метку класса в листьях,
# регрессионные деревья предсказывают **непрерывное числовое значение**.
# Предсказание в листовом узле обычно является **средним** (или медианным) значением
# целевой переменной для всех обучающих примеров, которые попали в этот лист.

# Как Строится Дерево (Интуиция):
# Алгоритм рекурсивно разбивает пространство признаков на все меньшие и меньшие
# прямоугольные области. На каждом шаге выбирается такой признак и такой порог
# для разбиения, которые наилучшим образом разделяют данные с точки зрения
# "чистоты" получаемых дочерних узлов (для регрессии - минимизации дисперсии
# или среднеквадратичной ошибки целевой переменной внутри узлов).

# --------------------------------------------------

# Блок 2: Ключевые Концепции Регрессионных Деревьев

# 1. Рекурсивное Бинарное Разбиение (Recursive Binary Splitting):
#    - Процесс начинается с корневого узла, содержащего все обучающие данные.
#    - На каждом шаге выбирается один признак \(j\) и порог \(s\).
#    - Данные в узле разделяются на две группы:
#      - Левая ветвь: Примеры, у которых значение признака \(j\) меньше или равно \(s\).
#      - Правая ветвь: Примеры, у которых значение признака \(j\) больше \(s\).
#    - Этот процесс повторяется для дочерних узлов.

# 2. Критерий Разбиения (Splitting Criterion):
#    - Цель: Найти такой признак \(j\) и порог \(s\), которые минимизируют
#      некоторую меру "нечистоты" (impurity) или ошибки в дочерних узлах.
#    - Для регрессии обычно используются:
#      - **Уменьшение Среднеквадратичной Ошибки (MSE Reduction) / Уменьшение Дисперсии:**
#        Самый распространенный критерий. Выбирается разбиение, которое максимизирует
#        разницу между MSE родительского узла и взвешенной суммой MSE дочерних узлов.
#        $$ \text{Gain} = MSE_{parent} - \left( \frac{N_{left}}{N_{parent}} MSE_{left} + \frac{N_{right}}{N_{parent}} MSE_{right} \right) $$
#        Где \( MSE_{node} = \frac{1}{N_{node}} \sum_{i \in node} (y_i - \bar{y}_{node})^2 \), а \( \bar{y}_{node} \) - среднее \(y\) в узле.
#      - **Уменьшение Средней Абсолютной Ошибки (MAE Reduction / Friedman MAE):**
#        Альтернативный критерий, менее чувствительный к выбросам.
#    - Алгоритм перебирает все возможные признаки и пороги для нахождения лучшего разбиения.

# 3. Критерии Остановки (Stopping Criteria):
#    - Определяют, когда прекратить дальнейшее разбиение узла (и сделать его листом).
#    - Предотвращают переобучение (когда дерево становится слишком сложным и подгоняется под шум в данных).
#    - Распространенные критерии:
#      - `max_depth`: Максимальная глубина дерева.
#      - `min_samples_split`: Минимальное количество примеров, необходимое для дальнейшего разбиения узла.
#      - `min_samples_leaf`: Минимальное количество примеров, которое должно остаться в листовом узле после разбиения.
#      - `max_leaf_nodes`: Максимальное количество листовых узлов.
#      - `min_impurity_decrease`: Минимальное уменьшение критерия нечистоты, которое должно дать разбиение.

# 4. Предсказание (Prediction):
#    - Для нового примера данных: Начинаем с корневого узла.
#    - На каждом внутреннем узле проверяем значение соответствующего признака примера.
#    - Переходим по левой или правой ветви в зависимости от результата проверки.
#    - Повторяем, пока не достигнем листового узла.
#    - Предсказанное значение - это значение, хранящееся в этом листовом узле (обычно среднее \(y\) обучающих примеров в этом листе).
#    - Важно: Предсказания дерева решений являются **кусочно-постоянными**.

# 5. Обрезка Дерева (Pruning):
#    - Техника для уменьшения сложности дерева и борьбы с переобучением *после* того, как оно построено (post-pruning).
#    - Идея: Удалить (обрезать) некоторые ветви (узлы), которые дают наименьший прирост качества на валидационных данных или на основе критерия сложности.
#    - Cost Complexity Pruning (Минимальная стоимость-сложность обрезки): Использует параметр `ccp_alpha` в Scikit-learn. Большие значения `ccp_alpha` приводят к большей обрезке.

# 6. Важность Признаков (Feature Importance):
#    - Деревья решений позволяют оценить, какие признаки были наиболее важны для построения модели.
#    - Рассчитывается на основе того, насколько сильно каждый признак уменьшал критерий нечистоты (MSE) при разбиениях, взвешенно по количеству примеров в узлах.
#    - Доступно через атрибут `feature_importances_` в Scikit-learn.

# --------------------------------------------------

# Блок 3: Преимущества и Недостатки

# Преимущества:
# + **Интерпретируемость:** Легко понять и визуализировать логику принятия решений.
# + **Не требует масштабирования:** Нечувствительны к масштабу числовых признаков.
# + **Обработка разных типов данных:** Могут работать с числовыми и (теоретически) категориальными признаками (хотя sklearn требует числового входа).
# + **Нелинейность:** Способны улавливать нелинейные зависимости в данных.
# + **Автоматический отбор признаков:** Неявно выполняют отбор признаков, используя наиболее информативные из них для разбиений.
# + **Относительно быстрые:** Обучение и предсказание обычно быстрые.

# Недостатки:
# - **Склонность к переобучению:** Глубокие деревья могут легко переобучиться на обучающих данных, плохо обобщаясь на новые. Требуется контроль сложности (глубина, обрезка).
# - **Нестабильность:** Небольшие изменения в данных могут привести к построению совершенно другого дерева. (Проблема решается ансамблями).
# - **Кусочно-постоянные предсказания:** Модель предсказывает одно и то же значение для всех точек в пределах одной области (листа), что может быть нежелательно для гладких зависимостей.
# - **Жадный алгоритм:** На каждом шаге выбирается локально оптимальное разбиение, что не гарантирует глобально оптимального дерева.
# - **Сложность захвата некоторых зависимостей:** Могут испытывать трудности с моделированием некоторых простых линейных зависимостей, если оси не выровнены.

# --------------------------------------------------

# Блок 4: Алгоритм Построения (Концептуально)

# 1. Начать с корневого узла, содержащего все обучающие примеры \( (X, y) \).
# 2. Для каждого узла:
#    a. Если выполнен критерий остановки (например, достигнута `max_depth`, или в узле мало примеров `min_samples_leaf`, или узел "чистый" - все \(y\) одинаковы):
#       i. Сделать узел листовым.
#       ii. Сохранить в листе предсказываемое значение (например, среднее \(y\) примеров в этом узле).
#    b. Иначе (если узел можно разбивать дальше):
#       i. Найти лучший признак \(j\) и лучший порог \(s\) для разбиения данных в узле, максимизируя уменьшение MSE (или другого критерия).
#       ii. Разделить данные узла на два подмножества: \(D_{left} = \{(X_i, y_i) | X_{ij} \le s\}\) и \(D_{right} = \{(X_i, y_i) | X_{ij} > s\}\).
#       iii. Рекурсивно вызвать шаг 2 для левого дочернего узла с данными \(D_{left}\).
#       iv. Рекурсивно вызвать шаг 2 для правого дочернего узла с данными \(D_{right}\).

# --------------------------------------------------

# Блок 5: Реализация в Scikit-learn

# Основной класс: `sklearn.tree.DecisionTreeRegressor`

from sklearn.tree import DecisionTreeRegressor

# Инициализация модели с некоторыми параметрами:
# tree_reg = DecisionTreeRegressor(
#     criterion='squared_error', # Критерий: 'squared_error' (MSE), 'friedman_mse', 'absolute_error' (MAE), 'poisson'
#     splitter='best',        # Стратегия выбора разбиения: 'best' или 'random'
#     max_depth=None,         # Максимальная глубина (None - без ограничения)
#     min_samples_split=2,    # Минимальное число образцов для сплита
#     min_samples_leaf=1,     # Минимальное число образцов в листе
#     max_features=None,      # Число признаков для поиска лучшего сплита (None - все)
#     random_state=None,      # Для воспроизводимости
#     max_leaf_nodes=None,    # Макс. число листьев
#     min_impurity_decrease=0.0, # Мин. уменьшение нечистоты для сплита
#     ccp_alpha=0.0           # Параметр для Cost Complexity Pruning
# )

# Обучение:
# tree_reg.fit(X_train, y_train)

# Предсказание:
# y_pred = tree_reg.predict(X_test)

# Важность признаков:
# importances = tree_reg.feature_importances_

# Визуализация дерева (требует graphviz и matplotlib):
# from sklearn.tree import plot_tree
# import matplotlib.pyplot as plt
#
# plt.figure(figsize=(20,10))
# plot_tree(tree_reg, filled=True, feature_names=feature_names_list, rounded=True, fontsize=10)
# plt.show()

# --------------------------------------------------

# Блок 6: Примеры Задач Регрессии для Деревьев Решений

# Деревья решений подходят для задач регрессии, где:
# - Есть нелинейные зависимости между признаками и целью.
# - Важна интерпретируемость модели (можно посмотреть на правила в дереве).
# - Не хочется тратить время на масштабирование признаков.
# - Данные содержат как числовые, так и категориальные признаки (хотя sklearn требует их кодирования).

# Примеры:
# 1. **Предсказание Цены Недвижимости:** На основе площади, числа комнат, района (категориальный), года постройки. Дерево может выучить правила вроде "Если район='Центр' И площадь > 100, то цена = X, иначе ...".
# 2. **Оценка Спроса на Товар:** На основе дня недели, времени суток, наличия промо-акции, погоды. Дерево может разделить данные по этим условиям.
# 3. **Прогнозирование Количества Арендованных Велосипедов:** На основе часа, дня недели, сезона, погоды (температура, влажность, ветер).
# 4. **Оценка Возраста Человека по Физическим Показателям:** (Хотя здесь могут быть и более гладкие зависимости).
# 5. **Предсказание Времени Выполнения Задачи:** На основе типа задачи, приоритета, опыта исполнителя.

# Важно помнить, что для повышения точности и стабильности часто используют ансамбли деревьев (Random Forest, Gradient Boosting), которые строятся на основе DecisionTreeRegressor.

# --------------------------------------------------

# Блок 7: Пример Задачи и Решения (Предсказание Синусоиды)

# --- Условие Задачи ---
# Задача: Обучить DecisionTreeRegressor предсказывать значение функции \( y = \sin(x) \)
# с добавлением шума на отрезке \( [0, 10] \). Это покажет, как дерево
# аппроксимирует нелинейную функцию кусочно-постоянными значениями.

# --- Решение (Полный Код) ---

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 1. Генерация Синтетических Данных
np.random.seed(42)
X = np.sort(10 * np.random.rand(100, 1), axis=0) # 100 точек от 0 до 10
y = np.sin(X).ravel() + np.random.randn(100) * 0.1 # sin(X) + шум

# print("Shape of X:", X.shape)
# print("Shape of y:", y.shape)

# 2. Разделение Данных
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42
)
# print(f"Train samples: {X_train.shape[0]}, Test samples: {X_test.shape[0]}")

# 3. Создание и Обучение Модели Дерева Решений
# Обучим два дерева: одно неглубокое, другое глубокое (для демонстрации переобучения)
tree_reg1 = DecisionTreeRegressor(max_depth=2, random_state=42)
tree_reg2 = DecisionTreeRegressor(max_depth=5, random_state=42)
tree_reg_deep = DecisionTreeRegressor(random_state=42) # Без ограничения глубины

# print("\nTraining Decision Tree (max_depth=2)...")
tree_reg1.fit(X_train, y_train)
# print("Training complete.")

# print("\nTraining Decision Tree (max_depth=5)...")
tree_reg2.fit(X_train, y_train)
# print("Training complete.")

# print("\nTraining Decision Tree (no depth limit)...")
tree_reg_deep.fit(X_train, y_train)
# print("Training complete.")


# 4. Предсказание на Тестовой Выборке
y_pred1 = tree_reg1.predict(X_test)
y_pred2 = tree_reg2.predict(X_test)
y_pred_deep = tree_reg_deep.predict(X_test)

# 5. Оценка Моделей
print("\n--- Evaluation (max_depth=2) ---")
print(f"MSE: {mean_squared_error(y_test, y_pred1):.4f}")
print(f"R2 Score: {r2_score(y_test, y_pred1):.4f}")

print("\n--- Evaluation (max_depth=5) ---")
print(f"MSE: {mean_squared_error(y_test, y_pred2):.4f}")
print(f"R2 Score: {r2_score(y_test, y_pred2):.4f}") # Должен быть лучше, чем у depth=2

print("\n--- Evaluation (no depth limit) ---")
print(f"MSE: {mean_squared_error(y_test, y_pred_deep):.4f}") # Может быть хуже из-за переобучения
print(f"R2 Score: {r2_score(y_test, y_pred_deep):.4f}")

# 6. Визуализация Результатов
X_plot = np.arange(0.0, 10.0, 0.01)[:, np.newaxis] # Плотная сетка для отрисовки предсказаний
y_pred_plot1 = tree_reg1.predict(X_plot)
y_pred_plot2 = tree_reg2.predict(X_plot)
y_pred_plot_deep = tree_reg_deep.predict(X_plot)

# plt.figure(figsize=(12, 8))
# plt.scatter(X_train, y_train, s=20, edgecolor="black", c="darkorange", label="Training data")
# plt.scatter(X_test, y_test, s=20, edgecolor="black", c="cornflowerblue", label="Test data", alpha=0.8)
# plt.plot(X_plot, y_pred_plot1, color="yellowgreen", label="Prediction (max_depth=2)", linewidth=2)
# plt.plot(X_plot, y_pred_plot2, color="red", label="Prediction (max_depth=5)", linewidth=2, linestyle='--')
# # plt.plot(X_plot, y_pred_plot_deep, color="purple", label="Prediction (no limit)", linewidth=1, 


In [None]:
# Блок 1: Ансамблевые Методы на Основе Деревьев

# Идея Ансамблей:
# Вместо того чтобы полагаться на одну модель (например, одно дерево решений),
# ансамблевые методы комбинируют предсказания **нескольких** моделей (часто деревьев)
# для получения более точного, стабильного и надежного итогового предсказания.
# Комбинирование помогает уменьшить недостатки отдельных моделей (например,
# склонность деревьев к переобучению и их нестабильность).

# Основные Типы Ансамблей Деревьев:
# 1. Методы Усреднения (Averaging Methods):
#    - Строят несколько независимых моделей (деревьев) и усредняют их предсказания.
#    - Основная цель: Уменьшить **дисперсию** (variance) модели.
#    - Пример: Случайный Лес (Random Forest).
# 2. Методы Усиления (Boosting Methods):
#    - Строят модели последовательно, каждая следующая модель пытается исправить
#      ошибки предыдущих.
#    - Основная цель: Уменьшить **смещение** (bias) модели, но также могут уменьшать и дисперсию.
#    - Примеры: Градиентный Бустинг (GBM), XGBoost, LightGBM, CatBoost.

# --------------------------------------------------

# Блок 2: Бэггинг и Случайный Лес (Random Forest)

# Бэггинг (Bagging - Bootstrap Aggregating):
# 1. Создается множество (N) обучающих подвыборок из исходного датасета с помощью
#    **бутстрэпа** (bootstrap sampling) - выборки с возвращением. Каждая подвыборка
#    имеет тот же размер, что и исходная, но некоторые примеры могут повторяться,
#    а некоторые - отсутствовать.
# 2. На каждой подвыборке обучается своя независимая базовая модель (например, дерево решений).
# 3. Предсказания всех N моделей усредняются (для регрессии) или определяется
#    наиболее частый класс (для классификации).

# Случайный Лес (Random Forest):
# - Это усовершенствованный бэггинг, специально для деревьев решений.
# - Дополнительно к бутстрэпу данных, при построении каждого узла дерева
#   выбирается **случайное подмножество признаков** (`max_features`), и лучшее
#   разбиение ищется только среди этих признаков.
# - Это вносит дополнительную случайность и уменьшает корреляцию между деревьями,
#   что еще сильнее снижает дисперсию ансамбля.

# Преимущества Random Forest:
# + Высокая точность и стабильность.
# + Устойчивость к переобучению (гораздо лучше, чем одно дерево).
# + Не требует масштабирования признаков.
# + Хорошо работает "из коробки" с настройками по умолчанию.
# + Позволяет оценить важность признаков.
# + Легко параллелизуется.

# Недостатки Random Forest:
# - Менее интерпретируемый, чем одно дерево ("черный ящик").
# - Может быть медленнее и требовать больше памяти, чем одно дерево или бустинг.
# - Может не очень хорошо экстраполировать за пределы диапазона обучающих данных.

# Реализация в Scikit-learn:
from sklearn.ensemble import RandomForestRegressor

# rf_reg = RandomForestRegressor(
#     n_estimators=100,      # Количество деревьев в лесу
#     criterion='squared_error', # Критерий для регрессии (MSE)
#     max_depth=None,        # Макс. глубина каждого дерева
#     min_samples_split=2,   # Мин. число образцов для сплита
#     min_samples_leaf=1,    # Мин. число образцов в листе
#     max_features='sqrt',   # Число признаков для сплита ('sqrt', 'log2', float, int)
#     bootstrap=True,        # Использовать ли бутстрэп
#     oob_score=False,       # Считать ли Out-of-Bag ошибку (оценка на неиспользованных данных)
#     n_jobs=-1,             # Использовать все доступные ядра CPU
#     random_state=None
# )
# rf_reg.fit(X_train, y_train)
# y_pred_rf = rf_reg.predict(X_test)
# importances_rf = rf_reg.feature_importances_

# --------------------------------------------------

# Блок 3: Градиентный Бустинг (Gradient Boosting Machines - GBM)

# Принцип Работы:
# 1. Начинаем с простой базовой модели (часто просто среднее значение целевой переменной).
# 2. Итеративно строим новые модели (обычно неглубокие деревья решений):
#    a. Вычисляем **остатки** (residuals) - разницу между истинными значениями и
#       предсказаниями текущего ансамбля. Для MSE остатки совпадают с отрицательным
#       градиентом функции потерь.
#    b. Обучаем новое дерево предсказывать эти остатки (или отрицательный градиент).
#    c. Добавляем предсказания нового дерева к предсказаниям ансамбля, умноженные
#       на небольшой коэффициент - **скорость обучения** (`learning_rate` или `eta`).
#       Этот коэффициент (shrinkage) уменьшает вклад каждого дерева и помогает
#       предотвратить переобучение.
# 3. Повторяем шаг 2 заданное количество раз (`n_estimators`).

# Ключевые Гиперпараметры GBM:
# - `n_estimators`: Количество деревьев (итераций бустинга). Слишком большое значение может привести к переобучению.
# - `learning_rate` (eta): Скорость обучения (усадка). Меньшие значения (например, 0.01-0.1) требуют большего `n_estimators`, но обычно дают лучшие результаты и более устойчивы к переобучению.
# - `max_depth`: Максимальная глубина отдельных деревьев. Обычно используются неглубокие деревья (например, 3-8).
# - `subsample`: Доля обучающих примеров, используемая для обучения каждого дерева (стохастический градиентный бустинг). Значение < 1.0 вносит случайность и помогает бороться с переобучением.
# - `min_samples_split`, `min_samples_leaf`: Параметры для контроля сложности отдельных деревьев.

# Преимущества GBM:
# + Часто обеспечивает очень высокую точность предсказаний.
# + Гибкость в выборе функции потерь (не только MSE).

# Недостатки GBM:
# - Более чувствителен к настройке гиперпараметров, чем Random Forest.
# - Склонен к переобучению, если параметры не настроены должным образом (особенно `n_estimators` и `learning_rate`).
# - Обучение происходит последовательно, что затрудняет параллелизацию (хотя построение отдельных деревьев может быть распараллелено).

# Реализация в Scikit-learn:
from sklearn.ensemble import GradientBoostingRegressor

# gbm_reg = GradientBoostingRegressor(
#     loss='squared_error',   # Функция потерь ('squared_error', 'absolute_error', 'huber', 'quantile')
#     learning_rate=0.1,
#     n_estimators=100,
#     subsample=1.0,
#     criterion='friedman_mse', # Критерий для оценки качества сплита
#     min_samples_split=2,
#     min_samples_leaf=1,
#     max_depth=3,            # Обычно неглубокие деревья
#     random_state=None,
#     max_features=None,
#     ccp_alpha=0.0
# )
# gbm_reg.fit(X_train, y_train)
# y_pred_gbm = gbm_reg.predict(X_test)
# importances_gbm = gbm_reg.feature_importances_

# --------------------------------------------------

# Блок 4: Оптимизированные Реализации Градиентного Бустинга

# Существуют библиотеки, предлагающие более быстрые и продвинутые реализации GBM.

# --- 4.1 XGBoost (Extreme Gradient Boosting) ---
# # Улучшения:
# # - Регуляризация (L1 и L2) на веса листьев для борьбы с переобучением.
# # - Оптимизированный алгоритм поиска разбиений (учитывает разреженность данных, кэширование).
# # - Встроенная обработка пропущенных значений.
# # - Возможность параллелизации на уровне построения дерева.
# # - Встроенная кросс-валидация.
# # Установка: `pip install xgboost`
import xgboost as xgb

# xgb_reg = xgb.XGBRegressor(
#     objective='reg:squarederror', # Целевая функция (MSE)
#     n_estimators=100,
#     learning_rate=0.1,
#     max_depth=3,
#     subsample=0.8,          # Доля строк для каждого дерева
#     colsample_bytree=0.8,   # Доля признаков для каждого дерева
#     gamma=0,                # Минимальное уменьшение потерь для сплита (регуляризация)
#     reg_alpha=0,            # L1 регуляризация на веса листьев
#     reg_lambda=1,           # L2 регуляризация на веса листьев
#     random_state=None,
#     n_jobs=-1               # Использовать все ядра
# )
# xgb_reg.fit(X_train, y_train) # Может требовать раннюю остановку (early stopping) на валидационном наборе
# y_pred_xgb = xgb_reg.predict(X_test)
# importances_xgb = xgb_reg.feature_importances_

# --- 4.2 LightGBM (Light Gradient Boosting Machine) ---
# # Улучшения:
# # - Leaf-wise рост дерева (вместо level-wise): Строит дерево по листьям с наибольшим уменьшением потерь, что часто быстрее и точнее.
# # - Gradient-based One-Side Sampling (GOSS): Сохраняет примеры с большими градиентами и случайно отбрасывает примеры с малыми градиентами для ускорения.
# # - Exclusive Feature Bundling (EFB): Объединяет взаимоисключающие признаки для уменьшения размерности.
# # - Очень быстрый и эффективный по памяти, особенно на больших датасетах.
# # Установка: `pip install lightgbm`
import lightgbm as lgb

# lgb_reg = lgb.LGBMRegressor(
#     objective='regression', # или 'regression_l1' (MAE), 'huber', 'quantile'
#     metric='rmse',          # Метрика для оценки ('rmse', 'mae')
#     n_estimators=100,
#     learning_rate=0.1,
#     max_depth=-1,           # -1 означает без ограничения
#     num_leaves=31,          # Макс. число листьев (важный параметр для контроля сложности)
#     subsample=0.8,
#     colsample_bytree=0.8,
#     reg_alpha=0.0,
#     reg_lambda=0.0,
#     random_state=None,
#     n_jobs=-1
# )
# lgb_reg.fit(X_train, y_train) # Также поддерживает early stopping
# y_pred_lgb = lgb_reg.predict(X_test)
# importances_lgb = lgb_reg.feature_importances_

# --- 4.3 CatBoost ---
# # Улучшения:
# # - Продвинутая обработка категориальных признаков: Использует target encoding с регуляризацией (ordered boosting, permutations), не требует ручного one-hot encoding.
# # - Ordered Boosting: Способ построения ансамбля, который помогает бороться со смещением предсказаний и переобучением.
# # - Symmetric Trees: Использует одинаковые условия разбиения на одном уровне дерева.
# # - Часто дает хорошие результаты с минимальной настройкой гиперпараметров.
# # Установка: `pip install catboost`
import catboost as cb

# cb_reg = cb.CatBoostRegressor(
#     iterations=100,         # Аналог n_estimators
#     learning_rate=0.1,
#     depth=6,                # Аналог max_depth
#     l2_leaf_reg=3,          # L2 регуляризация
#     loss_function='RMSE',   # Функция потерь/метрика
#     verbose=0,              # Уровень вывода информации (0 - тихо)
#     random_seed=None,
#     # cat_features=[index1, index2, ...] # Индексы категориальных столбцов (если есть)
# )
# cb_reg.fit(X_train, y_train) # Может автоматически обрабатывать категориальные признаки, если указаны
# y_pred_cb = cb_reg.predict(X_test)
# importances_cb = cb_reg.feature_importances_

# --------------------------------------------------

# Блок 5: Сравнение и Выбор

# | Метод          | Основная Идея        | Плюсы                                       | Минусы                                        | Когда использовать                                    |
# |----------------|----------------------|---------------------------------------------|-----------------------------------------------|-------------------------------------------------------|
# | **Random Forest**| Бэггинг + Случ. Призн.| Стабильность, Уст. к переобуч., Параллелизм | Менее точный чем бустинг, "Черный ящик"       | Хороший baseline, когда важна стабильность           |
# | **GBM (sklearn)**| Посл. испр. ошибок   | Высокая точность, Гибкость потерь           | Склонен к переобуч., Медленнее RF, Параметры | Когда нужна точность, но оптимиз. реализации недоступны |
# | **XGBoost**      | Оптимиз. GBM + Регул.| Точность, Скорость, Регуляризация, Пропуски | Больше параметров для настройки               | Стандарт де-факто для соревнований, общие задачи      |
# | **LightGBM**     | Оптимиз. GBM (GOSS/EFB)| Очень быстрый, Эфф. память, Точность      | Может переобучиться на малых данных           | Большие датасеты, когда важна скорость               |
# | **CatBoost**     | Оптимиз. GBM (Катег.)| Отл. работа с категор., Меньше тюнинга      | Может быть медленнее XGB/LGB на числ. данных | Много категориальных признаков, меньше времени на тюнинг |

# **Рекомендация:** Начинайте с Random Forest или одной из оптимизированных реализаций бустинга (XGBoost, LightGBM, CatBoost). Они часто дают лучшие результаты, чем стандартный GBM из sklearn. Выбор между XGBoost, LightGBM и CatBoost зависит от данных (размер, тип признаков) и приоритетов (скорость, точность, простота настройки).

# --------------------------------------------------

# Блок 6: Пример Задачи и Решения (XGBoost для Регрессии)

# --- Условие Задачи ---
# Задача: Предсказать цену на жилье в Калифорнии, используя датасет
# California Housing из Scikit-learn. Используем XGBoost.

# --- Решение (Полный Код) ---

import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# 1. Загрузка Данных
housing = fetch_california_housing(as_frame=True)
X = housing.data
y = housing.target # Целевая переменная - медианная стоимость дома в $100,000s

# print("Dataset Info:")
# print(X.info())
# print("\nTarget variable description:", housing.DESCR.split('\n')[5]) # Описание цели
# print("\nSample Data (X head):")
# print(X.head())
# print("\nSample Target (y head):")
# print(y.head())

# 2. Разделение Данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# print(f"\nTrain samples: {X_train.shape[0]}, Test samples: {X_test.shape[0]}")

# 3. Масштабирование Признаков (Рекомендуется для XGBoost, хотя он менее чувствителен)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
# Преобразуем обратно в DataFrame для удобства (опционально)
# X_train_scaled = pd.DataFrame(X_train_scaled, columns=X.columns)
# X_test_scaled = pd.DataFrame(X_test_scaled, columns=X.columns)

# 4. Создание и Обучение Модели XGBoost
# Используем параметры по умолчанию или немного настроенные
xgb_reg = xgb.XGBRegressor(
    objective='reg:squarederror',
    n_estimators=100,       # Начнем со 100 деревьев
    learning_rate=0.1,
    max_depth=5,            # Увеличим глубину немного
    subsample=0.7,
    colsample_bytree=0.7,
    random_state=42,
    n_jobs=-1,
    early_stopping_rounds=10 # Добавим раннюю остановку
)

# print("\nTraining XGBoost model...")
# Обучаем с использованием валидационного набора для ранней остановки
eval_set = [(X_test_scaled, y_test)] # Используем тестовый набор как валидационный (не идеально, лучше отдельный val set)
xgb_reg.fit(X_train_scaled, y_train,
            eval_set=eval_set,
            verbose=False) # verbose=True покажет процесс обучения
# print("Training complete.")
# print(f"Best iteration: {xgb_reg.best_iteration}")

# 5. Предсказание на Тестовой Выборке
y_pred_xgb = xgb_reg.predict(X_test_scaled)

# 6. Оценка Модели
mse_xgb = mean_squared_error(y_test, y_pred_xgb)
rmse_xgb = np.sqrt(mse_xgb)
r2_xgb = r2_score(y_test, y_pred_xgb)

print("\n--- XGBoost Evaluation ---")
print(f"Root Mean Squared Error (RMSE): {rmse_xgb:.4f}")
print(f"R-squared (R2): {r2_xgb:.4f}")

# 7. Важность Признаков
# feature_importances = pd.Series(xgb_reg.feature_importances_, index=X.columns)
# feature_importances = feature_importances.sort_values(ascending=False)
#
# print("\nFeature Importances:")
# print(feature_importances)
#
# # Визуализация важности
# plt.figure(figsize=(10, 6))
# feature_importances.plot(kind='bar')
# plt.title('XGBoost Feature Importances for California Housing')
# plt.ylabel('Importance')
# plt.xticks(rotation=45, ha='right')
# plt.tight_layout()
# plt.show()

# --- Конец Примера ---

# --------------------------------------------------

In [None]:
# Блок 1: Задача Титаника и Типы Данных

# Задача: Предсказать выживание пассажира (Survived = 1) или гибель (Survived = 0)
# на основе данных о пассажирах Титаника. Это задача бинарной классификации.

# Типы Данных в Датасете:
# - Числовые Непрерывные: Age, Fare
# - Числовые Дискретные: SibSp (братья/сестры/супруги), Parch (родители/дети), Pclass (класс пассажира - можно считать порядковым)
# - Категориальные Номинальные: Sex (male/female), Embarked (порт посадки C/Q/S)
# - Текст/ID: Name, Ticket, Cabin, PassengerId (обычно не используются напрямую как признаки)
# - Целевая Переменная: Survived (0 или 1)

# Проблема: Деревья решений и их ансамбли (в большинстве реализаций, например, Scikit-learn)
# требуют на вход числовые данные без пропусков. Текстовые и категориальные признаки
# нужно преобразовать, а пропуски - обработать.

# --------------------------------------------------

# Блок 2: Подготовка Данных для Деревьев (Критически Важный Шаг)

# --- 2.1 Обработка Пропущенных Значений ---
# # Age: Часто имеет пропуски.
# #   Стратегии: Заполнить медианой/средним; заполнить медианой по группе (Pclass+Sex); предсказать регрессией.
# # Embarked: Редкие пропуски.
# #   Стратегии: Заполнить модой (самым частым значением).
# # Cabin: Очень много пропусков.
# #   Стратегии: Удалить столбец; создать признак HasCabin (1/0); извлечь палубу (первую букву) и считать категорией (пропуски -> 'Unknown').
# # Fare: Редкие пропуски (в тестовом наборе).
# #   Стратегии: Заполнить медианой по Pclass.

# --- 2.2 Кодирование Категориальных Признаков ---
# # Преобразование категорий в числа.
# # Sex (male/female):
# #   Label Encoding (0/1) - просто и подходит для деревьев.
# #   One-Hot Encoding ([1,0]/[0,1]) - тоже работает.
# # Embarked (C, Q, S):
# #   One-Hot Encoding - **рекомендуется**, т.к. нет порядка. Создаст Embarked_C, Embarked_Q, Embarked_S.
# # Pclass (1, 2, 3):
# #   Можно оставить как есть (деревья найдут сплиты типа Pclass <= 1.5).
# #   Можно использовать One-Hot Encoding, если не хотим предполагать порядок.

# --- 2.3 Инжиниринг Признаков (Feature Engineering) ---
# # Создание новых признаков из существующих.
# # FamilySize: SibSp + Parch + 1.
# # IsAlone: 1 если FamilySize == 1, иначе 0.
# # Title: Извлечь из Name (Mr, Mrs, Miss, Master, Dr...). Очень полезно. Закодировать (One-Hot или сгруппировать редкие).
# # AgeGroup: Разбить Age на категории (ребенок, взрослый...).
# # FareBin: Разбить Fare на категории.

# --- 2.4 Удаление Ненужных Признаков ---
# # PassengerId: Идентификатор, не нужен для модели.
# # Name: Удалить после извлечения Title.
# # Ticket: Обычно удаляют (сложный для парсинга).
# # Cabin: Удалить, если не использовался для инжиниринга.

# --- 2.5 Масштабирование Признаков (Feature Scaling) ---
# # StandardScaler, MinMaxScaler и т.д.
# # **НЕ ТРЕБУЕТСЯ** для деревьев решений, Random Forest, Gradient Boosting.
# # Эти алгоритмы не чувствительны к масштабу признаков.

# # Итог: После предобработки должна получиться числовая матрица признаков без пропусков.

# --------------------------------------------------

# Блок 3: Применение Деревьев Решений и Ансамблей

# После подготовки данных можно обучать модели.

# --- 3.1 Decision Tree Classifier (`sklearn.tree.DecisionTreeClassifier`) ---
# # - Хороший baseline, интерпретируемый.
# # - **Склонен к переобучению!** Нужна регуляризация:
# #   - `max_depth`: Ограничить глубину (e.g., 3-7).
# #   - `min_samples_leaf`: Мин. число примеров в листе (e.g., 5-10).
# #   - `min_samples_split`: Мин. число для разделения узла.
# #   - `ccp_alpha`: Для post-pruning.
from sklearn.tree import DecisionTreeClassifier
# dt_clf = DecisionTreeClassifier(max_depth=5, min_samples_leaf=10, random_state=42)

# --- 3.2 Random Forest Classifier (`sklearn.ensemble.RandomForestClassifier`) ---
# # - Ансамбль деревьев (бэггинг + случайные признаки).
# # - **Уменьшает переобучение**, более стабилен и точен.
# # - Основные параметры:
# #   - `n_estimators`: Число деревьев (e.g., 100-500).
# #   - `max_depth`, `min_samples_leaf`, `min_samples_split`: Контроль деревьев.
# #   - `max_features`: Число признаков для сплита ('sqrt', 'log2').
from sklearn.ensemble import RandomForestClassifier
# rf_clf = RandomForestClassifier(n_estimators=200, max_depth=7, min_samples_leaf=5, random_state=42, n_jobs=-1)

# --- 3.3 Gradient Boosting Classifier (`sklearn.ensemble.GradientBoostingClassifier`) ---
# # - Последовательное построение деревьев (бустинг).
# # - Потенциально высокая точность.
# # - **Чувствителен к параметрам**, может переобучиться.
# # - Ключевые параметры:
# #   - `n_estimators`: Число деревьев.
# #   - `learning_rate`: Скорость обучения (e.g., 0.01-0.1).
# #   - `max_depth`: Глубина деревьев (обычно неглубокие, 3-5).
# #   - `subsample`: Доля данных для дерева (< 1.0).
from sklearn.ensemble import GradientBoostingClassifier
# gbm_clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, subsample=0.8, random_state=42)

# --- 3.4 XGBoost (`xgboost.XGBClassifier`) ---
# # - Оптимизированный бустинг с регуляризацией.
# # - Часто **state-of-the-art** для табличных данных.
# # - **Может обрабатывать пропуски** (NaN) внутри.
# # - Параметры: `eta` (learning_rate), `gamma`, `reg_alpha`, `reg_lambda`.
import xgboost as xgb
# xgb_clf = xgb.XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, subsample=0.8, colsample_bytree=0.8, use_label_encoder=False, eval_metric='logloss', random_state=42, n_jobs=-1)

# --- 3.5 LightGBM (`lightgbm.LGBMClassifier`) ---
# # - Быстрая реализация бустинга (leaf-wise рост).
# # - **Эффективен на больших данных**.
# # - **Может обрабатывать пропуски**.
# # - Параметры: `num_leaves`, `learning_rate`, `n_estimators`.
import lightgbm as lgb
# lgb_clf = lgb.LGBMClassifier(n_estimators=100, learning_rate=0.1, num_leaves=31, subsample=0.8, colsample_bytree=0.8, random_state=42, n_jobs=-1)

# --- 3.6 CatBoost (`catboost.CatBoostClassifier`) ---
# # - **Отлично обрабатывает категориальные признаки** автоматически (если указать `cat_features`).
# # - Устойчив к переобучению.
# # - **Может обрабатывать пропуски**.
# # - Параметры: `iterations`, `learning_rate`, `depth`.
import catboost as cb
# cb_clf = cb.CatBoostClassifier(iterations=100, learning_rate=0.1, depth=6, l2_leaf_reg=3, loss_function='Logloss', verbose=0, random_state=42) # verbose=0 чтобы не печатал лог

# --------------------------------------------------

# Блок 4: Оценка Модели (Бинарная Классификация)

# Используемые метрики:
# - Accuracy: Общая точность (доля правильных ответов).
# - Precision: Точность для класса "выжил" (TP / (TP + FP)).
# - Recall: Полнота для класса "выжил" (TP / (TP + FN)).
# - F1-Score: Гармоническое среднее Precision и Recall.
# - AUC-ROC: Площадь под ROC-кривой (способность разделять классы).
# - Confusion Matrix: Матрица ошибок (TP, TN, FP, FN).

# Важно использовать Кросс-Валидацию для надежной оценки и подбора гиперпараметров.
from sklearn.model_selection import cross_val_score, KFold
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_auc_score

# Пример оценки с кросс-валидацией (для Random Forest)
# kf = KFold(n_splits=5, shuffle=True, random_state=42)
# rf_model_for_cv = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1) # Пример модели
# cv_scores = cross_val_score(rf_model_for_cv, X, y, cv=kf, scoring='accuracy') # X, y - полные обработанные данные
# print(f"Cross-Validation Accuracy Scores: {cv_scores}")
# print(f"Mean CV Accuracy: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# --------------------------------------------------

# Блок 5: Пример Рабочего Процесса (Концептуальный Код)

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier # Пример с Random Forest
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer

# --- 5.1 Загрузка данных ---
# # Замените на реальные пути к файлам Титаника
# try:
#     train_df = pd.read_csv('train.csv')
#     test_df = pd.read_csv('test.csv') # Для финального предсказания
#     passenger_ids_test = test_df['PassengerId'] # Сохраняем ID для submission
#     print("Titanic data loaded successfully.")
# except FileNotFoundError:
#     print("Error: train.csv or test.csv not found. Please place them in the correct directory.")
#     # Создадим пустые DataFrame для предотвращения ошибок далее
#     train_df = pd.DataFrame()
#     test_df = pd.DataFrame()
#     passenger_ids_test = pd.Series(dtype='int64')


# --- 5.2 Предобработка и Инжиниринг ---
def preprocess_titanic_simple(df):
    # # Функция для простой предобработки (можно улучшать)
    processed_df = df.copy()

    # # Заполнение Age медианой
    median_age = processed_df['Age'].median()
    processed_df['Age'].fillna(median_age, inplace=True)

    # # Заполнение Embarked модой
    mode_embarked = processed_df['Embarked'].mode()[0]
    processed_df['Embarked'].fillna(mode_embarked, inplace=True)

    # # Заполнение Fare медианой (на случай пропусков в test)
    median_fare = processed_df['Fare'].median()
    processed_df['Fare'].fillna(median_fare, inplace=True)

    # # Кодирование Sex
    le = LabelEncoder()
    processed_df['Sex'] = le.fit_transform(processed_df['Sex']) # female: 0, male: 1

    # # Кодирование Embarked (One-Hot)
    processed_df = pd.get_dummies(processed_df, columns=['Embarked'], prefix='Embarked', drop_first=False) # Не удаляем первый для простоты

    # # Feature Engineering: FamilySize, IsAlone
    processed_df['FamilySize'] = processed_df['SibSp'] + processed_df['Parch'] + 1
    processed_df['IsAlone'] = (processed_df['FamilySize'] == 1).astype(int)

    # # Удаление ненужных столбцов
    cols_to_drop = ['Name', 'Ticket', 'Cabin', 'PassengerId', 'SibSp', 'Parch']
    cols_exist = [col for col in cols_to_drop if col in processed_df.columns]
    processed_df = processed_df.drop(columns=cols_exist)

    # # Убедимся, что все колонки числовые (на случай ошибок)
    for col in processed_df.columns:
        if processed_df[col].dtype == 'object':
             # Простая обработка - может потребоваться более сложная
             processed_df[col] = pd.to_numeric(processed_df[col], errors='coerce').fillna(0)

    return processed_df

# # Проверяем, что DataFrame не пустые перед обработкой
# if not train_df.empty and not test_df.empty:
#     train_processed = preprocess_titanic_simple(train_df)
#     test_processed = preprocess_titanic_simple(test_df)
#
#     # # Выравнивание колонок (на случай разных категорий в train/test после one-hot)
#     train_labels = train_processed['Survived']
#     train_ids = train_processed.index # Или PassengerId, если не удалили
#     test_ids = test_processed.index
#
#     # Удаляем Survived из трейна для создания X
#     train_features = train_processed.drop('Survived', axis=1)
#     test_features = test_processed # В тесте нет Survived
#
#     # Выравниваем колонки - добавляем недостающие в тест с нулями, удаляем лишние из теста
#     common_cols = list(set(train_features.columns) & set(test_features.columns))
#     train_features = train_features[common_cols]
#     test_features = test_features[common_cols]
#
#     # Добавляем недостающие колонки в test_features (если они были только в train)
#     missing_cols = set(train_features.columns) - set(test_features.columns)
#     for c in missing_cols:
#         test_features[c] = 0
#     # Убедимся, что порядок колонок одинаковый
#     test_features = test_features[train_features.columns]
#
#     X = train_features
#     y = train_labels
#     X_submission_test = test_features # Финальный тестовый набор для предсказания
#
#     print("Data preprocessing complete.")
#     print(f"Shape of X: {X.shape}")
#     print(f"Shape of X_submission_test: {X_submission_test.shape}")
# else:
#     print("Skipping processing and training due to missing data.")
#     # Создадим пустые переменные, чтобы код ниже не падал
#     X, y, X_submission_test = pd.DataFrame(), pd.Series(dtype='int64'), pd.DataFrame()


# --- 5.3 Обучение Модели (Random Forest) ---
# if not X.empty: # Проверяем, что есть данные для обучения
#     model = RandomForestClassifier(n_estimators=200, max_depth=7, min_samples_leaf=5,
#                                    random_state=42, n_jobs=-1, oob_score=True)
#     print("\nTraining Random Forest...")
#     model.fit(X, y)
#     print("Training complete.")
#     print(f"OOB Score: {model.oob_score_:.4f}") # Оценка на Out-of-Bag данных
# else:
#     print("Skipping model training.")
#     model = None # Модель не обучена

# --- 5.4 Оценка (Пример на обучающих данных - не идеально!) ---
# if model:
#     print("\nEvaluating on Training Data (for demonstration)...")
#     y_pred_train = model.predict(X)
#     print(f"Training Accuracy: {accuracy_score(y, y_pred_train):.4f}")
#     print(classification_report(y, y_pred_train))
#     # В реальной задаче нужна валидация на отложенной выборке или CV

# --- 5.5 Предсказание для Тестового Набора (для Kaggle) ---
# if model and not X_submission_test.empty:
#     print("\nPredicting on Test Set for submission...")
#     test_predictions = model.predict(X_submission_test)
#
#     # --- 5.6 Формирование Файла для Отправки ---
#     submission = pd.DataFrame({'PassengerId': passenger_ids_test, 'Survived': test_predictions})
#     submission_filename = 'titanic_submission_rf.csv'
#     submission.to_csv(submission_filename, index=False)
#     print(f"\nSubmission file created: {submission_filename}")
# else:
#      print("\nSkipping prediction and submission file creation.")

# --- Конец Примера ---

In [None]:
# Блок 1: Введение в Обучение Без Учителя (Unsupervised Learning)

# Что такое Обучение Без Учителя?
# Это парадигма машинного обучения, в которой модели обучаются на данных,
# **не имеющих заранее известных правильных ответов или меток** (т.е. нет целевой переменной `y`).
# Вместо предсказания конкретного выхода, цель - найти скрытую структуру,
# закономерности, группы или представления в самих входных данных (`X`).

# Цели Обучения Без Учителя:
# - **Понимание данных:** Обнаружение внутренней структуры, групп, выбросов.
# - **Сжатие данных:** Уменьшение размерности для визуализации или хранения.
# - **Извлечение признаков:** Создание новых, более информативных признаков для
#   последующего использования в моделях с учителем.
# - **Обнаружение аномалий:** Выявление необычных или подозрительных наблюдений.
# - **Генерация данных:** Создание новых данных, похожих на исходные (генеративные модели).

# Отличие от Обучения с Учителем:
# - **С учителем:** Есть размеченные данные `(X, y)`. Цель - научиться предсказывать `y` по `X`.
#   Задачи: Классификация, Регрессия.
# - **Без учителя:** Есть только данные `X`. Цель - найти структуру в `X`.
#   Задачи: Кластеризация, Снижение размерности, Обнаружение аномалий и т.д.

# --------------------------------------------------

# Блок 2: Основные Задачи Обучения Без Учителя

# --- 2.1 Кластеризация (Clustering) ---
# # Цель: Разделить набор данных на группы (кластеры) таким образом, чтобы
# # объекты внутри одного кластера были максимально похожи друг на друга,
# # а объекты из разных кластеров - максимально различны.
# # Применение: Сегментация клиентов, группировка документов по темам,
# #            обнаружение сообществ в соцсетях, сегментация изображений.
# # Алгоритмы: K-Means, DBSCAN, Иерархическая кластеризация, Gaussian Mixture Models (GMM).

# --- 2.2 Снижение Размерности (Dimensionality Reduction) ---
# # Цель: Уменьшить количество признаков (размерность) в данных, сохраняя
# # при этом как можно больше важной информации.
# # Применение: Визуализация многомерных данных (в 2D или 3D),
# #            уменьшение вычислительной сложности, борьба с "проклятием размерности",
# #            шумоподавление, извлечение признаков.
# # Алгоритмы: PCA (Метод Главных Компонент), t-SNE, UMAP, Автоэнкодеры (Autoencoders).

# --- 2.3 Обнаружение Аномалий (Anomaly Detection / Outlier Detection) ---
# # Цель: Найти объекты в данных, которые значительно отличаются от "нормального"
# # большинства данных.
# # Применение: Обнаружение мошенничества, сетевых вторжений, дефектов производства,
# #            необычных медицинских показателей.
# # Алгоритмы: Isolation Forest, Local Outlier Factor (LOF), One-Class SVM, Автоэнкодеры.

# --- 2.4 Правила Ассоциации (Association Rule Mining) ---
# # Цель: Найти закономерности вида "Если есть X, то часто есть и Y" в больших наборах данных.
# # Применение: Анализ рыночной корзины (Market Basket Analysis - "кто покупает хлеб, часто покупает и молоко"),
# #            рекомендательные системы (базовые).
# # Алгоритмы: Apriori, FP-Growth.

# --- 2.5 Обучение Представлений (Representation Learning) ---
# # Цель: Научиться представлять данные в виде, который удобен для дальнейшей обработки
# # (например, в виде плотных векторов - эмбеддингов). Часто пересекается со снижением размерности.
# # Применение: Извлечение признаков для классификации/регрессии, семантический поиск.
# # Алгоритмы: Автоэнкодеры, Word2Vec/GloVe/FastText (для текста, часто обучаются само-супервизией), PCA.

# --------------------------------------------------

# Блок 3: Кластеризация - Алгоритмы и Концепции

# --- 3.1 K-Means (Метод k-средних) ---
# # Идея: Разделить данные на `k` заранее заданных кластеров.
# # Алгоритм:
# #   1. Инициализировать `k` центроидов (центров кластеров) случайно или по определенной стратегии.
# #   2. Повторять до сходимости:
# #      a. Шаг Присвоения: Отнести каждый объект данных к ближайшему центроиду (обычно по евклидову расстоянию).
# #      b. Шаг Обновления: Пересчитать положение каждого центроида как среднее всех объектов, отнесенных к нему.
# # Плюсы: Простой, быстрый, хорошо масштабируется.
# # Минусы: Нужно заранее знать число кластеров `k`, чувствителен к начальной инициализации центроидов,
# #         плохо работает с кластерами нешарообразной формы и разной плотности, чувствителен к масштабу признаков.
# # Библиотека: `sklearn.cluster.KMeans`
from sklearn.cluster import KMeans
# kmeans = KMeans(n_clusters=3, random_state=42, n_init='auto') # n_init='auto' для подавления warning

# --- 3.2 DBSCAN (Density-Based Spatial Clustering of Applications with Noise) ---
# # Идея: Группировать точки, которые плотно расположены, отмечая как выбросы точки,
# #       лежащие в областях с низкой плотностью.
# # Алгоритм:
# #   1. Выбрать точку, найти ее соседей в радиусе `eps`.
# #   2. Если соседей достаточно (`min_samples`), создать новый кластер, добавить точку и ее соседей в него.
# #   3. Рекурсивно расширять кластер, добавляя соседей соседей и т.д.
# #   4. Точки, не попавшие ни в один кластер, считаются шумом.
# # Плюсы: Не требует задания числа кластеров, находит кластеры произвольной формы, устойчив к выбросам.
# # Минусы: Чувствителен к параметрам `eps` (радиус окрестности) и `min_samples` (мин. число точек),
# #         плохо работает с кластерами разной плотности, чувствителен к масштабу признаков.
# # Библиотека: `sklearn.cluster.DBSCAN`
from sklearn.cluster import DBSCAN
# dbscan = DBSCAN(eps=0.5, min_samples=5)

# --- 3.3 Иерархическая Кластеризация (Агломеративная) ---
# # Идея: Построить иерархию кластеров (дендрограмму).
# # Алгоритм (Агломеративный - "снизу вверх"):
# #   1. Начать с того, что каждая точка - это отдельный кластер.
# #   2. Повторять:
# #      a. Найти два ближайших кластера.
# #      b. Объединить их в один новый кластер.
# #   3. Продолжать до тех пор, пока все точки не окажутся в одном кластере.
# # Плюсы: Не требует задания числа кластеров заранее (можно выбрать потом, "обрезав" дендрограмму),
# #         дает визуализацию иерархии (дендрограмма).
# # Минусы: Вычислительно сложен (O(n^2 log n) или O(n^3)), не очень подходит для больших данных,
# #         результат зависит от метрики расстояния и критерия связи (linkage).
# # Критерии Связи (Linkage): Определяют расстояние между кластерами:
# #   - `ward`: Минимизирует дисперсию внутри объединяемых кластеров (часто дает хорошие результаты).
# #   - `average`: Среднее расстояние между всеми парами точек из разных кластеров.
# #   - `complete` (max): Максимальное расстояние между точками из разных кластеров.
# #   - `single` (min): Минимальное расстояние между точками из разных кластеров.
# # Библиотека: `sklearn.cluster.AgglomerativeClustering`
from sklearn.cluster import AgglomerativeClustering
# agg_clustering = AgglomerativeClustering(n_clusters=None, distance_threshold=0, linkage='ward') # distance_threshold=0 строит полную дендрограмму

# --- 3.4 Оценка Качества Кластеризации ---
# # Так как нет истинных меток, используются внутренние метрики:
# # - Коэффициент Силуэта (Silhouette Score): Измеряет, насколько объект похож на свой кластер
# #   по сравнению с другими кластерами. Значения от -1 до 1. Ближе к 1 - лучше.
# #   `sklearn.metrics.silhouette_score`
# # - Индекс Дэвиса-Болдина (Davies-Bouldin Index): Отношение внутрикластерного расстояния
# #   к межкластерному расстоянию. Чем меньше значение, тем лучше (ближе к 0).
# #   `sklearn.metrics.davies_bouldin_score`
# # - Визуальный анализ (если данные 2D/3D или после снижения размерности).
# # - Метод "Локтя" (Elbow Method) для K-Means: Построить график зависимости суммы квадратов
# #   расстояний до центроидов (inertia) от числа кластеров `k`. Искать "изгиб" (локоть) на графике.

# --- 3.5 Важность Масштабирования ---
# # Алгоритмы, основанные на расстоянии (K-Means, DBSCAN, Иерархическая), **очень чувствительны**
# # к масштабу признаков. Признаки с большими значениями будут доминировать.
# # **Необходимо масштабировать данные** перед кластеризацией (например, с помощью `StandardScaler`).

# --------------------------------------------------

# Блок 4: Снижение Размерности - Алгоритмы и Концепции

# --- 4.1 Метод Главных Компонент (PCA - Principal Component Analysis) ---
# # Идея: Найти новое ортогональное базисное пространство (главные компоненты),
# #       в котором дисперсия данных максимальна вдоль первых компонент.
# #       Проецирует данные на подпространство меньшей размерности, образованное
# #       главными компонентами с наибольшей дисперсией.
# # Алгоритм: Основан на сингулярном разложении (SVD) ковариационной матрицы данных.
# # Плюсы: Простой, быстрый, детерминированный, хорошо работает для линейного снижения размерности,
# #         полезен для шумоподавления.
# # Минусы: Чувствителен к масштабу признаков, плохо работает, если зависимости нелинейные,
# #         главные компоненты могут быть трудно интерпретируемы.
# # Библиотека: `sklearn.decomposition.PCA`
from sklearn.decomposition import PCA
# pca = PCA(n_components=2) # Снизить до 2 компонент
# pca = PCA(n_components=0.95) # Сохранить 95% дисперсии

# --- 4.2 t-SNE (t-distributed Stochastic Neighbor Embedding) ---
# # Идея: Моделирует сходство между точками в многомерном пространстве и пытается
# #       сохранить это локальное сходство при отображении в низкоразмерное пространство (обычно 2D/3D).
# # Алгоритм: Вероятностный, использует t-распределение для моделирования сходства в низкой размерности.
# # Плюсы: Отлично подходит для **визуализации** сложных многомерных данных, хорошо разделяет кластеры.
# # Минусы: **Не подходит для общего снижения размерности** (только для визуализации),
# #         вычислительно сложен, результаты могут сильно зависеть от параметров (`perplexity`, `learning_rate`, `n_iter`),
# #         не сохраняет глобальную структуру данных (расстояния между кластерами неинформативны).
# # Библиотека: `sklearn.manifold.TSNE`
from sklearn.manifold import TSNE
# tsne = TSNE(n_components=2, perplexity=30.0, n_iter=1000, random_state=42)

# --- 4.3 UMAP (Uniform Manifold Approximation and Projection) ---
# # Идея: Основан на топологическом анализе данных и теории римановых многообразий.
# #       Строит граф ближайших соседей в исходном пространстве и оптимизирует
# #       похожий граф в низкоразмерном пространстве.
# # Алгоритм: Сложный, но эффективный.
# # Плюсы: Часто дает лучшую **визуализацию**, чем t-SNE, сохраняя как локальную, так и
# #         (в некоторой степени) глобальную структуру. Значительно **быстрее** t-SNE.
# #         Может использоваться и для общего снижения размерности (с осторожностью).
# # Минусы: Результаты зависят от параметров (`n_neighbors`, `min_dist`). Теория сложнее PCA.
# # Библиотека: `umap-learn` (нужно установить отдельно: `pip install umap-learn`)
# import umap # pip install umap-learn
# umap_reducer = umap.UMAP(n_components=2, n_neighbors=15, min_dist=0.1, random_state=42)

# --- 4.4 Автоэнкодеры (Autoencoders) ---
# # Идея: Нейронная сеть, состоящая из двух частей:
# #   - Энкодер: Сжимает входные данные в низкоразмерное представление (латентное пространство, код).
# #   - Декодер: Пытается восстановить исходные данные из этого сжатого представления.
# # Сеть обучается минимизировать ошибку реконструкции (разницу между входом и выходом).
# # Сжатое представление (выход энкодера) используется как результат снижения размерности.
# # Плюсы: Могут изучать сложные **нелинейные** зависимости, гибкая архитектура.
# # Минусы: Требуют больше данных и вычислительных ресурсов для обучения, сложнее в настройке.
# # Библиотека: PyTorch, TensorFlow/Keras.

# --- 4.5 Важность Масштабирования ---
# # PCA **очень чувствителен** к масштабу признаков. **Необходимо масштабировать** данные перед PCA.
# # t-SNE и UMAP менее чувствительны, но масштабирование часто рекомендуется.

# --------------------------------------------------

# Блок 5: Обнаружение Аномалий - Алгоритмы

# --- 5.1 Isolation Forest ---
# # Идея: Аномалии легче "изолировать" (отделить от остальных данных), чем нормальные точки.
# # Алгоритм: Строит ансамбль случайных деревьев изоляции. В каждом дереве данные
# #          рекурсивно делятся случайным признаком и случайным порогом. Аномальные
# #          точки обычно требуют меньше разбиений (имеют меньшую среднюю длину пути
# #          от корня до листа).
# # Плюсы: Эффективен на многомерных данных, не требует масштабирования, относительно быстрый.
# # Минусы: Может быть чувствителен к параметру `contamination` (ожидаемая доля выбросов).
# # Библиотека: `sklearn.ensemble.IsolationForest`
from sklearn.ensemble import IsolationForest
# iso_forest = IsolationForest(n_estimators=100, contamination='auto', random_state=42) # contamination='auto' или float (e.g., 0.05)

# --- 5.2 Local Outlier Factor (LOF) ---
# # Идея: Сравнивает локальную плотность точки с плотностью ее соседей.
# #       Точки в областях с значительно меньшей плотностью, чем у их соседей, считаются выбросами.
# # Плюсы: Учитывает локальную структуру, может находить выбросы в данных с разной плотностью.
# # Минусы: Вычислительно сложнее Isolation Forest, чувствителен к выбору числа соседей (`n_neighbors`) и масштабу.
# # Библиотека: `sklearn.neighbors.LocalOutlierFactor`
from sklearn.neighbors import LocalOutlierFactor
# lof = LocalOutlierFactor(n_neighbors=20, contamination='auto') # contamination='auto' или float

# --- 5.3 One-Class SVM ---
# # Идея: Пытается найти границу, которая охватывает "нормальные" данные.
# #       Точки, лежащие далеко за этой границей, считаются аномалиями.
# #       Использует ядерный трюк для нелинейных границ.
# # Плюсы: Может находить сложные границы аномалий.
# # Минусы: Чувствителен к выбору ядра и его параметров (`kernel`, `gamma`, `nu`), требует масштабирования.
# # Библиотека: `sklearn.svm.OneClassSVM`
from sklearn.svm import OneClassSVM
# one_svm = OneClassSVM(gamma='auto', nu=0.05) # nu - ожидаемая доля выбросов

# --- 5.4 Оценка Обнаружения Аномалий ---
# # Сложно без истинных меток.
# # Если есть метки (хотя бы для части данных): Precision, Recall, F1 для класса аномалий.
# # Если меток нет: Визуальный анализ (если возможно), экспертная оценка, анализ характеристик найденных аномалий.

# --------------------------------------------------

# Блок 6: Пример Задачи и Решения (Кластеризация K-Means)

# --- Условие Задачи ---
# Задача: Сгенерировать 2D данные с несколькими явными группами (блобами)
# и применить K-Means для их разделения на кластеры. Визуализировать результат.

# --- Решение (Полный Код) ---

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs # Для генерации данных для кластеризации
from sklearn.preprocessing import StandardScaler # Для масштабирования
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score # Для оценки

# 1. Генерация Синтетических Данных
n_samples = 300
n_features = 2
n_clusters = 4 # Задаем истинное число кластеров для генерации
random_state = 42

X, y_true = make_blobs(n_samples=n_samples,
                       n_features=n_features,
                       centers=n_clusters,
                       cluster_std=0.8, # Стандартное отклонение внутри кластера
                       random_state=random_state)

# print(f"Generated data shape: X={X.shape}, y_true={y_true.shape}")
# print("Sample X:\n", X[:5])
# print("True labels (first 10):", y_true[:10]) # Истинные метки (мы их не будем использовать для обучения)

# Визуализация исходных данных
# plt.figure(figsize=(8, 6))
# plt.scatter(X[:, 0], X[:, 1], c=y_true, s=50, cmap='viridis') # Раскрасим по истинным меткам для наглядности
# plt.title("Сгенерированные данные для кластеризации")
# plt.xlabel("Признак 1")
# plt.ylabel("Признак 2")
# plt.grid(True)
# plt.show()

# 2. Масштабирование Данных (Важно для K-Means)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# print("\nScaled data sample (first 5):\n", X_scaled[:5])

# 3. Обучение Модели K-Means
k = n_clusters # Мы знаем истинное K, но в реальности его нужно подбирать (метод локтя, силуэт)
kmeans = KMeans(n_clusters=k, random_state=random_state, n_init=10) # n_init=10 для стабильности

# print(f"\nTraining K-Means with k={k}...")
kmeans.fit(X_scaled)
# print("Training complete.")

# Получаем результаты
cluster_labels = kmeans.labels_ # Метки кластеров, присвоенные каждой точке
centroids = kmeans.cluster_centers_ # Координаты центроидов
inertia = kmeans.inertia_ # Сумма квадратов расстояний до ближайшего центроида

# print(f"\nCluster labels assigned (first 10): {cluster_labels[:10]}")
# print(f"Centroid coordinates:\n{centroids}")
# print(f"Inertia (Within-cluster sum-of-squares): {inertia:.2f}")

# 4. Оценка Качества Кластеризации (без истинных меток)
silhouette_avg = silhouette_score(X_scaled, cluster_labels)
print(f"\nSilhouette Score: {silhouette_avg:.4f}") # Ближе к 1 - лучше

# 5. Визуализация Результатов Кластеризации
# plt.figure(figsize=(8, 6))
# # Раскрашиваем точки по предсказанным меткам кластеров
# plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=cluster_labels, s=50, cmap='viridis', label='Data Points')
# # Рисуем центроиды
# plt.scatter(centroids[:, 0], centroids[:, 1], s=200, c='red', marker='X', label='Centroids')
# plt.title(f"K-Means Clustering Results (k={k}, Silhouette={silhouette_avg:.2f})")
# plt.xlabel("Масштабированный Признак 1")
# plt.ylabel("Масштабированный Признак 2")
# plt.legend()
# plt.grid(True)
# plt.show()

# --- Конец Примера ---

# --------------------------------------------------

In [None]:
# Блок 1: Введение в Метод Главных Компонент (PCA - Principal Component Analysis)

# Что такое PCA?
# PCA - это один из самых популярных методов обучения без учителя для
# **снижения размерности** (dimensionality reduction).
# Это линейный метод преобразования данных, который находит новое
# координатное пространство, где оси (называемые **главными компонентами**)
# выровнены вдоль направлений максимальной **дисперсии** (variance) данных.

# Цель PCA:
# 1. Уменьшить количество признаков (столбцов) в наборе данных, сохраняя
#    при этом как можно больше исходной информации (дисперсии).
# 2. Создать новые, некоррелированные признаки (главные компоненты) из
#    линейных комбинаций исходных признаков.
# 3. Упростить данные для визуализации, хранения или последующего использования
#    в других моделях машинного обучения.

# Ключевая Идея:
# PCA предполагает, что направления с наибольшей дисперсией содержат
# наиболее важную информацию о структуре данных. Он находит эти направления
# и проецирует исходные данные на подпространство, образованное
# несколькими первыми (наиболее важными) главными компонентами.

# --------------------------------------------------

# Блок 2: Зачем Использовать PCA? (Применения)

# 1. Снижение Размерности:
#    - Уменьшение вычислительной сложности моделей ML (меньше признаков -> быстрее обучение).
#    - Борьба с "проклятием размерности" (curse of dimensionality), когда
#      слишком много признаков при ограниченном количестве данных ухудшают модель.
#    - Упрощение модели, иногда улучшение обобщающей способности за счет удаления шума.
# 2. Визуализация Данных:
#    - Уменьшение размерности данных до 2 или 3 позволяет визуализировать
#      многомерные данные на плоскости или в пространстве, чтобы увидеть
#      структуру, кластеры, выбросы.
# 3. Шумоподавление:
#    - Предполагается, что компоненты с малой дисперсией соответствуют шуму.
#      Отбрасывая эти компоненты, можно "очистить" данные.
# 4. Извлечение Признаков (Feature Extraction):
#    - Главные компоненты можно рассматривать как новые, синтетические признаки,
#      которые могут быть более информативными и менее коррелированными, чем исходные.
# 5. Сжатие Данных:
#    - Уменьшение размерности приводит к уменьшению объема данных для хранения.

# --------------------------------------------------

# Блок 3: Как Работает PCA (Интуиция и Концепции)

# 1. Дисперсия (Variance):
#    - Мера разброса данных вдоль определенного направления. PCA ищет оси,
#      вдоль которых этот разброс максимален.
# 2. Ковариация (Covariance):
#    - Мера того, как две переменные изменяются вместе. PCA использует
#      ковариационную матрицу (или матрицу корреляций) для анализа
#      взаимосвязей между исходными признаками.
# 3. Главные Компоненты (Principal Components - PCs):
#    - Это новые оси в пространстве данных.
#    - Они являются **линейными комбинациями** исходных признаков.
#    - Они **ортогональны** друг другу (некоррелированы).
#    - Они упорядочены по убыванию объясняемой ими дисперсии:
#      - PC1 объясняет наибольшую долю дисперсии данных.
#      - PC2 объясняет наибольшую долю *оставшейся* дисперсии, будучи ортогональной PC1.
#      - PC3 объясняет наибольшую долю *оставшейся* дисперсии, будучи ортогональной PC1 и PC2, и т.д.
# 4. Собственные Векторы и Собственные Значения (Eigenvectors & Eigenvalues):
#    - Математическая основа PCA.
#    - Собственные векторы ковариационной матрицы данных определяют **направления** главных компонент.
#    - Соответствующие им собственные значения определяют **величину дисперсии** данных вдоль этих направлений.
#    - Главные компоненты - это собственные векторы, отсортированные по убыванию собственных значений.
# 5. Проекция (Projection):
#    - После нахождения главных компонент (новых осей), исходные данные
#      проецируются на подпространство, образованное выбранным количеством
#      первых (наиболее важных) главных компонент. Это и есть процесс
#      снижения размерности.

# --------------------------------------------------

# Блок 4: Математические Шаги (Концептуально)

# 1. **Стандартизация Данных:**
#    - **Критически важный шаг!** PCA чувствителен к масштабу признаков.
#    - Необходимо привести все признаки к одному масштабу, обычно путем
#      стандартизации (вычитание среднего и деление на стандартное отклонение),
#      чтобы каждый признак имел среднее 0 и дисперсию 1.
# 2. **Вычисление Ковариационной Матрицы:**
#    - Рассчитать ковариационную матрицу стандартизированных данных \( \Sigma \).
#      Размер матрицы будет `(n_features, n_features)`.
# 3. **Вычисление Собственных Векторов и Значений:**
#    - Найти собственные векторы \( v \) и собственные значения \( \lambda \)
#      ковариационной матрицы: \( \Sigma v = \lambda v \).
# 4. **Сортировка:**
#    - Отсортировать собственные значения по убыванию (\( \lambda_1 \ge \lambda_2 \ge ... \)).
#    - Отсортировать соответствующие собственные векторы в том же порядке.
# 5. **Выбор Главных Компонент:**
#    - Выбрать первые `k` собственных векторов (где `k` - желаемая новая размерность),
#      соответствующих `k` наибольшим собственным значениям.
#    - Эти `k` векторов образуют матрицу проекции \( W \) размером `(n_features, k)`.
# 6. **Трансформация Данных:**
#    - Спроецировать стандартизированные исходные данные \( X_{std} \) на новое
#      подпространство с помощью матрицы проекции:
#      $$ X_{pca} = X_{std} W $$
#    - \( X_{pca} \) - это данные в новом пространстве главных компонент,
#      имеющие размерность `(n_samples, k)`.

# --------------------------------------------------

# Блок 5: Реализация в Scikit-learn

# Основной класс: `sklearn.decomposition.PCA`

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler # Для обязательного масштабирования

# --- Инициализация ---
# pca = PCA(n_components=...)

# Параметр `n_components`:
# - `int`: Задать конкретное число компонент (например, `n_components=2`).
# - `float` (от 0 до 1): Задать долю дисперсии, которую нужно сохранить
#   (например, `n_components=0.95` сохранит компоненты, объясняющие 95% дисперсии).
# - `None`: Сохранить все компоненты (`min(n_samples, n_features)`).
# - `'mle'`: Использовать оценку максимального правдоподобия для выбора размерности.

# --- Обучение и Трансформация ---
# scaler = StandardScaler()
# X_scaled = scaler.fit_transform(X_raw) # X_raw - исходные данные

# pca = PCA(n_components=2)
# pca.fit(X_scaled) # Обучение PCA (находит компоненты)
# X_pca = pca.transform(X_scaled) # Применение преобразования

# Или одной командой:
# X_pca = pca.fit_transform(X_scaled)

# --- Атрибуты Обученной Модели ---
# - `pca.components_`: Массив формы `(n_components, n_features)`.
#   Строки - это главные компоненты (собственные векторы).
# - `pca.explained_variance_`: Массив формы `(n_components,)`.
#   Объясненная дисперсия для каждой компоненты (собственные значения).
# - `pca.explained_variance_ratio_`: Массив формы `(n_components,)`.
#   Доля дисперсии, объясняемая каждой компонентой. Сумма по всем компонентам = 1.
# - `pca.singular_values_`: Сингулярные значения (связаны с explained_variance_).
# - `pca.mean_`: Средние значения признаков (если стандартизация делалась внутри PCA, что не рекомендуется).
# - `pca.n_components_`: Итоговое количество выбранных компонент.

# --- Обратное Преобразование ---
# Можно попытаться восстановить данные в исходном пространстве (с потерей информации).
# X_reconstructed = pca.inverse_transform(X_pca)
# # X_reconstructed будет иметь ту же размерность, что и X_scaled, но будет приближением.

# --------------------------------------------------

# Блок 6: Преимущества и Недостатки PCA

# Преимущества:
# + **Простота и Скорость:** Алгоритм основан на стандартных линейных операциях (SVD), обычно работает быстро.
# + **Детерминированность:** Результат всегда одинаков для одних и тех же данных.
# + **Ортоганальность Компонент:** Новые признаки (главные компоненты) некоррелированы, что может быть полезно для некоторых моделей ML.
# + **Эффективен для Линейных Структур:** Хорошо работает, когда основные зависимости в данных линейны.

# Недостатки:
# - **Чувствительность к Масштабу:** **Обязательно** требует масштабирования/стандартизации данных.
# - **Линейность:** Не способен улавливать сложные нелинейные структуры в данных. Для этого нужны нелинейные методы (Kernel PCA, t-SNE, UMAP, Autoencoders).
# - **Интерпретируемость Компонент:** Главные компоненты являются линейными комбинациями исходных признаков и часто теряют интуитивную интерпретируемость. Сложно сказать, что означает PC1 или PC2 в терминах исходных признаков.
# - **Потеря Информации:** Снижение размерности всегда сопряжено с некоторой потерей информации (дисперсии).
# - **Чувствительность к Выбросам:** Так как PCA максимизирует дисперсию, выбросы могут сильно влиять на направления главных компонент.

# --------------------------------------------------

# Блок 7: Важные Соображения

# 1. **Масштабирование Данных:** Повторимся - это **самый важный** шаг перед применением PCA. Используйте `StandardScaler`.
# 2. **Выбор `n_components`:**
#    - **Визуализация:** Обычно выбирают `n_components=2` или `n_components=3`.
#    - **Сохранение Дисперсии:** Часто выбирают `n_components` так, чтобы сохранить определенный процент дисперсии (например, 90%, 95%, 99%). Можно построить график кумулятивной объясненной дисперсии (`np.cumsum(pca.explained_variance_ratio_)`) от числа компонент и найти "локоть" или точку, где достигается нужный процент.
#    - **Для Моделей ML:** Иногда подбирают `n_components` как гиперпараметр с помощью кросс-валидации, чтобы максимизировать производительность последующей модели.
# 3. **Интерпретация:** Помните, что главные компоненты - это абстрактные направления. Анализ весов в `pca.components_` может дать некоторое представление о вкладе исходных признаков в каждую компоненту, но интерпретация остается сложной.

# --------------------------------------------------

# Блок 8: Пример Задачи и Решения (Визуализация Рукописных Цифр)

# --- Условие Задачи ---
# Задача: Использовать PCA для снижения размерности датасета рукописных цифр
# (Digits dataset, 64 признака - 8x8 пикселей) до 2 измерений и визуализировать
# результат, чтобы увидеть, разделяются ли классы цифр в новом пространстве.

# --- Решение (Полный Код) ---

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 1. Загрузка Данных
digits = load_digits()
X = digits.data # Признаки (64 пикселя)
y = digits.target # Метки (цифры от 0 до 9)
n_samples, n_features = X.shape
n_digits = len(np.unique(y))

# print(f"Dataset shape: {X.shape}")
# print(f"Number of unique digits: {n_digits}")
# print(f"Sample data point (first digit, flattened): {X[0]}")

# 2. Масштабирование Данных (ОБЯЗАТЕЛЬНО!)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# print(f"\nMean after scaling (should be close to 0): {X_scaled.mean():.2f}")
# print(f"Std dev after scaling (should be close to 1): {X_scaled.std():.2f}")

# 3. Применение PCA для снижения до 2 компонент
n_components_pca = 2
pca = PCA(n_components=n_components_pca, random_state=42)

# print(f"\nApplying PCA to reduce dimensions to {n_components_pca}...")
X_pca = pca.fit_transform(X_scaled)
# print("PCA transformation complete.")
# print(f"Shape after PCA: {X_pca.shape}") # (n_samples, n_components_pca)

# 4. Анализ Объясненной Дисперсии
# print(f"\nExplained variance ratio by component: {pca.explained_variance_ratio_}")
# print(f"Total explained variance by {n_components_pca} components: {np.sum(pca.explained_variance_ratio_):.4f}")
# # Увидим, что 2 компоненты объясняют лишь часть всей дисперсии

# 5. Визуализация Результатов
# plt.figure(figsize=(10, 8))
# scatter = plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap=plt.cm.get_cmap("jet", n_digits), alpha=0.7, s=15)
# plt.title(f'Digits Dataset PCA Projection ({n_components_pca} Components)')
# plt.xlabel('Principal Component 1')
# plt.ylabel('Principal Component 2')
# plt.legend(handles=scatter.legend_elements()[0], labels=digits.target_names, title="Digits")
# plt.grid(True)
# plt.show()
# # На графике должно быть видно, что разные цифры образуют относительно разделенные кластеры
# # даже в 2D пространстве, полученном с помощью PCA.

# 6. (Опционально) График для выбора n_components
# pca_full = PCA(random_state=42) # PCA со всеми компонентами
# pca_full.fit(X_scaled)
# explained_variance_cumulative = np.cumsum(pca_full.explained_variance_ratio_)
#
# plt.figure(figsize=(8, 5))
# plt.plot(range(1, len(explained_variance_cumulative) + 1), explained_variance_cumulative, marker='.', linestyle='--')
# plt.xlabel('Number of Components')
# plt.ylabel('Cumulative Explained Variance Ratio')
# plt.title('Explained Variance by Number of PCA Components')
# plt.grid(True)
# # Добавим линии для 95% и 99% дисперсии
# plt.axhline(y=0.95, color='r', linestyle=':', label='95% Explained Variance')
# plt.axhline(y=0.99, color='g', linestyle=':', label='99% Explained Variance')
# plt.legend(loc='best')
# plt.show()
# # Этот график помогает определить, сколько компонент нужно для сохранения нужной доли информации.

# --- Конец Примера ---

# --------------------------------------------------


In [None]:
# Блок 1: Зачем Нужно Масштабирование Признаков (Feature Scaling)?

# Что такое Масштабирование Признаков?
# Это процесс преобразования числовых признаков в наборе данных так, чтобы они
# находились в определенном, общем диапазоне или имели определенные статистические свойства.

# Зачем это Нужно?
# Многие алгоритмы машинного обучения чувствительны к масштабу входных признаков.
# Признаки с большими значениями могут оказывать непропорционально большое влияние
# на результат обучения и предсказания по сравнению с признаками с малыми значениями.
# Масштабирование помогает:
# 1. Улучшить Сходимость Алгоритмов: Особенно для тех, что используют градиентный спуск
#    (например, Линейная/Логистическая регрессия, Нейронные сети). Сходимость будет быстрее и стабильнее.
# 2. Улучшить Производительность Моделей: Для алгоритмов, основанных на расстоянии
#    (например, K-Means, KNN, SVM с некоторыми ядрами) или использующих регуляризацию (Ridge, Lasso),
#    масштабирование критически важно, так как расстояние или штрафы будут зависеть от масштаба.
# 3. Обеспечить Равный Вклад Признаков: Предотвращает доминирование признаков с большими значениями.
# 4. Необходимость для PCA: PCA ищет направления максимальной дисперсии, поэтому он очень
#    чувствителен к масштабу исходных признаков.

# Какие Алгоритмы Менее Чувствительны?
# - Деревья Решений и Ансамбли на их основе (Random Forest, Gradient Boosting):
#   Они работают путем поиска порогов для разбиения по каждому признаку независимо,
#   поэтому масштаб обычно не влияет на их производительность. Масштабирование
#   для них, как правило, не требуется (и иногда может даже немного ухудшить результат).

# --------------------------------------------------

# Блок 2: StandardScaler

# Принцип Работы:
# Стандартизация преобразует данные так, чтобы они имели **среднее значение 0**
# и **стандартное отклонение 1**.
# Формула для каждого признака \( x_j \):
# $$ z_j = \frac{x_j - \mu_j}{\sigma_j} $$
# Где:
# - \( z_j \) - стандартизированное значение признака.
# - \( x_j \) - исходное значение признака.
# - \( \mu_j \) - среднее значение признака \( j \) (вычисленное на обучающих данных).
# - \( \sigma_j \) - стандартное отклонение признака \( j \) (вычисленное на обучающих данных).

# Результат:
# - Данные центрированы вокруг нуля.
# - Распределение данных сохраняется (форма гистограммы не меняется).
# - Диапазон значений не ограничен строго (могут быть значения > 1 или < -1).

# Когда Использовать:
# - Когда данные имеют распределение, близкое к нормальному (Гауссову), хотя это не строгое требование.
# - Для алгоритмов, которые предполагают, что признаки центрированы около нуля или имеют единичную дисперсию (например, Линейная регрессия с регуляризацией, SVM, PCA, Нейронные сети).
# - Менее чувствителен к выбросам по сравнению с MinMaxScaler, так как не использует min/max.

# Реализация в Scikit-learn:
from sklearn.preprocessing import StandardScaler

# scaler_std = StandardScaler()
# # Обучение (вычисление mean и std) и трансформация обучающих данных:
# # X_train_scaled = scaler_std.fit_transform(X_train)
# # Трансформация тестовых/новых данных (используя mean и std от X_train):
# # X_test_scaled = scaler_std.transform(X_test)

# --------------------------------------------------

# Блок 3: MinMaxScaler

# Принцип Работы:
# Нормализация (Min-Max Scaling) масштабирует данные так, чтобы они находились
# в заданном диапазоне, обычно **[0, 1]** (или [-1, 1]).
# Формула для каждого признака \( x_j \) (для диапазона [0, 1]):
# $$ x'_{j} = \frac{x_j - \min(x_j)}{\max(x_j) - \min(x_j)} $$
# Где:
# - \( x'_{j} \) - нормализованное значение признака.
# - \( x_j \) - исходное значение признака.
# - \( \min(x_j) \) - минимальное значение признака \( j \) (на обучающих данных).
# - \( \max(x_j) \) - максимальное значение признака \( j \) (на обучающих данных).

# Результат:
# - Все значения признаков находятся в диапазоне [0, 1] (или другом заданном).
# - Сохраняет форму исходного распределения.
# - Сохраняет относительные расстояния между точками в пределах диапазона.

# Когда Использовать:
# - Когда требуется, чтобы признаки находились в строго определенном диапазоне (например, для некоторых нейронных сетей или визуализаций).
# - Для алгоритмов, не делающих предположений о распределении данных (например, KNN).
# - **Очень чувствителен к выбросам:** Экстремальные значения (min или max) могут сильно "сжать" остальные данные в небольшой части диапазона.

# Реализация в Scikit-learn:
from sklearn.preprocessing import MinMaxScaler

# scaler_minmax = MinMaxScaler(feature_range=(0, 1)) # Диапазон по умолчанию [0, 1]
# # Обучение (вычисление min и max) и трансформация обучающих данных:
# # X_train_scaled = scaler_minmax.fit_transform(X_train)
# # Трансформация тестовых/новых данных (используя min и max от X_train):
# # X_test_scaled = scaler_minmax.transform(X_test)

# --------------------------------------------------

# Блок 4: Как Использовать Скалеры (Workflow)

# **Критически Важный Принцип: Fit только на Обучающих Данных!**
# Параметры масштабирования (среднее/ст.откл. для StandardScaler, min/max для MinMaxScaler)
# должны вычисляться **только** на обучающей выборке (`X_train`).
# Затем эти же вычисленные параметры используются для трансформации и обучающей (`X_train`),
# и валидационной (`X_val`), и тестовой (`X_test`), и новых данных для предсказания.
# Это предотвращает "утечку данных" (data leakage) из тестовой выборки в процесс обучения.

# Шаги:
# 1. Разделить данные на обучающую и тестовую выборки (`train_test_split`).
# 2. Создать экземпляр скалера (`StandardScaler()` или `MinMaxScaler()`).
# 3. Обучить скалер на обучающих данных: `scaler.fit(X_train)`.
# 4. Трансформировать обучающие данные: `X_train_scaled = scaler.transform(X_train)`.
#    (Шаги 3 и 4 можно объединить: `X_train_scaled = scaler.fit_transform(X_train)`).
# 5. Трансформировать тестовые данные (используя параметры, выученные на шаге 3):
#    `X_test_scaled = scaler.transform(X_test)`.
# 6. Обучить модель машинного обучения на `X_train_scaled` и `y_train`.
# 7. Оценить модель на `X_test_scaled` и `y_test`.
# 8. Для предсказания на новых данных: `X_new_scaled = scaler.transform(X_new)`, затем `model.predict(X_new_scaled)`.

# --------------------------------------------------

# Блок 5: Обратное Преобразование (Inverse Transformation)

# Зачем Нужно?
# Иногда после получения предсказаний от модели, обученной на масштабированных данных,
# или после применения методов типа PCA, может потребоваться вернуть данные
# (или результаты) обратно в исходный масштаб для:
# - Интерпретации результатов (например, предсказанная цена в долларах, а не в стандартизированных единицах).
# - Сравнения с исходными данными.
# - Визуализации в исходном масштабе.

# Как Сделать?
# Обученные скалеры (`StandardScaler`, `MinMaxScaler`) имеют метод `inverse_transform()`.
# Он использует параметры, вычисленные во время `fit()` (среднее/ст.откл. или min/max),
# чтобы выполнить обратное математическое преобразование.

# Пример:
# # Предположим, scaler был обучен на X_train
# # X_train_scaled = scaler.fit_transform(X_train)
# # X_test_scaled = scaler.transform(X_test)

# # Обратное преобразование масштабированных данных
# X_train_original_scale = scaler.inverse_transform(X_train_scaled)
# X_test_original_scale = scaler.inverse_transform(X_test_scaled)

# # X_train_original_scale должен быть (почти) идентичен X_train
# # X_test_original_scale должен быть (почти) идентичен X_test
# # (Небольшие различия возможны из-за точности вычислений с плавающей точкой)

# # Если у вас есть предсказания Y_pred, сделанные на масштабированных X,
# # и вы хотите вернуть их в исходный масштаб Y (если Y тоже масштабировался),
# # вам нужен скалер, обученный на Y_train:
# # y_scaler = StandardScaler() # или MinMaxScaler
# # y_train_scaled = y_scaler.fit_transform(y_train.reshape(-1, 1)) # reshape для 1D -> 2D
# # ... обучение модели на X_train_scaled -> y_train_scaled ...
# # y_pred_scaled = model.predict(X_test_scaled)
# # y_pred_original_scale = y_scaler.inverse_transform(y_pred_scaled.reshape(-1, 1))

# --------------------------------------------------

# Блок 6: Пример Задачи и Решения (Применение и Обратное Преобразование)

# --- Условие Задачи ---
# Задача: Сгенерировать 2D данные. Разделить их на train/test.
# Применить StandardScaler и MinMaxScaler. Показать результаты масштабирования.
# Затем применить обратное преобразование и убедиться, что данные вернулись к исходному масштабу.

# --- Решение (Полный Код) ---

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import matplotlib.pyplot as plt

# 1. Генерация Синтетических Данных
np.random.seed(42)
data = pd.DataFrame({
    'Feature1': np.random.rand(100) * 100, # Диапазон ~[0, 100]
    'Feature2': np.random.normal(50, 10, 100) # Нормальное распр. mean=50, std=10
})
# print("Original Data Sample (first 5 rows):")
# print(data.head())
# print("\nOriginal Data Description:")
# print(data.describe())

# 2. Разделение Данных
X_train_df, X_test_df = train_test_split(data, test_size=0.25, random_state=42)
# print(f"\nTrain set size: {X_train_df.shape[0]}, Test set size: {X_test_df.shape[0]}")

# 3. Применение StandardScaler
scaler_std = StandardScaler()
# Fit на трейне, transform на трейне и тесте
X_train_std_scaled = scaler_std.fit_transform(X_train_df)
X_test_std_scaled = scaler_std.transform(X_test_df)

# Конвертируем обратно в DataFrame для удобства просмотра
X_train_std_scaled_df = pd.DataFrame(X_train_std_scaled, columns=data.columns, index=X_train_df.index)
X_test_std_scaled_df = pd.DataFrame(X_test_std_scaled, columns=data.columns, index=X_test_df.index)

# print("\n--- StandardScaler Results ---")
# print("Scaled Training Data Sample (first 5 rows):")
# print(X_train_std_scaled_df.head())
# print("\nScaled Training Data Description:")
# print(X_train_std_scaled_df.describe()) # Mean ~0, Std ~1

# 4. Применение MinMaxScaler
scaler_mm = MinMaxScaler(feature_range=(0, 1)) # Диапазон [0, 1]
# Fit на трейне, transform на трейне и тесте
X_train_mm_scaled = scaler_mm.fit_transform(X_train_df)
X_test_mm_scaled = scaler_mm.transform(X_test_df)

X_train_mm_scaled_df = pd.DataFrame(X_train_mm_scaled, columns=data.columns, index=X_train_df.index)
X_test_mm_scaled_df = pd.DataFrame(X_test_mm_scaled, columns=data.columns, index=X_test_df.index)

# print("\n--- MinMaxScaler Results ---")
# print("Scaled Training Data Sample (first 5 rows):")
# print(X_train_mm_scaled_df.head())
# print("\nScaled Training Data Description:")
# print(X_train_mm_scaled_df.describe()) # Min ~0, Max ~1

# 5. Обратное Преобразование (Inverse Transform)
# StandardScaler
X_train_std_inversed = scaler_std.inverse_transform(X_train_std_scaled)
X_test_std_inversed = scaler_std.inverse_transform(X_test_std_scaled)
X_train_std_inversed_df = pd.DataFrame(X_train_std_inversed, columns=data.columns, index=X_train_df.index)

# MinMaxScaler
X_train_mm_inversed = scaler_mm.inverse_transform(X_train_mm_scaled)
X_test_mm_inversed = scaler_mm.inverse_transform(X_test_mm_scaled)
X_train_mm_inversed_df = pd.DataFrame(X_train_mm_inversed, columns=data.columns, index=X_train_df.index)

# print("\n--- Inverse Transform Results ---")
# print("Original Training Data Sample (first 5 rows):")
# print(X_train_df.head())
# print("\nStandardScaler Inversed Training Data Sample (first 5 rows):")
# print(X_train_std_inversed_df.head()) # Должно совпадать с оригиналом
# print("\nMinMaxScaler Inversed Training Data Sample (first 5 rows):")
# print(X_train_mm_inversed_df.head()) # Должно совпадать с оригиналом

# Проверка совпадения (с учетом точности float)
# print("\nCheck if inversed data matches original (StandardScaler):")
# print(np.allclose(X_train_df.values, X_train_std_inversed))
# print("Check if inversed data matches original (MinMaxScaler):")
# print(np.allclose(X_train_df.values, X_train_mm_inversed))

# 6. Визуализация (опционально)
# fig, axes = plt.subplots(1, 3, figsize=(15, 5))
# axes[0].scatter(X_train_df['Feature1'], X_train_df['Feature2'])
# axes[0].set_title('Original Data')
# axes[0].grid(True)
# axes[1].scatter(X_train_std_scaled_df['Feature1'], X_train_std_scaled_df['Feature2'])
# axes[1].set_title('StandardScaler Data')
# axes[1].grid(True)
# axes[2].scatter(X_train_mm_scaled_df['Feature1'], X_train_mm_scaled_df['Feature2'])
# axes[2].set_title('MinMaxScaler Data')
# axes[2].grid(True)
# plt.tight_layout()
# plt.show()

# --- Конец Примера ---

# --------------------------------------------------

# Блок 7: Выбор Между StandardScaler и MinMaxScaler

# - **StandardScaler:**
#   - Предпочтительнее, если алгоритм делает предположения о данных (нулевое среднее, единичная дисперсия), как PCA или линейные модели с регуляризацией.
#   - Менее чувствителен к выбросам.
#   - Не приводит данные к строгому диапазону.
# - **MinMaxScaler:**
#   - Полезен, когда нужен строгий диапазон [0, 1] (например, для обработки изображений, некоторых нейросетей).
#   - Хорош для алгоритмов, не делающих предположений о распределении.
#   - **Сильно подвержен влиянию выбросов.** Если есть выбросы, их лучше обработать до масштабирования или использовать более робастный скалер (например, `RobustScaler` из sklearn, который использует медиану и межквартильный размах).

# Часто стоит попробовать оба скалера и посмотреть, какой дает лучшие результаты для вашей конкретной модели и данных. Не забывайте про `RobustScaler` как альтернативу при наличии выбросов.
# --------------------------------------------------