<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/DL/MLP/%D0%9F%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0_%E2%84%962_%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D1%81%D0%BB%D0%BE%D0%B9%D0%BD%D1%8B%D0%B9_%D0%BF%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD_(MLP).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Практическая работа №2. Многослойный перцептрон (MLP)**

## **Введение**
Цель данной работы заключается в систематическом изучении архитектуры, процесса обучения и применения многослойных перцептронов (MLP) для решения задач регрессии и классификации. Особое внимание уделяется практическим аспектам реализации моделей, анализу их поведения и оптимизации производительности. Работа структурирована таким образом, чтобы охватить ключевые этапы разработки нейронных сетей: от подготовки данных до анализа результатов и интерпретации моделей.



## **Структура работы**

### **Задача 1: Подготовка данных**
1. **Цель**: Подготовить данные для анализа и обучения моделей.
2. **Описание**:
   - Выберите датасет из надежных источников:
     - Kaggle, Yahoo Finance, Hugging Face, UCI Machine Learning Repository, Google Dataset Search, Data.gov, World Bank Open Data, Eurostat, FiveThirtyEight, AWS Open Data Registry, Quandl, OpenML, Figshare, KDD Cup Archives, StatLib Datasets Archive, Reddit Datasets.
   - Загрузите данные из файла (например, CSV) или API.
   - Проведите предварительный анализ данных:
     - Проверьте наличие пропущенных значений. При необходимости заполните их (средним, медианой, KNN).
     - Определите выбросы и аномалии с помощью статистических методов (например, межквартильного размаха) или методов машинного обучения (например, Isolation Forest или DBSCAN).
   - Преобразуйте категориальные признаки в числовые форматы:
     - Примените One-Hot Encoding для номинальных переменных.
     - Используйте Label Encoding для порядковых переменных.
   - Масштабируйте числовые признаки (например, стандартизация или нормализация) для улучшения работы моделей.
   - Разделите данные на обучающую и тестовую выборки (например, в соотношении 80/20). Для временных данных используйте временную кросс-валидацию.
3. **Входные данные**:
   - Набор данных с признаками и целевой переменной.
4. **Выходные данные**:
   - Обучающая и тестовая выборки, готовые для обучения моделей.



### **Задача 2: Feature Engineering**
1. **Цель**: Создать новые признаки для улучшения качества модели.
2. **Описание**:
   - Создайте взаимодействия между признаками (например, произведение двух числовых признаков).
   - Генерируйте полиномиальные признаки (например, квадраты или кубы числовых переменных).
   - Преобразуйте признаки с помощью логарифмов, экспонент или других функций для снижения асимметрии распределения.
   - Для временных рядов:
     - Добавьте оконные признаки (lag features).
     - Проведите проверку стационарности (тест Дики-Фуллера).
   - Примените метод главных компонент (PCA) для снижения размерности.
   - Проверьте мультиколлинеарность между новыми признаками (например, через корреляционную матрицу или VIF).
3. **Входные данные**:
   - Исходные признаки.
4. **Выходные данные**:
   - Новый набор признаков.



### **Задача 3: Анализ корреляции и проверка гипотез**
1. **Цель**: Проанализировать взаимосвязи между признаками и целевой переменной, а также сгенерировать и проверить гипотезы.
2. **Описание**:
   - Постройте корреляционную матрицу для числовых признаков и визуализируйте её с помощью тепловой карты.
   - Проверьте статистические гипотезы:
     - Например, проверьте гипотезу о равенстве средних значений целевой переменной для различных групп (t-тест или ANOVA).
     - Проверьте гипотезу о нормальности распределения признаков (тест Шапиро-Уилка или Колмогорова-Смирнова).
   - Оцените зависимость между категориальными и числовыми признаками (например, тест Краскела-Уоллиса).
3. **Входные данные**:
   - Набор данных с признаками и целевой переменной.
4. **Выходные данные**:
   - Корреляционная матрица, результаты статистических тестов.



### **Задача 4: Подготовка данных для MLP**
1. **Цель**: Обеспечить корректную предобработку данных для повышения эффективности обучения нейронной сети.
2. **Описание**:
   - **Обработка несбалансированных данных**:
     - Внедрение весовых коэффициентов (`class_weight`) в функцию потерь для коррекции дисбаланса классов.
     - Применение методов ресемплинга, таких как SMOTE (Synthetic Minority Over-sampling Technique) и ADASYN (Adaptive Synthetic Sampling), для генерации синтетических примеров миноритарного класса.
   - **Обработка временных рядов**:
     - Создание оконных признаков (lag features) для учета временных зависимостей.
     - Проверка стационарности временных рядов с использованием теста Дики-Фуллера (ADF-test).
   - **Нормализация данных**:
     - Применение `MinMaxScaler` для нормализации данных изображений в диапазоне [0, 1].
     - Использование `StandardScaler` для центрирования и масштабирования табличных данных.
     - Разработка кастомных методов нормализации для временных рядов с учетом их специфики.
3. **Входные данные**:
   - Обучающая и тестовая выборки.
4. **Выходные данные**:
   - Предобработанные данные, готовые для обучения MLP.



### **Задача 5: Построение и анализ архитектуры MLP**
1. **Цель**: Исследовать влияние структурных параметров сети на её производительность.
2. **Описание**:
   - **Сравнительный анализ функций активации**:
     | Функция        | Область применения                  | Преимущества                              | Недостатки                                |
     |-|-|-|-|
     | ReLU           | Скрытые слои                       | Быстрая сходимость, простота вычислений    | Проблема "умирающих" нейронов             |
     | LeakyReLU      | При проблемах с ReLU               | Устраняет проблему "умирания"             | Требует настройки дополнительного параметра |
     | Sigmoid        | Выходной слой (бинарная классификация) | Интерпретируемый вывод                     | Проблемы с градиентами (vanishing gradient) |
   - **Практическое задание**: Сравнение производительности сетей с различной глубиной (3 vs 5 слоёв) на основе метрик точности и скорости обучения.
3. **Входные данные**:
   - Предобработанные данные.
4. **Выходные данные**:
   - Обученные модели MLP с различной архитектурой.



### **Задача 6: Методы оптимизации и анализ градиентов**
1. **Цель**: Изучить различные подходы к оптимизации MLP и их влияние на сходимость модели.
2. **Описание**:
   - **Сравнение оптимизаторов**:
     ```python
     optimizers = {
         'SGD': {'lr': 0.01, 'momentum': 0.9},
         'Adam': {'lr': 0.001},
         'RMSprop': {'lr': 0.001, 'rho': 0.9}
     }
     ```
   - **Практикум по вычислению градиентов**:
     - Аналитический расчёт градиентов для функции потерь MSE.
     - Численные методы (конечные разности) для проверки корректности аналитического расчёта.
     - Автоматическое дифференцирование с использованием PyTorch Autograd.
   - **Визуализация**:
     - 3D-график поверхности функции потерь для анализа ландшафта ошибок.
     - Визуализация траекторий оптимизаторов в пространстве параметров для сравнения их поведения.
3. **Входные данные**:
   - Обучающая выборка.
4. **Выходные данные**:
   - Реализованные алгоритмы вычисления градиента, графики сходимости.



### **Задача 7: Регуляризация и борьба с переобучением**
1. **Цель**: Освоить современные методы улучшения обобщающей способности модели.
2. **Описание**:
   - **Сравнительная таблица методов регуляризации**:
     | Метод          | Параметры          | Эффективность | Влияние на скорость обучения |
     |-|--||--|
     | L2             | λ=0.01             | +++           | +                           |
     | Dropout        | p=0.5              | ++++          | ++                          |
     | Early Stopping | patience=5         | +++           | -                           |
   - **Практическое задание**: Реализация комбинированной регуляризации:
     ```python
     model.add(Dense(64, activation='relu', kernel_regularizer=l2(0.01)))
     model.add(Dropout(0.3))
     model.add(BatchNormalization())
     ```
3. **Входные данные**:
   - Переобучающаяся модель.
4. **Выходные данные**:
   - Улучшенная модель с применением регуляризации.



### **Задача 8: Оценка качества и интерпретация**
1. **Цель**: Комплексно оценить результаты моделирования и интерпретировать поведение модели.
2. **Описание**:
   - **Детализированные метрики**:
     - Для задач классификации: построение Precision-Recall кривых и ROC-кривых.
     - Для задач регрессии: анализ Q-Q plots остатков для проверки нормальности распределения ошибок.
   - **Интерпретация моделей**:
     - Использование SHAP-значений для анализа важности признаков.
     - Применение метода LIME для локальной интерпретации предсказаний.
     - Визуализация градиентов для анализа чувствительности модели к входным данным.
3. **Входные данные**:
   - Обученная модель, тестовые данные.
4. **Выходные данные**:
   - Графики и метрики интерпретации.



### **Задача 9: Продвинутые техники и оптимизация**
1. **Цель**: Изучить профессиональные подходы к работе с MLP.
2. **Описание**:
   - **Автоматизация ML-пайплайнов**:
     - Использование TensorBoard для мониторинга процесса обучения.
     - Применение MLflow для управления экспериментами и версионирования моделей.
   - **Оптимизация гиперпараметров**:
     ```python
     param_grid = {
         'hidden_layers': [2, 3],
         'units': [32, 64, 128],
         'dropout_rate': [0.2, 0.3]
     }
     ```
   - **Этический анализ**:
     - Выявление предвзятости (bias) в предсказаниях модели.
     - Методы обеспечения fairness, такие как адаптивная коррекция весов классов.
3. **Входные данные**:
   - Данные и параметры модели.
4. **Выходные данные**:
   - Автоматизированный пайплайн, логи экспериментов.



### **Задача 10: Анализ результатов и выбор модели**
1. **Цель**: Выбрать лучшую модель на основе проведенного анализа.
2. **Описание**:
   - Сравните метрики качества всех моделей (MAE, MSE, RMSE, R²).
   - Проанализируйте результаты диагностики остатков (случайность, нормальность).
   - Предложите дальнейшие шаги для улучшения моделей:
     - Добавление новых признаков.
     - Использование более сложных алгоритмов (например, градиентный бустинг).
     - Устранение мультиколлинеарности и переобучения.
   - Проверьте модель на внешних данных для оценки обобщающей способности.
3. **Входные данные**:
   - Результаты всех предыдущих задач.
4. **Выходные данные**:
   - Рекомендации по выбору модели и улучшению её производительности.



## **Рекомендации по отчету**
1. **Раздел данных**:
   - Описание датасета: краткая информация о данных, их источнике и признаках.
   - Визуализация результатов EDA (Exploratory Data Analysis):
     - Распределение целевой переменной и основных признаков.
     - Корреляционная матрица или тепловая карта.
     - Выбросы, пропущенные значения и аномалии (с визуализацией, например, boxplot или scatter plot).
2. **Методология**:
   - Схема preprocessing pipeline:
     - Этапы предобработки данных (например, заполнение пропусков, масштабирование, кодирование категориальных признаков).
     - Использованные инструменты (например, `Pipeline` из `sklearn`).
   - Обоснование выбора моделей:
     - Почему выбраны конкретные модели (например, линейная регрессия, Lasso, Ridge, нелинейные модели).
     - Какие гиперпараметры были оптимизированы.
3. **Результаты**:
   - Сравнительная таблица метрик:
     - MAE, MSE, RMSE, R², sMAPE, MASE (или другие метрики, если применимо).
     - Укажите лучшую модель на основе метрик.
   - Интерпретация лучшей модели:
     - Важность признаков (например, коэффициенты регрессии для линейных моделей, SHAP-значения для сложных моделей).
     - Анализ ошибок модели (например, случаи завышения/занижения прогнозов).



## **Критерии оценки**
1. **Полнота реализации** (30%):
   - Все запланированные эксперименты проведены.
   - Использованы различные архитектуры и методы.
2. **Глубина анализа** (25%):
   - Качественное сравнение методов.
   - Обоснованные выводы.
3. **Техническая корректность** (20%):
   - Правильное применение методов.
   - Отсутствие методологических ошибок.
4. **Визуализация** (15%):
   - Читаемые графики.
   - Информативные таблицы.
5. **Оформление** (10%):
   - Структурированный отчёт.
   - Формальное представление результатов.



## **Рекомендуемые инструменты**
- **Фреймворки**: PyTorch, TensorFlow/Keras.
- **Визуализация**: Matplotlib, Seaborn, Plotly.
- **Оптимизация**: Optuna, Hyperopt.
- **Логирование**: MLflow, TensorBoard.

**Примечание**: В процессе выполнения работы рекомендуется уделять особое внимание документированию каждого этапа и сохранению промежуточных результатов для последующего анализа.