1. Введение
2. Описание данных
3. Обучение моделей классификации (3.1)
4. Непрерывное обучение и контроль дрейфа (3.2)
5. Прогнозирование динамики рисков (3.3)
6. Итоговые выводы
7. Сохранённые модели и файлы

# Модуль 3. Моделирование и прогнозирование рисков транзакций

## Цель работы

Целью данного модуля является разработка интеллектуального агента,
способного:

- классифицировать транзакции по уровню риска и сложности верификации;
- автоматически переобучаться при поступлении новых данных;
- прогнозировать динамику ключевых финансовых и риск-метрик на горизонте до 1 года.

Решение построено с использованием методов машинного обучения,
временных рядов и механизмов непрерывного обучения.

## Используемые данные

В работе используются транзакционные данные, прошедшие предварительную
разметку на этапе 2.3.

Исходная таблица `transactions_labeled` содержит около 2 млн записей
и включает следующие ключевые признаки:

- `tr_datetime` — дата и время транзакции;
- `amount` — сумма операции;
- `mcc_code` — категория торговой точки;
- `flow` — направление операции (income / spend);
- `risk_level` — уровень риска (low / medium / high);
- `verification_complexity` — сложность верификации.

Наличие исторической информации о рисках позволяет анализировать
и прогнозировать изменение структуры рисков во времени.

## Обучение моделей классификации транзакций

Для классификации транзакций по уровню риска и сложности верификации
были протестированы несколько алгоритмов машинного обучения:

- Logistic Regression;
- Random Forest;
- HistGradientBoostingClassifier.

Для оценки качества использовались метрики:
- Accuracy;
- Recall (macro);
- F1-score (macro);
- ROC-AUC (OvR).

В качестве лучшей модели были выбраны:
- HistGradientBoostingClassifier — для `risk_level`;
- RandomForestClassifier — для `verification_complexity`.

Выбор основан на максимальном значении F1-меры и устойчивом поведении
на отложенной выборке.

## Механизм непрерывного обучения

Для обеспечения актуальности моделей реализован механизм
непрерывного обучения, включающий:

- контроль поступления новых данных;
- проверку дрейфа распределений признаков (PSI);
- автоматическое переобучение моделей при необходимости;
- версионирование моделей и логирование метрик качества.

При каждом запуске система:
1. сравнивает объём новых данных с предыдущим состоянием;
2. оценивает дрейф данных;
3. принимает решение о дообучении или полном переобучении модели;
4. сохраняет новую версию модели и обновляет журнал обучения.

## Прогнозирование динамики рисков и транзакций

На основе агрегированных исторических данных построены прогнозы
на 12 месяцев вперёд для следующих характеристик:

- общий объём транзакций;
- доля высокорисковых операций;
- объёмы операций income и spend;
- доля high-risk транзакций по ключевым MCC-категориям.

Для прогнозирования использовалась модель
HistGradientBoostingRegressor с признаками:
- временной индекс;
- синусоидальные сезонные компоненты;
- лаги значений;
- скользящие средние.

Подход позволяет учитывать сезонность и динамику изменения показателей.

## Выводы

В ходе выполнения модуля была разработана полноценная система
моделирования и прогнозирования рисков транзакций.

Решение позволяет:
- классифицировать транзакции по уровню риска;
- автоматически адаптироваться к новым данным;
- анализировать и прогнозировать изменение структуры рисков;
- выявлять сезонные пики и потенциально опасные категории трат.

Система может быть использована в задачах антифрода,
риск-менеджмента и мониторинга финансовых операций.

## Сохранённые модели и артефакты

В ходе работы были сохранены следующие файлы:

- `models/best_model_risk.joblib` — модель классификации уровня риска;
- `models/best_model_complexity.joblib` — модель сложности верификации;
- `models/versions/` — директория с версиями моделей непрерывного обучения;
- `models/metrics_31.csv` — таблица с метриками моделей;
- `models/training_log.csv` — журнал обучения и дрейфа данных.

Формат хранения моделей: **joblib**.