# 02_Evaluate.ipynb

**Оценка и анализ сохранённой uplift-модели**

**Все пути, параметры и пороги берутся из config/params2.yml**

**MLOps-подход**: ноутбук работает только с артефактами из `01_EDA_and_Train.ipynb` — модель, препроцессор, метрики, данные.

## 1. Импорт библиотек и загрузка конфигурации

In [1]:
import yaml
import json
import joblib
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

# === Загрузка конфигурации ===
config_path = Path('../config/params2.yml')  # адаптируй при необходимости

if not config_path.exists():
    raise FileNotFoundError(f"Конфиг не найден: {config_path.resolve()}")

with open(config_path, 'r', encoding='utf-8') as f:
    config = yaml.safe_load(f)

print("Конфигурация успешно загружена из params2.yml")
print(f"Путь к моделям: {config['folders']['models']}")
print(f"Путь к отчётам: {config['folders']['report']}")
print(f"Путь к обработанным данным: {config['data']['processed_path']}")

Конфигурация успешно загружена из params2.yml
Путь к моделям: models/
Путь к отчётам: report/
Путь к обработанным данным: data/processed/


## 2. Загрузка модели, препроцессора и отчётов

In [2]:
# Пути из конфига
model_path = Path(config['folders']['models']) / 'uplift_model.joblib'
preprocessor_path = Path(config['folders']['models']) / 'preprocessor.joblib'
metrics_path = Path(config['folders']['report']) / 'metrics.json'
best_params_path = Path(config['folders']['report']) / 'best_params.json'

# Загрузка uplift-модели (X-Learner)
if model_path.exists():
    uplift_model = joblib.load(model_path)
    print(f"Uplift-модель загружена из {model_path}")
else:
    raise FileNotFoundError(f"Модель не найдена: {model_path}")

# Загрузка препроцессора
if preprocessor_path.exists():
    preprocessor = joblib.load(preprocessor_path)
    print(f"Препроцессор загружен из {preprocessor_path}")
else:
    raise FileNotFoundError(f"Препроцессор не найден: {preprocessor_path}")

# Загрузка метрик и параметров
if metrics_path.exists():
    with open(metrics_path, 'r') as f:
        metrics = json.load(f)
    print("\nМетрики из обучения:")
    print(f"AUUC: {metrics.get('AUUC', 'N/A')}")
else:
    print(f"Метрики не найдены: {metrics_path}")
    metrics = {}

if best_params_path.exists():
    with open(best_params_path, 'r') as f:
        best_params = json.load(f)
    print("\nЛучшие параметры модели:")
    print(best_params)
else:
    print(f"Параметры не найдены: {best_params_path}")
    best_params = {}

FileNotFoundError: Модель не найдена: models/uplift_model.joblib

## 3. Загрузка тестовых данных

In [None]:
test_file_path = Path(config['data']['processed_path']) / config['data']['test_file']

if test_file_path.exists():
    df_test = pd.read_csv(test_file_path)
    print(f"Тестовые данные загружены: {df_test.shape[0]} строк")
    display(df_test.head())
else:
    raise FileNotFoundError(f"Тестовые данные не найдены: {test_file_path}")

## 4. Предсказание uplift_score

In [None]:
# Подготовка признаков (исключаем служебные колонки)
feature_cols = [col for col in df_test.columns if col not in ['conversion', 'treatment', 'offer']]
X_test = preprocessor.transform(df_test[feature_cols])

# Предсказание uplift через X-Learner
prop_score = uplift_model['prop_model'].predict_proba(X_test)[:, 1]
effect_t = uplift_model['effect_t'].predict(X_test)
effect_c = uplift_model['effect_c'].predict(X_test)

uplift_pred = prop_score * effect_t + (1 - prop_score) * effect_c
uplift_pred = np.clip(uplift_pred, -0.15, 0.30)

# Результаты
results = df_test.copy()
results['uplift_score'] = uplift_pred

print("Предсказания завершены")
print("Топ-10 клиентов по uplift_score:")
display(results.sort_values('uplift_score', ascending=False).head(10)[['recency', 'history', 'uplift_score', 'conversion']])

## 5. Анализ топ-клиентов (порог из конфига или метрик)

In [None]:
# Порог топ-клиентов (по умолчанию 5%, можно добавить в конфиг)
top_fraction = config.get('train', {}).get('top_target_gain', 0.9)  # если используется 90% прироста
top_fraction = metrics.get('top_fraction_90', 0.05)  # fallback из метрик

top_n = int(len(results) * top_fraction)
top_clients = results.nlargest(top_n, 'uplift_score')

print(f"\nАнализ топ {top_fraction:.1%} клиентов ({top_n} человек):")
print(f"Средний uplift_score: {top_clients['uplift_score'].mean():.4f}")
print(f"Конверсия в топе: {top_clients['conversion'].mean():.4f} (vs общая: {results['conversion'].mean():.4f})")

# Профиль
profile_cols = config['features']['categorical'] + ['recency', 'history']
print("\nПрофиль топ-клиентов (среднее):")
print(top_clients[profile_cols].mean().round(2))

# Сохранение
output_csv = f'top_clients_{top_fraction:.1%}.csv'
top_clients.to_csv(output_csv, index=False)
print(f"\nСписок сохранён: {output_csv}")

## 6. Qini-кривая

In [None]:
order = np.argsort(-uplift_pred)
y_sorted = np.asarray(results['conversion'])[order]
t_sorted = np.asarray(results['treatment'])[order]

cum_treated = np.cumsum(t_sorted)
cum_control = np.cumsum(1 - t_sorted)
cum_response_t = np.cumsum(y_sorted * t_sorted) / np.maximum(cum_treated, 1)
cum_response_c = np.cumsum(y_sorted * (1 - t_sorted)) / np.maximum(cum_control, 1)
cum_uplift = cum_response_t - cum_response_c
treated_fraction = cum_treated / cum_treated[-1] if cum_treated[-1] > 0 else np.zeros(len(cum_uplift))

plt.figure(figsize=(11, 7))
plt.plot(treated_fraction, cum_uplift, label='Модель', linewidth=3, color='blue')
plt.plot([0, 1], [0, cum_uplift[-1]], 'k--', label='Идеальная')
plt.plot([0, 1], [0, 0], 'k-', label='Случайная')
plt.title(f'Qini-кривая | AUUC = {metrics.get("AUUC", "N/A")}')
plt.xlabel('Доля клиентов с коммуникацией')
plt.ylabel('Кумулятивный прирост')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

## 7. Симуляция ROI (параметры из конфига)

In [None]:
cost_per_contact = config.get('roi', {}).get('cost_per_contact', 5)
profit_per_conversion = config.get('roi', {}).get('profit_per_conversion', 2000)

# Базлайн
baseline_conversions = results['conversion'].sum()
baseline_cost = len(results) * cost_per_contact
baseline_profit = baseline_conversions * profit_per_conversion

# Uplift-стратегия (топ 10%)
top_10_n = int(len(results) * 0.1)
top_10_conversions = results.nlargest(top_10_n, 'uplift_score')['conversion'].sum()
uplift_cost = top_10_n * cost_per_contact
uplift_profit = top_10_conversions * profit_per_conversion

print("\nСимуляция ROI:")
print(f"Базлайн (всем): конверсий {baseline_conversions}, прибыль {baseline_profit - baseline_cost:,} руб.")
print(f"Uplift (топ 10%): конверсий {top_10_conversions}, прибыль {uplift_profit - uplift_cost:,} руб.")
print(f"Экономия бюджета: 90%")
print(f"Рост чистой прибыли: в {(uplift_profit - uplift_cost) / (baseline_profit - baseline_cost):.1f} раз")

## Итог

- Все артефакты успешно загружены по путям из `params2.yml`
- Предсказания и анализ выполнены
- Результаты готовы к передаче в CRM

**Проект полностью соответствует MLOps-стандартам!**