# 01_EDA_and_Train.ipynb

**Uplift-моделирование: EDA, препроцессинг, обучение и сохранение**

**Все пути, параметры и гиперпараметры берутся из config/params2.yml**

**MLOps-подход**: конфигурация вне кода, легко менять без правки ноутбука.

## 1. Импорт библиотек и загрузка конфигурации

In [1]:
import yaml
import json
import joblib
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder, KBinsDiscretizer
from sklearn.compose import ColumnTransformer
from lightgbm import LGBMClassifier, LGBMRegressor
from sklearn.metrics import roc_auc_score
import optuna

import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

# === Загрузка конфигурации ===
config_path = Path('../config/params2.yml') #/Users/bariatmamaeva/Desktop/uplift-marketing-mlops/config/params2.yml # адаптируй при необходимости
config = yaml.load(open(config_path), Loader=yaml.FullLoader)
with open(config_path, 'r', encoding='utf-8') as f:
    config = yaml.safe_load(f)

print("Конфигурация успешно загружена из params2.yml")

# Создание папок из конфига
#Path(config['folders']['models']).mkdir(exist_ok=True)
#Path(config['folders']['report']).mkdir(exist_ok=True)
#Path(config['data']['processed_path']).mkdir(parents=True, exist_ok=True)

  from .autonotebook import tqdm as notebook_tqdm


FileNotFoundError: [Errno 2] No such file or directory: '../config/params2.yml'

## 2. Загрузка данных

In [3]:
raw_path = config['data']['raw_path']
df = pd.read_csv(raw_path)

print(f"Датасет загружен: {df.shape[0]} строк, {df.shape[1]} колонок")
print(f"Средняя конверсия: {df['conversion'].mean():.2%}")
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data/raw/data1.csv'

## 3. EDA (с использованием конфига для колонок)

In [None]:
# Гистограммы ключевых признаков
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

df['recency'].hist(bins=30, ax=axes[0,0], color='skyblue')
axes[0,0].set_title('Recency')

df['history'].hist(bins=50, ax=axes[0,1], color='lightgreen')
axes[0,1].set_title('History')

df['used_discount'].value_counts().plot(kind='bar', ax=axes[1,0], color='salmon')
axes[1,0].set_title('Used Discount')

df['used_bogo'].value_counts().plot(kind='bar', ax=axes[1,1], color='gold')
axes[1,1].set_title('Used BOGO')

plt.tight_layout()
plt.show()

# Корреляции (можно добавить в конфиг список колонок)
corr_cols = ['recency', 'history', 'used_discount', 'used_bogo', 'is_referral', 'conversion']
plt.figure(figsize=(8, 6))
sns.heatmap(df[corr_cols].corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Корреляционная матрица')
plt.show()

## 4. Создание новых признаков (по конфигу)

In [None]:
# Взаимодействия из конфига
for interaction in config['features']['numeric_interactions']:
    base1, base2 = interaction.split('_and_') if '_and_' in interaction else interaction.split('_')
    col1, col2 = base1 + '_' + base2.split('_')[0], base2  # простая логика, адаптируй при необходимости
    if 'history_discount' in interaction:
        df['history_discount'] = df['history'] * df['used_discount']
    elif 'history_bogo' in interaction:
        df['history_bogo'] = df['history'] * df['used_bogo']
    elif 'recency_history' in interaction:
        df['recency_history'] = df['recency'] * df['history']

# Биннинг recency по параметрам из конфига
kbins = KBinsDiscretizer(
    n_bins=config['features']['recency_bins'],
    encode='onehot-dense',
    strategy=config['features']['recency_bin_strategy']
)
binned = kbins.fit_transform(df[['recency']])
bin_cols = [f'recency_bin_{i}' for i in range(config['features']['recency_bins'])]
df[bin_cols] = binned

# Treatment
df['treatment'] = (df['offer'] != 'No Offer').astype(int)

print("Новые признаки созданы по конфигу")

## 5. Препроцессинг (категориальные из конфига)

In [None]:
y = df['conversion']
X = df.drop(columns=['offer', 'conversion', 'treatment'])

categorical_cols = config['features']['categorical']
numeric_cols = [col for col in X.columns if col not in categorical_cols]

preprocessor = ColumnTransformer([
    ('num', StandardScaler(), numeric_cols),
    ('cat', OneHotEncoder(handle_unknown='ignore', sparse_output=False), categorical_cols)
])

X_preprocessed = preprocessor.fit_transform(X)

print(f"Признаков после препроцессинга: {X_preprocessed.shape[1]}")

## 6. Разделение и сохранение данных (пути из конфига)

In [None]:
stratify_key = df['treatment'].astype(str) + df['conversion'].astype(str)

train_df, test_df = train_test_split(
    df,
    test_size=config['train']['test_size'],
    random_state=config['train']['random_state'],
    stratify=stratify_key
)

processed_path = Path(config['data']['processed_path'])
train_df.to_csv(processed_path / config['data']['train_file'], index=False)
test_df.to_csv(processed_path / config['data']['test_file'], index=False)

print(f"Данные сохранены в {processed_path}")
print(f"  train: {len(train_df)} строк")
print(f"  test: {len(test_df)} строк")

## 7. Обучение X-Learner с Optuna (параметры из конфига)

In [None]:
X_train = preprocessor.transform(train_df.drop(columns=['offer', 'conversion', 'treatment']))
X_test = preprocessor.transform(test_df.drop(columns=['offer', 'conversion', 'treatment']))
t_train, t_test = train_df['treatment'], test_df['treatment']
y_train, y_test = train_df['conversion'], test_df['conversion']

def objective(trial):
    params = {
        'n_estimators': trial.suggest_int('n_estimators', *config['model']['n_estimators_range']),
        'max_depth': trial.suggest_int('max_depth', *config['model']['max_depth_range']),
        'learning_rate': trial.suggest_float('learning_rate', *config['model']['learning_rate_range']),
        'num_leaves': trial.suggest_int('num_leaves', *config['model']['num_leaves_range']),
        'min_child_samples': trial.suggest_int('min_child_samples', *config['model']['min_child_samples_range']),
        'random_state': config['train']['random_state'],
        'n_jobs': -1
    }
    model = LGBMClassifier(**params)
    model.fit(X_train[t_train == 1], y_train[t_train == 1])
    pred = model.predict_proba(X_test[t_test == 1])[:, 1]
    return roc_auc_score(y_test[t_test == 1], pred)

study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=config['train']['optuna_trials'])

best_params = study.best_params
best_params.update({'random_state': config['train']['random_state'], 'n_jobs': -1})

# Сохранение лучших параметров
with open(Path(config['folders']['report']) / 'best_params.json', 'w') as f:
    json.dump(best_params, f, indent=2)

print("Optuna завершена. Лучшие параметры сохранены.")

## 8. Финальное обучение и сохранение модели

In [None]:
# ... (обучение X-Learner с best_params)

# Сохранение модели и препроцессора
joblib.dump(uplift_model_full, Path(config['folders']['models']) / 'uplift_model.joblib')
joblib.dump(preprocessor, Path(config['folders']['models']) / 'preprocessor.joblib')

# Сохранение метрик
metrics = {'AUUC': round(auuc, 5)}
with open(Path(config['folders']['report']) / 'metrics.json', 'w') as f:
    json.dump(metrics, f, indent=2)

print("Обучение завершено. Все артефакты сохранены по путям из params2.yml")