# Credit Card Fraud Detection Model Training

Этот ноутбук обучает модель машинного обучения для детекции мошенничества с кредитными картами.

## Шаги:
1. Загрузка и исследование данных
2. Предобработка данных
3. Разделение на train/test
4. Обучение модели LightGBM
5. Оценка качества модели
6. Сохранение модели и скейлера

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve
from sklearn.linear_model import LogisticRegression
import lightgbm as lgb
import joblib
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

## 1. Загрузка данных

Убедитесь, что файл `creditcard.csv` находится в папке `data/`.
Если файла нет, скачайте его с Kaggle:
```bash
kaggle datasets download -d mlg-ulb/creditcardfraud
```

In [None]:
# Загрузка данных
try:
    df = pd.read_csv('../data/creditcard.csv')
    print(f"Данные загружены успешно. Размер: {df.shape}")
except FileNotFoundError:
    print("Файл creditcard.csv не найден в папке data/")
    print("Скачайте датасет с Kaggle: kaggle datasets download -d mlg-ulb/creditcardfraud")
    raise

In [None]:
# Исследование данных
print("Первые 5 строк:")
print(df.head())
print("\nИнформация о данных:")
print(df.info())
print("\nСтатистика:")
print(df.describe())

In [None]:
# Анализ целевой переменной
print("Распределение классов:")
print(df['Class'].value_counts())
print(f"\nДоля мошеннических транзакций: {df['Class'].mean():.4f}")

# Визуализация
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
df['Class'].value_counts().plot(kind='bar')
plt.title('Распределение классов')
plt.xlabel('Класс (0 - норма, 1 - мошенничество)')
plt.ylabel('Количество')

plt.subplot(1, 2, 2)
plt.hist(df[df['Class'] == 0]['Amount'], bins=50, alpha=0.7, label='Норма')
plt.hist(df[df['Class'] == 1]['Amount'], bins=50, alpha=0.7, label='Мошенничество')
plt.xlabel('Сумма транзакции')
plt.ylabel('Частота')
plt.legend()
plt.title('Распределение сумм транзакций')

plt.tight_layout()
plt.show()

## 2. Предобработка данных

In [None]:
# Проверка на пропущенные значения
print("Пропущенные значения:")
print(df.isnull().sum().sum())

# Подготовка признаков и целевой переменной
X = df.drop(['Class'], axis=1)
y = df['Class']

print(f"\nРазмер признаков: {X.shape}")
print(f"Размер целевой переменной: {y.shape}")

In [None]:
# Разделение на train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")
print(f"Доля мошенничества в train: {y_train.mean():.4f}")
print(f"Доля мошенничества в test: {y_test.mean():.4f}")

In [None]:
# Нормализация признаков
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Нормализация завершена")
print(f"Среднее значение после нормализации: {X_train_scaled.mean():.6f}")
print(f"Стандартное отклонение после нормализации: {X_train_scaled.std():.6f}")

## 3. Обучение моделей

In [None]:
# Обучение LightGBM
print("Обучение LightGBM...")

lgb_model = lgb.LGBMClassifier(
    objective='binary',
    metric='auc',
    boosting_type='gbdt',
    num_leaves=31,
    learning_rate=0.05,
    feature_fraction=0.9,
    bagging_fraction=0.8,
    bagging_freq=5,
    verbose=0,
    random_state=42,
    class_weight='balanced'
)

lgb_model.fit(X_train_scaled, y_train)
print("LightGBM обучена")

In [None]:
# Обучение Logistic Regression для сравнения
print("Обучение Logistic Regression...")

lr_model = LogisticRegression(
    random_state=42,
    class_weight='balanced',
    max_iter=1000
)

lr_model.fit(X_train_scaled, y_train)
print("Logistic Regression обучена")

## 4. Оценка моделей

In [None]:
# Предсказания
lgb_pred = lgb_model.predict(X_test_scaled)
lgb_pred_proba = lgb_model.predict_proba(X_test_scaled)[:, 1]

lr_pred = lr_model.predict(X_test_scaled)
lr_pred_proba = lr_model.predict_proba(X_test_scaled)[:, 1]

# Оценка качества
print("=== LightGBM ===")
print(f"ROC-AUC: {roc_auc_score(y_test, lgb_pred_proba):.4f}")
print("\nClassification Report:")
print(classification_report(y_test, lgb_pred))

print("\n=== Logistic Regression ===")
print(f"ROC-AUC: {roc_auc_score(y_test, lr_pred_proba):.4f}")
print("\nClassification Report:")
print(classification_report(y_test, lr_pred))

In [None]:
# Визуализация результатов
plt.figure(figsize=(15, 5))

# ROC кривые
plt.subplot(1, 3, 1)
fpr_lgb, tpr_lgb, _ = roc_curve(y_test, lgb_pred_proba)
fpr_lr, tpr_lr, _ = roc_curve(y_test, lr_pred_proba)

plt.plot(fpr_lgb, tpr_lgb, label=f'LightGBM (AUC = {roc_auc_score(y_test, lgb_pred_proba):.3f})')
plt.plot(fpr_lr, tpr_lr, label=f'LogReg (AUC = {roc_auc_score(y_test, lr_pred_proba):.3f})')
plt.plot([0, 1], [0, 1], 'k--', label='Random')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curves')
plt.legend()

# Confusion Matrix для LightGBM
plt.subplot(1, 3, 2)
cm_lgb = confusion_matrix(y_test, lgb_pred)
sns.heatmap(cm_lgb, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix (LightGBM)')
plt.ylabel('True Label')
plt.xlabel('Predicted Label')

# Feature importance для LightGBM
plt.subplot(1, 3, 3)
feature_importance = lgb_model.feature_importances_
feature_names = X.columns
indices = np.argsort(feature_importance)[::-1][:10]

plt.bar(range(10), feature_importance[indices])
plt.xticks(range(10), [feature_names[i] for i in indices], rotation=45)
plt.title('Top 10 Feature Importance (LightGBM)')
plt.ylabel('Importance')

plt.tight_layout()
plt.show()

## 5. Выбор лучшей модели и сохранение

In [None]:
# Сравнение моделей по ROC-AUC
lgb_auc = roc_auc_score(y_test, lgb_pred_proba)
lr_auc = roc_auc_score(y_test, lr_pred_proba)

print(f"LightGBM ROC-AUC: {lgb_auc:.4f}")
print(f"Logistic Regression ROC-AUC: {lr_auc:.4f}")

# Выбираем лучшую модель
if lgb_auc >= lr_auc:
    best_model = lgb_model
    best_model_name = "LightGBM"
    best_auc = lgb_auc
else:
    best_model = lr_model
    best_model_name = "Logistic Regression"
    best_auc = lr_auc

print(f"\nЛучшая модель: {best_model_name} с ROC-AUC = {best_auc:.4f}")

In [None]:
# Сохранение модели и скейлера
import os

model_dir = '../model'
os.makedirs(model_dir, exist_ok=True)

# Сохраняем модель
joblib.dump(best_model, os.path.join(model_dir, 'model.pkl'))
print(f"Модель {best_model_name} сохранена в {model_dir}/model.pkl")

# Сохраняем скейлер
joblib.dump(scaler, os.path.join(model_dir, 'scaler.pkl'))
print(f"Скейлер сохранен в {model_dir}/scaler.pkl")

# Сохраняем метрики
metrics = {
    'model_name': best_model_name,
    'roc_auc': best_auc,
    'feature_names': list(X.columns)
}

joblib.dump(metrics, os.path.join(model_dir, 'metrics.pkl'))
print(f"Метрики сохранены в {model_dir}/metrics.pkl")

## 6. Тестирование сохраненной модели

In [None]:
# Загрузка сохраненной модели для проверки
loaded_model = joblib.load('../model/model.pkl')
loaded_scaler = joblib.load('../model/scaler.pkl')
loaded_metrics = joblib.load('../model/metrics.pkl')

print("Модель успешно загружена")
print(f"Модель: {loaded_metrics['model_name']}")
print(f"ROC-AUC: {loaded_metrics['roc_auc']:.4f}")

# Тестируем на одной транзакции
sample_transaction = X_test.iloc[0:1]
sample_scaled = loaded_scaler.transform(sample_transaction)
prediction = loaded_model.predict_proba(sample_scaled)[0, 1]

print(f"\nТест на примере транзакции:")
print(f"Вероятность мошенничества: {prediction:.4f}")
print(f"Классификация: {'Мошенничество' if prediction > 0.5 else 'Норма'}")
print(f"Реальный класс: {'Мошенничество' if y_test.iloc[0] == 1 else 'Норма'}")

## Заключение

Модель обучена и сохранена. Теперь можно использовать её в API для предсказания мошенничества в реальном времени.

Файлы сохранены:
- `model/model.pkl` - обученная модель
- `model/scaler.pkl` - скейлер для нормализации
- `model/metrics.pkl` - метрики модели