# Import Bibliotek

Ten kod importuje biblioteki niezbędne do kompleksowego modelowania i analizy danych w projekcie wykrywania fraudów:

- `pandas`, `numpy`: Umożliwiają efektywną manipulację danymi i obliczenia statystyczne.
- `matplotlib`, `seaborn`, `plotly.express`: Zapewniają wizualizację wyników w standardzie publikacji naukowych.
- `sklearn`, `imblearn.SMOTE`: Włączają preprocessing (kodowanie, skalowanie, balansowanie klas) i selekcję cech (Mutual Information).
- Modele ML: (`XGBoost`, `LightGBM`, `CatBoost`, klasyczne `sklearn`) pozwalają na testowanie różnorodnych metod klasyfikacji.
- `tensorflow`, `keras`: Umożliwiają implementację głębokich sieci neuronowych.
- `kagglehub`: Automatyzuje pobieranie danych, zwiększając odtwarzalność.

Funkcjonalność koncentruje się na przygotowaniu danych i porównaniu podejść ML/DL w zadaniu klasyfikacji.

In [None]:
# Standard libraries
import os
import gc
import warnings
import numpy as np
import pandas as pd
from datetime import datetime
from typing import List
import pickle

# Visualization libraries
import seaborn as sns
import plotly.express as px
from IPython.display import display

# Preprocessing and Machine Learning libraries
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, recall_score, precision_score, confusion_matrix
from imblearn.over_sampling import SMOTE
from sklearn.feature_selection import mutual_info_classif

# Machine Learning models
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier
from sklearn.ensemble import (
    RandomForestClassifier,
    GradientBoostingClassifier,
    ExtraTreesClassifier,
    HistGradientBoostingClassifier,
    AdaBoostClassifier
)
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.naive_bayes import GaussianNB

# Deep Learning libraries
import tensorflow as tf
from keras.models import Sequential
from keras.layers import Dense, Dropout, BatchNormalization
from keras.callbacks import EarlyStopping, ModelCheckpoint, ReduceLROnPlateau, TensorBoard
from keras.optimizers import Adam

# Data download utilities
import kagglehub
import shutil

# Suppress warnings
warnings.filterwarnings('ignore')

# Zarządzanie Danymi w Wykrywaniu Fraudów

Klasa `DataManager` automatyzuje pobieranie danych z Kaggle (`load_kaggle_dataset`) i ich wczytywanie do `pandas.DataFrame` (`read_data`):

## Główne metody:

- `__init__`: Inicjalizuje nazwę datasetu i lokalny katalog zapisu.
- `load_kaggle_dataset`: Wykorzystuje `kagglehub` do pobrania danych, zapisując je w folderze "fraud-detection-dataset" z obsługą błędów.
- `read_data`: Wczytuje plik CSV, zwracając `DataFrame` z weryfikacją istnienia pliku.

## Cel

Funkcjonalność koncentruje się na zapewnieniu odtwarzalnego dostępu do danych, kluczowego w eksperymentach naukowych.

In [None]:
class DataManager:
    """Class for managing data loading and storage."""
    
    def __init__(self, dataset_name: str):
        """Initialize with dataset name and local directory."""
        self.dataset_name = dataset_name
        self.data_dir = os.getcwd()
        self.dest_path = os.path.join(self.data_dir, "fraud-detection-dataset")
    
    def load_kaggle_dataset(self) -> str:
        """Download dataset from Kaggle and save locally.
        
        Returns:
            str: Path to the saved dataset.
        Raises:
            Exception: If download fails.
        """
        try:
            path = kagglehub.dataset_download(self.dataset_name)
            if os.path.isdir(path) and not os.path.exists(self.dest_path):
                shutil.copytree(path, self.dest_path)
            elif not os.path.isdir(path):
                shutil.copy(path, self.data_dir)
            return self.dest_path
        except Exception as e:
            raise Exception(f"Dataset download failed: {str(e)}")
    
    def read_data(self, file_name: str) -> pd.DataFrame:
        """Load data from a CSV file.
        
        Args:
            file_name (str): Name of the CSV file.
        Returns:
            pd.DataFrame: Loaded DataFrame.
        Raises:
            FileNotFoundError: If the file does not exist.
        """
        file_path = os.path.join(self.dest_path, file_name)
        if not os.path.exists(file_path):
            raise FileNotFoundError(f"File {file_path} not found.")
        return pd.read_csv(file_path)

## Implementacja

Druga komórka inicjalizuje klasę dla konkretnego zbioru danych (`"ranjitmandal/fraud-detection-dataset-csv"`) i wczytuje plik `"Fraud Detection Dataset.csv"` do zmiennej `df`.

In [None]:
# Initialize and load data
data_mgr = DataManager("ranjitmandal/fraud-detection-dataset-csv")
dataset_path = data_mgr.load_kaggle_dataset()
df = data_mgr.read_data("Fraud Detection Dataset.csv")

# Eksploracyjna Analiza Danych

Klasa `DataExplorer` dostarcza narzędzia do analizy struktury danych i wizualizacji:

## Główne metody

### `explore_data`
- Wyświetla podstawowe informacje o zbiorze danych:
  - Wymiary (shape)
  - Typy danych
  - Liczba unikalnych wartości
  - Liczba brakujących wartości

### `plot_missing_values`
- Generuje wizualizacje brakujących wartości:
  - Tworzy siatkę wykresów 3x2
  - Zwraca tabelę z rozkładami
  - Automatycznie dostosowuje układ do liczby kolumn

### `plot_correlations`
- Wizualizuje zależności w danych:
  - Mapa korelacji między zmiennymi
  - Histogram rozkładu klasy docelowej (Fraudulent)

### `plot_feature_importance`
- Przedstawia rozkład istotnych cech:
  - Maksymalnie 4 kolumny w siatce
  - Automatyczne skalowanie wykresu
  - Porównanie rozkładów względem klasy docelowej

## Zastosowanie

Narzędzia te umożliwiają kompleksową analizę danych przed modelowaniem, co jest kluczowe dla zrozumienia struktury problemu i potencjalnych wyzwań w detekcji fraudów.

In [None]:
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd
import numpy as np
from typing import List

class DataExplorer:
    """Class for exploratory data analysis and visualization using Plotly."""
    
    @staticmethod
    def explore_data(df: pd.DataFrame) -> None:
        """Display basic dataset information."""
        print(f"Shape: {df.shape}\n")
        print("Data Types:\n", df.dtypes, "\n")
        print("Unique Values:\n", {col: df[col].nunique() for col in df.columns}, "\n")
        print("Missing Values:\n", df.isnull().sum())

    @staticmethod
    def plot_missing_values(df: pd.DataFrame) -> pd.DataFrame:
        """Visualize distribution of missing values in a 3x2 grid and return a data table."""
        missing_cols = df.columns[df.isnull().any()]
        if not missing_cols.size:
            print("No missing values found.")
            return pd.DataFrame()
        
        n_cols = len(missing_cols)
        rows, cols = 3, 2
        total_plots = min(n_cols, rows * cols)
        fig = make_subplots(
            rows=rows, cols=cols,
            subplot_titles=[f"Distribution of {col}" for col in missing_cols[:total_plots]],
            vertical_spacing=0.15,
            horizontal_spacing=0.1
        )
        
        distribution_data = {}
        for i, col in enumerate(missing_cols, 1):
            if i > total_plots:
                break
            row = (i - 1) // cols + 1
            col_pos = (i - 1) % cols + 1
            
            if df[col].dtype in ['float64', 'int64']:
                hist_data = df[col].dropna()
                fig.add_trace(go.Histogram(x=hist_data, name=col, marker_color='red', showlegend=False), row=row, col=col_pos)
                counts, bins = np.histogram(hist_data, bins=10)
                bin_labels = [f"{bins[j]:.2f}-{bins[j+1]:.2f}" for j in range(len(bins)-1)]
                distribution_data[col] = pd.Series(counts, index=bin_labels)
            else:
                counts = df[col].dropna().value_counts()
                fig.add_trace(go.Bar(x=counts.index, y=counts.values, name=col, marker_color='red', showlegend=False), row=row, col=col_pos)
                distribution_data[col] = counts
            
            fig.update_xaxes(title_text=col, title_font_size=10, row=row, col=col_pos)
            fig.update_yaxes(title_text="Count", title_font_size=10, row=row, col=col_pos)
        
        fig.update_layout(height=800, width=1200, title_text="Distribution of Values in Columns with Missing Data", bargap=0.2)
        fig.show()
        
        result_df = pd.DataFrame(distribution_data)
        result_df.fillna(0, inplace=True)
        result_df.to_csv("missing_values_distribution.csv", index_label="Category/Bin")
        return result_df

    @staticmethod
    def plot_correlations(df: pd.DataFrame) -> None:
        """Visualize correlations and target class distribution using Plotly."""
        corr_matrix = df.corr().round(4)
        fig1 = go.Figure(data=go.Heatmap(
            z=corr_matrix.values,
            x=corr_matrix.columns,
            y=corr_matrix.columns,
            text=corr_matrix.values,
            texttemplate="%{text:.4f}",
            textfont={"size": 10},
            colorscale='RdBu',
            zmin=-1, zmax=1,
            showscale=True
        ))
        fig1.update_layout(
            title="Correlation Heatmap",
            width=1200,
            height=1200,
            xaxis={'tickfont': {'size': 10}},
            yaxis={'tickfont': {'size': 10}}
        )
        fig1.show()
        
        fig2 = px.histogram(
            df, x='Fraudulent',
            title="Distribution of Transactions",
            width=400, height=300,
            color_discrete_sequence=['#1f77b4'],
            labels={'Fraudulent': 'Class'}
        )
        fig2.update_layout(bargap=0.2)
        fig2.show()
    
    @staticmethod
    def plot_feature_importance(df: pd.DataFrame, important_features: List[str]) -> None:
        """Visualize important features relative to Fraudulent class in a max 4-column grid."""
        n_features = len(important_features)
        max_cols = 4
        n_rows = (n_features + max_cols - 1) // max_cols
        
        fig = make_subplots(
            rows=n_rows,
            cols=min(n_features, max_cols),
            subplot_titles=[f"{col}" for col in important_features],
            vertical_spacing=0.15,
            horizontal_spacing=0.1
        )
        
        for i, col in enumerate(important_features, 1):
            row = (i - 1) // max_cols + 1
            col_pos = (i - 1) % max_cols + 1
            box_data = [df[df['Fraudulent'] == cls][col].dropna() for cls in df['Fraudulent'].unique()]
            fig.add_trace(go.Box(y=box_data[0], name="Class 0", marker_color='#1f77b4', showlegend=False), row=row, col=col_pos)
            fig.add_trace(go.Box(y=box_data[1], name="Class 1", marker_color='#ff7f0e', showlegend=False), row=row, col=col_pos)
            fig.update_xaxes(title_text="Fraudulent", tickvals=[0, 1], ticktext=["0", "1"], title_font_size=12, row=row, col=col_pos)
            fig.update_yaxes(title_text="Value", title_font_size=12, row=row, col=col_pos)
        
        fig.update_layout(
            height=300 * n_rows,
            width=300 * max_cols,
            title_text="Important Features Relative to Fraudulent Class",
            showlegend=False,
            title_font_size=20
        )
        fig.update_annotations(font_size=16)
        fig.show()

# Preprocessing Danych

Klasa `DataPreprocessor` przygotowuje dane do analizy i modelowania:

## Główne metody

### `preprocess_data`
- Imputuje braki (`Transaction_Amount`: mediana)
- Usuwa kolumnę `Transaction_ID`

### `encode_categorical`
- Koduje zmienne kategoryczne:
  - `LabelEncoder` dla EDA
  - `get_dummies` dla modelowania

### `select_features`
- Wybiera cechy za pomocą Mutual Information

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import mutual_info_classif
from typing import List

class DataPreprocessor:
    """Class for preprocessing data for modeling and analysis."""
    
    def __init__(self):
        """Initialize with LabelEncoder."""
        self.le = LabelEncoder()
    
    def preprocess_data(self, df: pd.DataFrame, target: str = 'Fraudulent') -> pd.DataFrame:
        """Impute missing values."""
        df_processed = df.copy()
        for col in df_processed.columns:
            if df_processed[col].dtype == 'object':
                df_processed[col] = df_processed[col].fillna('Unknown')
            else:
                if col == 'Transaction_Amount':
                    df_processed[col] = df_processed[col].fillna(df_processed[col].median())
                else:
                    df_processed[col] = df_processed[col].fillna(df_processed[col].mean())
        return df_processed.drop(['Transaction_ID'], axis=1, errors='ignore')

    
    def encode_categorical(self, df: pd.DataFrame, columns: List[str], for_eda: bool = False) -> pd.DataFrame:
        """Encode categorical variables."""
        df_encoded = df.copy()
        if for_eda:
            for col in columns:
                df_encoded[col] = self.le.fit_transform(df_encoded[col])
        else:
            df_encoded = pd.get_dummies(df_encoded, columns=columns, drop_first=True)
        return df_encoded
    
    def select_features(self, X: pd.DataFrame, y: pd.Series, threshold: float = 0) -> List[str]:
        """Select important features using Mutual Information."""
        mi_scores = mutual_info_classif(X, y, random_state=42)
        important_features = X.columns[mi_scores > threshold].tolist()
        print("Mutual Information Scores:", dict(zip(X.columns, mi_scores)))
        return important_features

## Inicjalizacja Narzędzi

```python
# Inicjalizacja
data_explorer = DataExplorer()
preprocessor = DataPreprocessor()
categorical_features = ['Transaction_Type', 'Device_Used', 'Location', 'Payment_Method']
```

### Komponenty

#### Eksploracja Danych
- Instancja `data_explorer` klasy `DataExplorer`
- Umożliwia wizualizację i analizę struktury danych

#### Preprocessing
- Instancja `preprocessor` klasy `DataPreprocessor`
- Odpowiada za przygotowanie danych do modelowania

#### Zmienne Kategoryczne
Lista `categorical_features` zawiera kolumny wymagające kodowania:
- `Transaction_Type`
- `Device_Used`
- `Location`
- `Payment_Method`

### Zastosowanie
Ten kod inicjalizuje podstawowe narzędzia potrzebne do analizy i przetwarzania danych w projekcie wykrywania fraudów.

In [None]:
# Initialize objects
data_explorer = DataExplorer()
preprocessor = DataPreprocessor()
categorical_features = ['Transaction_Type', 'Device_Used', 'Location', 'Payment_Method']

## Analiza Struktury Danych

Wywołuje `explore_data` do wyświetlenia podstawowych informacji o zbiorze danych.

### Interpretacja Danych

#### Charakterystyka Zbioru

- **Rozmiar**: 
  - 51,000 rekordów
  - 12 cech
  - Odpowiedni do uczenia maszynowego

- **Braki**: 
  - 4.8-5% w 5 kolumnach
  - Wymaga imputacji

- **Zmienność**: 
  - Wysoka w `Transaction_Amount`
  - Niska w `Fraudulent` (niezbalansowanie klas)

In [None]:
# Explore dataset
data_explorer.explore_data(df)

## Wizualizacja Braków

Generuje wykresy rozkładu wartości w kolumnach z brakami i zapisuje tabelę do CSV.

In [None]:
# Visualize missing values
data_explorer.plot_missing_values(df)

## Interpretacja Danych

### Rozkład Braków

#### Transaction_Amount
- Dominacja niskich kwot (47,972 w przedziale 5.03-5,004.31)
- 508 transakcji o dużych wartościach
- Braki mogą dotyczyć średnich wartości

#### Time_of_Transaction
- Równomierny rozkład z małymi pikami:
  - Nocnymi
  - Popołudniowymi
- Braki potencjalnie losowe

#### Device_Used
- Równomierny rozkład między:
  - Desktop
  - Mobile
  - Tablet
- 1,530 oznaczonych jako "Unknown"
- Braki mogą maskować nietypowe urządzenia

#### Location
- Równomierny rozkład (5,985-6,149)
- Braki mogą wskazywać na:
  - Losowe występowanie
  - Transakcje online

#### Payment_Method
- Lekka przewaga:
  - UPI
  - Debit
- 1,530 oznaczonych jako "Invalid"
- Braki mogą ukrywać podejrzane metody płatności

In [None]:
# Preprocessing
df_cleaned = preprocessor.preprocess_data(df)
df_eda = preprocessor.encode_categorical(df_cleaned, categorical_features, for_eda=True)
df_train = preprocessor.encode_categorical(df_cleaned, categorical_features, for_eda=False)

## Analiza Statystyczna Braków

Klasa `StatisticAnalyse` bada zależność braków od `Fraudulent`:

### Metody
- `chi_square_test`: Test Chi-kwadrat dla kolumn kategorycznych
- `t_test_missing`: Test t dla kolumn numerycznych
- `analyze_missing_data`: Wykonuje testy i usuwa tymczasowe kolumny

In [None]:
from scipy.stats import chi2_contingency, ttest_ind

class StatisticAnalyse:
    """Class for statistical analysis of missing data."""
    
    @staticmethod
    def chi_square_test(df: pd.DataFrame, column: str, target: str = 'Fraudulent') -> tuple:
        """Perform Chi-square test for categorical column vs target."""
        df[f'{column}_is_missing'] = df[column].isnull().astype(int)
        contingency_table = pd.crosstab(df[f'{column}_is_missing'], df[target])
        chi2, p_value, dof, expected = chi2_contingency(contingency_table)
        return chi2, p_value, contingency_table, expected
    
    @staticmethod
    def t_test_missing(df: pd.DataFrame, column: str, target: str = 'Fraudulent') -> tuple:
        """Perform t-test for numerical column missingness vs target."""
        df[f'{column}_is_missing'] = df[column].isnull().astype(int)
        missing_fraud = df[df[f'{column}_is_missing'] == 1][target]
        not_missing_fraud = df[df[f'{column}_is_missing'] == 0][target]
        t_stat, p_value = ttest_ind(missing_fraud, not_missing_fraud, equal_var=False)
        return t_stat, p_value, missing_fraud.mean(), not_missing_fraud.mean()
    
    @staticmethod
    def analyze_missing_data(df: pd.DataFrame) -> None:
        """Analyze missing data and remove temporary columns."""
        categorical_cols = ['Device_Used', 'Location', 'Payment_Method']
        numeric_cols = ['Transaction_Amount', 'Time_of_Transaction']
        
        print("\n=== Chi-square Tests for Categorical Columns ===")
        for col in categorical_cols:
            chi2, p_value, contingency_table, expected = StatisticAnalyse.chi_square_test(df, col)
            print(f"\nColumn: {col}")
            print(f"Chi2: {chi2:.4f}, p-value: {p_value:.4f}")
            print("Contingency Table:\n", contingency_table.to_string())
            print("Expected Values:\n", pd.DataFrame(expected, index=contingency_table.index, columns=contingency_table.columns).to_string())
        
        print("\n=== T-tests for Numerical Columns ===")
        for col in numeric_cols:
            t_stat, p_value, mean_missing, mean_not_missing = StatisticAnalyse.t_test_missing(df, col)
            print(f"\nColumn: {col}")
            print(f"T-stat: {t_stat:.4f}, p-value: {p_value:.4f}")
            print(f"Mean Fraudulent (missing): {mean_missing:.4f}")
            print(f"Mean Fraudulent (not missing): {mean_not_missing:.4f}")
        
        missing_cols = [col for col in df.columns if col.endswith('_is_missing')]
        df.drop(columns=missing_cols, inplace=True)
        print("\nRemoved temporary columns:", missing_cols)

# Run analysis
statistic_analyse = StatisticAnalyse()
statistic_analyse.analyze_missing_data(df)

### Interpretacja Danych

#### Zależność Braków od Klasy

- **Device_Used**:
  - p=0.0045 < 0.05 – braki zależne (MNAR)
  - 6.15% fraudów z brakami vs. 4.86% bez
  - Potencjalny sygnał oszustw

- **Location**:
  - p=0.8618 – braki losowe (MCAR)
  - Brak wzorców

- **Payment_Method**:
  - p=0.1267 – braki losowe (MCAR)
  - Brak zależności

- **Transaction_Amount**:
  - p=0.9268 – braki losowe (MCAR)
  - Brak wpływu

- **Time_of_Transaction**:
  - p=0.4437 – braki losowe (MCAR)
  - Brak wpływu

## Przygotowanie Danych

### Przetwarzanie Danych
```python
df_cleaned = preprocessor.preprocess_data(df)
df_eda = preprocessor.encode_categorical(df_cleaned, categorical_features, for_eda=True)
df_train = preprocessor.encode_categorical(df_cleaned, categorical_features, for_eda=False)
```

### Transformacje
- **Imputacja braków**:
  - Wykonana przez `preprocess_data`
  - Zachowuje strukturę danych

- **Kodowanie zmiennych**:
  - `df_eda`: `LabelEncoder` dla analizy eksploracyjnej
  - `df_train`: Kodowanie one-hot dla modelowania

### Zmienne Kategoryczne
```python
categorical_features = [
    'Transaction_Type',
    'Device_Used',
    'Location',
    'Payment_Method'
]
```

In [None]:
# Preprocess data
df_cleaned = preprocessor.preprocess_data(df)
df_eda = preprocessor.encode_categorical(df_cleaned, categorical_features, for_eda=True)
df_train = preprocessor.encode_categorical(df_cleaned, categorical_features, for_eda=False)

## Analiza Korelacji

### Wizualizacja
```python
data_explorer.plot_correlations(df_eda)
```

### Komponenty
- **Mapa korelacji**:
  - Heatmapa wszystkich zmiennych
  - Skala kolorów RdBu (-1 do 1)
  - Dokładność do 4 miejsc po przecinku

- **Rozkład klasy docelowej**:
  - Histogram `Fraudulent`
  - Pokazuje niezbalansowanie klas
  - Szerokość słupków: 0.2

### Interpretacja
- Pozwala zidentyfikować:
  - Silnie skorelowane zmienne
  - Potencjalne problemy z współliniowością
  - Zmienne istotne dla detekcji fraudów

In [None]:
# Visualize correlations
data_explorer.plot_correlations(df_eda)

## Selekcja i Wizualizacja Cech

Wybiera cechy za pomocą Mutual Information i wizualizuje ich rozkład względem `Fraudulent`.

In [None]:
# Feature selection and visualization
X_eda = df_eda.drop(['Fraudulent'], axis=1)
y_eda = df_eda['Fraudulent']
important_features = preprocessor.select_features(X_eda, y_eda)
data_explorer.plot_feature_importance(df_eda, important_features)

### Interpretacja Danych

#### Ważność Cech

- **Kluczowe predyktory**:
  - `Device_Used`: 0.0027 MI
  - `Transaction_Type`: 0.0025 MI
  - `Location`: 0.0020 MI

- **Słabsze predyktory**:
  - `Transaction_Amount`: 0.00037 MI
  - `Time_of_Transaction`: 0.0014 MI

> Cechy z wyższym MI są lepszymi predyktorami fraudów.

## Przygotowanie Danych i Wizualizacja
- `prepare_ml_data`: balansuje dane SMOTE, skaluje i dzieli na zbiory treningowy/testowy.
- `get_metrics`: tworzy słownik metryk dla modelu.
- `Visualizer`: klasa grupuje metody wizualizacji: macierz pomyłek, wykres słupkowy metryk, interaktywny scatter porównujący modele.

In [None]:
def prepare_ml_data(df_train: pd.DataFrame, target_col: str = 'Fraudulent', save_dir: str = "models") -> tuple:
    """Prepare data for ML modeling."""
    X = df_train.drop([target_col], axis=1)
    y = df_train[target_col]
    X_resampled, y_resampled = SMOTE(random_state=42).fit_resample(X, y)
    # Initialize and fit scaler
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X_resampled)
    
    # Save scaler
    os.makedirs(save_dir, exist_ok=True)
    scaler_path = os.path.join(save_dir, "scaler.pkl")
    with open(scaler_path, "wb") as f:
        pickle.dump(scaler, f)
    print(f"Saved scaler to: {scaler_path}")

    # Save training columns
    training_cols = list(X.columns)
    cols_path = os.path.join(save_dir, "training_cols.pkl")
    with open(cols_path, "wb") as f:
        pickle.dump(training_cols, f)
    print(f"Saved training columns to: {cols_path}")
    
    return train_test_split(X_scaled, y_resampled, test_size=0.2, random_state=42, stratify=y_resampled)

def get_metrics(model_name, y_test, y_pred, y_proba):
    return {
        "Model": model_name,
        "Accuracy": accuracy_score(y_test, y_pred),
        "F1 Score": f1_score(y_test, y_pred, average="weighted"),
        "ROC AUC": roc_auc_score(y_test, y_proba),
        "Recall": recall_score(y_test, y_pred, average="weighted"),
        "Precision": precision_score(y_test, y_pred, average="weighted")
        }

class Visualizer:
    """Class for visualizing model performance."""
    
    @staticmethod
    def plot_confusion_matrix(y_true, y_pred, model_name: str) -> None:
        """Plot confusion matrix using Plotly."""
        cm = confusion_matrix(y_true, y_pred)
        fig = go.Figure(data=go.Heatmap(
            z=cm,
            x=["Class 0", "Class 1"],
            y=["Class 0", "Class 1"],
            text=cm,
            texttemplate="%{text}",
            textfont={"size": 12},
            colorscale="Blues",
            showscale=True,
            hoverinfo="z"
        ))
        fig.update_layout(
            title=f"Confusion Matrix - {model_name}",
            xaxis_title="Predicted",
            yaxis_title="True",
            width=500,
            height=500,
            font=dict(size=12)
        )
        fig.show()
    
    @staticmethod
    def plot_training_history(history, model_name: str) -> None:
        """Plot training history (accuracy and loss) using Plotly."""
        fig = make_subplots(rows=1, cols=2, subplot_titles=(f"{model_name} - Accuracy", f"{model_name} - Loss"))
        
        # Accuracy
        fig.add_trace(go.Scatter(x=list(range(1, len(history.history['accuracy']) + 1)), y=history.history['accuracy'], mode='lines', name='Train Accuracy', line=dict(color='blue')), row=1, col=1)
        fig.add_trace(go.Scatter(x=list(range(1, len(history.history['val_accuracy']) + 1)), y=history.history['val_accuracy'], mode='lines', name='Validation Accuracy', line=dict(color='orange')), row=1, col=1)
        
        # Loss
        fig.add_trace(go.Scatter(x=list(range(1, len(history.history['loss']) + 1)), y=history.history['loss'], mode='lines', name='Train Loss', line=dict(color='blue')), row=1, col=2)
        fig.add_trace(go.Scatter(x=list(range(1, len(history.history['val_loss']) + 1)), y=history.history['val_loss'], mode='lines', name='Validation Loss', line=dict(color='orange')), row=1, col=2)
        
        fig.update_layout(
            height=500,
            width=1200,
            showlegend=True,
            title_text=f"Training History - {model_name}",
            title_font_size=20
        )
        fig.update_xaxes(title_text="Epoch", row=1, col=1)
        fig.update_xaxes(title_text="Epoch", row=1, col=2)
        fig.update_yaxes(title_text="Accuracy", row=1, col=1)
        fig.update_yaxes(title_text="Loss", row=1, col=2)
        fig.show()

    @staticmethod
    def plot_metrics_bar(results_df: pd.DataFrame) -> None:
        """Plot bar chart of model performance metrics using Plotly."""
        metrics = ['Accuracy', 'Recall', 'ROC AUC', 'Precision', 'F1 Score']
        melted_df = results_df.melt(id_vars=['Model'], value_vars=metrics, var_name='Metric', value_name='Score')
        
        fig = px.bar(
            melted_df,
            x='Model',
            y='Score',
            color='Metric',
            barmode='group',
            title="Model Performance Metrics Comparison",
            color_discrete_sequence=px.colors.qualitative.Vivid,
            height=600,
            width=1000
        )
        fig.update_layout(
            xaxis_title="Model",
            yaxis_title="Score",
            yaxis_range=[0.80, 1.0],
            bargap=0.2,
            font=dict(size=12),
            legend_title_text="Metric",
            legend=dict(title_font_size=12, font_size=10)
        )
        fig.update_xaxes(tickangle=45, showgrid=True, gridcolor='rgba(0,0,0,0.1)')
        fig.update_yaxes(showgrid=True, gridcolor='rgba(0,0,0,0.1)')
        fig.show()
        
    @staticmethod
    def plot_model_comparison(results_df: pd.DataFrame, min_accuracy: float = 0.95) -> None:
        """Plot interactive scatter chart for model comparison."""
        filtered_df = results_df[results_df['Accuracy'] >= min_accuracy]
        fig = px.scatter(filtered_df, x="Accuracy", y="Recall", size="F1 Score", color="ROC AUC", hover_data=["Model", "Precision"],
                         text="Model", title="Model Performance Comparison", color_continuous_scale=px.colors.sequential.Rainbow, size_max=60)
        fig.update_traces(textposition='top center')
        fig.update_layout(width=1000, height=600, showlegend=True, xaxis_title="Accuracy", yaxis_title="Recall (Weighted)", font=dict(size=12))
        fig.show()

# Prepare data
X_train, X_test, y_train, y_test = prepare_ml_data(df_train)

## Trening

### Trening Modeli ML
Klasa `ModelTrainer` trenuje i ocenia 15 modeli ML na przeskalowanych, zbalansowanych danych, zwracając metryki i predykcje:

- `__init__`: konfiguruje GPU/CPU i definiuje modele z wagami klas.
- `train_and_evaluate`: trenuje modele, oblicza metryki (Accuracy, F1, ROC AUC, Recall, Precision).

In [None]:
class ModelTrainer:
    """Class for training and evaluating ML models with GPU memory management."""
    
    def __init__(self, use_gpu: bool = False, save_dir: str = "models"):
        """Initialize with GPU/CPU configuration and model dictionary."""
        self.use_gpu = use_gpu
        self.device = "cuda" if use_gpu and tf.config.list_physical_devices('GPU') else "cpu"
        self.task_type = "GPU" if use_gpu else "CPU"
        self.save_dir = save_dir
        os.makedirs(save_dir, exist_ok=True)
        self.models = {
            "Logistic Regression": LogisticRegression(C=1.0, solver="liblinear", max_iter=500, class_weight="balanced"),
            "Random Forest": RandomForestClassifier(n_estimators=300, max_depth=12, min_samples_split=5, class_weight="balanced_subsample", random_state=42),
            "Decision Tree": DecisionTreeClassifier(max_depth=10, min_samples_split=10, criterion="gini", class_weight="balanced", random_state=42),
            "XGBoost": XGBClassifier(n_estimators=500, learning_rate=0.03, max_depth=7, scale_pos_weight=5, subsample=0.8, colsample_bytree=0.8, eval_metric="logloss", use_label_encoder=False, device=self.device),
            "LightGBM": LGBMClassifier(n_estimators=500, learning_rate=0.03, max_depth=7, num_leaves=60, min_data_in_leaf=5, force_col_wise=True, scale_pos_weight=5, verbose=-1),
            "Gradient Boosting": GradientBoostingClassifier(n_estimators=500, learning_rate=0.03, max_depth=7, min_samples_split=5),
            "SGD Classifier": SGDClassifier(loss="log_loss", penalty="l2", alpha=0.0001, max_iter=2000, tol=1e-4, class_weight="balanced"),
            "CatBoost": CatBoostClassifier(iterations=500, learning_rate=0.03, depth=7, l2_leaf_reg=5, scale_pos_weight=5, verbose=0, task_type=self.task_type),
            "SVM": SVC(kernel="rbf", C=1.0, probability=True, class_weight="balanced", random_state=42),
            "KNN": KNeighborsClassifier(n_neighbors=7, weights="distance", n_jobs=-1),
            "AdaBoost": AdaBoostClassifier(n_estimators=300, learning_rate=0.1, random_state=42),
            "Extra Trees": ExtraTreesClassifier(n_estimators=300, max_depth=12, min_samples_split=5, class_weight="balanced_subsample", random_state=42, n_jobs=-1),
            "HistGradientBoosting": HistGradientBoostingClassifier(max_iter=500, learning_rate=0.03, max_depth=7, random_state=42),
            "Naive Bayes": GaussianNB(),
            "MLPClassifier": MLPClassifier(hidden_layer_sizes=(256, 128, 64), max_iter=500, learning_rate_init=0.001, random_state=42)
        }
        print(f"Using {'GPU' if use_gpu else 'CPU'} for supported models.")
    
    def train_and_evaluate(self, X_train, X_test, y_train, y_test) -> tuple:
        """Train and evaluate models, returning performance metrics and predictions."""
        results = []
        predictions = {}
        probabilities = {}
        for name, model in self.models.items():
            print(f"Starting training: {name}")
            try:
                if name == "XGBoost":
                    model.fit(X_train, y_train, eval_set=[(X_train, y_train), (X_test, y_test)], verbose=False)
                else:
                    model.fit(X_train, y_train)
                y_pred = model.predict(X_test)
                y_proba = model.predict_proba(X_test)[:, 1]
                predictions[name] = y_pred
                probabilities[name] = y_proba
                results.append(get_metrics(name, y_test, y_pred, y_proba))

                # Save the trained model
                model_path = os.path.join(self.save_dir, f"{name}_best_model.pkl")
                with open(model_path, 'wb') as f:
                    pickle.dump(model, f)
                print(f"Saved model: {model_path}")
                
                tf.keras.backend.clear_session()
                gc.collect()
            except Exception as e:
                print(f"Error training {name}: {str(e)}")
        results_df = pd.DataFrame(results).sort_values(by="F1 Score", ascending=False)
        return results_df, predictions, probabilities

# Train models
trainer = ModelTrainer(use_gpu=True)
results_df, predictions, probabilities = trainer.train_and_evaluate(X_train, X_test, y_train, y_test)

### Wyświetlanie Metryk

Wyświetla tabelę wyników.

In [None]:
# Display performance metrics
print("Model Performance Metrics:")
display(results_df)

### Wydajność Modeli ML w Wykrywaniu Fraudów

#### W kontekście systemu bankowego do wykrywania fraudów, każda metryka ma specyficzne znaczenie:

- Accuracy (dokładność): odsetek poprawnie sklasyfikowanych transakcji. W systemie bankowym wysoka dokładność jest pożądana, ale może być myląca w niezbalansowanych danych (fraudy to ~5% transakcji), gdzie model może ignorować klasę mniejszościową.
- Recall (czułość): proporcja wykrytych fraudów (True Positives) do wszystkich rzeczywistych fraudów. Kluczowa w bankowości – wysoki Recall minimalizuje ryzyko przeoczenia oszustw (False Negatives), co ma wysoki koszt finansowy i reputacyjny.
- Precision (precyzja): proporcja poprawnie oznaczonych fraudów do wszystkich oznaczonych jako fraud. Wysoka precyzja redukuje fałszywe alarmy (False Positives), co jest istotne, by nie blokować legalnych transakcji klientów.
- F1 Score: średnia harmoniczna Precision i Recall. Najważniejsza metryka w tym systemie, bo równoważy wykrywanie fraudów z minimalizacją fałszywych alarmów – optymalizuje koszty operacyjne i zaufanie klientów.
- ROC AUC: miara zdolności modelu do rozróżniania klas. Wysokie ROC AUC wskazuje na skuteczność w separacji fraudów od normalnych transakcji, ale nie uwzględnia progu klasyfikacji, co w bankowości wymaga dodatkowego dostrojenia.

#### Najlepsze modele

##### Gradient Boosting
- F1 Score: 0.9708
- Accuracy: 0.9708
- ROC AUC: 0.9782
- Precyzja: 0.9724
- Czułość: 0.9708
> Najwyższa skuteczność, równowaga precyzji i czułości, doskonałe dopasowanie do danych fraudowych.

##### HistGradientBoosting
- F1 Score: 0.9644
- ROC AUC: 0.9764
- Precyzja: 0.9668
> Nieco niższa precyzja, ale solidna alternatywa.

##### LightGBM
- F1 Score: 0.9581
- ROC AUC: 0.9776
> Stabilne wyniki, choć słabsze od liderów.

#### Modele średnie

##### MLPClassifier, KNN, XGBoost
- F1 Score: 0.9467-0.9474
> Dobre, ale tracą na precyzji i czułości wobec topowych modeli gradientowych.

##### SVM
- F1 Score: 0.9422
- Precyzja: 0.9482
> Niższa wydajność, ale wysoka precyzja.

#### Najsłabsze modele

##### Naive Bayes
- F1 Score: 0.8026
> Najniższa skuteczność, prawdopodobnie z powodu założeń o niezależności cech.

##### AdaBoost
- F1 Score: 0.8329
> Słaba generalizacja w porównaniu do boostingów gradientowych.

#### ROC AUC
Wartości >0.975 dla Gradient Boosting, XGBoost, LightGBM wskazują na doskonałą zdolność rozróżniania klas, mimo niezbalansowania danych.

#### Wnioski
1. Gradient Boosting przewyższa inne modele w F1 Score i Accuracy, co sugeruje lepsze uchwycenie nieliniowych wzorców fraudowych.
2. Spadek wydajności w Naive Bayes i AdaBoost potwierdza ich ograniczenia w złożonych, niezbalansowanych danych.
3. Wysokie ROC AUC we wszystkich modelach (nawet słabszych) wskazuje na dobrą separację klas, ale F1 Score lepiej odzwierciedla praktyczną skuteczność w wykrywaniu fraudów.

### Macierze Pomyłek 
Wywołuje `plot_confusion_matrix` z klasy `Visualizer` dla każdego modelu, wizualizując błędy klasyfikacji.

In [None]:
# Visualize confusion matrices
visualizer = Visualizer()
for model_name, y_pred in predictions.items():
    visualizer.plot_confusion_matrix(y_test, y_pred, model_name)

### Porównanie modeli
- `plot_metrics_bar`: rysuje słupkowy wykres metryk dla wszystkich modeli.
- `plot_model_comparison`: tworzy interaktywny scatter dla modeli z Accuracy ≥ 0.95.

In [None]:
# Visualize performance metrics
Visualizer.plot_metrics_bar(results_df)
Visualizer.plot_model_comparison(results_df, min_accuracy=0.90)

### Trening Sieci Neuronowej
Klasa `NeuralNetworkTrainer` trenuje sieć neuronową na GPU/CPU:

- `__init__`: konfiguruje urządzenie i katalogi dla modeli/logs.
- `train_and_evaluate`: kompiluje model, trenuje z callbacks (EarlyStopping, ReduceLROnPlateau, ModelCheckpoint, TensorBoard), oblicza metryki.

In [None]:
class NeuralNetworkTrainer:
    """Class for training and evaluating neural networks."""
    
    def __init__(self, use_gpu: bool = True, save_dir: str = "models", log_dir: str = "logs"):
        """Initialize trainer with GPU support and directories."""
        self.use_gpu = use_gpu
        self.save_dir = save_dir
        self.log_dir = log_dir
        os.makedirs(save_dir, exist_ok=True)
        os.makedirs(log_dir, exist_ok=True)
        device_name = tf.test.gpu_device_name()
        self.device = device_name if use_gpu and device_name == '/device:GPU:0' else '/device:CPU:0'
        print(f"Using {self.device}")
    
    def train_and_evaluate(self, X_train, X_test, y_train, y_test, model, model_name: str = "Neural Network",
                          epochs: int = 50, batch_size: int = 128, initial_lr: float = 0.0005, threshold: float = 0.5) -> tuple:
        """Train and evaluate the model, returning results."""
        with tf.device(self.device):
            model.compile(optimizer=Adam(learning_rate=initial_lr), loss='binary_crossentropy', metrics=['accuracy'])
            print(f"\n{model_name} Model Summary:")
            model.summary()
            
            callbacks = [
                ReduceLROnPlateau(monitor='val_loss', factor=0.7, patience=5, min_lr=1e-8, verbose=1),
                EarlyStopping(monitor='val_loss', patience=20, restore_best_weights=True, verbose=1),
                ModelCheckpoint(os.path.join(self.save_dir, f"{model_name}_best_model.keras"), monitor='val_loss', save_best_only=True, mode='min', verbose=1),
                TensorBoard(log_dir=os.path.join(self.log_dir, f"{model_name}_{datetime.now().strftime('%Y%m%d-%H%M%S')}"), histogram_freq=1, write_graph=True, write_images=True, update_freq='epoch')
            ]
            
            history = model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_test, y_test), callbacks=callbacks, verbose=1)
            y_proba = model.predict(X_test)
            y_pred = (y_proba > threshold).astype(int).flatten()
            results = pd.DataFrame([get_metrics("Neural Network", y_test, y_pred, y_proba)])
            return model, history, y_pred, results

#### Monitorowanie Treningu
Włącza TensorBoard w Jupyter/Colab do analizy przebiegu treningu w czasie rzeczywistym.

In [None]:
# Enable TensorBoard inline (for Jupyter/Colab)
%load_ext tensorboard
%tensorboard --logdir logs

### Budowa i Trening DNN
- `create_default_model`: tworzy sieć z warstwami gęstymi, Dropout i BatchNormalization.
- Trening: inicjalizuje trening, przygotowuje dane i trenuje model.

In [None]:
def create_default_model(input_dim: int) -> Sequential:
    """Create a default neural network model."""
    model = Sequential([
        Dense(512, input_dim=input_dim, activation='relu'),
        Dropout(0.4),
        BatchNormalization(),
        Dense(256, activation='relu'),
        Dropout(0.4),
        BatchNormalization(),
        Dense(128, activation='relu'),
        Dropout(0.3),
        BatchNormalization(),
        Dense(64, activation='relu'),
        Dropout(0.3),
        BatchNormalization(),
        Dense(32, activation='relu'),
        Dropout(0.2),
        BatchNormalization(),
        Dense(1, activation='sigmoid')
    ])
    return model

# Train the model
trainer = NeuralNetworkTrainer(use_gpu=True)
X_train, X_test, y_train, y_test = prepare_ml_data(df_train)
default_model = create_default_model(X_train.shape[1])
model_name = "Default_Neural_Network"
model, history, y_pred, dnn_results = trainer.train_and_evaluate(
    X_train, X_test, y_train, y_test, default_model, model_name=model_name,
    epochs=500, batch_size=64, initial_lr=0.001, threshold=0.425
)

### Wykres Historii Treningu
Wywołuje `plot_training_history` z klasy `Visualizer` do wizualizacji Accuracy i Loss w Plotly.

In [None]:
# Visualize training history
Visualizer.plot_training_history(history, model_name)

### Wyświetlanie Metryk DNN
Wyświetla tabelę wyników sieci neuronowej

In [None]:
# Display results
display(dnn_results)

### Wyświetlanie porównanie wszystkich modeli

In [None]:
# Comparision chart
Visualizer.plot_model_comparison(pd.concat([results_df, dnn_results], ignore_index=True), 0.90)