# Random Forest Model - Fraud Detection

### Imports

In [None]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import classification_report, confusion_matrix

import matplotlib.pyplot as plt
from sklearn.metrics import ConfusionMatrixDisplay

### CSV laden

In [None]:
csv_path = "transactions.csv"

df = pd.read_csv(csv_path)

# Ersten Eindruck verschaffen
print("Erste Zeilen:")
display(df.head())

print("\nInfo:")
print(df.info())

### Label-Spalte vorbereiten

In [None]:
# Name der Zielspalte
label_col = "fraud"   

print("Verteilung der Labels:")
print(df[label_col].value_counts())


### Hour und DOW extrahieren

In [None]:
df_model = df.copy()

# datetime parsen
df_model["datetime"] = pd.to_datetime(df_model["datetime"], errors="coerce")

# neue Features
df_model["hour"] = df_model["datetime"].dt.hour
df_model["dayofweek"] = df_model["datetime"].dt.dayofweek  # 0=Mo ... 6=So

df_model = df_model.drop(columns=["datetime"])

df_model.head()

### Pipeline & Training

In [None]:
X = df_model.drop(columns=["fraud"])
y = df_model["fraud"]

categorical_features = ["country", "type"]
numeric_features = ["amount", "hour", "dayofweek"]

preprocess = ColumnTransformer(
    transformers=[
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
        ("num", "passthrough", numeric_features),
    ],
    remainder="drop"
)

model = RandomForestClassifier(
    n_estimators=300,
    random_state=42,
    n_jobs=-1,
    class_weight="balanced"
)

clf = Pipeline(steps=[
    ("preprocess", preprocess),
    ("model", model)
])

# Training auf allen Daten
clf.fit(X, y)

print("‚úÖ Modell wurde auf dem gesamten Datensatz trainiert.")


### Feature-Importances berechnen

In [None]:
# Zugriff auf Pipeline-Teile
pre = clf.named_steps["preprocess"]
rf = clf.named_steps["model"]

categorical_features = ["country", "type"]
numeric_features = ["amount", "hour", "dayofweek"]

# OneHotEncoder aus dem ColumnTransformer holen
ohe = pre.named_transformers_["cat"]

# Namen der one-hot Features, z.B. country_DE, country_US, type_paypal...
ohe_feature_names = ohe.get_feature_names_out(categorical_features)

# Alle Feature-Namen in der Reihenfolge wie sie ins Modell gehen
all_feature_names = list(ohe_feature_names) + list(numeric_features)

# Importances vom Random Forest
importances = rf.feature_importances_

fi = pd.DataFrame({"feature": all_feature_names, "importance": importances})

# Gruppierung: alles was mit "country_" beginnt -> "country", alles "type_" -> "type"
def group_name(feat: str) -> str:
    if feat.startswith("country_"):
        return "country"
    if feat.startswith("type_"):
        return "type"
    return feat  # amount, hour, dayofweek bleiben wie sie sind

fi["group"] = fi["feature"].apply(group_name)

# Gruppen-Importances aufsummieren
group_fi = fi.groupby("group", as_index=False)["importance"].sum().sort_values("importance", ascending=False)

group_fi


### Balkendiagramm

In [None]:
plt.figure(figsize=(7, 4))
plt.barh(group_fi["group"][::-1], group_fi["importance"][::-1])
plt.xlabel("Gesamt-Importance")
plt.title("Wichtigkeit der Original-Features (gruppiert)")
plt.tight_layout()
plt.show()

### Selbst testen :)

In [None]:
def classify_transaction(clf_pipeline):
    """
    Fragt eine Transaktion per input() ab, erstellt daraus ein DataFrame,
    engineered hour/dayofweek und gibt Prediction + Fraud-Wahrscheinlichkeit aus.
    """
    country = input("country (z.B. DE/FR/US/UK/ES/IT/NL): ").strip()
    
    amount_str = input("amount (z.B. 49.99): ").strip().replace(",", ".")
    try:
        amount = float(amount_str)
    except ValueError:
        print("‚ùå amount konnte nicht als Zahl gelesen werden.")
        return
    
    dt_str = input("datetime (YYYY-MM-DD HH:MM:SS): ").strip()
    try:
        dt = pd.to_datetime(dt_str)
    except Exception:
        print("‚ùå datetime konnte nicht gelesen werden. Bitte Format exakt einhalten.")
        return
    
    tx_type = input("type (credit_card/bank/paypal): ").strip()

    # Feature engineering wie im Training
    hour = int(dt.hour)
    dayofweek = int(dt.dayofweek)

    # Ein Datensatz (1 Zeile)
    X_new = pd.DataFrame([{
        "country": country,
        "type": tx_type,
        "amount": amount,
        "hour": hour,
        "dayofweek": dayofweek
    }])

    # Vorhersage
    pred = clf_pipeline.predict(X_new)[0]
    proba_fraud = clf_pipeline.predict_proba(X_new)[0][1]  # Klasse 1 = Fraud
    
    label = "FRAUD üö®" if pred == 1 else "LEGIT ‚úÖ"
    print("\n--- Ergebnis ---")
    print("Vorhersage:", label)
    print(f"Wahrscheinlichkeit Fraud: {proba_fraud:.3f}")
    print("---------------\n")


print("Interaktive Klassifikation gestartet.")
print("Tipp: Zum Beenden in Jupyter kannst du in der Eingabe 'q' bei country eingeben.\n")

while True:
    c = input("country (oder 'q' zum Beenden): ").strip()
    if c.lower() == "q":
        print("‚úÖ Beendet.")
        break
    
    # Wir nutzen die classify-Funktion, aber wir haben country schon abgefragt.
    # Daher: mini-hack ‚Äì wir speichern c und fragen die anderen Werte ab.
    # (Alternativ k√∂nntest du die Funktion so umbauen, dass country als Parameter kommt.)
    country = c
    
    amount_str = input("amount (z.B. 49.99): ").strip().replace(",", ".")
    try:
        amount = float(amount_str)
    except ValueError:
        print("‚ùå amount konnte nicht als Zahl gelesen werden.\n")
        continue
    
    dt_str = input("datetime (YYYY-MM-DD HH:MM:SS): ").strip()
    try:
        dt = pd.to_datetime(dt_str)
    except Exception:
        print("‚ùå datetime konnte nicht gelesen werden. Bitte Format exakt einhalten.\n")
        continue
    
    tx_type = input("type (credit_card/bank/paypal): ").strip()

    hour = int(dt.hour)
    dayofweek = int(dt.dayofweek)

    X_new = pd.DataFrame([{
        "country": country,
        "type": tx_type,
        "amount": amount,
        "hour": hour,
        "dayofweek": dayofweek
    }])

    pred = clf.predict(X_new)[0]
    proba_fraud = clf.predict_proba(X_new)[0][1]

    label = "FRAUD üö®" if pred == 1 else "LEGIT ‚úÖ"
    print("\n--- Ergebnis ---")
    print("Vorhersage:", label)
    print(f"Wahrscheinlichkeit Fraud: {proba_fraud:.3f}")
    print("---------------\n")