# Fallnotiz - Credit Card Transactions Dataset

## **Notebook:** Analyse_1.ipynb  
 **Datum:** 08.10.2025  
 **Bearbeitet von:** …  

Ziel dieses Notebooks ist es, den Datensatz strukturell zu verstehen,
die Messniveaus der Variablen korrekt einzuordnen, Missing Values zu prüfen
sowie möglichen Bias im Datensatz zu identifizieren.

### Missing Values
Es wurden in einer einzelnen Spalte *merch_zipcode* missing values gefunden. Grundsätzlich wären es zu viele fehlende Werte, um diese einfach herauszulöschen. Doch da *merch_zipcode* abgeleitet werden kann von den zwei Spalten *merch_lat* und *merch_long*, welche die Längen- und Breitengrade des jeweiligen Verkäufers angeben. Daher behalten wir diese Missing Values bei und verwenden keine spezielle Methode, um mit diesen Umzugehen. Bei Bedarf könnten diese Werte durch Geocoding ergänz werden.

## **Notebook:** Analyse_2.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieses Notebooks ist es, die Lagekennzahlen und Verteilung der Transaktionsbeträge (*amt*) zu analysieren, Ausreißer zu identifizieren und eine begründete Strategie
für deren Behandlung im weiteren Analyseprozess festzulegen. Wir fokussieren uns auf die Variable *amt*, da diese die wichtigste numerische Spalte unseres Datensatzes ist.

### Ausreisserprüfung
Zur Ausreißerprüfung wurden drei etablierte Methoden angewendet:
- Klassischer Z-Score mit Schwellenwert |z| > 3 $\rightarrow$ 12'738
- Tukey-Methode mit 1.5 × IQR $\rightarrow$ 67'290
- Modifizierter Z-Score auf Basis von Median und MAD mit |M| > 3.5 $\rightarrow$ 40'359

**Ergebnisse**

Die Ausreißerprüfung zeigt deutliche Unterschiede zwischen den verwendeten
Methoden. Der klassische Z-Score identifiziert 12 738 Transaktionen als
Ausreißer. Der modifizierte Z-Score ist sensibler gegenüber der schiefen
Verteilung und klassifiziert 40 359 Beobachtungen als Ausreißer. Die
Tukey-Methode reagiert am stärksten auf die rechte Verteilungsschwanz
(Heavy Tail) und identifiziert 67 290 Ausreißer.

Alle identifizierten Ausreißer liegen im oberen Bereich der
Transaktionsbeträge. Es wurden keine ungewöhnlich niedrigen oder negativen
Werte festgestellt.

**Entscheidung**

Die als Ausreißer identifizierten Transaktionen werden nicht aus dem
Datensatz entfernt. Die hohen Beträge stellen keine offensichtlichen
Datenfehler dar, sondern sehr hohe, aber realistische Transaktionswerte.
Solche Extremwerte sind typisch für reale Kreditkartendaten und können für
die spätere Betrugserkennung relevant sein.

## **Notebook:** Analyse_3.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieses Notebooks ist es, die Verteilung unserer Daten zu analysieren. Wir wollen so begleitend zur Vorlesung ein erstes Gespür für Verteilungen erhalten. Es ist jeweils angegeben, ob mit einer logarithmischen Darstellung gearbeitet wurde. Dadurch soll der Einfluss extrem hoher Beträge reduziert und die Struktur der Verteilung
besser sichtbar gemacht werden.

### Verteilungsanalyse mit Plots

Für die Analyse der Verteilung der Daten wurden verschiedene Plotarten verwendet:

- **Countplot**: Darstellung der Verteilung der Transaktionen der Zielvariable `is_fraud` zur Visualisierung des starken Klassenungleichgewichts.
- **Histogramm**: Analyse der Verteilung der Transaktionsbeträge `amt`, teilweise eingeschränkt auf kleinere Betragsbereiche.
- **Histogramm mit Log-Skala**: Darstellung von `amt` im logarithmischen Maßstab, um Beträge über mehrere Größenordnungen vergleichbar zu machen.
- **Dichteplot / KDE**: Geglättete Darstellung der Verteilung von `amt` zur Analyse der Verteilungsform unabhängig von Binning.
- **QQ-Plot**: Vergleich der Quantile von `amt` mit einer Normalverteilung zur Beurteilung von Abweichungen von der Normalitätsannahme.
- **ECDF-Plot**: Kumulative Darstellung von `amt`, um den Anteil der
  Transaktionen unterhalb bzw. oberhalb bestimmter Betragsgrenzen zu bestimmen.
- **Boxplot**: Vergleich der Verteilung von `amt` nach `gender` und
  `category`, teilweise im logarithmischen Maßstab.
- **Violinplot**: Detaillierter Vergleich der Verteilungsform von `amt` nach `gender`.
- **Swarmplot**: Darstellung einzelner Transaktionen (`amt`) nach `gender` für ausgewählte Datenausschnitte.
- **Barplot**: Vergleich aggregierter Kennzahlen von `amt` nach `category` (Transaktionskategorien).

## **Notebook:** Analyse_4.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieses Notebooks ist es, Zusammenhänge und Korrelationen zwischen ausgewählten Variablen im Datensatz zu untersuchen. Dabei wird analysiert, wie numerische und kategoriale Merkmale miteinander in Beziehung stehen und in welchen Szenarien potenzielle Abhängigkeiten oder Muster auftreten.

### Untersuchte Korrelationen, verwendete Statistik und Erkenntnisse

- **Alter (`age`, aus `dob`) ↔ Transaktionsbetrag (`amt`)**  
  - **Statistik:** Pearson-, Spearman- und Kendall-Korrelation.  
  - **Warum:** Vergleich linearer (Pearson) und monotoner Zusammenhänge
    (Spearman, Kendall) aufgrund der schiefen Verteilung von `amt`.  
  - **Erkenntnis:** Alle drei Korrelationsmaße liegen nahe bei 0. Es besteht
    kein relevanter Zusammenhang zwischen dem Alter der Karteninhaber:innen
    und der Höhe der Transaktionsbeträge.

- **Stadtgröße (`city_pop`) ↔ Transaktionsbetrag (`amt`)**  
  - **Statistik:** Pearson-, Spearman- und Kendall-Korrelation.  
  - **Warum:** Untersuchung, ob Transaktionsbeträge systematisch mit der
    Einwohnerzahl der Stadt variieren; Log-Skalierung aufgrund stark
    variierender Stadtgrößen.  
  - **Erkenntnis:** Die Korrelationen sind sehr schwach. Die Stadtgröße hat
    keinen messbaren Einfluss auf die Höhe der Transaktionsbeträge.

- **Zeit (`unix_time`) ↔ Transaktionsbetrag (`amt`)**  
  - **Statistik:** Pearson-, Spearman- und Kendall-Korrelation.  
  - **Warum:** Prüfung, ob sich Transaktionsbeträge über den Zeitverlauf
    systematisch verändern oder Trends aufweisen.  
  - **Erkenntnis:** Die Korrelationswerte liegen praktisch bei 0. Es zeigt sich
    kein zeitlicher Trend in der Höhe der Transaktionsbeträge.

- **Kategorie (`category`) ↔ Geschlecht (`gender`) – Transaktionsanteile**  
  - **Statistik:** Deskriptiver Vergleich von absoluten und relativen Anteilen
    (keine klassische Korrelationskennzahl).  
  - **Warum:** Analyse möglicher Unterschiede im Transaktionsverhalten
    zwischen den Geschlechtern je Kategorie.  
  - **Erkenntnis:** Die Verteilung der Transaktionen nach Kategorien ist für
    `F` und `M` ähnlich. Unterschiede sind vorhanden, jedoch moderat und
    eher kategoriespezifisch als geschlechtsgetrieben.

- **Numerische Variablen untereinander (Korrelationsmatrix)**  
  - **Statistik:** Pearson-Korrelation zwischen allen numerischen Variablen
    nach Entfernung von IDs, Koordinaten und `is_fraud`.  
  - **Warum:** Überblick über lineare Zusammenhänge und potenzielle Redundanzen
    zwischen numerischen Merkmalen.  
  - **Erkenntnis:** Die meisten Korrelationen zwischen numerischen Variablen
    sind schwach. Es liegen keine stark korrelierten Variablenpaare vor, die
    auf offensichtliche Abhängigkeiten oder Redundanzen hindeuten.


Für alle untersuchten Zusammenhänge zwischen numerischen Variablen wurden
durchgängig drei Korrelationsmaße berechnet: Pearson, Spearman und Kendall.
Dadurch konnten sowohl lineare Zusammenhänge (Pearson) als auch monotone
Beziehungen (Spearman, Kendall) betrachtet und die Robustheit der Ergebnisse
gegenüber Ausreißern und schiefen Verteilungen überprüft werden.

## **Notebook:** Analyse_5.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieses Notebooks ist es, Wahrscheinlichkeiten im Zusammenhang mit Betrugsfällen zu analysieren. Dabei wird untersucht, wie hoch die Auftretenswahrscheinlichkeit von Betrug insgesamt ist und wie sich diese Wahrscheinlichkeit unter verschiedenen Bedingungen verändert.

### Untersuchte Wahrscheinlichkeitsanalysen, verwendete Maße und Erkenntnisse

- **Grundwahrscheinlichkeit für Betrug (`is_fraud`)**  
  - **Statistik:** Empirische Wahrscheinlichkeit als Mittelwert von `is_fraud`.  
  - **Warum:** `is_fraud` ist binär kodiert (0/1), der Mittelwert entspricht
    direkt der relativen Häufigkeit von Betrugsfällen.  
  - **Erkenntnis:** Die Grundwahrscheinlichkeit für Betrug ist sehr gering,
    was das starke Klassenungleichgewicht im Datensatz bestätigt.

- **Geschlecht (`gender`) ↔ Betrug (`is_fraud`) – Bayes-Analyse**  
  - **Statistik:**  
    - Bedingte Wahrscheinlichkeiten P(Male | Fraud), P(Female | Fraud)  
    - Bayes-Regel zur Berechnung von P(Fraud | Male) und P(Fraud | Female)  
    - **Risk Ratio** (relatives Risiko)  
  - **Warum:** Ziel war es, Unterschiede im Betrugsrisiko zwischen den
    Geschlechtern quantitativ zu vergleichen und die Richtung des Zusammenhangs
    korrekt zu interpretieren.  
  - **Erkenntnis:** Die Betrugswahrscheinlichkeit ist für Männer leicht höher
    als für Frauen. Das relative Risiko liegt bei ca. 1.22 und deutet auf einen
    moderaten Unterschied hin, jedoch ohne starken Effekt.

- **Kategorie (`category`) ↔ Betrug (`is_fraud`)**  
  - **Statistik:**  
    - Bedingte Wahrscheinlichkeit P(Fraud | Category)  
    - **Risk Difference**, **Risk Ratio**, **Odds Ratio**  
  - **Warum:** Diese Maße erlauben unterschiedliche Perspektiven auf das
    Betrugsrisiko: absolute Abweichung (Risk Difference), relatives Risiko
    (Risk Ratio) und Verhältnis der Chancen (Odds Ratio).  
  - **Erkenntnis:** Das Betrugsrisiko variiert stark zwischen den Kategorien.
    Kategorien wie `shopping_net`, `misc_net` und `grocery_pos` weisen ein
    deutlich erhöhtes relatives Risiko auf, während andere Kategorien ein
    unterdurchschnittliches Risiko zeigen.

- **Visualisierung der relativen Risiken nach Kategorie**  
  - **Statistik:** Balkendiagramm der **Risk Ratios** pro Kategorie mit
    Referenzlinie bei 1.  
  - **Warum:** Die visuelle Darstellung erleichtert den direkten Vergleich
    zwischen Kategorien und die Identifikation besonders risikoreicher
    Kategorien.  
  - **Erkenntnis:** Nur wenige Kategorien liegen deutlich über dem
    Gesamtrisiko, was auf eine starke Konzentration von Betrugsfällen in
    bestimmten Bereichen hinweist.

- **Beruf (`job`) ↔ Betrug (`is_fraud`)**  
  - **Statistik:**  
    - Bedingte Wahrscheinlichkeit P(Fraud | Job)  
    - **Risk Difference**, **Risk Ratio**, **Odds Ratio**  
  - **Warum:** Untersuchung, ob bestimmte Berufsgruppen mit einem erhöhten
    oder verringerten Betrugsrisiko assoziiert sind.  
  - **Erkenntnis:** Einige Berufe zeigen extrem hohe oder extrem niedrige
    Risikowerte. Diese Ergebnisse sind teilweise auf sehr kleine Fallzahlen
    zurückzuführen und müssen daher mit Vorsicht interpretiert werden.

- **Visualisierung: Relative Risiken nach Beruf**  
  - **Statistik:** Balkendiagramm der **Risk Ratios** für die Berufe mit den
    höchsten Risikowerten.  
  - **Warum:** Fokus auf die auffälligsten Berufe zur besseren Übersicht.  
  - **Erkenntnis:** Die visuelle Analyse bestätigt starke Unterschiede zwischen
    einzelnen Berufen, unterstreicht jedoch die Notwendigkeit, diese Ergebnisse
    im Kontext der jeweiligen Stichprobengröße zu bewerten.

## **Notebook:** Analyse_7und8.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieser Analyse ist es, konkrete Hypothesen zum Betrugsrisiko zu überprüfen. Dabei werden bedingte Wahrscheinlichkeiten sowie Risiko-Maße verwendet, um Zusammenhänge zwischen ausgewählten Merkmalen und Betrugsfällen systematisch zu untersuchen. Der Fokus liegt auf der Interpretation statistischer
Zusammenhänge und nicht auf der Vorhersage.

### Hypothese 1: Fraud-Transaktionen haben im Mittel einen höheren Transaktionsbetrag als Non-Fraud-Transaktionen
**Analyse**
- Vergleich der Mittelwerte von `amt` zwischen `is_fraud = 1` und `is_fraud = 0`.
- **Statistik:** T-Test für unabhängige Stichproben.
- **Warum:** Test, ob sich die durchschnittlichen Beträge signifikant unterscheiden; im Notebook wird dafür eine **Log-Transformation** genutzt, um die starke Rechtsschiefe von `amt` besser zu handhaben. 

**Erkenntnis**
- Der Unterschied ist statistisch eindeutig und praktisch relevant: Betrugsfälle
  zeigen im Schnitt höhere Beträge; `amt` ist damit ein sehr starkes Signal für Fraud.  

  ### Hypothese 2: Fraud-Transaktionen sind häufiger online (statt POS) als Non-Fraud
  **Analyse**
- Vergleich der Fraud-Häufigkeiten nach Kanal (Online vs. Offline/POS).
- **Statistik:** Chi-Quadrat-Unabhängigkeitstest + Odds Ratio.
- **Warum:** Beide Variablen sind kategorial; Chi² testet Unabhängigkeit, Odds Ratio
  quantifiziert das relative Risiko/Chancenverhältnis.  

**Erkenntnis**
- Online-Transaktionen sind klar risikoreicher: Odds Ratio ≈ 1.52 (≈ 52% höhere Chance
  für Fraud im Online-Kanal). 

### Hypothese 3: Der Anteil an Betrugsfällen unterscheidet sich zwischen Frauen und Männern
**Analyse**
- Vergleich der Fraud-Anteile nach `gender` (F vs. M).
- **Statistik:** Permutationstest (5'000 Iterationen) + Chi-Quadrat-Test,
  zusätzlich Odds Ratio und Cramér’s V.
- **Warum:** Permutationstest ist robust ohne Verteilungsannahmen; Chi² für Unabhängigkeit;
  Odds Ratio für Richtung/Stärke; Cramér’s V als Effektstärke.  

**Erkenntnis**
- Männer haben ein leicht höheres Risiko (Odds Ratio ≈ 1.22), aber die Effektstärke ist
  praktisch sehr klein (Cramér’s V ≈ 0.0076). 

### Hypothese 4: Fraud-Transaktionen treten nachts (0–6 Uhr) signifikant häufiger auf als am Tag
**Analyse**
- Bildung der Kategorien `night` (0–6 Uhr) vs. `day` (Rest) und Vergleich mit `is_fraud`.
- **Statistik:** Chi-Quadrat-Unabhängigkeitstest + Odds Ratio.
- **Warum:** Kategorial vs. kategorial; Chi² testet Zusammenhang, Odds Ratio quantifiziert
  den Risiko-Unterschied. 

**Erkenntnis**
- Nacht ist eine Hochrisiko-Zeit: Odds Ratio ≈ 1.87 (≈ 87% höhere Chance für Fraud in der Nacht).  

### Hypothese 5: Fraud-Kunden zeigen häufiger „Bursting Behavior“ (mehr Transaktionen pro Stunde)
**Analyse**
- Aggregation auf „Transaktionen pro Kunde und Stunde“ und Vergleich zwischen Fraud- und Non-Fraud-Fällen.
- **Statistik:** T-Test für unabhängige Stichproben + Cohen’s d.
- **Warum:** Mittelwertvergleich einer numerischen Kennzahl; Cohen’s d als Effektstärke
  (praktische Relevanz).  

**Erkenntnis**
- Sehr klarer Effekt: p-Wert extrem klein und Cohen’s d ≈ 0.55 (mittelstarker, praxisrelevanter Unterschied).  

### Hypothese 6: Bestimmte Categories weisen höhere Fraud-Raten auf
**Analyse**
- Vergleich der Fraud-Raten über `category`.
- **Statistik:** Chi-Quadrat-Unabhängigkeitstest + Cramér’s V.
- **Warum:** `category` und `is_fraud` sind kategorial; Chi² testet, ob Betrug gleich verteilt ist;
  Cramér’s V misst die Stärke des Zusammenhangs über viele Kategorien hinweg.  

**Erkenntnis**
- Die Fraud-Raten unterscheiden sich signifikant zwischen Kategorien; bestimmte Kategorien sind
  systematisch risikoreicher als andere.  

### Gesamtfazit
Die Tests zeigen, dass Betrag (`amt`), Kanal (Online/Offline), Tageszeit (Nacht/Tag),
Bursting-Behavior und Kategorie deutliche Hinweise auf Fraud liefern. Geschlecht weist
zwar einen statistischen Unterschied auf, hat aber eine sehr geringe Effektstärke und
soll daher nur schwach gewichtet werden.  

## **Notebook:** Analyse_9.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieser Analyse ist es, Gruppenvergleiche für eine numerische Variable durchzuführen und zu untersuchen, ob sich die Verteilungen der Transaktionsbeträge zwischen verschiedenen Gruppen systematisch unterscheiden. Dabei werden geeignete statistische Tests eingesetzt, um Unterschiede zwischen mehreren Gruppen objektiv zu identifizieren und inhaltlich zu interpretieren.

### **Transaktionskategorie (`category`) im Verhältnis zum Transaktionsbetrag (`amt`)**

**Analyse**
Die Transaktionsbeträge wurden zwischen allen Transaktionskategorien verglichen,
um zu untersuchen, ob sich das typische Ausgabenniveau systematisch zwischen
den Kategorien unterscheidet. Die Analyse basiert auf unabhängigen Gruppen mit
stark rechtsschief verteilten Beträgen.

**Statistik**
- Kruskal-Wallis-Test zur Überprüfung eines globalen Unterschieds zwischen
  allen Kategorien  
- Dunn-Post-hoc-Test mit FDR-Korrektur für paarweise Vergleiche  
- Effektgröße: Cliff’s Delta für die paarweisen Kategorienvergleiche

**Warum**
Der Kruskal-Wallis-Test ist geeignet, da keine Normalverteilung der
Transaktionsbeträge vorliegt und mehr als zwei unabhängige Gruppen verglichen
werden. Der Dunn-Post-hoc-Test identifiziert konkrete Unterschiede zwischen
einzelnen Kategorienpaaren, während die FDR-Korrektur das Problem multipler
Tests adressiert. Cliff’s Delta wird als Effektgröße verwendet, da es
nichtparametrisch ist und die Stärke der Unterschiede zwischen zwei Gruppen
robust quantifiziert.

**Erkenntnis**
Der globale Test ist hochsignifikant und weist auf systematische Unterschiede
zwischen den Transaktionskategorien hin. Die berechneten Werte von Cliff’s
Delta zeigen überwiegend kleine bis mittlere Effekte, was darauf hindeutet,
dass die Kategorie einen relevanten, aber nicht dominanten Einfluss auf die
Höhe der Transaktionsbeträge hat. Die meisten Kategorien unterscheiden sich
klar voneinander, während nur wenige ähnliche Ausgabenniveaus aufweisen.

### **Alter (`age`) im Verhältnis zum Transaktionsbetrag (`amt`)**

**Analyse**
Das Alter der Karteninhaber:innen wurde in mehrere Altersgruppen eingeteilt.
Anschließend wurden die Transaktionsbeträge zwischen diesen Altersgruppen
verglichen, um zu untersuchen, ob sich das Ausgabeverhalten systematisch
zwischen unterschiedlichen Alterssegmenten unterscheidet.

**Statistik**
- Kruskal-Wallis-Test zur Prüfung eines globalen Unterschieds zwischen den
  Altersgruppen  
- Dunn-Post-hoc-Test für paarweise Vergleiche zwischen Altersgruppen  
- Benjamini–Hochberg-FDR-Korrektur zur Kontrolle multipler Tests  
- Effektgröße: Cliff’s Delta für die paarweisen Altersgruppenvergleiche

**Warum**
Da die Transaktionsbeträge stark rechtsschief verteilt sind und mehrere
unabhängige Altersgruppen verglichen werden, wurde ein nichtparametrischer
Ansatz gewählt. Der Kruskal-Wallis-Test prüft zunächst, ob sich die Gruppen
insgesamt unterscheiden. Der anschließende Dunn-Test identifiziert konkrete
Unterschiede zwischen einzelnen Altersgruppen. Die Benjamini–Hochberg-
Korrektur reduziert das Risiko von Fehlinterpretationen durch multiples
Testen. Cliff’s Delta quantifiziert die Stärke der Unterschiede zwischen
jeweils zwei Altersgruppen ohne zusätzliche Verteilungsannahmen.

**Warum**
Da die Transaktionsbeträge stark rechtsschief verteilt sind und mehrere
unabhängige Altersgruppen verglichen werden, wurde ein nichtparametrischer
Ansatz gewählt. Der Kruskal-Wallis-Test prüft zunächst, ob sich die Gruppen
insgesamt unterscheiden. Der anschließende Dunn-Test identifiziert konkrete
Unterschiede zwischen einzelnen Altersgruppen. Die Benjamini–Hochberg-
Korrektur reduziert das Risiko von Fehlinterpretationen durch multiples
Testen. Cliff’s Delta quantifiziert die Stärke der Unterschiede zwischen
jeweils zwei Altersgruppen ohne zusätzliche Verteilungsannahmen.