# Fallnotiz - Credit Card Transactions Dataset

## **Notebook:** Analyse_1.ipynb  
 **Datum:** 08.10.2025  
 **Bearbeitet von:** …  

Ziel dieses Notebooks ist es, den Datensatz strukturell zu verstehen,
die Messniveaus der Variablen korrekt einzuordnen, Missing Values zu prüfen
sowie möglichen Bias im Datensatz zu identifizieren.

### Missing Values
Es wurden in einer einzelnen Spalte *merch_zipcode* missing values gefunden. Grundsätzlich wären es zu viele fehlende Werte, um diese einfach herauszulöschen. Doch da *merch_zipcode* abgeleitet werden kann von den zwei Spalten *merch_lat* und *merch_long*, welche die Längen- und Breitengrade des jeweiligen Verkäufers angeben. Daher behalten wir diese Missing Values bei und verwenden keine spezielle Methode, um mit diesen Umzugehen. Bei Bedarf könnten diese Werte durch Geocoding ergänz werden.

## **Notebook:** Analyse_2.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieses Notebooks ist es, die Lagekennzahlen und Verteilung der Transaktionsbeträge (*amt*) zu analysieren, Ausreißer zu identifizieren und eine begründete Strategie
für deren Behandlung im weiteren Analyseprozess festzulegen. Wir fokussieren uns auf die Variable *amt*, da diese die wichtigste numerische Spalte unseres Datensatzes ist.

### Ausreisserprüfung
Zur Ausreißerprüfung wurden drei etablierte Methoden angewendet:
- Klassischer Z-Score mit Schwellenwert |z| > 3 $\rightarrow$ 12'738
- Tukey-Methode mit 1.5 × IQR $\rightarrow$ 67'290
- Modifizierter Z-Score auf Basis von Median und MAD mit |M| > 3.5 $\rightarrow$ 40'359

**Ergebnisse**

Die Ausreißerprüfung zeigt deutliche Unterschiede zwischen den verwendeten
Methoden. Der klassische Z-Score identifiziert 12 738 Transaktionen als
Ausreißer. Der modifizierte Z-Score ist sensibler gegenüber der schiefen
Verteilung und klassifiziert 40 359 Beobachtungen als Ausreißer. Die
Tukey-Methode reagiert am stärksten auf die rechte Verteilungsschwanz
(Heavy Tail) und identifiziert 67 290 Ausreißer.

Alle identifizierten Ausreißer liegen im oberen Bereich der
Transaktionsbeträge. Es wurden keine ungewöhnlich niedrigen oder negativen
Werte festgestellt.

**Entscheidung**

Die als Ausreißer identifizierten Transaktionen werden nicht aus dem
Datensatz entfernt. Die hohen Beträge stellen keine offensichtlichen
Datenfehler dar, sondern sehr hohe, aber realistische Transaktionswerte.
Solche Extremwerte sind typisch für reale Kreditkartendaten und können für
die spätere Betrugserkennung relevant sein.

## **Notebook:** Analyse_3.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieses Notebooks ist es, die Verteilung unserer Daten zu analysieren. Wir wollen so begleitend zur Vorlesung ein erstes Gespür für Verteilungen erhalten. Es ist jeweils angegeben, ob mit einer logarithmischen Darstellung gearbeitet wurde. Dadurch soll der Einfluss extrem hoher Beträge reduziert und die Struktur der Verteilung
besser sichtbar gemacht werden.

### Verteilungsanalyse mit Plots

Für die Analyse der Verteilung der Daten wurden verschiedene Plotarten verwendet:

- **Countplot**: Darstellung der Verteilung der Transaktionen der Zielvariable `is_fraud` zur Visualisierung des starken Klassenungleichgewichts.
- **Histogramm**: Analyse der Verteilung der Transaktionsbeträge `amt`, teilweise eingeschränkt auf kleinere Betragsbereiche.
- **Histogramm mit Log-Skala**: Darstellung von `amt` im logarithmischen Maßstab, um Beträge über mehrere Größenordnungen vergleichbar zu machen.
- **Dichteplot / KDE**: Geglättete Darstellung der Verteilung von `amt` zur Analyse der Verteilungsform unabhängig von Binning.
- **QQ-Plot**: Vergleich der Quantile von `amt` mit einer Normalverteilung zur Beurteilung von Abweichungen von der Normalitätsannahme.
- **ECDF-Plot**: Kumulative Darstellung von `amt`, um den Anteil der
  Transaktionen unterhalb bzw. oberhalb bestimmter Betragsgrenzen zu bestimmen.
- **Boxplot**: Vergleich der Verteilung von `amt` nach `gender` und
  `category`, teilweise im logarithmischen Maßstab.
- **Violinplot**: Detaillierter Vergleich der Verteilungsform von `amt` nach `gender`.
- **Swarmplot**: Darstellung einzelner Transaktionen (`amt`) nach `gender` für ausgewählte Datenausschnitte.
- **Barplot**: Vergleich aggregierter Kennzahlen von `amt` nach `category` (Transaktionskategorien).

## **Notebook:** Analyse_4.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieses Notebooks ist es, Zusammenhänge und Korrelationen zwischen ausgewählten Variablen im Datensatz zu untersuchen. Dabei wird analysiert, wie numerische und kategoriale Merkmale miteinander in Beziehung stehen und in welchen Szenarien potenzielle Abhängigkeiten oder Muster auftreten.

### Untersuchte Korrelationen, verwendete Statistik und Erkenntnisse

- **Alter (`age`, aus `dob`) ↔ Transaktionsbetrag (`amt`)**  
  - **Statistik:** Pearson-, Spearman- und Kendall-Korrelation.  
  - **Warum:** Vergleich linearer (Pearson) und monotoner Zusammenhänge
    (Spearman, Kendall) aufgrund der schiefen Verteilung von `amt`.  
  - **Erkenntnis:** Alle drei Korrelationsmaße liegen nahe bei 0. Es besteht
    kein relevanter Zusammenhang zwischen dem Alter der Karteninhaber:innen
    und der Höhe der Transaktionsbeträge.

- **Stadtgröße (`city_pop`) ↔ Transaktionsbetrag (`amt`)**  
  - **Statistik:** Pearson-, Spearman- und Kendall-Korrelation.  
  - **Warum:** Untersuchung, ob Transaktionsbeträge systematisch mit der
    Einwohnerzahl der Stadt variieren; Log-Skalierung aufgrund stark
    variierender Stadtgrößen.  
  - **Erkenntnis:** Die Korrelationen sind sehr schwach. Die Stadtgröße hat
    keinen messbaren Einfluss auf die Höhe der Transaktionsbeträge.

- **Zeit (`unix_time`) ↔ Transaktionsbetrag (`amt`)**  
  - **Statistik:** Pearson-, Spearman- und Kendall-Korrelation.  
  - **Warum:** Prüfung, ob sich Transaktionsbeträge über den Zeitverlauf
    systematisch verändern oder Trends aufweisen.  
  - **Erkenntnis:** Die Korrelationswerte liegen praktisch bei 0. Es zeigt sich
    kein zeitlicher Trend in der Höhe der Transaktionsbeträge.

- **Kategorie (`category`) ↔ Geschlecht (`gender`) – Transaktionsanteile**  
  - **Statistik:** Deskriptiver Vergleich von absoluten und relativen Anteilen
    (keine klassische Korrelationskennzahl).  
  - **Warum:** Analyse möglicher Unterschiede im Transaktionsverhalten
    zwischen den Geschlechtern je Kategorie.  
  - **Erkenntnis:** Die Verteilung der Transaktionen nach Kategorien ist für
    `F` und `M` ähnlich. Unterschiede sind vorhanden, jedoch moderat und
    eher kategoriespezifisch als geschlechtsgetrieben.

- **Numerische Variablen untereinander (Korrelationsmatrix)**  
  - **Statistik:** Pearson-Korrelation zwischen allen numerischen Variablen
    nach Entfernung von IDs, Koordinaten und `is_fraud`.  
  - **Warum:** Überblick über lineare Zusammenhänge und potenzielle Redundanzen
    zwischen numerischen Merkmalen.  
  - **Erkenntnis:** Die meisten Korrelationen zwischen numerischen Variablen
    sind schwach. Es liegen keine stark korrelierten Variablenpaare vor, die
    auf offensichtliche Abhängigkeiten oder Redundanzen hindeuten.


Für alle untersuchten Zusammenhänge zwischen numerischen Variablen wurden
durchgängig drei Korrelationsmaße berechnet: Pearson, Spearman und Kendall.
Dadurch konnten sowohl lineare Zusammenhänge (Pearson) als auch monotone
Beziehungen (Spearman, Kendall) betrachtet und die Robustheit der Ergebnisse
gegenüber Ausreißern und schiefen Verteilungen überprüft werden.

## **Notebook:** Analyse_5.ipynb  
**Datum:** 08.10.2025  
**Bearbeitet von:** …

Ziel dieses Notebooks ist es, Wahrscheinlichkeiten im Zusammenhang mit Betrugsfällen zu analysieren. Dabei wird untersucht, wie hoch die Auftretenswahrscheinlichkeit von Betrug insgesamt ist und wie sich diese Wahrscheinlichkeit unter verschiedenen Bedingungen verändert.

### Untersuchte Wahrscheinlichkeitsanalysen, verwendete Maße und Erkenntnisse

- **Grundwahrscheinlichkeit für Betrug (`is_fraud`)**  
  - **Statistik:** Empirische Wahrscheinlichkeit als Mittelwert von `is_fraud`.  
  - **Warum:** `is_fraud` ist binär kodiert (0/1), der Mittelwert entspricht
    direkt der relativen Häufigkeit von Betrugsfällen.  
  - **Erkenntnis:** Die Grundwahrscheinlichkeit für Betrug ist sehr gering,
    was das starke Klassenungleichgewicht im Datensatz bestätigt.

- **Geschlecht (`gender`) ↔ Betrug (`is_fraud`) – Bayes-Analyse**  
  - **Statistik:**  
    - Bedingte Wahrscheinlichkeiten P(Male | Fraud), P(Female | Fraud)  
    - Bayes-Regel zur Berechnung von P(Fraud | Male) und P(Fraud | Female)  
    - **Risk Ratio** (relatives Risiko)  
  - **Warum:** Ziel war es, Unterschiede im Betrugsrisiko zwischen den
    Geschlechtern quantitativ zu vergleichen und die Richtung des Zusammenhangs
    korrekt zu interpretieren.  
  - **Erkenntnis:** Die Betrugswahrscheinlichkeit ist für Männer leicht höher
    als für Frauen. Das relative Risiko liegt bei ca. 1.22 und deutet auf einen
    moderaten Unterschied hin, jedoch ohne starken Effekt.

- **Kategorie (`category`) ↔ Betrug (`is_fraud`)**  
  - **Statistik:**  
    - Bedingte Wahrscheinlichkeit P(Fraud | Category)  
    - **Risk Difference**, **Risk Ratio**, **Odds Ratio**  
  - **Warum:** Diese Maße erlauben unterschiedliche Perspektiven auf das
    Betrugsrisiko: absolute Abweichung (Risk Difference), relatives Risiko
    (Risk Ratio) und Verhältnis der Chancen (Odds Ratio).  
  - **Erkenntnis:** Das Betrugsrisiko variiert stark zwischen den Kategorien.
    Kategorien wie `shopping_net`, `misc_net` und `grocery_pos` weisen ein
    deutlich erhöhtes relatives Risiko auf, während andere Kategorien ein
    unterdurchschnittliches Risiko zeigen.

- **Visualisierung der relativen Risiken nach Kategorie**  
  - **Statistik:** Balkendiagramm der **Risk Ratios** pro Kategorie mit
    Referenzlinie bei 1.  
  - **Warum:** Die visuelle Darstellung erleichtert den direkten Vergleich
    zwischen Kategorien und die Identifikation besonders risikoreicher
    Kategorien.  
  - **Erkenntnis:** Nur wenige Kategorien liegen deutlich über dem
    Gesamtrisiko, was auf eine starke Konzentration von Betrugsfällen in
    bestimmten Bereichen hinweist.

- **Beruf (`job`) ↔ Betrug (`is_fraud`)**  
  - **Statistik:**  
    - Bedingte Wahrscheinlichkeit P(Fraud | Job)  
    - **Risk Difference**, **Risk Ratio**, **Odds Ratio**  
  - **Warum:** Untersuchung, ob bestimmte Berufsgruppen mit einem erhöhten
    oder verringerten Betrugsrisiko assoziiert sind.  
  - **Erkenntnis:** Einige Berufe zeigen extrem hohe oder extrem niedrige
    Risikowerte. Diese Ergebnisse sind teilweise auf sehr kleine Fallzahlen
    zurückzuführen und müssen daher mit Vorsicht interpretiert werden.

- **Visualisierung: Relative Risiken nach Beruf**  
  - **Statistik:** Balkendiagramm der **Risk Ratios** für die Berufe mit den
    höchsten Risikowerten.  
  - **Warum:** Fokus auf die auffälligsten Berufe zur besseren Übersicht.  
  - **Erkenntnis:** Die visuelle Analyse bestätigt starke Unterschiede zwischen
    einzelnen Berufen, unterstreicht jedoch die Notwendigkeit, diese Ergebnisse
    im Kontext der jeweiligen Stichprobengröße zu bewerten.