Die verschiedenen Arten von **fehlenden Werten** (Missingness) 

- **MCAR**
- **MAR** und
- **MNAR**

haben unterschiedliche Ursachen und Auswirkungen auf die Datenanalyse. Das Verständnis dieser Typen ist wichtig, um geeignete Strategien für den Umgang mit fehlenden Daten auszuwählen. 

Das Erkennen des Typs der Missingness ist der erste Schritt, um den richtigen Umgang mit fehlenden Daten zu finden und sicherzustellen, dass die Analyse nicht verzerrt wird.

https://www.inwt-statistics.de/blog/fehlende-werte-verstehen-und-handhaben

---
# Syllabus

Explain different types of missingness (MCAR, MAR, MNAR), and their implications for data analysis.

---
# MCAR (Missing Completely at Random)

Fehlende Daten sind unproblematisch und können durch einfache Techniken wie Listwise Deletion oder Mittelwertimputation behandelt werden.

## Definition


- Daten fehlen völlig zufällig, ohne Zusammenhang zu den beobachteten oder fehlenden Werten
- es gibt kein systematisches Muster, warum die Daten fehlen

<br>

## Beispiel

- in einer Umfrage vergisst ein zufälliger Teil der Teilnehmer, eine bestimmte Frage zu beantworten, unabhängig von ihren persönlichen Merkmalen oder Antworten auf andere Fragen.
- ein Sensor fällt gelegentlich zufällig aus.

<br>

## Einfluss (Implikationen) für die Datenanalyse

**Keine Verzerrung**

- MCAR-Daten beeinträchtigen die Analyse nicht
- die fehlenden Werte sind eine zufällige Stichprobe der Daten, sodass Analysen auf den vorhandenen Daten weiterhin gültig sind

<br>

## Methoden zur Behandlung
Das Entfernen fehlender Werte (Listwise Deletion) oder einfache Imputationsmethoden wie Mittelwertimputation sind in der Regel unbedenklich, da keine systematische Verzerrung entsteht.

<br>

## Überprüfung
Man kann mit statistischen Tests wie **Little’s MCAR Test** prüfen, ob Daten MCAR sind.

---
# MAR (Missing at Random)

Fehlende Daten können potenziell zu Verzerrungen führen, aber fortgeschrittene Imputationstechniken können verwendet werden, um die Analyse zu verbessern.

## Definition
- Das Fehlen von Daten hängt von beobachteten Werten ab, aber nicht von den fehlenden Werten selbst.
- bedeutet: die Wahrscheinlichkeit des Fehlens eines Wertes hängt mit anderen bekannten Variablen zusammen, nicht aber mit dem Wert der fehlenden Variablen.

<br>

## Beispiel
- Ältere Menschen und Personen mit höherem Einkommen geben seltener Auskunft über ihr Einkommen.

Das Fehlen der Ausgabenangaben hängt also mit dem Alter bzw. dem höherem Einkommen zusammen, das beobachtet wurde, nicht jedoch mit den tatsächlichen Ausgaben (den fehlenden Werten).

<br>

## Einfluss (Implikationen) für die Datenanalyse

**Teilweise Verzerrung**

- MAR-Daten können bei unsachgemäßer Behandlung zu verzerrten Ergebnissen führen
- es ist jedoch möglich, das Fehlen zu erklären, da es auf beobachteten Variablen basiert

<br>

## Methoden zur Behandlung

Fortgeschrittene Imputationstechniken wie 
- **Multiple Imputation**
- **Regression Imputation** oder
- **Maximum Likelihood Methoden**
sind geeigneter, um Verzerrungen zu minimieren.

<br>

## Überprüfung

**Statistische Modelle** können das Fehlen von Werten durch die Beziehung zu anderen beobachteten Variablen modellieren, was die Genauigkeit der Analyse erhöht.

---
# MNAR (Missing Not at Random)

Fehlende Daten führen zu signifikanten Verzerrungen und erfordern spezialisierte Techniken oder zusätzliche Informationen, um die fehlenden Werte korrekt zu behandeln.

## Definition

- Das Fehlen der Daten hängt von den fehlenden Werten selbst ab.
- bedeutet: das Fehlen von Daten kann nicht durch beobachtete Variablen erklärt werden, sondern von den fehlenden Werten selbst

<br>

## Beispiel

- Personen mit hohem Einkommen geben absichtlich keine Auskunft über ihr Einkommen.

Hier hängt das Fehlen der Angaben direkt mit dem tatsächlichen, unbekannten Einkommen zusammen (höhere Einkommen sind mit einer höheren Wahrscheinlichkeit des Nicht-Antwortens verbunden).

<br>

## Einfluss (Implikationen) für die Datenanalyse

**Größtes Verzerrungsrisiko**

- MNAR-Daten führen zu erheblichen Verzerrungen in den Ergebnissen, da das Fehlen systematisch mit den nicht beobachteten Werten zusammenhängt
- diese Art von Missingness ist am schwersten zu beheben, weil keine vollständigen Informationen vorliegen

<br>

## Methoden zur Behandlung

Modelle, die spezifisch für **MNAR-Daten** entwickelt wurden, sind erforderlich, wie z.B. 
- **modifizierte Maximum-Likelihood-Verfahren** oder
- **Modell-basierte Ansätze**
Diese Methoden erfordern jedoch oft zusätzliche Annahmen oder externe Informationen.

<br>

## Überprüfung

In einigen Fällen kann es notwendig sein, zusätzliche Daten zu sammeln oder Expertenwissen zu nutzen, um die Ursachen der fehlenden Werte zu verstehen und zu modellieren.

# Art des Fehlers bestimmen

Es gibt keine perfekte Methode, um die Fehlerart eindeutig festzustellen, aber es gibt statistische Tests und explorative Ansätze, die helfen können, das Muster des Fehlens zu identifizieren.

## MCAR

Verwenden des **Little’s MCAR Test** und Vergleichen der Gruppen mit fehlenden und nicht fehlenden Werten.

### a) Little’s MCAR Test
   - dieser Test prüft, ob das Fehlen von Daten zufällig und unabhängig von anderen Variablen ist
   - ein **nicht-signifikantes Ergebnis** (p-Wert > 0,05) deutet darauf hin, dass die fehlenden Daten MCAR sind
   - ein **signifikantes Ergebnis** (p-Wert < 0,05) deutet darauf hin, dass die Daten nicht MCAR sind

     ```python
     from statsmodels.imputation import test_mcar

     # Test für MCAR auf dem DataFrame df
     p_value = test_mcar(df).pvalue
     print(f"P-Wert: {p_value}")
     ```

<br>

### b) Vergleich von Gruppen mit fehlenden und nicht fehlenden Werten
   - eine explorative Methode besteht darin, die Verteilungen der beobachteten Variablen zwischen den Fällen mit fehlenden und nicht fehlenden Werten zu vergleichen.
   - Erstellen separater Datensätze für die Fälle mit und ohne fehlende Werte in einer bestimmten Spalte und Vergleichen statistischer Eigenschaften wie den Mittelwert.
   - man könnte Mittelwertvergleiche oder T-Tests verwenden, um zu sehen, ob sich Gruppen mit fehlenden Daten von denen ohne fehlende Daten unterscheiden.

     ```python
     # Vergleiche der Mittelwerte
     missing_group = df[df['variable'].isnull()]
     non_missing_group = df[df['variable'].notnull()]
     print(missing_group.mean(), non_missing_group.mean())
     ```

<br>

## MAR

Um auf MAR zu testen, kann man versuchen, Zusammenhänge zwischen den fehlenden Werten und anderen Variablen zu finden.

### a) Logistische Regression für fehlende Werte
   - eine logistische Regression kann verwendet werden, um zu prüfen, ob die Wahrscheinlichkeit des Fehlens eines Wertes von anderen beobachteten Variablen abhängt.
   - man erstellt eine binäre Variable, die anzeigt, ob ein Wert fehlt oder nicht (1 für fehlend, 0 für nicht fehlend), und modelliert diese als abhängige Variable.
   - wenn signifikante Prädiktoren gefunden werden, deutet dies darauf hin, dass die Daten MAR sein könnten.

     ```python
     import statsmodels.api as sm

     # Erstellen der binären Variable, die angibt, ob der Wert fehlt
     df['missing'] = df['variable'].isnull().astype(int)

     # Logistische Regression
     X = df[['other_variable_1', 'other_variable_2']]  # Prädiktoren
     X = sm.add_constant(X)
     y = df['missing']  # Fehlende Variable als Ziel
     model = sm.Logit(y, X).fit()
     print(model.summary())
     ```

<br>

### b) Vergleiche zwischen Subgruppen
   - Erstellen von Subgruppen basierend auf einer beobachteten Variable und Prüfen, ob die Wahrscheinlichkeit fehlender Werte zwischen diesen Gruppen unterschiedlich ist.
   - wenn man Einkommen in hohe und niedrige Gruppen teilt und feststellt, dass bei einer Gruppe mehr Werte fehlen, deutet dies auf MAR hin.
 
     ```python
     high_income = df[df['income'] > 50000]
     low_income = df[df['income'] <= 50000]
     print(high_income['variable'].isnull().mean(), low_income['variable'].isnull().mean())
     ```

<br>

## MNAR

MNAR lässt sich am schwierigsten feststellen, weil die Information fehlt, die notwendig wäre, um das Muster des Fehlens zu analysieren. Es gibt jedoch einige Indikatoren und Techniken, die helfen können.

### a) Subjektives Wissen und Hypothesen
   - oft basiert die Feststellung von MNAR auf domänenspezifischem Wissen und Annahmen.
   - wenn man z.B. weiß, dass Menschen mit hohen Einkommen eher geneigt sind, ihre Einnahmen nicht offenzulegen, könnte dies auf MNAR hinweisen.
   - Überlegen plausibler Gründe, warum Daten fehlen könnten, und Prüfen, ob diese Gründe mit den fehlenden Werten zusammenhängen.

<br>

### b) Modellbasierte Ansätze
   - es gibt fortgeschrittene statistische Techniken, wie z.B. **Selection Models** und **Pattern-Mixture Models**, die speziell für MNAR-Daten entwickelt wurden
   - diese erfordern jedoch oft zusätzliche Annahmen über den Mechanismus der Missingness und sind komplexer in der Anwendung
   - bei stark vermutetem MNAR ist es oft notwendig, zusätzliche Daten zu sammeln oder Expertenschätzungen in die Modelle einzubeziehen, um die fehlenden Werte korrekt zu behandeln

---

# Beispiele

In [2]:
# Überprüfung auf fehlende Daten

import numpy as np
import pandas as pd

# Beispieldaten mit verschiedenen Arten von fehlenden Werten
data = {
    'age': [25, 30, None, 35, None], #
    'income': [50000, None, 45000, None, 80000],  # Möglicherweise MNAR
    'education': ['Bachelor', 'Master', 'PhD', 'Bachelor', None]  # Möglicherweise MAR
}

df = pd.DataFrame(data)

# Fehlende Daten anzeigen
print("\nFehlende Daten in den Spalten:")
print(df.isnull().sum())



Fehlende Daten in den Spalten:
age          2
income       2
education    1
dtype: int64


In [None]:
import pandas as pd
import numpy as np 
data = {    "name": ["Peter", "Paul", "Michael", "Tanja", "Erna", "Sabine"],    
        "age": [53, 27, np.nan, 42, 80, np.nan],    
        "sex": ["m", "m", "m", "f", "f", "f"]}

df = pd.DataFrame(data)
means = df.groupby('sex')['age'].transform('mean')

df['age'] = df['age'].fillna(means)
df
#df2 = df.groupby('sex')['age'].mean()#df['age'].fillna(df['sex'].map(df2), inplace=True)df