Der Umgang mit fehlenden, falschen oder irreführenden Informationen in Datensätzen ist ein entscheidender Schritt in der Datenbereinigung und -standardisierung. Um die Qualität und Aussagekraft von Analysen sicherzustellen, müssen diese Probleme methodisch und sorgfältig angegangen werden.

https://www.inwt-statistics.de/blog/fehlende-werte-verstehen-und-handhaben

# Syllabus

- Address missing, inaccurate, or misleading information.
- Tackle specific data quality issues: numerical data problems, duplicate records, invalid data entries, and missing values.

---
# Umgang mit fehlenden Informationen

Fehlende Daten treten in fast allen realen Datensätzen auf, sei es durch Erfassungsfehler, unvollständige Antworten oder technische Probleme.

<br>

## Identifikation fehlender Werte
In Python kann man mit Pandas `isnull()` oder `isna()` verwenden, um fehlende Werte zu identifizieren.
<br>

```python
missing_values = df.isnull().sum()
```

<br>

## Entfernen fehlerhafter Daten
Wenn der Anteil fehlender Daten gering ist (z.B. <5%) oder die fehlenden Werte zufällig verteilt sind und keinen großen Einfluss auf das Gesamtergebnis haben.

- **Zeilen löschen** (`dropna()` in Pandas):<br>
  Entfernt Datensätze, in denen eine oder mehrere Werte fehlen.
- **Spalten löschen**:<br>
  Wenn eine Spalte überwiegend fehlende Werte enthält, kann es sinnvoll sein, die gesamte Spalte zu entfernen.

- **Vorteile**:<br>
  Einfach anzuwenden und verhindert, dass unvollständige Daten die Analyse verfälschen.
- **Nachteile**:<br>
  Kann wertvolle Informationen verlieren, insbesondere wenn viele Datenpunkte gelöscht werden.
<br>


   ```python
   df_cleaned = df.dropna()  # Entfernt Zeilen mit fehlenden Werten
   ```

<br>

## Auffüllen fehlender Werte

Wenn fehlende Daten systematisch oder nicht zufällig verteilt sind und der Verlust von Daten vermieden werden soll.

 - **Mittelwert, Median, Modus:** <br>
   - **numerische Daten**:<br>
     Fehlende Werte können durch den Mittelwert oder Median der Spalte ersetzt werden.
   - **kategorische Daten**:<br>
     Der Modus (häufigster Wert) kann verwendet werden.
   
     <br>
     
 - **Vorheriger/Nachfolgender Wert:** <br>
    Bei numerischen Daten oder Zeitreihen kann lineare Interpolation verwendet werden, um Zwischenwerte zu schätzen.<br>
    Daten werden mit dem letzten vorhandenen (**Backward Fill**, `bfill()`) oder nächsten (**Forward Fill**, `ffill()`) gültigen Wert gefüllt (nützlich für zeitlich geordnete Daten).
 - **Modellbasierte Imputation:** <br>
    Hierbei werden maschinelle Lernmodelle verwendet, um fehlende Werte basierend auf anderen Variablen vorherzusagen.<br>
    z.B. K-Nearest Neighbors oder Regression

- **Vorteile**:<br>
  Erhält die Datenstruktur und erlaubt eine vollständige Analyse.
- **Nachteile**:<br>
  Kann zu Verzerrungen führen, insbesondere wenn die Schätzungen ungenau sind oder die Daten nicht zufällig fehlen.
<br>


   ```python
   df['column_name'] = df['column_name'].fillna(df['column_name'].mean())  # Auffüllen mit Mittelwert
   ```

<br>

## Spezifische Markierung
Fehlende Werte können durch einen speziellen Wert (z.B. `-999`, `None` oder eine Kategorie „Nicht verfügbar“) ersetzt werden, um die fehlenden Daten explizit kenntlich zu machen, ohne sie zu löschen oder zu interpolieren.

---
# Wann entfernen, wann auffüllen?

Der Umgang mit fehlenden Werten hängt stark vom Kontext der Analyse, der Art der Daten und dem Ziel der Analyse ab. Hier sind Richtlinien, wann welche Strategie sinnvoll ist.

- **Fehlende Werte entfernen** ist sinnvoll, wenn nur wenige Werte fehlen, die Werte nicht sinnvoll ersetzt werden können oder wenn es um besonders genaue Analysen geht.
- **Fehlende Werte auffüllen** ist angebracht, wenn viele Daten fehlen, wichtige Variablen betroffen sind oder die fehlenden Werte durch andere Variablen oder Modelle vorhergesagt werden können. 

## Fehlende Werte entfernen

### a) Nur wenige fehlende Werte vorhanden
- Wenn nur ein kleiner Prozentsatz (z.B. < 5%) der Daten fehlt, kann es oft einfacher und sicherer sein, diese Einträge zu entfernen, anstatt komplizierte Imputationstechniken zu verwenden.
- Beispiel:<br>
  Wenn 3 von 1000 Datenpunkten fehlen, könnte das Entfernen dieser Werte die Gesamtanalyse nicht signifikant beeinflussen.

### b) Spalten/Zeilen mit vielen fehlenden Werten
- Wenn eine bestimmte Spalte oder Zeile in einem Datensatz einen großen Anteil fehlender Werte aufweist (z.B. > 50%), kann es sinnvoll sein, die gesamte Spalte oder Zeile zu entfernen, da das Auffüllen nicht mehr verlässlich oder sinnvoll ist.
- Beispiel: <br>
  Eine Umfrage enthält eine Frage, die von mehr als der Hälfte der Teilnehmer nicht beantwortet wurde. In diesem Fall kann die gesamte Frage irrelevant für die Analyse sein.

### c) Werte sind nicht sinnvoll zu ersetzen
- Wenn fehlende Werte nicht logisch oder sinnvoll durch andere Werte ersetzt werden können (z.B. wenn ein Datum oder ein einzigartiger Identifikator fehlt), sollte das Entfernen bevorzugt werden. Ein „Ersatzwert“ könnte in diesen Fällen die Daten nur verfälschen.
- Beispiel:<br>
  Ein eindeutiger Identifikator wie `customer_id` kann nicht einfach interpoliert oder mit einem Standardwert gefüllt werden. Wenn dieser fehlt, macht es mehr Sinn, den gesamten Eintrag zu löschen.

### d) Wenn es auf die Integrität der Analyse ankommt
- Wenn die Analyse extrem präzise sein muss und bereits geringfügige Veränderungen durch das Auffüllen zu verzerrten Ergebnissen führen könnten, ist das Entfernen vorzuziehen.
- Beispiel:<br>
  In medizinischen Studien könnten falsche Annahmen über fehlende Werte zu falschen Schlüssen führen.

<br>

## Fehlende Werte auffüllen (Imputation)

#### a) hohe Anzahl an fehlenden Werten vorhanden
- Wenn viele Daten fehlen, kann das Entfernen dieser Daten die Analyse erheblich beeinträchtigen, da wertvolle Informationen verloren gehen. In solchen Fällen ist es oft besser, die fehlenden Werte mit geeigneten Techniken aufzufüllen, um die Vollständigkeit der Daten zu bewahren.
- Beispiel: In einem medizinischen Datensatz fehlen 20% der Werte in einer bestimmten Spalte. Diese zu entfernen würde einen signifikanten Informationsverlust bedeuten.

### b) Daten sind für die Analyse entscheidend
- Wenn die fehlenden Werte in wichtigen Variablen liegen, die für die Analyse entscheidend sind, kann das Auffüllen dazu beitragen, die Analyse aufrechtzuerhalten, ohne dass ganze Zeilen oder Spalten entfernt werden.
- Beispiel:<br>
  Fehlende Verkaufsdaten könnten mit dem Mittelwert oder einem Trendmodell gefüllt werden, um die Vorhersage von Umsätzen nicht zu gefährden.

### c) Daten sind lückenhaft, aber systematisch
- Wenn die fehlenden Daten einem erkennbaren Muster folgen oder die Möglichkeit besteht, diese aus anderen Variablen zu rekonstruieren, kann das Auffüllen sinnvoll sein.
- Beispiel:<br>
  In einem Zeitreihendatensatz fehlen Werte nur an bestimmten Wochenenden. Hier könnte eine Interpolation die fehlenden Werte verlässlich rekonstruieren.

### d) es gibt Korrelationen mit anderen Variablen
- Wenn fehlende Werte durch Korrelationen oder Zusammenhänge mit anderen Variablen vorhergesagt werden können, ist es oft sinnvoll, diese zu nutzen, um die fehlenden Werte zu schätzen. Maschinelle Lernmethoden oder Regressionsmodelle können hier helfen.
- Beispiel:<br>
  Das Einkommen eines Kunden könnte anhand anderer Faktoren wie Alter, Beruf und Wohnort geschätzt werden.

### e) Analyse erfordert robuste Schätzungen
- Bei maschinellen Lernverfahren kann das Auffüllen fehlender Werte die Vorhersagefähigkeiten eines Modells verbessern, da so mehr Datenpunkte für das Training erhalten bleiben. Verschiedene Imputationstechniken wie K-Nearest Neighbors (KNN) oder multivariate Imputation können hier hilfreich sein.



### Zusammenfassung:


Die Wahl der Methode hängt von der Art der Daten und dem Ziel der Analyse ab.

---
# Umgang mit falschen bzw. ungültigen Informationen

Falsche Informationen können durch Tippfehler, falsche Dateneingaben oder technische Störungen entstehen.

## Tippfehler

- **Textbereinigung**: <br>
  Textdaten können normalisiert werden, indem Groß- und Kleinschreibung angeglichen oder überflüssige Leerzeichen entfernt werden (`str.lower()`, `str.strip()`)
     
- **Vorteile**:<br>
  stellt sicher, dass die Daten konsistent und korrekt sind

- **Nachteile**: <br>
  kann ohne automatisierte Prozesse mühsam sein


<br>

## Ersetzen offensichtlicher Fehler durch logische Werte
Identifikation falscher Daten durch spezifische Regeln oder Schwellwerte für die Dateneingaben (z.B. dass Alter > 150 wahrscheinlich falsch ist).

- **Schwellenwert**: <br>
  Bestimmen eines realistischen Wertebereichs und Ersetzen von Werten außerhalb dieses Bereichs durch Median, Mittelwert oder festgelegten Ersatzwert
- **Regeln anwenden**: <br>
  Wenn aus Geschäftslogik oder Expertenwissen klare Regeln hervorgehen, was plausible Werte sind, können diese verwendet werden
- **Vorteile**: <br>
  verbessert die Plausibilität der Daten
- **Nachteile**: <br>
  erfordert fundierte Kenntnisse über den Datensatz oder das Anwendungsgebiet, um die richtigen Ersatzwerte zu wählen
<br>


```python
df = df[df['age'] <= 150]  # Filterung nach plausiblen Werten
```

<br>

## Duplikate

Mit Pandas `drop_duplicates()` können doppelte Einträge entfernt werden.

```python
df_cleaned = df.drop_duplicates()
```

<br>

## Outlier

Statistische Techniken wie Z-Score oder IQR (Interquartilsabstand) können verwendet werden, um extreme Ausreißer zu identifizieren, die möglicherweise falsch sind.

- **Z-Score-Methode**: <br>
  Werte, die mehr als eine bestimmte Anzahl von Standardabweichungen vom Mittelwert abweichen, werden als Ausreißer identifiziert
- **Interquartilsabstand (IQR)**:<br>
  Werte außerhalb des 1,5-fachen des IQR (zwischen dem ersten und dritten Quartil) können als Ausreißer behandelt werden
- **Vorteile**:<br>
  verbessert die Genauigkeit der Analyse, durch Eliminierung extremer Verzerrungen
- **Nachteile**: <br>
  Risiko, legitime extreme Werte fälschlicherweise als Ausreißer zu behandeln
<br>


```python
# Beispiel für Z-Score:

from scipy import stats

df['z_score'] = stats.zscore(df['column_name'])
df_cleaned = df[(df['z_score'] > -3) & (df['z_score'] < 3)]  # Entfernt Ausreißer
```

<br>

## Validierung gegen externe Quellen

Wenn möglich, sollten Daten gegen vertrauenswürdige externe Quellen validiert werden, um die Richtigkeit zu überprüfen. 
Dies ist besonders wichtig in kritischen Bereichen wie Finanzdaten oder medizinischen Daten.

---
# Umgang mit irreführenden Informationen
Irreführende Informationen können auftreten, wenn Daten zwar korrekt sind, aber falsch interpretiert werden oder nicht die gesamte Realität widerspiegeln.

## Prüfung auf Korrelationen
Manchmal können Variablen scheinbar in Beziehung zueinander stehen, obwohl es sich um zufällige oder irreführende Zusammenhänge handelt. Es ist wichtig, Korrelationen sorgfältig zu prüfen und nicht automatisch Kausalität anzunehmen.

- Beispiel für Korrelationsanalyse:
```python
correlation_matrix = df.corr()
```

<br>

## Datenkontext verstehen
Der Kontext der Daten ist entscheidend, um irreführende Schlüsse zu vermeiden. <br>
Das bedeutet, dass die Datenquelle, der Erhebungsprozess und die Zielsetzung der Analyse verstanden werden müssen, um Fehlinterpretationen zu vermeiden.

<br>

## Erkennen von Bias
Verzerrungen (Bias) in den Daten, z.B. durch nicht repräsentative Stichproben, können zu irreführenden Ergebnissen führen. Es ist wichtig, potenzielle Verzerrungen zu erkennen und, wenn möglich, zu korrigieren. <br>
Eine Möglichkeit ist die Gewichtung von Daten, um Verzerrungen auszugleichen.

<br>

## Überprüfen der Datenquellen
Wenn es Zweifel an der Verlässlichkeit der Datenquelle gibt:
Datenquellen sollten auf ihre Genauigkeit und Verlässlichkeit überprüft werden. Es ist wichtig, sicherzustellen, dass Daten aus **verlässlichen und vertrauenswürdigen Quellen** stammen, um irreführende Ergebnisse zu vermeiden.

- **Vorteile**: <br>
  sichert die Integrität der Analyse, indem nur qualitativ hochwertige Daten verwendet werden
- **Nachteile**: <br>
  Validierung von Datenquellen kann zeitaufwendig sein

<br>

## Konsistenzprüfung
Wenn Daten aus mehreren Quellen zusammengeführt werden oder wenn bestimmte logische Konsistenzen erwartet werden.

- **Logische Konsistenzprüfungen**: <br>
  z.B. sollte das Geburtsdatum vor dem Eintrittsdatum in eine Firma liegen
- **Überprüfung auf doppelte oder widersprüchliche Werte**: <br>
  Mehrfacheinträge oder widersprüchliche Angaben in den Daten können mithilfe von **deduplizierenden Algorithmen** und Vergleichstechniken aufgedeckt werden
- **Vorteile**: <br>
  reduziert Risiko von Fehlinterpretationen durch inkonsistente oder widersprüchliche Daten
- **Nachteile**: <br>
  kann komplex und zeitaufwendig sein, wenn viele Datenquellen oder Variablen betroffen sind

---
# Datenvalidierung
Eine gute Praxis beim Umgang mit Daten ist die kontinuierliche Validierung während der Datenbereinigung. Dies kann durch automatisierte Prüfungen (z.B. durch Unit-Tests) oder durch stichprobenartige manuelle Überprüfungen geschehen.

   **Beispiele für Validierungsprüfungen:**
   - **Datenformat-Prüfungen:** <br>
     Sicherstellen, dass Daten den erwarteten Datentypen entsprechen (z.B. Zahlen, Datumsangaben).
   - **Prüfung auf logische Konsistenz:** <br>
     Sicherstellen, dass Daten keine logischen Widersprüche enthalten (z.B. Geburtsdatum kann nicht in der Zukunft liegen).
   - **Grenzwerte und Toleranzen:** <br>
     Festlegen von zulässigen Datenbereichen, um fehlerhafte Eingaben zu erkennen.


---
# Automatisierung des Prozesses
Manuelle Datenbereinigung ist in der Regel zeitaufwändig und fehleranfällig. Automatisierte Tools und Algorithmen können den Prozess beschleunigen und gleichzeitig die Genauigkeit erhöhen.
   
   **Beispiele:**
   - **Pandas:** Für die Bearbeitung und Bereinigung von Datensätzen.
   - **Scikit-learn:** Bietet Tools zur Imputation von fehlenden Werten und Erkennung von Ausreißern.
   - **Data Validation Pipelines:** Um kontinuierliche Datenqualität sicherzustellen.

# Beispiel in Python

In [7]:
import pandas as pd

data = {
    'customer_id': [101, 102, 103, 104, 105, 101, 106, 107],
    'sales_amount': [200, 999, 150, 300, 999, 250, 500, 999],
    'sales_date': ['2023-01-01', '2023-01-02', None, '2023-01-04', None, '2023-01-06', '2023-01-07', None]
}

df = pd.DataFrame(data)


#df_new = df.copy()

#df[df['sales_amount]!=999].mean()


# Fehlende Daten durch den Mittelwert der Spalte ersetzen
df['sales_amount'] = df['sales_amount'].replace(999, df[df['sales_amount']!=999]['sales_amount'].mean())  # Der 999 ist nicht im Mittelwert berücksichtigt!!!

# Fehlende Daten in der Spalte 'sales_date' mit einem Standardwert auffüllen
df['sales_date'] = df['sales_date'].fillna('2023-01-03') 
# Duplikate entfernen
df = df.drop_duplicates(subset='customer_id')

# Bereinigte Daten anzeigen
print("\nBereinigte Daten:")
print(df)


Bereinigte Daten:
   customer_id  sales_amount  sales_date
0          101           200  2023-01-01
1          102           280  2023-01-02
2          103           150  2023-01-03
3          104           300  2023-01-04
4          105           280  2023-01-03
6          106           500  2023-01-07
7          107           280  2023-01-03
