<a href="https://datamics.com/de/courses/"><img src=../../DATA/bg_datamics_top.png></a>

<em text-align:center>© Datamics</em>
# Missing Data und Imputation

Dieses Problem der fehlenden Daten tritt relativ häufig auf:
-  unvollständige Datensätze aufgrund technischer Pannen oder eines Datenverlustes
-  wenn einige befragte Personen aufgrund mangelnden Wissens oder unzureichender Antwortmotivation auf bestimmte Fragen bewusst keine Antwort geben 

Nun werden wir einige der üblichen Wege (z.B. Eliminierungsverfahren und Imputation) kennenlernen, um mit *Missing Data* (dt. fehlenden Daten) umzugehen. 

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [3]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


# Eliminierungsverfahren

Das Eliminierungsverfahren (auch: Complete-case analysis) zählt zu den gängigen Missing-Data-Techniken. Dabei werden sämtliche Datensätze, bei denen eines oder mehrere Erhebungsmerkmale fehlende Werte aufweisen, aus der Datenmatrix gestrichen. Dieses Verfahren ist zwar sehr einfach, hat aber erhebliche Nachteile: 
1. Insbesondere hat es einen erheblichen Informationsverlust zur Folge.
1. Ferner kann diese Technik zu einer Verfälschung der verbleibenden Stichprobe führen. Als häufiges Beispiel gelten Umfragen bezüglich des Einkommens, bei denen es durchaus vorkommen kann, dass gerade Personen mit einem relativ hohen Einkommen dieses ungerne angeben und es daher in solchen Fällen tendenziell zu Missing Data kommt. 

In [4]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [5]:
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [6]:
df.dropna(thresh=2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


# Imputation

Um dieses Problem der Eliminierungsverfahren möglichst in den Griff zu bekommen, wurden Imputationsverfahren entwickelt, bei denen versucht wird, fehlende Daten nicht einfach zu ignorieren, sondern stattdessen durch plausible Werte zu ersetzen, die unter anderem mit Hilfe der beobachteten Werte des gleichen Datensatzes geschätzt werden können.

In [7]:
df.fillna(value='Füllwert')

Unnamed: 0,A,B,C
0,1,5,1
1,2,Füllwert,2
2,Füllwert,Füllwert,3


In [8]:
df['A'].fillna(value=df['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

# Gut gemacht!