# Datenlücken behandeln

In der Datei `december.csv` haben wir einige Wetterdaten der Stadt New York gespeichert.

In [32]:
import numpy as np
import pandas as pd

In [41]:
df = pd.read_csv('december.csv', 
                 parse_dates = ['date'])

Das Argument `parse_dates` hilft, den Inhalt der Spalte `date` als Datum (und nicht als einfacher Text) zu interpretieren.

In [36]:
df.head(10)

Unnamed: 0,date,temperature,windspeed,event
0,2015-12-31,48.0,12.0,Rain
1,2015-12-30,46.0,7.0,Rain
2,2015-12-29,42.0,12.0,Rain
3,2015-12-28,42.0,14.0,Rain
4,2015-12-27,56.0,12.0,Fog
5,2015-12-26,,11.0,Rain
6,2015-12-25,58.0,2.0,Fog
7,2015-12-24,63.0,11.0,Fog
8,2015-12-23,56.0,10.0,Fog
9,2015-12-22,56.0,9.0,Rain


In [37]:
df.dtypes

date           datetime64[ns]
temperature           float64
windspeed             float64
event                  object
dtype: object

#### Dataframe sortieren
Wir können unser Dataframe nach Datum (Spalte `date`) sortieren:

In [43]:
df_cop = df.copy().sort_values('date',
               ascending = True, # aufsteigend
               inplace = False # Änderungen speichern
              )
df_cop.head()

Unnamed: 0,date,temperature,windspeed,event
30,2015-12-01,50.0,11.0,Rain
29,2015-12-02,52.0,5.0,Fog
28,2015-12-03,51.0,16.0,Rain
27,2015-12-04,47.0,10.0,Rain
26,2015-12-05,44.0,5.0,Fog


In [44]:
df.sort_values('date',
               ascending = True, # aufsteigend
               inplace = True # Änderungen speichern
              )

In [45]:
df.head()

Unnamed: 0,date,temperature,windspeed,event
30,2015-12-01,50.0,11.0,Rain
29,2015-12-02,52.0,5.0,Fog
28,2015-12-03,51.0,16.0,Rain
27,2015-12-04,47.0,10.0,Rain
26,2015-12-05,44.0,5.0,Fog


In [46]:
df.tail()

Unnamed: 0,date,temperature,windspeed,event
4,2015-12-27,56.0,12.0,Fog
3,2015-12-28,42.0,14.0,Rain
2,2015-12-29,42.0,12.0,Rain
1,2015-12-30,46.0,7.0,Rain
0,2015-12-31,48.0,12.0,Rain


### Datenlücken in Dataframe identifizieren

Folgende Methoden können Datenlücken (`Nan` Angaben) in Dataframes identifizieren:

- `.isnull()`
- `.isna()`

In [47]:
df.isna()

Unnamed: 0,date,temperature,windspeed,event
30,False,False,False,False
29,False,False,False,False
28,False,False,False,False
27,False,False,False,False
26,False,False,False,False
25,False,False,False,False
24,False,False,False,False
23,False,False,False,False
22,False,True,False,False
21,False,False,False,False


Überall wo `True` steht, heißt es, dass wir dort ein `NaN` haben.

Um die anzahl der Lücken in Spalten zu berechnen, setzen wir noch die Methode `.sum()` an vorigem Ergebnis an:

In [50]:
df.isna().sum()

date           0
temperature    3
windspeed      2
event          0
dtype: int64

##### Methoden zum behandeln von Datenlücken

- `.fillna()` : ersetzt `NaN`s mit einem beliebigen Wert
- `.ffill()`  : forward-fill: ersetzt `NaN`s vorwärtsläufig 
- `.bfill()`  : backward-fill: ersetzt `NaN`s rückläufig
- `.interpolate()`: funktioniert ähnlich wie die letzten zwei Methoden allerdings mit einer erweiterten Funktion (z.B. den neuen Wert abhängig von einer beliebigen Spalte in Dataframe bestimmen)

In [51]:
df.head()

Unnamed: 0,date,temperature,windspeed,event
30,2015-12-01,50.0,11.0,Rain
29,2015-12-02,52.0,5.0,Fog
28,2015-12-03,51.0,16.0,Rain
27,2015-12-04,47.0,10.0,Rain
26,2015-12-05,44.0,5.0,Fog


In [52]:
df2 = df.copy()
df2.isna().sum()

date           0
temperature    3
windspeed      2
event          0
dtype: int64

In [None]:
help(pd.DataFrame.ffill)

In [53]:
df2.ffill(axis=0, inplace=True)

In [54]:
df2

Unnamed: 0,date,temperature,windspeed,event
30,2015-12-01,50.0,11.0,Rain
29,2015-12-02,52.0,5.0,Fog
28,2015-12-03,51.0,16.0,Rain
27,2015-12-04,47.0,10.0,Rain
26,2015-12-05,44.0,5.0,Fog
25,2015-12-06,45.0,6.0,Fog
24,2015-12-07,48.0,8.0,Fog
23,2015-12-08,46.0,8.0,Rain
22,2015-12-09,46.0,8.0,Fog
21,2015-12-10,54.0,7.0,Rain


In [55]:
data = {'A': [1, None, None, 4, None, 6]}
df = pd.DataFrame(data)
df

Unnamed: 0,A
0,1.0
1,
2,
3,4.0
4,
5,6.0


In [None]:

df_ffill = df.fillna(method='ffill')

print(df_ffill)

In [None]:
df3 = df.copy()
df3.isna().sum()

In [None]:
df3.bfill(axis=0, inplace=True)

In [None]:
df3

Wir können die Lücken in Spalten `temperature` und `windspeed` abhängig von Datum behandeln.

In [None]:
df1 = df.copy() # eine Kopie aus dem Haupt-Dataframe

Wenn wir die Methode `.interpolate()` im Zusammenhang mit Datum einsetzen wollen, dann müssen vorerst die Spalte `date` in Index-Spalte umwandeln:

In [None]:
df1.set_index('date',       # Spalte 'date' als Index definieren
              inplace=True) # Änderungen in Dataframe speichern

In [None]:
df1.head()

Wir können jetzt mit Hilfe der Methode `interpolate()` und abhängig vom Zeitfaktor (datum) alle Lücken in Dataframe befüllen.

In [None]:
df1[["temperature", "windspeed"]] = df1[["temperature", "windspeed"]].interpolate(method='time')  # Maßgebend: time - Zeitraum
# df1 = df1.interpolate(method='time') 

In [None]:
df1

In [None]:
df4 = df.copy()
df4.isna().sum()

In [None]:
help(pd.DataFrame.fillna)

In [None]:
tf = pd.DataFrame([[np.nan, 2, np.nan, 0],
                  [3, 4, np.nan, 1],
                  [np.nan, np.nan, np.nan, 5],
                  [np.nan, 3, np.nan, 4]],
                  columns=list("ABCD"))
tf

In [None]:
tf.fillna(0)

In [None]:
tf.ffill()

In [None]:
tf.bfill()

In [None]:
tf

#### Übung
Setzen Sie die Methode `fillna()` (oder die aus dem Hinweis) ein, um die Datenlücken aus dem Dataframe `df4` zu beseitigen (mit einem sinnvollen Wert ersetzen).

**Hinweis**  
Methoden wie `.replace()`, `.ffill()`, `.bfill()`, `.interpolate()` usw. liefern nur eine Kopie. Die Änderungen in Dataframes werden nicht automatisch gespeichert, es sei denn das Parameter `inplace=True` mitgegeben wird.

### Rückgabe von Methoden

Mit `inplace=True`: Wenn du `inplace=True` verwendest, gibt die Methode None zurück, und die Änderungen werden direkt im ursprünglichen DataFrame gespeichert. Es gibt also keine Kopie zurück.
<br><br>
Ohne `inplace` (Standard): Wenn du diese Methoden ohne inplace aufrufst, wird eine neue Kopie des DataFrames zurückgegeben, die die Änderungen enthält. Der ursprüngliche DataFrame bleibt unverändert. In diesem Fall wird  eine Kopie zurückgegeben.