# Datenlücken behandeln

In der Datei `december.csv` haben wir einige Wetterdaten der Stadt New York gespeichert.

In [44]:
import numpy as np
import pandas as pd

In [45]:
df = pd.read_csv('december.csv', 
                 parse_dates = ['date'])

Das Argument `parse_dates` hilft, den Inhalt der Spalte `date` als Datum (und nicht als einfacher Text) zu interpretieren.

In [46]:
df

Unnamed: 0,date,temperature,windspeed,event
0,2015-12-31,48.0,12.0,Rain
1,2015-12-30,46.0,7.0,Rain
2,2015-12-29,42.0,12.0,Rain
3,2015-12-28,42.0,14.0,Rain
4,2015-12-27,56.0,12.0,Fog
5,2015-12-26,,11.0,Rain
6,2015-12-25,58.0,2.0,Fog
7,2015-12-24,63.0,11.0,Fog
8,2015-12-23,56.0,10.0,Fog
9,2015-12-22,56.0,9.0,Rain


In [47]:
df.dtypes

date           datetime64[ns]
temperature           float64
windspeed             float64
event                  object
dtype: object

###### Dataframe sortieren
Wir können unser Dataframe nach Datum (Spalte `date`) sortieren:

In [49]:
df.sort_values('date',
               ascending = True, # aufsteigend
               inplace = True # Änderungen speichern
              )

In [50]:
df.head()

Unnamed: 0,date,temperature,windspeed,event
30,2015-12-01,50.0,11.0,Rain
29,2015-12-02,52.0,5.0,Fog
28,2015-12-03,51.0,16.0,Rain
27,2015-12-04,47.0,10.0,Rain
26,2015-12-05,44.0,5.0,Fog


###### Datenlücken in Dataframe identifizieren

Folgende Methoden können Datenlücken (`Nan` Angaben) in Dataframes identifizieren:

- `.isnull()`
- `.isna()`

In [51]:
df.isna()

Unnamed: 0,date,temperature,windspeed,event
30,False,False,False,False
29,False,False,False,False
28,False,False,False,False
27,False,False,False,False
26,False,False,False,False
25,False,False,False,False
24,False,False,False,False
23,False,False,False,False
22,False,True,False,False
21,False,False,False,False


Überall wo `True` steht, heißt es, dass wir dort ein `NaN` haben.

Um die anzahl der Lücken in Spalten zu berechnen, setzen wir noch die Methode `.sum()` an vorigem Ergebnis an:

In [52]:
df.isna().sum()

date           0
temperature    3
windspeed      2
event          0
dtype: int64

##### Methoden zum behandeln von Datenlücken

- `.fillna()` : ersetzt `NaN`s mit einem beliebigen Wert
- `.ffill()`  : forward-fill: ersetzt `NaN`s vorwärtsläufig 
- `.bfill()`  : backward-fill: ersetzt `NaN`s rückläufig
- `.interpolate()`: funktioniert ähnlich wie die letzten zwei Methoden allerdings mit einer erweiterten Funktion (z.B. den neuen Wert abhängig von einer beliebigen Spalte in Dataframe bestimmen)

In [53]:
df.head()

Unnamed: 0,date,temperature,windspeed,event
30,2015-12-01,50.0,11.0,Rain
29,2015-12-02,52.0,5.0,Fog
28,2015-12-03,51.0,16.0,Rain
27,2015-12-04,47.0,10.0,Rain
26,2015-12-05,44.0,5.0,Fog


Wir können die Lücken in Spalten `temperature` und `windspeed` abhängig von Datum behandeln.

In [54]:
df1 = df.copy() # eine Kopie aus dem Haupt-Dataframe

Wenn wir die Methode `.interpolate()` im Zusammenhang mit Datum einsetzen wollen, dann müssen vorerst die Spalte `date` in Index-Spalte umwandeln:

In [55]:
df1.set_index('date',       # Spalte 'date' als Index definieren
              inplace=True) # Änderungen in Dataframe speichern

In [56]:
df1.head()

Unnamed: 0_level_0,temperature,windspeed,event
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015-12-01,50.0,11.0,Rain
2015-12-02,52.0,5.0,Fog
2015-12-03,51.0,16.0,Rain
2015-12-04,47.0,10.0,Rain
2015-12-05,44.0,5.0,Fog


Wir können jetzt mit Hilfe der Methode `interpolate()` und abhängig vom Zeitfaktor (datum) alle Lücken in Dataframe befüllen.

In [57]:
df1[["temperature", "windspeed"]] = df1[["temperature", "windspeed"]].interpolate(method='time')  # Maßgebend: time - Zeitraum
# df1 = df1.interpolate(method='time') 

In [58]:
df1

Unnamed: 0_level_0,temperature,windspeed,event
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015-12-01,50.0,11.0,Rain
2015-12-02,52.0,5.0,Fog
2015-12-03,51.0,16.0,Rain
2015-12-04,47.0,10.0,Rain
2015-12-05,44.0,5.0,Fog
2015-12-06,45.0,6.0,Fog
2015-12-07,48.0,8.0,Fog
2015-12-08,46.0,8.0,Rain
2015-12-09,50.0,8.0,Fog
2015-12-10,54.0,7.0,Rain


In [59]:
df2 = df.copy()
df2.isna().sum()

date           0
temperature    3
windspeed      2
event          0
dtype: int64

In [60]:
#df2.ffill()

In [61]:
help(pd.DataFrame.ffill)

Help on function ffill in module pandas.core.generic:

ffill(self, *, axis: 'None | Axis' = None, inplace: 'bool_t' = False, limit: 'None | int' = None, limit_area: "Literal['inside', 'outside'] | None" = None, downcast: 'dict | None | lib.NoDefault' = <no_default>) -> 'Self | None'
    Fill NA/NaN values by propagating the last valid observation to next valid.

    Parameters
    ----------
    axis : {0 or 'index'} for Series, {0 or 'index', 1 or 'columns'} for DataFrame
        Axis along which to fill missing values. For `Series`
        this parameter is unused and defaults to 0.
    inplace : bool, default False
        If True, fill in-place. Note: this will modify any
        other views on this object (e.g., a no-copy slice for a column in a
        DataFrame).
    limit : int, default None
        If method is specified, this is the maximum number of consecutive
        NaN values to forward/backward fill. In other words, if there is
        a gap with more than this number o

In [62]:
df2.ffill(axis=0, inplace=True)

In [63]:
df3 = df.copy()
df3.isna().sum()

date           0
temperature    3
windspeed      2
event          0
dtype: int64

In [64]:
df3.bfill(axis=0, inplace=True)

In [65]:
df3

Unnamed: 0,date,temperature,windspeed,event
30,2015-12-01,50.0,11.0,Rain
29,2015-12-02,52.0,5.0,Fog
28,2015-12-03,51.0,16.0,Rain
27,2015-12-04,47.0,10.0,Rain
26,2015-12-05,44.0,5.0,Fog
25,2015-12-06,45.0,6.0,Fog
24,2015-12-07,48.0,8.0,Fog
23,2015-12-08,46.0,8.0,Rain
22,2015-12-09,54.0,8.0,Fog
21,2015-12-10,54.0,7.0,Rain


In [37]:
data = {'A': [10, None, None, 4 , None, 6]}
daf = pd.DataFrame(data)
daf

Unnamed: 0,A
0,10.0
1,
2,
3,4.0
4,
5,6.0


In [38]:
daf_ffil = daf.fillna(method = 'ffill')# Funktion nimmt eine Wert und weiter unten statt NaN schreibt diese Wert

print(df_ffil)

     A
0  NaN
1  NaN
2  NaN
3  4.0
4  4.0
5  6.0


  daf_ffil = daf.fillna(method = 'ffill')# Funktion nimmt eine Wert und weiter unten statt NaN schreibt diese Wert


In [67]:
data = {'A': [None , None, None, 4 , None, 6]}
daf2= pd.DataFrame(data)
daf2

Unnamed: 0,A
0,
1,
2,
3,4.0
4,
5,6.0


In [68]:
daf2_ffil = daf2.fillna(method = 'ffill')# Funktion nimmt eine Wert und weiter unten statt NaN schreibt diese Wert

print(daf2_ffil)

     A
0  NaN
1  NaN
2  NaN
3  4.0
4  4.0
5  6.0


  daf2_ffil = daf2.fillna(method = 'ffill')# Funktion nimmt eine Wert und weiter unten statt NaN schreibt diese Wert


In [69]:
df4 = df.copy()
df4.isna().sum()

date           0
temperature    3
windspeed      2
event          0
dtype: int64

In [70]:
help(pd.DataFrame.fillna)

Help on function fillna in module pandas.core.generic:

fillna(self, value: 'Hashable | Mapping | Series | DataFrame | None' = None, *, method: 'FillnaOptions | None' = None, axis: 'Axis | None' = None, inplace: 'bool_t' = False, limit: 'int | None' = None, downcast: 'dict | None | lib.NoDefault' = <no_default>) -> 'Self | None'
    Fill NA/NaN values using the specified method.

    Parameters
    ----------
    value : scalar, dict, Series, or DataFrame
        Value to use to fill holes (e.g. 0), alternately a
        dict/Series/DataFrame of values specifying which value to use for
        each index (for a Series) or column (for a DataFrame).  Values not
        in the dict/Series/DataFrame will not be filled. This value cannot
        be a list.
    method : {'backfill', 'bfill', 'ffill', None}, default None
        Method to use for filling holes in reindexed Series:

        * ffill: propagate last valid observation forward to next valid.
        * backfill / bfill: use next va

In [71]:
tf = pd.DataFrame([[np.nan, 2, np.nan, 0],
                  [3, 4, np.nan, 1],
                  [np.nan, np.nan, np.nan, 5],
                  [np.nan, 3, np.nan, 4]],
                  columns=list("ABCD"))
tf

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


In [72]:
tf.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0
1,3.0,4.0,0.0,1
2,0.0,0.0,0.0,5
3,0.0,3.0,0.0,4


In [73]:
tf.ffill()

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,3.0,4.0,,5
3,3.0,3.0,,4


In [74]:
tf.bfill()

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


In [75]:
tf

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


#### Übung
Setzen Sie die Methode `fillna()` (oder die aus dem Hinweis) ein, um die Datenlücken aus dem Dataframe `df4` zu beseitigen (mit einem sinnvollen Wert ersetzen).

**Hinweis**  
Methoden wie `.replace()`, `.ffill()`, `.bfill()`, `.interpolate()` usw. liefern nur eine View aus Dataframes. Die Änderungen in Dataframes werden nicht automatisch gespeichert, es sei denn das Parameter `inplace=True` mitgegeben wird.