Siehe auch: Imputation

# Imputation mittels Pandas

Die Methode `df.fillna()` wird in **Pandas** verwendet, um fehlende Werte (`NaN`) in einem DataFrame oder einer Serie zu füllen. Sie ist äußerst nützlich, wenn du mit unvollständigen Datensätzen arbeitest und fehlende Werte durch Standardwerte oder eine berechnete Ersatzstrategie ersetzen möchtest.

### **Syntax**
```python
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None)
```

### **Parameter:**
- **`value`**: Der Wert oder ein Dictionary von Werten, mit dem die fehlenden Werte ersetzt werden sollen.
  - Beispiel: `value=0` ersetzt alle NaN-Werte durch `0`.

- **`method`**: Methode zum Füllen von Werten:
  - `'ffill'` (Forward Fill): Verwendet den vorherigen Wert in der Spalte.
  - `'bfill'` (Backward Fill): Verwendet den nächsten Wert in der Spalte.

- **`axis`**: Ob die Werte spaltenweise (`axis=0`, Standardwert) oder zeilenweise (`axis=1`) gefüllt werden sollen.

- **`inplace`**: Wenn `True`, wird die Operation direkt auf dem ursprünglichen DataFrame durchgeführt, anstatt eine Kopie zurückzugeben.

- **`limit`**: Maximale Anzahl von Werten, die gefüllt werden.

### **Beispiele**

#### **1. Fehlende Werte mit einem festen Wert ersetzen**

In [14]:
import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan], 'B': [np.nan, 4, 5]}
df = pd.DataFrame(data)
print(df)

     A    B
0  1.0  NaN
1  2.0  4.0
2  NaN  5.0


In [15]:
# Fehlende Werte mit 0 ersetzen
filled_df = df.fillna(0)

print(filled_df)

     A    B
0  1.0  0.0
1  2.0  4.0
2  0.0  5.0


#### **2. Forward Fill (ffill)**

"Forward Fill" bedeutet, dass fehlende Werte (NaN) mit dem zuletzt bekannten gültigen Wert davor ersetzt werden.

In [16]:
# Fehlende Werte mit dem vorherigen Wert auffüllen
filled_df1 = df.ffill()
print(filled_df1)

     A    B
0  1.0  NaN
1  2.0  4.0
2  2.0  5.0


In [7]:
# Fehlende Werte mit dem vorherigen Wert auffüllen
filled_df2 = df.bfill(1)

print(filled_df2)

     A    B
0  1.0  4.0
1  2.0  4.0
2  NaN  5.0


#### **3. Backward Fill (bfill)**

In [21]:
# Fehlende Werte mit dem nächsten Wert auffüllen
backward_df = df.fillna(method = 'bfill')

print(backward_df)

     A    B
0  1.0  4.0
1  2.0  4.0
2  NaN  5.0


  backward_df = df.fillna(method = 'bfill')


#### **4. Spaltenweise unterschiedliche Werte ersetzen**

In [23]:
# Unterschiedliche Werte für jede Spalte
filled_df = df.fillna({'A': 99, 'B': 42})

print(filled_df)

      A     B
0   1.0  42.0
1   2.0   4.0
2  99.0   5.0


#### **5. Inplace-Funktionalität**

In [24]:
# Direkt auf dem Original-DataFrame arbeiten
df.fillna(0, inplace=True)

print(df)

     A    B
0  1.0  0.0
1  2.0  4.0
2  0.0  5.0


### **Zusammenfassung**

- **`fillna(value)`**: Ersetzt fehlende Werte mit einem spezifischen Wert.
- **`fillna(method='ffill' or 'bfill')`**: Füllt fehlende Werte basierend auf den umgebenden Daten.
- **Flexibel und vielseitig**: Funktioniert für einzelne Spalten, Zeilen oder ganze DataFrames.

In [13]:
import pandas as pd

# Beispiel-Daten
df = pd.DataFrame({
    'Alter': [25, 30, None, 35, 40],
    'Gehalt': [50000, None, 70000, 80000, 90000]
})

# Die NaN werden mit Mean imputiert

# df['Gehalt'].fillna(df['Gehalt'].mean(), inplace=True) # Veraltet 
df['Gehalt'] = df['Gehalt'].fillna(df['Gehalt'].mean())

df


Unnamed: 0,Alter,Gehalt
0,25.0,50000.0
1,30.0,72500.0
2,,70000.0
3,35.0,80000.0
4,40.0,90000.0


In [12]:
import pandas as pd

# Beispiel-Daten
df = pd.DataFrame({
    'Alter': [25, 30, None, 35, 40],
    'Gehalt': [50000, None, 70000, 80000, 90000]
})

# Die NaN werden mit Mean imputiert

# df['Gehalt'].fillna(df['Gehalt'].mode(), inplace=True) # Veraltet 
df['Alter'] = df['Alter'].fillna(df['Alter'].mean())

df

Unnamed: 0,Alter,Gehalt
0,25.0,50000.0
1,30.0,
2,32.5,70000.0
3,35.0,80000.0
4,40.0,90000.0
