# ❌ Fehlende Werte behandeln
### Daten laden

In [4]:
# IMPORT LIBRARIES
import pandas as pd
import numpy as np

# CREATE DATA
df = pd.DataFrame({
    'Name': ['Anna', 'Ben', 'Carla', 'David', np.nan, np.nan, np.nan],
    'Alter': [25, np.nan, 35, 40, 22, 19, 77],
    'Stadt': ['Berlin', 'Hamburg', np.nan, 'Köln', 'München', 'München', 'Stuttgart'],
    'Einkommen': [3000, 4000, 3500, np.nan, 2000, 6780, 9000]
})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Name       4 non-null      object 
 1   Alter      6 non-null      float64
 2   Stadt      6 non-null      object 
 3   Einkommen  6 non-null      float64
dtypes: float64(2), object(2)
memory usage: 356.0+ bytes


#### Anzahl fehlender Werte
Zeige mit <code>data.isnull().sum()</code>, welche Spalten wie viele fehlende Werte haben.

In [6]:
# FIND MISSINGS
missing = df.isnull().sum()
missing

Name         3
Alter        1
Stadt        1
Einkommen    1
dtype: int64

In [7]:
# COPY DATAFRAME
df_delete = df.copy()
df_replace = df.copy()

### Zeilen entfernen
Entferne alle Zeilen mit fehlenden Werten mit <code> data.dropna()</code>.

In [8]:
# DELETE ROWS
df_delete.dropna(inplace=True)
df_delete

Unnamed: 0,Name,Alter,Stadt,Einkommen
0,Anna,25.0,Berlin,3000.0


### Ersetze fehlende Werte
- berechne den Mittelwert mit <code>mean()</code>.
- Fülle die fehlenden Werte in numerischen Spalten mit dem Mittelwert mit <code>data.fillna(mean)</code>.

- berechne Mode mit <code>mode()</code>.
- Fülle die fehlenden Werte in nicht-numerischen Spalten mit Mode auf mit <code>data.fillna(mode)</code>.

In [11]:
# NUMERISCHEN SPALTEN
num_cols = df_replace.select_dtypes(include='number').columns

# TEXT SPALTEN
string_cols = df_replace.select_dtypes(include='object').columns

# MITTELWERT
mean = df_replace[num_cols].mean()

# MODE
mode = df_replace[string_cols].mode().iloc[0]

# REPLACE NUM VALUES
df_replace[num_cols] = df_replace[num_cols].fillna(mean)

# REPLACE STRING VALUES
df_replace[string_cols] = df_replace[string_cols].fillna(mode)

In [12]:
df_replace

Unnamed: 0,Name,Alter,Stadt,Einkommen
0,Anna,25.0,Berlin,3000.0
1,Ben,36.333333,Hamburg,4000.0
2,Carla,35.0,München,3500.0
3,David,40.0,Köln,4713.333333
4,Anna,22.0,München,2000.0
5,Anna,19.0,München,6780.0
6,Anna,77.0,Stuttgart,9000.0


# Warum mean() bei Textspalten nicht funktioniert:
- Numerische Berechnungen: Die Methode mean() ist dafür gedacht, den arithmetischen Mittelwert über numerische Daten zu berechnen. Sie addiert die Werte und teilt durch die Anzahl der Einträge.
- Typeninkompatibilität: Ein String kann nicht numerisch addiert oder durch eine Zahl dividiert werden – daher die Fehlermeldung.

# Mögliche Lösungen:

1. Für numerische Spalten: Wenn die Spalte eigentlich numerische Werte enthalten sollte, stelle sicher, dass alle Einträge vom Typ float oder int sind, bevor mean() angewendet wird.
2. Für kategorische Spalten: Wenn du eine Textspalte (z.B. "Kategorie" oder "Typ") mit einem Wert auffüllen möchtest, könntest du den häufigsten Wert (Modus) verwenden:
3. Manuelles Auffüllen: Alternativ kannst du fehlende Werte mit einem spezifischen Placeholder oder einem sinnvollen Default-Wert füllen (siehe oben [11])