# Imputation mittels Regression

In [3]:
# Komplexer mittels Regression
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression

# Beispiel-Daten
df = pd.DataFrame({
    'Alter': [25, 30, None, 35, 40],
    'Gehalt': [50000, None, 70000, 80000, 90000]
})


# Gehalt ersetzen:


# Imputation (Mittelwert)
imputer = SimpleImputer(strategy='mean')
df['Gehalt'] = imputer.fit_transform(df[['Gehalt']])
print(df)

# Entferne Zeilen, bei denen das Gehalt fehlt (wir können es für Regression nicht verwenden)
df = df.dropna(subset=['Gehalt'])

# Aufteilen in Training- und Vorhersagedaten
train_data = df[df['Alter'].notna()]  # Daten, bei denen das Alter vorhanden ist
predict_data = df[df['Alter'].isna()]  # Daten, bei denen das Alter fehlt

# Lineare Regression verwenden, um das Alter basierend auf dem Gehalt vorherzusagen
X_train = train_data[['Gehalt']]
y_train = train_data['Alter']

# Lineares Regressionsmodell erstellen und trainieren
regressor = LinearRegression()
regressor.fit(X_train, y_train)

# Vorhersage für das fehlende Alter
X_predict = predict_data[['Gehalt']]
predicted_age = regressor.predict(X_predict)

# Fügen wir die Vorhersage in den ursprünglichen DataFrame ein
df.loc[df['Alter'].isna(), 'Alter'] = predicted_age

# Ergebnis anzeigen
print("DataFrame mit vorhergesagtem Alter:\n", df)


   Alter   Gehalt
0   25.0  50000.0
1   30.0  72500.0
2    NaN  70000.0
3   35.0  80000.0
4   40.0  90000.0
DataFrame mit vorhergesagtem Alter:
        Alter   Gehalt
0  25.000000  50000.0
1  30.000000  72500.0
2  31.351351  70000.0
3  35.000000  80000.0
4  40.000000  90000.0


Dieser Code demonstriert, wie man fehlende Daten in einem DataFrame durch eine Kombination aus **Imputation** und **Regression** behandeln kann. Der Prozess nutzt eine **einfache lineare Regression**, um fehlende Werte für eine Variable auf Basis einer anderen vorherzusagen.

### Erklärung der Schritte:

1. **Beispieldaten erstellen**:
   - Es wird ein DataFrame `df` mit zwei Spalten erstellt: `Alter` und `Gehalt`. Dabei fehlen einige Werte in beiden Spalten:
     ```python
     df = pd.DataFrame({
         'Alter': [25, 30, None, 35, 40],
         'Gehalt': [50000, None, 70000, 80000, 90000]
     })
     ```

2. **Mittelwert-Imputation für Gehalt**:
   - Fehlende Werte in der Spalte `Gehalt` werden durch den **Mittelwert** der bekannten Gehaltswerte ersetzt. Dies geschieht mit dem `SimpleImputer`:
     ```python
     imputer = SimpleImputer(strategy='mean')
     df['Gehalt'] = imputer.fit_transform(df[['Gehalt']])
     ```

3. **Datenbereinigung**:
   - Da eine lineare Regression auf vollständigen Daten (ohne fehlende Werte) basieren muss, werden Zeilen, in denen das Gehalt immer noch fehlt, entfernt:
     ```python
     df = df.dropna(subset=['Gehalt'])
     ```

4. **Aufteilen der Daten**:
   - Der DataFrame wird in zwei Teile aufgeteilt:
     - `train_data`: Zeilen, in denen das **Alter** bekannt ist.
     - `predict_data`: Zeilen, in denen das **Alter** fehlt.
     Dies wird für das Training des Modells und die Vorhersage der fehlenden Alterswerte genutzt:
     ```python
     train_data = df[df['Alter'].notna()]
     predict_data = df[df['Alter'].isna()]
     ```

5. **Trainieren eines linearen Regressionsmodells**:
   - Eine einfache **lineare Regression** wird erstellt, um das **Alter** auf Basis des **Gehalt** vorherzusagen. Dafür wird das Regressionsmodell `LinearRegression()` aus `sklearn` verwendet.
   - Das Modell wird mit den vorhandenen Werten (train_data) trainiert:
     ```python
     X_train = train_data[['Gehalt']]  # Feature: Gehalt
     y_train = train_data['Alter']     # Zielwert: Alter
     regressor = LinearRegression()
     regressor.fit(X_train, y_train)
     ```

6. **Vorhersage des fehlenden Alters**:
   - Das trainierte Modell wird verwendet, um das fehlende **Alter** basierend auf dem **Gehalt** der fehlenden Alterswerte vorherzusagen:
     ```python
     X_predict = predict_data[['Gehalt']]
     predicted_age = regressor.predict(X_predict)
     ```

7. **Ersetzen der fehlenden Alterswerte**:
   - Die vorhergesagten Alterswerte werden in den ursprünglichen DataFrame eingefügt, indem fehlende Alterswerte (`NaN`) durch die Vorhersagen ersetzt werden:
     ```python
     df.loc[df['Alter'].isna(), 'Alter'] = predicted_age
     ```

8. **Ergebnis**:
   - Der DataFrame wird schließlich mit den **vorhergesagten Alterswerten** ausgegeben, die auf Basis des Gehalts ermittelt wurden.

### Endergebnis:
Am Ende enthält der DataFrame keine fehlenden Alterswerte mehr, da diese durch die lineare Regression auf Grundlage des Gehalts geschätzt wurden. Dies ermöglicht eine vollständige Analyse der Daten, ohne dass wichtige Informationen verloren gehen.