In [2]:
from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split

class MeanImputerTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, impute_value=None):
        self.impute_value = impute_value
        self.means_ = None

    def fit(self, X, y=None):
        if not isinstance(X, pd.DataFrame):
            X = pd.DataFrame(X)
            
        if self.impute_value is None:
            # Berechnen der Mittelwerte jeder Spalte und speichern dieser
            self.means_ = X.mean()
        else:
            # Verwenden des angegebenen Imputationswertes
            self.means_ = pd.Series(self.impute_value, index=X.columns)
        return self

    def transform(self, X, y=None):
        if not isinstance(X, pd.DataFrame):
            X = pd.DataFrame(X)
        
        # Ersetzen von NaN-Werten mit den gespeicherten Mittelwerten oder angegebenem Wert
        return X.fillna(self.means_)


In [3]:

# Beispiel-Daten mit fehlenden Werten, größerer Datensatz
X = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5, 6, 7, np.nan, 9, 10],
    'B': [np.nan, 2, 3, 4, 5, np.nan, 7, 8, np.nan, 10],
    'C': [1, 2, 3, np.nan, 5, 6, np.nan, 8, 9, 10],
    'D': [np.nan, 20, 30, 40, np.nan, 60, 70, 80, 90, np.nan]
})

# Splitten in Trainings- und Testdaten
X_train, X_test = train_test_split(X, test_size=0.4, random_state=42)

print("Trainingsdaten:\n", X_train)
print("\nTestdaten:\n", X_test)


Trainingsdaten:
       A     B     C     D
7   NaN   8.0   8.0  80.0
2   NaN   3.0   3.0  30.0
9  10.0  10.0  10.0   NaN
4   5.0   5.0   5.0   NaN
3   4.0   4.0   NaN  40.0
6   7.0   7.0   NaN  70.0

Testdaten:
      A    B    C     D
8  9.0  NaN  9.0  90.0
1  2.0  2.0  2.0  20.0
5  6.0  NaN  6.0  60.0
0  1.0  NaN  1.0   NaN


In [4]:


# Initialisieren des MeanImputerTransformers mit dem Standardwert (Mittelwert-Imputation)
transformer = MeanImputerTransformer()

# Demonstration der Initialparameter
print("Initialisierte Parameter:\n", transformer.get_params())

# Anpassen an die Trainingsdaten mit fit
transformer.fit(X_train)
print("\nAngepasste Mittelwerte (oder Imputationswerte):\n", transformer.means_)

# Transformatieren der Trainingsdaten
X_train_transformed = transformer.transform(X_train)
print("\nTrainingsdaten nach Imputation (transform):\n", X_train_transformed)

# Transformatieren der Testdaten
X_test_transformed = transformer.transform(X_test)
print("\nTestdaten nach Imputation (transform):\n", X_test_transformed)

# Demonstration der geerbten fit_transform Methode
X_train_fit_transform = transformer.fit_transform(X_train)
print("\nTrainingsdaten nach fit_transform:\n", X_train_fit_transform)

# Verwendung von set_params, um den Imputationswert zu ändern
transformer.set_params(impute_value=0)
print("\nGeänderte Parameter mit set_params:\n", transformer.get_params())

# Anpassen mit dem neuen Parameter und erneute Transformation
transformer.fit(X_train)
X_train_transformed_zero = transformer.transform(X_train)
print("\nTrainingsdaten nach Imputation mit einem festen Wert 0:\n", X_train_transformed_zero)

X_test_transformed_zero = transformer.transform(X_test)
print("\nTestdaten nach Imputation mit einem festen Wert 0:\n", X_test_transformed_zero)

Initialisierte Parameter:
 {'impute_value': None}

Angepasste Mittelwerte (oder Imputationswerte):
 A     6.500000
B     6.166667
C     6.500000
D    55.000000
dtype: float64

Trainingsdaten nach Imputation (transform):
       A     B     C     D
7   6.5   8.0   8.0  80.0
2   6.5   3.0   3.0  30.0
9  10.0  10.0  10.0  55.0
4   5.0   5.0   5.0  55.0
3   4.0   4.0   6.5  40.0
6   7.0   7.0   6.5  70.0

Testdaten nach Imputation (transform):
      A         B    C     D
8  9.0  6.166667  9.0  90.0
1  2.0  2.000000  2.0  20.0
5  6.0  6.166667  6.0  60.0
0  1.0  6.166667  1.0  55.0

Trainingsdaten nach fit_transform:
       A     B     C     D
7   6.5   8.0   8.0  80.0
2   6.5   3.0   3.0  30.0
9  10.0  10.0  10.0  55.0
4   5.0   5.0   5.0  55.0
3   4.0   4.0   6.5  40.0
6   7.0   7.0   6.5  70.0

Geänderte Parameter mit set_params:
 {'impute_value': 0}

Trainingsdaten nach Imputation mit einem festen Wert 0:
       A     B     C     D
7   0.0   8.0   8.0  80.0
2   0.0   3.0   3.0  30.0
9  