# Transformation von Daten

Nich alle Input-Daten können unbesehen verwendet werden. Es ist notwendig, kategorische Daten entweder in Zahlen umzuwandeln (ordinale kategorische Daten) oder über ein sogenanntes One-Hot-Encoding nominale kategorische Daten in sinnvolle Spalten umzuwaneln (s.u.). 

In [None]:
#import some necessary librairies

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
%matplotlib inline
import matplotlib.pyplot as plt  # Matlab-style plotting
import seaborn as sns
color = sns.color_palette()
sns.set_style('darkgrid')
import warnings
def ignore_warn(*args, **kwargs):
    pass
warnings.warn = ignore_warn #ignore annoying warning (from sklearn and seaborn)


from scipy import stats
from scipy.stats import norm, skew #for some statistics


pd.set_option('display.float_format', lambda x: '{:.3f}'.format(x)) #Limiting floats output to 3 decimal points


# from subprocess import check_output
# print(check_output(["ls", "../data/house-prices-advanced-regression-techniques"]).decode("utf8")) #check the files available in the directory

import pickle

# Daten aus dem vorigen Schritt laden


In [None]:
with open('../data/house-prices-advanced-regression-techniques/train_1.pkl', 'rb') as handle:
    train_orig = pickle.load(handle)

with open('../data/house-prices-advanced-regression-techniques/test_1.pkl', 'rb') as handle:
    test_orig = pickle.load(handle)
    
with open('../data/house-prices-advanced-regression-techniques/all_data.pkl', 'rb') as handle:
    df = pickle.load(handle)


# Wiederherstellen von Test- und Trainset

In [None]:
ntrain = train_orig.shape[0] # Anzahl der Trainingsdaten
ntest = test_orig.shape[0]   # Anzahl der Testdaten

# Zielvariable der Trainingsdaten
y_train = train_orig['SalePrice']

In [None]:
print (y_train)
print ("Länge von y_train: " + str (len(y_train)))

In [None]:
X_train = df[:ntrain]
X_test = df[ntrain:]

print("Dimension des Trainingssets: " + str (X_train.shape))
print("Dimension des Testsets: " + str (X_test.shape))


## Nominale Daten

Die einfachste Transformation, von textbasierten zu numerischen kategorischen Merkmalen, ist das Ersetzen einer Kategorie mit einer bestimmten Zahl. Zum Beispiel für "Hund" die 1, für "Maus" die 2 und für "Katze" die 3. Einige ML-Algorithmen gehen jedoch davon aus, dass sich **zwei benachbarte Werte ähnlicher** sind als weiter entfernte Werte. Bei nominalen Daten trifft diese Annahme nicht zu. Es muss sicher gestellt werden, dass der Algorithmus hier **keine Fehlinterpretation** vornimmt. Lösung ist das sogenannte **One-Hot-Encoding**.  

### One-Hot-Encoding

Beim One-Hot-Encoding wird für **jeden möglichen Wert eine Spalte** mit binären Werten erstellt. 1 bedeutet, der Wert liegt vor, 0 bedeutet der Wert liegt nicht vor. Das Merkmal Tierart mit den drei möglichen Kategorien "Hund", "Maus" und "Katze" wird mit dem One-Hot-Encoding in drei Spalten transformiert. Für die Umsetzung bietet sich die [get_dummies()](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html)-Methode von Pandas an.

Das nachfolgende Beispiel zeigt dies für die nominal kategorische Spalte 'Electrical' (d.h. die Aussage, welche elektrische Installation im Haus vorzufinden ist).

Schauen Sie genau hin. Es ist in jeweils nur einer einzigen Spalte der Wert "True" zu sehen!

In [None]:
pd.get_dummies(df['Electrical'])

# Erstellen einer Pipeline
Um den Prozess der Verarbeitung zu vereinfachen und zu standardisieren, kann eine sogenannte Pipeline eingesetzt werden. Diese erlaubt sowohl die Skalierung von Daten als auch das One-Hot-Encoding.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder


# Define transformers for numerical and categorical columns
numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output = False))
])

# Vgl. https://www.kaggle.com/code/kenjee/housing-prices-example-with-video-walkthrough

In [None]:
# Update categorical and numerical columns
categorical_columns = df.select_dtypes(include=['object', 'category']).columns
numerical_columns = df.select_dtypes(include=[np.number]).columns

# Combine transformers using ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_columns),
        ('cat', categorical_transformer, categorical_columns)
    ],remainder = 'passthrough')

# Create a pipeline with the preprocessor
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor)])

X_preprocessed_train = pipeline.fit_transform(X_train)

print ("Anzahl numerischer Spalten: " + str(len(numerical_columns)))
print ("Anzahl kategorischer Spalten: " + str(len(categorical_columns)))


In [None]:
X_preprocessed_train

In [None]:
# Function to create scrollable table within a small window
def create_scrollable_table(df, table_id, title):
    html = f'<h3>{title}</h3>'
    html += f'<div id="{table_id}" style="height:200px; overflow:auto;">'
    html += df.to_html()
    html += '</div>'
    return html

In [None]:
from IPython.display import display, HTML
html_preprocessed = create_scrollable_table(pd.DataFrame(X_preprocessed_train), 'numerical_features', 'Summary statistics for numerical features')
display(HTML(html_preprocessed))


In [None]:
with open('../data/house-prices-advanced-regression-techniques/x_preprocessed_train.pkl', 'wb') as handle:
    pickle.dump(X_preprocessed_train, handle)
    
with open('../data/house-prices-advanced-regression-techniques/y_train.pkl', 'wb') as handle:
    pickle.dump(y_train, handle)
    
with open('../data/house-prices-advanced-regression-techniques/x_test.pkl', 'wb') as handle:
    pickle.dump(X_test, handle)
    
