# Normalisieren von Daten
Damit numerisch kleinere Merkmale gegenüber numerisch größeren Merkmalen nicht vernachlässigt werden, müssen Merkmale normalisiert werden.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({'a': [9, 7, 8],
    'b':[78, 155, 234],
    'c':[1000, 2235, 2000],
    'd': [4, 5, 25]})
df

Unnamed: 0,a,b,c,d
0,9,78,1000,4
1,7,155,2235,5
2,8,234,2000,25


**min-max Normalisierung:** Bei dieser Normalisierung werden der minimale und der maximale Wert der Merkmale durch 0 und 1 ersetzt.
Für den gesamten Datensatz sieht dies wie folgt aus:


In [3]:
result1 = (df - df.min())/ (df.max() - df.min())
result1

Unnamed: 0,a,b,c,d
0,1.0,0.0,0.0,0.0
1,0.0,0.49359,1.0,0.047619
2,0.5,1.0,0.809717,1.0


Wenn man nur bestimmte Spalten normalisieren möchte, geht man wie folgt vor:

In [4]:
rows = df.iloc[:,1:3]
rows

Unnamed: 0,b,c
0,78,1000
1,155,2235
2,234,2000


In [5]:
rows_norm = (rows - rows.min())/ (rows.max() - rows.min())
rows_norm

Unnamed: 0,b,c
0,0.0,0.0
1,0.49359,1.0
2,1.0,0.809717


In [6]:
df.iloc[:,1:3] = rows_norm
df

Unnamed: 0,a,b,c,d
0,9,0.0,0.0,4
1,7,0.49359,1.0,5
2,8,1.0,0.809717,25


In [7]:
from sklearn.preprocessing import StandardScaler

In [8]:
df = pd.DataFrame({'a': [9, 7, 8],
    'b':[78, 155, 234],
    'c':[1000, 2235, 2000],
    'd': [4, 5, 25]})
df

Unnamed: 0,a,b,c,d
0,9,78,1000,4
1,7,155,2235,5
2,8,234,2000,25


**z-score Standardisierung:** Diese wird auch als statistische Normalisierung bezeichnet. 
Bei der z-score Standardisierung wird der Mittelwert der Merkmale von allen Merkmalswerten subtrahiert und durch die Standardabweichung dividiert.

In [10]:
standard_scaler = StandardScaler()
standard_norm = standard_scaler.fit_transform(df)
standard_norm

array([[ 1.22474487, -1.21947751, -1.39132889, -0.75817007],
       [-1.22474487, -0.01046762,  0.91510222, -0.65478324],
       [ 0.        ,  1.22994513,  0.47622667,  1.41295331]])

In [11]:

standard_norm_df = pd.DataFrame(standard_norm, index=df.index, columns=df.columns)
standard_norm_df

Unnamed: 0,a,b,c,d
0,1.224745,-1.219478,-1.391329,-0.75817
1,-1.224745,-0.010468,0.915102,-0.654783
2,0.0,1.229945,0.476227,1.412953
