# Wie skaliert eigentlich das ganze?

## Machine Learning Daten skalieren

Nun, da wir in der Lage sind, unsere Rohdaten zu laden und analysieren, können wir zum nächsten großen Schritt der Datenvorverarbeitung übergehen, dem Skalieren von Daten. Viele Machine-Learning Algorithmen erwarten skalierte Eingangsdaten. In diesem Kapitel werden wir lernen, wie Daten normalisiert und standardisiert werden können und wie wir entscheiden können, welches Verfahren das richtige ist. Dies ist vor allem für künstliche Neuronale Netze sowie Deep Learning wichtig.

### Daten normalisieren

Der Begriff Normalisieren sollte bereits aus der Mathematik bekannt sein. Dabei werden die Werte so angepasst, dass sie sich auf einer Skala zwischen 0 und 1 bewegen. Dazu brauchen wir den maximalen und den minimalen Wert jedes Attributs die wir durch einfaches Iterieren über die Werte finden können.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.1:</b> Schreiben Sie eine Funktion <code>dataset_minmax()</code>, die das Minimum und Maximum jedes Attributs findet.
<ul>
    <li> Hinweis: Die Funktion hat den Datensatz als Eingangsvariable und gibt eine Liste an Tupeln (Min, Max) für jede Spalte zurück.

</ul>
</div>

In [1]:
# DO NOT change this cell
from pandas import read_csv
import pandas as pd

filename = 'data/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)


In [2]:
# Find the min and max values for each column
def dataset_minmax(dataset: pd.DataFrame):
    
    ### STUDENT CODE HERE

    ### STUDENT CODE until HERE
    return minmax

# small test dataset
dataset = pd.DataFrame({'First' : [50, 30], 'Second' : [20, 90]})
print(dataset)

# Calculate min and max for each column
minmax = dataset_minmax(dataset)
print(minmax)

Jetzt sind wir in der Lage, das Minimum und das Maximum jeder Spalte zu finden. Mit Hilfe dieser Werte und der folgenden Formel können wir dann unsere Werte normalisieren. 

$$scaled\, value = \frac{value - min}{max-min}$$

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.2:</b> Implementieren Sie diese Formel in der Funktion <code>normalize_dataset()</code>.
<ul>
    <li> Hinweis: Die Funktion hat den Datensatz und die Min-Max Werte als Eingangsvariablen und gibt den normalisierten Datensatz zurück.

</ul>
</div>

In [3]:
def normalize_dataset(dataset: pd.DataFrame, minmax: list):
    
    return_dataset = dataset.copy(deep=True)
    
    ### STUDENT CODE HERE

    ### STUDENT CODE until HERE
            
    return return_dataset

Wenn wir nun die gerade implementierten Funktionen kombinieren, können wir unseren Datensatz problemlos normalisieren. 

In [4]:
# Again a small test dataset
dataset =  pd.DataFrame({'First' : [50, 30], 'Second' : [20, 90], 'Third' : [30, 40]})
print(dataset)

# Calculate min and max for each column
minmax = dataset_minmax(dataset)
print(minmax)

# Normalize columns
dataset = normalize_dataset(dataset, minmax)
print(dataset)

Jetzt müssen wir nur noch alles zusammensetzten.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.3:</b> Implementieren Sie die Funktion <code>load_normalized_csv()</code>, die eine CSV Datei lädt und die Daten anschließend normalisiert. Gehen Sie davon aus, dass keine Header-Informationen vorhanden sind.
</div>

In [5]:
def load_normalized_csv(filename: str):
    
    ### STUDENT CODE HERE

    ### STUDENT CODE until HERE

## Test:
filename = 'data/pima-indians-diabetes.csv'

dataset = load_normalized_csv(filename)

print(dataset.head())

### Standardize data

Beim Standardisieren zentriert man seine Verteilung um 0 und setzt die Standardabweichung auf 1. Dadurch ergibt sich eine Gaußsche Normalverteilung, auch bekannt als Glockenkurve.

Um standardisieren zu können, benötigen wir den Mittelwert und die Standardabweichung jeder Spalte unseres Datensets. Daher werden wir nun zunächst eine Funktion schreiben, die den Mittelwert jeder Spalte mit Hilfe der folgenden Formel berechnet:

$$\bar{x} = \frac{\sum_{n=0}^{N-1} x_n}{N}$$


<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.4:</b> Schreiben Sie die Funktion <code>column_means()</code>, die den Mittelwert für jede Spalte im Datensatz zurückgibt.
</div>

In [6]:
def column_means(dataset: pd.DataFrame):
    
    ### STUDENT CODE HERE

    ### STUDENT CODE until HERE
    
    return means

Wie wahrscheinlich bereits aus der Wahrscheinlichkeitstheorie bekannt, beschreibt die empirische Standardabweichung die durchschnittliche Streuung der Werte um den Mittelwert. Die nachfolgende Formel soll dabei helfen, eine Funktion zu schreiben, die die Standardabweichung berechnet.


$$ s = \sqrt{\frac{\sum\nolimits_{n=0}^{N-1}(x_n - \bar{x})^2}{N}}$$


<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.5:</b> Schreiben Sie eine Funktion <code>column_stdevs()</code>, die für jede Spalte die Standardabweichung mit der gegebenen Formel berechnet und in einer Liste zurückgibt.
</div>

In [7]:
from math import sqrt

def column_stdevs(dataset: pd.DataFrame, means: list):
    
    ### STUDENT CODE HERE

    ### STUDENT CODE until HERE
        
    return stds

Jetzt können wir unsere Mittelwert und Standardabweichung Funktionen mit einem kleinen Beispiel testen.

In [8]:
dataset = pd.DataFrame({'First' : [50, 30], 'Second' : [20, 90], 'Third' : [30, 50]})
print(dataset)
      
means = column_means(dataset)
print(means)
      
stdevs = column_stdevs(dataset, means)
print(stdevs)

Wir haben nun alle Tools, um unsere Daten standardisieren zu können.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.6:</b> Implementieren Sie die Funktion <code>standardize_dataset()</code>, die die Werte im Datensatz standardisiert.
</div>

In [9]:
def standardize_dataset(dataset: pd.DataFrame, means: list, stdevs: list):
    return_dataset = dataset.copy(deep=True)
    
    ### STUDENT CODE HERE

    ### STUDENT CODE until HERE
    
    return return_dataset

Jetzt ist es an der Zeit, alles zusammen zu setzten und die Standardisierungsfunktion zu testen.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.7:</b> Führen Sie alle benötigten Funktionen aus und geben Sie die Daten in einem Histogramm aus.
</div>

In [10]:
import pandas as pd
import matplotlib.pyplot as plt


dataset = pd.DataFrame({'First' : [50, 10, 30], 'Second' : [20, 25, 90], 'Third' : [30, 40, 50]})
print(dataset)

### STUDENT CODE HERE

### STUDENT CODE until HERE


Lass uns nun eine Funktion schreiben, die eine CSV Datei einließt und standardisiert.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.8:</b> Vervollständigen Sie die <code>load_standardized_csv()</code> Funktion, die eine Datei einliest und den standardisierten Datensatz zurückgibt.
</div>



In [11]:
def load_standardized_csv(filename: str):
    
    ### STUDENT CODE HERE

    ### STUDENT CODE until HERE
    return standardized_dataset

## Test:
filename = 'data/pima-indians-diabetes.csv'

dataset = load_standardized_csv(filename)

print(dataset.head())

### Wann normalisieren und wann standardisieren?

Neben den beiden vorgestellten Methoden gibt es viele weitere Arten der Datentransformation. 
Allgemein zielen diese Transformation immer darauf ab, Strukturen der Daten bestmöglich für den Lernalgorithmus offen zu legen. 
Die passende Transformationsmethode ist vom Anwendungsfall abhängig, sodass es im Allgemeinen nicht möglich ist, eine bestimmte Transformationsmethode einem bestimmten maschinellen Lernalgorithmus zuzuordnen.
Manchmal ist allerdings nicht offensichtlich, welcher Transformationstyp der beste ist. In solch einem Fall muss man ausprobieren, welcher Algorithmus der passendste ist („Trial and Error“).

## Daten für Machine-Learning vorbereiten

Dies ist das letzte Kapitel zur Datenvorverarbeitung. Wie wir im vorangegangenen Kapitel gelernt haben, ist es sinnvoll, seine Daten zu verarbeiten und somit ihre besondere Struktur offenlegen. Dazu haben wir ein einfaches Python Programm geschrieben. Nun gehen wir noch einen Schritt weiter, in dem wir das Paket _scikit-learn_ verwenden. Nach dieser Aufgabe werden wir in der Lage sein, Daten zu normalisieren, standardisieren und binarisieren. 

Die scikit-learn Library enthält zwei verschiedene Standardwege, um Daten zu ztansformieren.

<div class="alert alert-block alert-success">
<b>Frage 1.4.9:</b> Recherchiere und beschreibe die Unterschiede.
</div>

<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>

### Daten Normalisieren

Beim Normalisieren eines Datensatzes wird der größte Wert 1. Das ist hilfreich bei Datensätzen, die viele Nullen und unterschiedliche Skalen aufweisen. 

Mit Hilfe von scikit-learn können Daten mit der `MinMaxScaler` Klasse normalisiert werden.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.10:</b> Min-Max-Normalisieren Sie die Daten aus dem Diabetes-Beispiel mit scikit-learn, indem Sie den <code>MinMaxScaler</code> verwenden, und speichern Sie sie in der Variable <code>dataframe_normalized</code>.
</div>

In [12]:
# Rescale data (between 0 and 1)
from pandas import read_csv
from sklearn.preprocessing import MinMaxScaler

filename = 'data/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

### STUDENT CODE HERE

### STUDENT CODE until HERE

dataframe_normalized.head()

### Daten Standardisieren

Eine weitere Möglichkeit ist die Standardisierung Ihrer Daten, die auch als z-Transformation bezeichnet wird. Das Ergebnis einer Standardisierung ist eine Verteilung mit einem Mittelwert von Null und einer Standardabweichung von 1.

Sie können Daten standardisieren, indem Sie die Klasse `StandardScaler` in scikit-learn verwenden.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.11:</b> Standardisieren Sie die Daten des Diabetes-Beispiel mit dem <code>StandardScaler</code> und speichern Sie diese in der Variablen <code>dataframe_standardized</code>
</div>

In [13]:
from pandas import read_csv
from sklearn.preprocessing import StandardScaler

filename = 'data/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

### STUDENT CODE HERE

### STUDENT CODE until HERE
dataframe_standardized.head()

### Daten Binarisieren
Eine neue Methode der Datenvorverarbeitung ist die Binarisierung (Engl.: binarization). Hierbei wird ein Schwellenwert festgelegt. Alle Werte über der Schwelle werden zu eins, alle darunter zu null.
In scikit-learn kann dies mit Hilfe der Klasse `Binarizer` erreicht werden.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.12:</b> 
    Binarisieren Sie das Diabetes-Beispiel mit einem Schwellenwert von 0,0 und speichern Sie die binarisierten Daten in der Variablen <code>dataframe_binarized</code>
</div>

In [14]:
from sklearn.preprocessing import Binarizer
from pandas import read_csv

filename = 'data/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

### STUDENT CODE HERE

### STUDENT CODE until HERE
dataframe_binarized.head()

## Zusammenfassung

In diesem Abschnitt haben wir gelernt, wie man Daten richtig einließt, versteht und vorverarbeitet. Dies ist von hoher Relevanz für die Anwendung von Daten auf Machine-Learning Algorithmen, da die Performanz solcher Algorithmen maßgeblich von der Qualität der verwendeten Daten abhängt.

<div class="alert alert-block alert-success">
<b>Aufgabe 1.4.13:</b> 
    <ul>
        <li>Fassen Sie in drei bis fünf Sätzen zusammen, welche Methoden Sie heute gelernt haben
        <li>Treffen Sie zwei Aussagen über den Datensatz, z. B. je mehr Kinder eine Person hat, desto älter ist die Person im Durchschnitt.
        <li>Sie können auch einige Plots oder Ausgaben verwenden, wenn Sie dies wünschen.
    </ul>
</div>
<div class="alert alert-block alert-success">
<b>Ihre Antwort:</b></div>