## Machine Learning

### Was ist ML?

Wir haben ein Datenset, und wollen bestimmte Werte per Model füllen

---

Beispiel: Wetter

Inputs: Monat, Tageszeit, Wolken %, Niederschlag %

Output: Temperatur

-> Temperatur soll vom ML Modell vorhergesagt werden

z.B.: April, 11 Uhr, 100 % Wolken, 0 % Niederschlag: 12°C, 10°C -> 6°C

---

Wir wollen jetzt ein ML Modell definieren, welches diese Vorhersagen akkurat treffen kann

Bei 4 Parametern kann das ganze noch per Hand geschrieben werden, bei 10+ Parametern ist dies schon schwieriger. Hier kann ML eingesetzt werden

## Income.csv

Dieses Datenset enthält verschiedenste Datenpunkte zu Personen

Hier wird klassifiziert, ob eine bestimmte Person über/unter 50.000$/Jahr verdient

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
data = pd.read_csv("Data/Income.csv")

In [3]:
data

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,class
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


### Probleme mit dem Datenset

Zuerst müssen wir das Datenset modifizieren, damit es für ML verwendet werden kann

- Alle Werte numerisch machen
- Werte skalieren (Outlier reduzieren)
- Unebenheiten ausbessern (Neue Daten erzeugen, die die Unebenheiten ausgleichen)

In [4]:
data["class"].unique()

array(['<=50K', '>50K'], dtype=object)

In [5]:
data["class"] == '>50K'

0        False
1        False
2        False
3        False
4        False
         ...  
32556    False
32557     True
32558    False
32559    False
32560     True
Name: class, Length: 32561, dtype: bool

In [6]:
data["class"] = (data["class"] == '>50K').astype(int)

In [7]:
data

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,class
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,0
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,0
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,0
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,0
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,0
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,1
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,0
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,0


### Alle Werte numerisch machen mittels Label Encoding

Label Encoding: Wandelt jeden Text innerhalb einer Spalte zu einer Zahl um, wobei jede Zahl eine "Gruppe" darstellt

In [8]:
from sklearn.preprocessing import LabelEncoder

enc = LabelEncoder()
enc.fit_transform(data["workclass"])
data["workclass"] = enc.fit_transform(data["workclass"])

for col in data.select_dtypes(object):
    # enc.fit_transform(data[col])
    data[col] = enc.fit_transform(data[col])

In [9]:
data

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,class
0,39,7,77516,9,13,4,1,1,4,1,2174,0,40,39,0
1,50,6,83311,9,13,2,4,0,4,1,0,0,13,39,0
2,38,4,215646,11,9,0,6,1,4,1,0,0,40,39,0
3,53,4,234721,1,7,2,6,0,2,1,0,0,40,39,0
4,28,4,338409,9,13,2,10,5,2,0,0,0,40,5,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,4,257302,7,12,2,13,5,4,0,0,0,38,39,0
32557,40,4,154374,11,9,2,7,0,4,1,0,0,40,39,1
32558,58,4,151910,11,9,6,1,4,4,0,0,0,40,39,0
32559,22,4,201490,11,9,4,1,3,4,1,0,0,20,39,0


### Aufteilen der Daten in Trainings- und Testsets

Um ein Modell trainieren zu können benötigen wir ein Trainingsset und ein Testset

Dafür können wir das originale Datenset in zwei Teile aufteilen: 80% Training, 20% Test

In [10]:
# Schritt 1: Datenset in 80/20 aufteilen
# data.sample(frac=1)  # Gibt das Datenset in einer zufälligen Ordnung zurück

sampled = data.sample(frac=1)
training = sampled[:int(len(data)*0.8)]  # 80%
test = sampled[int(len(data)*0.8):]  # 20%

# Schritt 2: class Spalte von den restlichen Daten trennen
left_train = training.drop(columns = ["class"])
right_train = training["class"]

left_test = test.drop(columns = ["class"])
right_test = test["class"]

In [11]:
len(test) + len(training)

32561

### Werte skalieren

Hier werden jetzt Outlier reduziert und alle Werte auf eine ähnliche Höhe gebracht

Statt 6-Stelligen Werten ist jetzt jeder Wert einstellig

In [12]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit_transform(left_train)

left_train = pd.DataFrame(scaler.fit_transform(left_train))

### Unebenheiten ausbessern

Momentan gibt es noch eine unterschiedliche Anzahl von 0 und 1 Daten

Diese müssen gleichmäßig sein, damit das Model keinen Bias entwickelt

In [13]:
right_train.value_counts()

class
0    19817
1     6231
Name: count, dtype: int64

In [14]:
from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler()
left, right = ros.fit_resample(left_train, right_train)

left_train = pd.DataFrame(left)
right_train = pd.DataFrame(right)

right.value_counts()

class
1    19817
0    19817
Name: count, dtype: int64

## Verschiedene vorgegebene Algorithmen/Modelle

### k-nearest neighbors (kNN)

- Neuer Datenpunkt wird platziert

- Anhand von k Nachbarn wird dieser Datenpunkt klassifiziert

- Von der Klasse von der es mehr Nachbarn gibt, wird dieser Datenpunkt eingeteilt

- k muss ungerade sein (3, 5, 7, 9)

In [15]:
from sklearn.neighbors import KNeighborsClassifier

In [16]:
knnModel = KNeighborsClassifier(7)  # Anzahl Nachbarn

In [17]:
knnModel.fit(left_train, right_train.values.reshape(-1))  # Hier soll für die Rechte Seite ein 1D-Array übergeben werden

In [18]:
prediction = knnModel.predict(left_test)



In [19]:
pd.DataFrame(np.hstack((left_test, right_test.values.reshape(len(prediction), 1), prediction.reshape(len(prediction), 1))), columns=[*range(14), "Actual", "Prediction"])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,Actual,Prediction
0,57,4,73051,9,13,2,4,0,4,1,0,0,40,39,0,0
1,63,6,52144,15,10,6,4,1,4,1,0,0,35,39,0,0
2,32,4,113838,15,10,2,6,0,4,1,0,0,40,39,0,0
3,50,4,283676,15,10,0,3,1,4,1,0,0,40,39,0,0
4,32,4,242150,11,9,4,1,3,4,1,0,0,38,39,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6508,45,4,182541,15,10,0,7,4,4,1,0,0,48,39,0,0
6509,22,0,216563,11,9,4,0,2,4,0,0,0,40,39,0,0
6510,22,4,201268,9,13,4,12,3,4,0,0,0,15,39,0,0
6511,32,4,252257,7,12,4,1,1,4,0,0,0,45,39,0,0


In [20]:
comparison = pd.Series(right_test.values == prediction).value_counts()
comparison

True     4928
False    1585
Name: count, dtype: int64

In [21]:
print(comparison[True] / len(right_test))
print(comparison[False] / len(right_test))

0.7566405650237985
0.24335943497620144


Funktion zum Evaluieren des Models

In [22]:
def evaluate(prediction):
    comparison = pd.Series(right_test.values == prediction).value_counts()
    print(f"Richtige Vorhersage: {round(comparison[True] / len(right_test) * 100, 2)}%")
    print(f"Falsche Vorhersage: {round(comparison[False] / len(right_test) * 100, 2)}%")

In [23]:
evaluate(prediction)

Richtige Vorhersage: 75.66%
Falsche Vorhersage: 24.34%


### Naive Bayes

Berechnet für jede Spalte eine Wahrscheinlichkeit in Relation zum Gesamtdatenset

Danach wird jeder dieser Wahrscheinlichkeiten mit 50% verglichen

Im Anschluss werden die Wahrscheinlichkeiten zusammengeführt, und wieder mit 50% verglichen

In [24]:
from sklearn.naive_bayes import GaussianNB

In [25]:
nb = GaussianNB()

In [26]:
nb.fit(left_train, right_train.values.reshape(-1))

In [27]:
prediction = nb.predict(left_test)



In [28]:
evaluate(prediction)

Richtige Vorhersage: 78.01%
Falsche Vorhersage: 21.99%


### Logistische Regression

Ähnlich wie Naive Bayes, aber fasst einen Datensatz zu einer Wahrscheinlichkeit zusammen und prüft dann, ob dieser über einem Schwellwert liegt

In [29]:
from sklearn.linear_model import LogisticRegression

In [30]:
lr = LogisticRegression()

In [31]:
lr.fit(left_train, right_train.values.reshape(-1))

In [32]:
prediction = lr.predict(left_test)



In [33]:
evaluate(prediction)

Richtige Vorhersage: 24.72%
Falsche Vorhersage: 75.28%


### Support Vector Machines

Legt eine Hyperplane durch das Datenset durch

Die Hyperplane breitet sich aus, alle Punkte die getroffen werden, werden klassifiziert

In 2D noch visualisierbar, unser Datenset hat 14 Dimensionen

Sehr auswändiger Algorithmus, aber dafür eher präzise

In [34]:
from sklearn.svm import SVC

In [35]:
svc = SVC()
svc.fit(left_train, right_train.values.reshape(-1))

In [36]:
prediction = svc.predict(left_test)



In [37]:
evaluate(prediction)

Richtige Vorhersage: 75.28%
Falsche Vorhersage: 24.72%


## Neurales Netzwerk

Das Neurale Netzwerk besteht aus Layern (Schichten)

Jede Schicht enthält beliebig viele Neuronen (Nodes)

Jedes Neuron summiert seine Inputs auf, und schickt diese Summe in die gegebene Activation Function

- Activation Function: Normale Mathematische Funktion, welche am Ende des Summenprozesses ausgeführt wird, und genau einen Wert als Ergebnis bringt

Der Output der Activation Function wird an den nächsten Layer weitergegeben

---

Wir können jetzt unser eigenes Modell aufbauen mithilfe von **Keras**

Was ist ein Modell?

Ein Modell ist ein Programm, welches per Machine Learning erzeugt, anstatt per Hand geschrieben wird

Das Model nimmt im Anschluss als Input einen Datensatz und gibt ein Ergebnis zurück

---

Loss: Beschreibt, wie gut das Model im klassifizieren von Daten ist

Dense: Ein Layer, welche alle Nodes mit allen nächsten Nodes verbindet

Dropout: Ein Layer, welcher X% der Inputdaten wegwirft. Wird verwendet, um das Model zu verlangsamen

In [40]:
import setuptools.dist
import tensorflow as tf

In [72]:
model = tf.keras.Sequential([
    tf.keras.Input((14,)),
    tf.keras.layers.Dense(8, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(8, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

In [73]:
model.compile(optimizer=tf.keras.optimizers.Adam(0.001),  # Optimizer: Beeinflusst die Lernrate (hier 0.001)
              loss='binary_crossentropy',  # Loss-Funktion: Hier Binary Crossentropy (0 oder 1)
              metrics=['accuracy'])

In [74]:
history = model.fit(
    left_train,
    right_train.values.reshape(-1),
    epochs=10,  # Anzahl Durchläufe
    batch_size=8,  # Parallelsierung
    verbose=1)  # Output aktivieren

Epoch 1/10
[1m4955/4955[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 1ms/step - accuracy: 0.7020 - loss: 0.5533
Epoch 2/10
[1m4955/4955[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 1ms/step - accuracy: 0.7991 - loss: 0.4262
Epoch 3/10
[1m4955/4955[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 1ms/step - accuracy: 0.8091 - loss: 0.4105
Epoch 4/10
[1m4955/4955[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 2ms/step - accuracy: 0.8107 - loss: 0.4085
Epoch 5/10
[1m4955/4955[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 2ms/step - accuracy: 0.8108 - loss: 0.4088
Epoch 6/10
[1m4955/4955[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 1ms/step - accuracy: 0.8102 - loss: 0.4107
Epoch 7/10
[1m4955/4955[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 1ms/step - accuracy: 0.8104 - loss: 0.4042
Epoch 8/10
[1m4955/4955[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 1ms/step - accuracy: 0.8133 - loss: 0.4025
Epoch 9/10
[1m4955/4955

In [75]:
prediction = model.predict(left_test)

[1m204/204[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step


In [76]:
evaluate(prediction.reshape(-1))

Richtige Vorhersage: 24.72%
Falsche Vorhersage: 75.28%


In [57]:
model.save("Models/Income.keras")

In [60]:
m = tf.keras.models.load_model("Models/Income.keras")

In [79]:
evaluate((model.predict(left_test) < 0.5).astype(int).reshape(-1))

[1m204/204[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 873us/step
Richtige Vorhersage: 75.28%
Falsche Vorhersage: 24.72%
