# Machine Learning #
## Was ist ML? ##

Wir haben ein Datenset und wollen bestimmte Werte per Model füllen.
___
Beispiel: Wetter

Inputs: Monat, Tageszeit, Wolken %, Niederschlag %

Output: Temperatur

-> Temperatur soll vom ML Modell vorhergesagt werden

z.B: April, 11 Uhr, 100% Wolken, 0% Niederschlag: 12°C, 10°C -> 6°C
___
Wir wollen jetzt ML Modell definieren, welches diese Vorhersagen akkurat treffen kann

Bei 4 Parametern kann das ganze noch per Hand geschrieben werden, bei 10+ Parametern ist dies schon schwieriger. Hier kann ML eingesetzt werden.

## Income.csv
Dieses Datenset enthält verschiedenste Datenpunkte zu Personen

Hier wird klassifiziert, ob eine bestimmte Person über/unter 50.0000€ pro Jahr verdient


In [98]:
import numpy as np
import pandas as pd
import matplotlib as plt

In [99]:
data = pd.read_csv("Data/Income.csv")

In [100]:
data

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,class
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


### Probleme im Datenset
Zuerst müssen wir das Datenset modifizieren, damit es für ML verwendet werden kann
- Alle Werte müssen numerisch sein
- Werte skaliern (Outlier reduzieren)
- Unebenheiten ausbessern (Neue Daten erzeugem, die die Unebenheiten ausgleichen)

In [101]:
data["class"].unique()

array(['<=50K', '>50K'], dtype=object)

In [102]:
data["class"] == ">50K"

0        False
1        False
2        False
3        False
4        False
         ...  
32556    False
32557     True
32558    False
32559    False
32560     True
Name: class, Length: 32561, dtype: bool

In [103]:
data["class"] = (data["class"] == ">50K").astype(int)

In [104]:
data

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,class
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,0
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,0
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,0
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,0
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,0
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,1
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,0
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,0


#### Alle Werte numerisch machen mittels Label Encodig
Label Encoding: Wandelt jeden Text innerhalb einr Spalte zu einer Zahl um, wobei jede Zahl eine "Gruppe" darstellt

In [105]:
from sklearn.preprocessing import LabelEncoder
enc =  LabelEncoder()
enc.fit_transform(data["workclass"])
data["workclass"] = enc.fit_transform(data["workclass"])

for col in data.select_dtypes(object):
    data[col] = enc.fit_transform(data[col])

In [106]:
data

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,class
0,39,7,77516,9,13,4,1,1,4,1,2174,0,40,39,0
1,50,6,83311,9,13,2,4,0,4,1,0,0,13,39,0
2,38,4,215646,11,9,0,6,1,4,1,0,0,40,39,0
3,53,4,234721,1,7,2,6,0,2,1,0,0,40,39,0
4,28,4,338409,9,13,2,10,5,2,0,0,0,40,5,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,4,257302,7,12,2,13,5,4,0,0,0,38,39,0
32557,40,4,154374,11,9,2,7,0,4,1,0,0,40,39,1
32558,58,4,151910,11,9,6,1,4,4,0,0,0,40,39,0
32559,22,4,201490,11,9,4,1,3,4,1,0,0,20,39,0


#### Aufteilen der Daten in Trainings- und Testdaten
Um ein Modell trainieren zu können benötigen wir ein Traingsset und ein Testset

Dafür können wir das originale Datenset in zwei Teile aufteilen: 80% Training, 20% Test

In [107]:
# Schritt 1: Datenset in 80/20 aufteilen
# data.sample(frac=1) Gibt das Datenset in einer zufälligen Ordnung zurück

sampled = data.sample(frac=1) # frac=1 legt fest, dass die Zeilen gewürfelt werden, 0 wären die Spalten
training = sampled[:int(len(data)*0.8)]
testing = sampled[int(len(data)*0.8):]

# Schritt 2 : class Spalte von den restlichen Daten trennen

left_train =training.drop(columns="class")
right_train = training["class"]

left_test = testing.drop(columns="class")
right_test = testing["class"]

In [108]:
len(testing)+len(training)

32561

In [109]:
left_train

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country
1165,33,4,178506,11,9,0,1,1,2,0,0,0,40,39
28598,40,4,138975,11,9,2,3,0,4,1,0,0,56,39
3241,41,4,223062,15,10,5,8,1,2,1,0,0,40,39
17042,32,4,209691,9,13,2,12,0,4,1,0,0,42,39
29723,44,4,110396,12,14,4,4,1,4,1,14084,0,56,39
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,41,4,373469,7,12,2,7,0,4,1,0,0,40,39
18721,18,4,102182,2,8,4,9,1,4,0,0,0,30,39
20044,65,6,175202,11,9,2,4,0,4,1,0,0,24,39
28593,50,7,172970,11,9,2,14,0,4,1,0,0,40,33


In [110]:
right_train

1165     0
28598    0
3241     0
17042    1
29723    1
        ..
6109     0
18721    0
20044    0
28593    0
21331    0
Name: class, Length: 26048, dtype: int64

#### Werte skalieren
Hier werden jetzt Outlier reduziert und alle Werte auf ähnlich Höhe gebracht

Statt 6-stelligen Werten ist jezt jeder Wert einstellig

In [111]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit_transform(left_train)
left_train = pd.DataFrame(scaler.fit_transform(left_train))

In [112]:
left_train

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,-0.408974,0.091973,-0.107628,0.181392,-0.421192,-1.737004,-1.316984,-0.276702,-1.958206,-1.419688,-0.14603,-0.217298,-0.032861,0.291055
1,0.103761,0.091973,-0.483440,0.181392,-0.421192,-0.408170,-0.844326,-0.900298,0.393664,0.704380,-0.14603,-0.217298,1.260373,0.291055
2,0.177009,0.091973,0.315956,1.215684,-0.032252,1.585082,0.337319,-0.276702,-1.958206,0.704380,-0.14603,-0.217298,-0.032861,0.291055
3,-0.482222,0.091973,0.188841,-0.335754,1.134566,-0.408170,1.282635,-0.900298,0.393664,0.704380,-0.14603,-0.217298,0.128793,0.291055
4,0.396753,0.091973,-0.755134,0.439965,1.523506,0.920665,-0.607997,-0.276702,0.393664,0.704380,1.76324,-0.217298,1.260373,0.291055
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26043,0.177009,0.091973,1.745842,-0.852900,0.745627,-0.408170,0.100990,-0.900298,0.393664,0.704380,-0.14603,-0.217298,-0.032861,0.291055
26044,-1.507692,0.091973,-0.833223,-2.145765,-0.810131,0.920665,0.573648,-0.276702,0.393664,-1.419688,-0.14603,-0.217298,-0.841132,0.291055
26045,1.934958,1.459391,-0.139038,0.181392,-0.421192,-0.408170,-0.607997,-0.900298,0.393664,0.704380,-0.14603,-0.217298,-1.326095,0.291055
26046,0.836240,2.143100,-0.160257,0.181392,-0.421192,-0.408170,1.755293,-0.900298,0.393664,0.704380,-0.14603,-0.217298,-0.032861,-0.477071


#### Unebenheiten ausbessern
Momentan gibt es noch eine unterschieliche Anzahl von 0 und 1 Daten

Diese müssen gleichmäßig sein, damit das Modell keinen Bias entwickelt

In [113]:
right_train.value_counts()

class
0    19792
1     6256
Name: count, dtype: int64

In [114]:
from imblearn.over_sampling import RandomOverSampler

ros=RandomOverSampler()
left, right = ros.fit_resample(left_train, right_train)
right.value_counts()

class
0    19792
1    19792
Name: count, dtype: int64

### Verschieden vorgegebene Algorithmen/Modelle
#### k-nearest neighbours (kNN)
- Neuer Datenpunkt wird platziert
- Anhand von k Nachbarn wird dieser Datenpunkt klassifiziert
- Von der Klasse von der es Mehr Nachbarn gibt, wird dieser Datenpunkt eingeteilt
- k muss ungerade sein

In [115]:
from sklearn.neighbors import KNeighborsClassifier

In [116]:
knnModel = KNeighborsClassifier(7) # Anzahl der Nachbarn 7

In [158]:
knnModel.fit(left, right.values.reshape(-1)) # Hier soll für die recht Seite ein 1-D Array mitgegeben werden

0,1,2
,n_neighbors,7
,weights,'uniform'
,algorithm,'auto'
,leaf_size,30
,p,2
,metric,'minkowski'
,metric_params,
,n_jobs,


In [159]:
prediction = knnModel.predict(left_test)



In [160]:
pd.DataFrame(np.hstack((left_test, right_test.values.reshape(len(prediction), 1), prediction.reshape(len(prediction), 1))), columns=[*range(14), "Actual", "Predicted"])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,Actual,Predicted
0,37,4,301568,2,8,4,8,3,4,0,0,0,40,39,0,0
1,44,5,78374,12,14,0,4,4,1,0,0,0,40,39,0,0
2,34,4,184147,11,9,5,12,4,2,0,0,0,20,39,0,0
3,33,7,37070,12,14,2,10,0,4,1,0,0,60,2,0,0
4,41,4,176452,11,9,4,8,3,4,1,0,0,40,29,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6508,46,4,243743,9,13,2,10,0,4,1,0,0,40,39,1,0
6509,26,4,201481,9,13,4,4,1,4,0,0,0,40,39,0,0
6510,57,4,182028,9,13,2,4,5,4,0,0,0,40,39,0,0
6511,32,4,86808,15,10,4,8,3,4,0,0,0,38,39,0,0


In [161]:
comparison = pd.Series(right_test.values == prediction).value_counts()

In [162]:
comparison

True     4956
False    1557
Name: count, dtype: int64

In [163]:
print(comparison[True]/len(right_test))
print(comparison[False]/len(right_test))

0.760939659143252
0.23906034085674804


In [123]:
def evaluate(prediction):
    comparison = pd.Series(right_test.values == prediction).value_counts()
    print(f"Richtige Vorhersage: {round(comparison[True]/len(right_test)*100, 2)}%")
    print(f"Falsche Vorhersage: {round(comparison[False]/len(right_test)*100, 2)}%")

In [124]:
evaluate(prediction)

Richtige Vorhersage: 75.97%
Falsche Vorhersage: 24.03%


#### Naive Bayes
Berechnet für jede Spalte eine Wahrscheinlichkeit in Relation zum Gesamtdatenset

Danach wird jeder dieser Wahrscheinlichkeiten mit 50% verglichen

Im Anschluss werden die Wahrscheinlichkeiten zusammengeführt und wieder mit 50% vergleichen

In [125]:
from sklearn.naive_bayes import GaussianNB
nb = GaussianNB()

In [126]:
nb.fit(left_train, right_train.values.reshape(-1))

0,1,2
,priors,
,var_smoothing,1e-09


In [127]:
prediction = nb.predict(left_test)



In [128]:
evaluate(prediction)

Richtige Vorhersage: 78.35%
Falsche Vorhersage: 21.65%


#### Logische Regression
Ähnlich wie bei Naive Bays, aber fasst einene Datensatz zu einer Wahrscheinlichkeit zusammen und prüft dann, ob dieser über einen Schwellwert liegt.

In [131]:
from sklearn.linear_model import LogisticRegression

In [132]:
lr = LogisticRegression()

In [133]:
lr.fit(left_train, right_train.values.reshape(-1))

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,100


In [134]:
prediction = lr.predict(left_test)



In [135]:
evaluate(prediction)

Richtige Vorhersage: 24.34%
Falsche Vorhersage: 75.66%


#### Support Vector Mashines
Legt eine Hyperplane durch das Datenset durch

Die Hyperplane breitet sich aus, alle Punkte die getroffen werden, werden klassifiziert

In 2D noch visualisierbar, aber unser Datenset hat 14 Dimensionen

Sehr aufwändigen Algorithmus, aber ist dafür eher präzise

In [136]:
from sklearn.svm import SVC

In [137]:
svc = SVC()

In [138]:
svc.fit(left_train, right_train.values.reshape(-1))

0,1,2
,C,1.0
,kernel,'rbf'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [139]:
prediction = svc.predict(left_test)



In [140]:
evaluate(prediction)

Richtige Vorhersage: 75.66%
Falsche Vorhersage: 24.34%


### Neuronales Netzwerk
Das Neurnale Netz besteht aus Layern (Schichten)

Jede Schicht enthält beliebig viele Neuronen (Nodes)

Jedes Neuron summiert alle seine Inputs auf, und schickt diese Summe an die gegebene Activation Function
 - Activation Function: Normale Mathematische Funktion, welche am Ende des Summenprozesses ausgeführt wird, und genau einen Wert als Ergebnis liefert

Der Output der Activation Functions wird an den nächsten Layer weitergegeben.
___
Wir können jetzt unser eigenes Modell aufbauen mithilfe von **Keras**

Was ist ein Modell?

Ein Modell ist ein Programm, welches per Machine Learning erzeugt, anstatt per Hand geschrieben wird

Das Modell nimmt im Anschluss als Input einen Datensatz und gibt das Ergebnis zurück
___
Loss: Beschreibt, wie gut das Modell im klassifizieren von Daten ist

Dense: Eine Schicht, welche alle Neuronen mit allen nächsten Neuronen verbindet

Dropout: Eine Schicht, die X% der Inputdaten wegwirft. Wird verwendet, um das Model zu verlangsamen

In [142]:
import setuptools.dist
import tensorflow as tf

In [143]:
model = tf.keras.Sequential([
    tf.keras.Input((14,)),
    tf.keras.layers.Dense(8, activation="relu"),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(8, activation="relu"),
    tf.keras.layers.Dense(1, activation="sigmoid")
])

In [144]:
model.compile(optimizer=tf.keras.optimizers.Adam(0.001), # Optimizer: Beeinflusst die Lernrate (hier 0.001)
              loss = 'binary_crossentropy', # Loss-Funktion: Hier Binary Crossentropy (0,1)
              metrics=['accuracy'])


In [145]:
history = model.fit(
    left_train,
    right_train.values.reshape(-1),
    epochs=10, # Anzahl der Durchläufe
    batch_size=8, # Parallelsierung
    verbose=1) # Output aktivieren


Epoch 1/10
[1m3256/3256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 1ms/step - accuracy: 0.8040 - loss: 0.4250
Epoch 2/10
[1m3256/3256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 1ms/step - accuracy: 0.8316 - loss: 0.3637
Epoch 3/10
[1m3256/3256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 1ms/step - accuracy: 0.8368 - loss: 0.3498
Epoch 4/10
[1m3256/3256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 1ms/step - accuracy: 0.8397 - loss: 0.3454
Epoch 5/10
[1m3256/3256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 1ms/step - accuracy: 0.8393 - loss: 0.3441
Epoch 6/10
[1m3256/3256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 1ms/step - accuracy: 0.8378 - loss: 0.3432
Epoch 7/10
[1m3256/3256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 1ms/step - accuracy: 0.8402 - loss: 0.3411
Epoch 8/10
[1m3256/3256[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 1ms/step - accuracy: 0.8395 - loss: 0.3391
Epoch 9/10
[1m3256/3256

In [154]:
prediction = model.predict(left_test)

[1m204/204[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 993us/step


In [157]:
(prediction<0.5).astype(int)

array([[0],
       [0],
       [0],
       ...,
       [0],
       [0],
       [0]], shape=(6513, 1))

In [147]:
evaluate(prediction.reshape(-1))

Richtige Vorhersage: 24.34%
Falsche Vorhersage: 75.66%


In [150]:
model.save("Model/Income.keras")

In [151]:
m = tf.keras.models.load_model("Model/Income.keras")

In [164]:
evaluate((model.predict(left_test)).astype(int).reshape(-1))

[1m204/204[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 914us/step
Richtige Vorhersage: 24.34%
Falsche Vorhersage: 75.66%
