# Projektarbeit opencampus.sh Kurs 23S
## Mathematik für maschinelles Lernen

- Andreas Gatz
- Sandra Krause
- Anke Schürmann
- Annika Strupp

### Vorbereitung

In [None]:
# lade Python Paket pandas mit Alias pd
import pandas as pd
# lade matplotlib.pyplot mit Alias plt
import matplotlib.pyplot as plt
# lade Grafikpaket seaborn mit Alias sns
import seaborn as sns

In [None]:
# Ausgabe der verfügbaren / geladenen pandas Version
print(pd.__version__)

1.5.3


### Datensatz einlesen und kennenlernen

In [None]:
# lese CSV penguins_size.csv ein (als pandas dataframe mit Namen penguins)
# heruntergeladen von Kaggle, links im Upload-Menü in das Notebook hochladen
# https://www.kaggle.com/datasets/parulpandey/palmer-archipelago-antarctica-penguin-data
penguins = pd.read_csv("penguins_size.csv")

FileNotFoundError: ignored

**Daten:** Gorman KB, Williams TD, Fraser WR (2014) Ecological Sexual Dimorphism and Environmental Variability within a Community of Antarctic Penguins (Genus Pygoscelis). PLoS ONE 9(3): e90081. doi:10.1371/journal.pone.0090081

**Datenlizenz:** https://creativecommons.org/publicdomain/zero/1.0/

**Artwork by @allison_horst:** Horst AM, Hill AP, Gorman KB (2020). palmerpenguins: Palmer Archipelago (Antarctica) penguin data. R package version 0.1.0. https://allisonhorst.github.io/palmerpenguins/. doi: 10.5281/zenodo.3960218.

**Artwork Lizenz:** https://allisonhorst.github.io/palmerpenguins/

![allisonhorst.github.io/palmerpenguins/](https://allisonhorst.github.io/palmerpenguins/reference/figures/lter_penguins.png)

In [None]:
# Ausgabe dataframe (Spalten und Zeilen) penguins
penguins

In [None]:
# alternativ: einfache Ausgabe dataframe (Spalten und Zeilen) penguins
print(penguins)

In [None]:
# Ausgabe von Informationen zum dataframe penguins
print(penguins.info())

![allisonhorst.github.io/palmerpenguins](https://allisonhorst.github.io/palmerpenguins/reference/figures/culmen_depth.png)

In [None]:
# alternativ, oder zusätzlich: wende Methode describe() auf dataframe penguins an
penguins.describe()

### Datenvorverarbeitung

In [None]:
# Spalte species in Faktor numerische "category" umwandeln für spätere Klassifikation
penguins["target"] = penguins["species"].astype("category")
penguins["target"] = penguins["target"].cat.codes
penguins["target"].unique()

In [None]:
# verwerfe alle Zeilen mit fehlenden Werten (missing vaues, NULL values)
dropna_penguins = penguins.dropna()
dropna_penguins
# bleiben 334 von 344 Zeilen

### Daten näher kennenlernen

In [None]:
# nutze Methode corr(), um Korrelation zwischen numerischen Spalten abzubilden
# corr() ignoriert nicht-numerische Spalten
# "culmen" entspricht Schnabel
# "flipper" sind die Flügel der Pinguine
# auf Korrelationen zwischen -0.6 und 0.6 achten ("interessante Korrelation")
dropna_penguins.corr(numeric_only = True)

In [None]:
# einfache Visualisierung Scatterplot-Matrix
sns.pairplot(dropna_penguins, hue = "species")

### kNN-Klassifikation ausprobieren

In [None]:
# lade Module für kNN-Klassifikation
# https://scikit-learn.org/stable/modules/neighbors.html
from sklearn.neighbors import NearestNeighbors
from sklearn.neighbors import KNeighborsClassifier
import sklearn.neighbors
from sklearn.model_selection import train_test_split
import numpy as np

Tipp: hier mit unterschiedlichen k experimentieren (wie viele nächste Nachbarn zählen mit?)

In [None]:
# setze integer value für k nearest neighbors
# check: Bewertung Modell in Zelle 213, wenn k größer oder kleiner als 6
# mit k = 6 0.9523809523809523
k = 3

In [None]:
# teile dataset auf in Klassenattribute (y) und features (X)
# verwende culmen_length und flipper_lenght für die Klassifikation (sah im Scatterplot sinnvoll aus)
X = dropna_penguins.drop(["species","island","culmen_depth_mm","body_mass_g", "sex", "target"],axis=1)
y = dropna_penguins["target"]

In [None]:
sns.scatterplot(data = dropna_penguins, x = "culmen_length_mm", y = "flipper_length_mm", hue = "target")

# setze Limits für x- und y-Achse
plt.ylim(160, 240)
plt.xlim(30, 65)

In [None]:
X

In [None]:
# teile X und y in train und test mit train_test_split (siehe Zelle 59)
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
# default für test size ist 0.25 (wenn train size ebenfalls nicht spezifiziert)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 19)

In [None]:
sns.scatterplot(data = X_train, x = "culmen_length_mm", y = "flipper_length_mm")

# setze identische Limits für x- und y-Achse (Vergleichbarkeit!)
plt.ylim(160, 240)
plt.xlim(30, 65)

In [None]:
sns.scatterplot(data = X_test, x = "culmen_length_mm", y = "flipper_length_mm")

# setze identische Limits für x- und y-Achse (Vergleichbarkeit!)
plt.ylim(160, 240)
plt.xlim(30, 65)

In [None]:
# setze KNeighborsClassifier in Variable clf und trainiere Modell mit clf.fit()
clf = KNeighborsClassifier(n_neighbors = k)
clf.fit(X_train, y_train)

In [None]:
# schätze mit Modell die Klassenattribute für X-test Testdaten
y_estimation = clf.predict(X_test)
y_estimation

### Evaluation kNN-Klassifikation

In [None]:
# das Modell bewerten mit clf.score()
# aus der Dokumentation:
# Return the mean accuracy on the given test data and labels.
mean_accuracy = clf.score(X_test, y_test)
mean_accuracy

## Projekt 23S

In [None]:
# lade Module für lineare Regression
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
from sklearn.linear_model import LinearRegression
from sklearn import datasets, linear_model

In [None]:
# Prüfe Informationen zum dataframe penguins
print(penguins.info())

In [None]:
# verwerfe erneut alle Zeilen mit fehlenden Werten (missing vaues, NULL values)
dropna_penguins = penguins.dropna()
print(dropna_penguins.info())
# bleiben 334 von 344 Zeilen

In [None]:
# Eintrag der Messwerte für flipper length und Gewicht pro Pinguin in ein zweidimensionales Koordinatensystem
# Punktwolke
sns.scatterplot(data = dropna_penguins, x = "flipper_length_mm", y = "body_mass_g")

In [None]:
# Vermutung eines linearen Zusammenhangs
dropna_penguins[["body_mass_g","flipper_length_mm"]].corr()

In [None]:
# erzeuge Spalten X und Y
X = dropna_penguins["flipper_length_mm"]
Y = dropna_penguins["body_mass_g"]

In [None]:
# lineare Regression mit np.polyfit
# https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html
# m ist die Steigung der Geraden
# b ist der Schnittpunkt der Geraden mit der y-Achse
m, b = np.polyfit(X, Y, 1)

In [None]:
# Eintrag der Ausgleichgeraden in das Koordiantensystem
plt.plot(X, Y, "o", color = "tab:blue")
plt.plot(X, m*X+b, color = "tab:orange")

In [None]:
print(f"Lineare Regression mit Python Paket numpy. Steigung: {m}. y-Achsenabschnitt: {b}")
# Frage: warum ist der y-Achsenabschnitt negativ?
#Andreas: aufgrund der vorhandenen Daten bildet die Funktion das Gewicht erst bei Pinguinen mit Flipper length > 150,160 mm ab
# stellt sich die Frage wie groß sind die Flipper bei neu geschlüpften Pinguinen
Z = np.arange(-100,250,1)
plt.plot(Z, m*Z+b)
plt.plot(X, Y, 'o', color='black')
plt.xlim(-100,250)
plt.ylim(-8000,8000)
plt.grid( axis='x')
plt.grid( axis='y')
plt.title("Weight Function = " + str(round(m,2)) + " * Flipper length " + str(round(b,2)) + "g")
plt.show()

zum testen Vektoren addiert - wenn Ursprung [0,0] wäre

In [None]:
m, b = np.polyfit(X, Y, 1)
x1= X.sum()/200
y1= Y.sum()/200
print(x1,y1)

In [None]:
plt.plot([0,x1], [0,y1])
plt.plot(X, Y, "o", color = "tab:blue") #addition aller Vektoren
plt.plot(X, m*X+b, color = "tab:orange") #regression line aus Daten
plt.show()

Regression mit Seaborn

In [None]:
# alternativ: modelliere lineare Regression mit Python Paket seaborn
# https://seaborn.pydata.org/generated/seaborn.regplot.html
sns.regplot(x = X, y = Y)

### Berechnung mit unterschiedlicher Anzahl an Iterationen

In [None]:
# Normalisieren der Werte in Spalte X und Y
X_norm = (X - np.mean(X))/np.std(X)
Y_norm = (Y - np.mean(Y))/np.std(Y)

In [None]:
# erzeuge leere Liste für ...
cost_1 = []

In [None]:
# schreibe Funktion E zur Berechnung
#
def E(m, b, X, Y):
    costs = 1/(2*len(Y))*np.sum((m*X + b - Y)**2)
    cost_1.append(costs)
    return costs

In [None]:
def dEdm(m, b, X, Y):
    res = 1/len(X)*np.dot(m*X+b-Y,X)
    return res

def dEdb(m, b, X, Y):
    res = 1/len(X) * np.sum(m*X+b-Y)
    return res

In [None]:
def gradient_descent(dEdm, dEdb, m, b, X, Y, learning_rate, num_iterations, print_cost=False):
    for iteration in range(num_iterations):
        m_new = m -learning_rate * dEdm(m,b,X,Y)
        b_new = b -learning_rate * dEdb(m,b,X,Y)
        m = m_new
        b = b_new
        if print_cost:
            print (f"Cost after iteration {iteration}: {E(m, b, X, Y)}")
    return m, b

Anzahl Iterationen zu klein gewählt

In [None]:
m_initial = 0; b_initial = 0; num_iterations = 5; learning_rate = 0.2
m_gd, b_gd = gradient_descent(dEdm, dEdb, m_initial, b_initial,
                              X_norm, Y_norm, learning_rate, num_iterations, print_cost=True)

print(f"Gradient descent result: m_min, b_min = {m_gd}, {b_gd}")

In [None]:
X_pred = np.array([170,180,190,200,210,220,220,230])
# Use the same mean and standard deviation of the original training array X
X_pred_norm = (X_pred - np.mean(X))/np.std(X)
Y_pred_gd_norm = m_gd * X_pred_norm + b_gd
# Use the same mean and standard deviation of the original training array Y
Y_pred_gd = Y_pred_gd_norm * np.std(Y) + np.mean(Y)

print(f"Flipper Länge:\n{X_pred}")
print(f"Predictions of Body Mass:\n{Y_pred_gd}")

In [None]:
x = 0
for i in X_pred:
    print(i-5 , '-' , i+5 , ':',dropna_penguins[dropna_penguins['flipper_length_mm'].between(i-5, i+5)]['body_mass_g'].mean().round(2),' / ', Y_pred_gd[x].round(2))
    x+=1

In [None]:
dropna_penguins[dropna_penguins['flipper_length_mm'].between(160,180)]

In [None]:
m,b = np.polyfit(X,Y,1)

In [None]:
plt.scatter(X, Y,color='grey')
# Berechnete Prediction Line Grün
plt.plot(X_pred, Y_pred_gd,color='lightgreen', linewidth=10)
# Regression Line mit Numpy in Rot
plt.plot(X, m*X+b, color='red',  linewidth=2)
plt.show()

In [None]:
plt.plot(cost_1)
plt.show()
cost_1 = []

In [None]:
m_initial = 0; b_initial = 0; num_iterations = 15; learning_rate = 0.2
m_gd, b_gd = gradient_descent(dEdm, dEdb, m_initial, b_initial,
                              X_norm, Y_norm, learning_rate, num_iterations, print_cost=True)

print(f"Gradient descent result: m_min, b_min = {m_gd}, {b_gd}")

In [None]:
X_pred = np.array([170,180,190,200,210,220,220,230])
# Use the same mean and standard deviation of the original training array X
X_pred_norm = (X_pred - np.mean(X))/np.std(X)
Y_pred_gd_norm = m_gd * X_pred_norm + b_gd
# Use the same mean and standard deviation of the original training array Y
Y_pred_gd = Y_pred_gd_norm * np.std(Y) + np.mean(Y)

print(f"Flipper Länge:\n{X_pred}")
print(f"Predictions of Body Mass:\n{Y_pred_gd}")

In [None]:
m,b = np.polyfit(X,Y,1)

In [None]:
plt.scatter(X, Y,color='grey')
#Berechnete Prediction Line Grün
plt.plot(X_pred, Y_pred_gd,color='lightgreen', linewidth=10)
#Regression Line mit Numpy in Rot
plt.plot(X, m*X+b, color='red',  linewidth=2)
plt.show()

In [None]:
plt.plot(cost_1)
plt.show()
cost_1 = []

Anzahl Iterationen zu groß gewählt

In [None]:
m_initial = 0; b_initial = 0; num_iterations = 200; learning_rate = 0.2
m_gd, b_gd = gradient_descent(dEdm, dEdb, m_initial, b_initial,
                              X_norm, Y_norm, learning_rate, num_iterations, print_cost=True)

print(f"Gradient descent result: m_min, b_min = {m_gd}, {b_gd}")

In [None]:
X_pred = np.array([170,180,190,200,210,220,220,230])
# Use the same mean and standard deviation of the original training array X
X_pred_norm = (X_pred - np.mean(X))/np.std(X)
Y_pred_gd_norm = m_gd * X_pred_norm + b_gd
# Use the same mean and standard deviation of the original training array Y
Y_pred_gd = Y_pred_gd_norm * np.std(Y) + np.mean(Y)

print(f"Flipper Länge:\n{X_pred}")
print(f"Predictions of Body Mass:\n{Y_pred_gd}")

In [None]:
m,b = np.polyfit(X,Y,1)

In [None]:
plt.scatter(X, Y,color='grey')
#Berechnete Prediction Line Grün
plt.plot(X_pred, Y_pred_gd,color='lightgreen', linewidth=10)
#Regression Line mit Numpy in Rot
plt.plot(X, m*X+b, color='red',  linewidth=2)
plt.show()

In [None]:
plt.plot(cost_1)
plt.show()
cost_1 = []

In [None]:
#residuals
plt.scatter(X, Y-(m*X+b))

## mit unterschiedlicher Schrittweite

Schrittweite zu klein um effektive zu sein

In [None]:
m_initial = 0; b_initial = 0; num_iterations = 50; learning_rate = 0.001
m_gd, b_gd = gradient_descent(dEdm, dEdb, m_initial, b_initial,
                              X_norm, Y_norm, learning_rate, num_iterations, print_cost=True)

print(f"Gradient descent result: m_min, b_min = {m_gd}, {b_gd}")

In [None]:
X_pred = np.array([170,180,190,200,210,220,220,230])
# Use the same mean and standard deviation of the original training array X
X_pred_norm = (X_pred - np.mean(X))/np.std(X)
Y_pred_gd_norm = m_gd * X_pred_norm + b_gd
# Use the same mean and standard deviation of the original training array Y
Y_pred_gd = Y_pred_gd_norm * np.std(Y) + np.mean(Y)

print(f"Flipper Länge:\n{X_pred}")
print(f"Predictions of Body Mass:\n{Y_pred_gd}")

In [None]:
m,b = np.polyfit(X,Y,1)

In [None]:
plt.scatter(X, Y,color='grey')
#Berechnete Prediction Line Grün
plt.plot(X_pred, Y_pred_gd,color='lightgreen', linewidth=10)
#Regression Line mit Numpy in Rot
plt.plot(X, m*X+b, color='red',  linewidth=2)
plt.show()

In [None]:
plt.plot(cost_1)
plt.show()
cost_1 = []

Schrittweite zu groß, überspringt

In [None]:
m_initial = 0; b_initial = 0; num_iterations = 50; learning_rate = 2
m_gd, b_gd = gradient_descent(dEdm, dEdb, m_initial, b_initial,
                              X_norm, Y_norm, learning_rate, num_iterations, print_cost=True)

print(f"Gradient descent result: m_min, b_min = {m_gd}, {b_gd}")

In [None]:
X_pred = np.array([170,180,190,200,210,220,220,230])
# Use the same mean and standard deviation of the original training array X
X_pred_norm = (X_pred - np.mean(X))/np.std(X)
Y_pred_gd_norm = m_gd * X_pred_norm + b_gd
# Use the same mean and standard deviation of the original training array Y
Y_pred_gd = Y_pred_gd_norm * np.std(Y) + np.mean(Y)

print(f"Flipper Länge:\n{X_pred}")
print(f"Predictions of Body Mass:\n{Y_pred_gd}")

In [None]:
m,b = np.polyfit(X,Y,1)

In [None]:
plt.scatter(X, Y,color='grey')
#Berechnete Prediction Line Grün
plt.plot(X_pred, Y_pred_gd,color='lightgreen', linewidth=10)
#Regression Line mit Numpy in Rot
plt.plot(X, m*X+b, color='red',  linewidth=2)
plt.show()

In [None]:
plt.plot(cost_1)
plt.show()
cost_1 = []