# Maschinelles Lernen in der Produktion - Modul 1 - Bias vs. Variance


#### In diesem Notebook werden Bias und Variance sowie Underfitting und Overfitting für das Verfahren Regression betrachtet.

1. Datenübersich
2. einfache Lineare Regression
3. Polynomiale Regression

Was passiert, wenn die Daten etwas geändert werden?


In [None]:
# Importiere benötigte Bibliotheken
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline
style = 'seaborn-whitegrid'
plt.style.use(style)
plt.rcParams.update({'font.size': 14})  # Schriftgröße aller Textzeichen im Graphen


In [None]:
# Erzeuge Datensatz
df = pd.DataFrame({ 'Alter' : np.array([23, 31, 51, 59, 67]),
                    'Einkommen (€)' : np.array([23500, 52000, 81000, 63000, 51000 ])
                  })
df

In [None]:
# Darstellung der Daten als Scatterplot
plt.figure(figsize=(10, 6))
plt.plot(df['Alter'], df['Einkommen (€)'], 'o')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.title('Datensatz')
plt.show()


In [None]:
X = df[['Alter']]
y = df[['Einkommen (€)']]
#Erzeuge Gitter für Ausgabe
X_grid = pd.DataFrame({'Alter' : np.linspace(20, 75, 100)})

### 1: Lineare Regression

In [None]:
# Regressionsgerade und Vorhersage
# Importieren der Funktion: Lineares Modell
from sklearn import linear_model

# Trainieren des Lineares Regressionsmodells
linear_model = linear_model.LinearRegression()
linear_mdl = linear_model.fit(X, y)


In [None]:
# Ausgabe Graphen
y_lin_pred = linear_mdl.predict(X_grid)  

plt.figure(figsize=(10, 6))
plt.plot(df['Alter'], df['Einkommen (€)'], 'o')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.title('Datensatz mit Modelgeraden')
plt.plot(X_grid['Alter'], y_lin_pred)
plt.show()

### 2: quadratische Regression

In [None]:
# Regressionsgerade und Vorhersage
# Importieren der Funktion: PolynomialFeatures
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# Trainieren des quadratischen Regressionsmodells
quadratic_mdl = make_pipeline(PolynomialFeatures(degree=2), linear_model)
quadratic_mdl = quadratic_mdl.fit(X, y)


In [None]:
# Ausgabe Graphen
y_quad_pred = quadratic_mdl.predict(X_grid)

plt.figure(figsize=(10, 6))
plt.plot(df['Alter'], df['Einkommen (€)'], 'o')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.title('Datensatz mit Modelgeraden')
plt.plot(X_grid['Alter'], y_quad_pred)
plt.show()

### 3: polynomiale Regression

In [None]:
# Regressionsgerade und Vorhersage
# Trainieren des polynomialen Regressionsmodells
poly_mdl = make_pipeline(PolynomialFeatures(degree=9), linear_model)
poly_mdl = poly_mdl.fit(X, y)

In [None]:
# Ausgabe Graphen
y_poly_pred = poly_mdl.predict(X_grid)

plt.figure(figsize=(10, 6))
plt.plot(df['Alter'], df['Einkommen (€)'], 'o')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.title('Datensatz mit Modelgeraden')
plt.plot(X_grid['Alter'], y_poly_pred)
plt.show()

In [None]:
# Ausgabe Graphen
f, axs = plt.subplots(1,3,figsize=(20,8))
plt.subplot(131); 
plt.plot(df['Alter'], df['Einkommen (€)'], 'o', X_grid['Alter'], y_lin_pred); 
plt.plot(40, 65000, 'x', c = 'r')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.ylim((20000,90000))
plt.title('lineares Modell')
plt.subplot(132); 
plt.plot(df['Alter'], df['Einkommen (€)'], 'o', X_grid['Alter'], y_quad_pred); 
plt.plot(40, 65000, 'x', c = 'r')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.ylim((20000,90000))
plt.title('quadratisches Modell')
plt.subplot(133); 
plt.plot(df['Alter'], df['Einkommen (€)'], 'o', X_grid['Alter'], y_poly_pred); 
plt.plot(40, 65000, 'rx')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.ylim((20000,90000))
plt.title('polynomiales Modell')
plt.show()

## Veränderte Daten

In [None]:
# Importiere Datensatz
# Alter von 59 auf 55 geändert
df_2 = pd.DataFrame({ 'Alter' : np.array([23, 31, 51, 55, 67]),
                    'Einkommen (€)' : np.array([23500, 52000, 81000, 63000, 51000 ])
                    })     


plt.figure(figsize=(10, 6))
plt.plot(df_2['Alter'], df_2['Einkommen (€)'], 'o')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.title('Datensatz')
plt.show()

X_2 = df_2[['Alter']]
y_2 = df_2[['Einkommen (€)']]

### 1: lineare Regression

In [None]:
# Trainieren des Lineares Regressionsmodells
linear_mdl_2 = linear_model.fit(X_2, y_2)
# Ausgabe Graphen
y_2_lin_pred = linear_mdl.predict(X_grid)  

plt.figure(figsize=(10, 6))
plt.plot(df_2['Alter'], df_2['Einkommen (€)'], 'o')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.title('Datensatz mit Modelgeraden')
plt.plot(X_grid['Alter'], y_2_lin_pred)
plt.show()

### 2: quadratische Regression

In [None]:
# Trainieren des quadratischen Regressionsmodells
quadratic_mdl_2 = make_pipeline(PolynomialFeatures(degree=2), linear_model)
quadratic_mdl_2 = quadratic_mdl.fit(X_2, y)


# Ausgabe Graphen
y_2_quad_pred = quadratic_mdl_2.predict(X_grid)

plt.figure(figsize=(10, 6))
plt.plot(df_2['Alter'], df_2['Einkommen (€)'], 'o')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.title('Datensatz mit Modelgeraden')
plt.plot(X_grid, y_2_quad_pred)
plt.show()

### 3: polynomiale Regression

In [None]:
# Trainieren des polynomialen Regressionsmodells
poly_mdl_2 = make_pipeline(PolynomialFeatures(degree=9), linear_model)
poly_mdl_2 = poly_mdl_2.fit(X_2, y)

# Ausgabe Graphen
y_2_poly_pred = poly_mdl_2.predict(X_grid)

plt.figure(figsize=(10, 6))
plt.plot(df_2['Alter'], df_2['Einkommen (€)'], 'o')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.title('Datensatz mit Modelgeraden')
plt.plot(X_grid, y_2_poly_pred)
plt.show()

In [None]:
# Ausgabe Graphen
f, axs = plt.subplots(1,3,figsize=(20,8))
plt.subplot(131); 
plt.plot(df['Alter'], df['Einkommen (€)'], 'o')
plt.plot(X_grid, y_lin_pred, label='Orig') 
plt.plot(df_2['Alter'], df_2['Einkommen (€)'], 'o', c = 'g')
plt.plot(X_grid, y_2_lin_pred, c ='g', label='New') 
plt.plot(40, 65000, 'x', c = 'r')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.ylim((20000,90000))
plt.legend()
plt.title('lineares Modell')

plt.subplot(132); 
plt.plot(df['Alter'], df['Einkommen (€)'], 'o')
plt.plot(X_grid, y_quad_pred, label='Orig') 
plt.plot(df_2['Alter'], df_2['Einkommen (€)'], 'o', c = 'g')
plt.plot(X_grid, y_2_quad_pred, c ='g', label='New')
plt.plot(40, 65000, 'x', c = 'r')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.ylim((20000,90000))
plt.legend()
plt.title('quadratisches Modell')

plt.subplot(133); 
plt.plot(df['Alter'], df['Einkommen (€)'], 'o')
plt.plot(X_grid, y_poly_pred, label='Orig') 
plt.plot(df_2['Alter'], df_2['Einkommen (€)'], 'o', c ='g')
plt.plot(X_grid, y_2_poly_pred, c ='g', label='New'); 
plt.plot(40, 65000, 'x', c = 'r')
plt.xlabel('Alter')
plt.ylabel('Einkommen (€)')
plt.ylim((20000,90000))
plt.legend()
plt.title('polynomiales Modell')
plt.show()