# Jupyter Notebook 3.1: Modellvalidierung.kNN

Zu Beginn des Notebooks werden die Bilbiotheken eingebunden, welche innerhalb des Notebooks zur Verarbeitung genutzt werden.

In [None]:
import matplotlib.pyplot as plt # Bibliothek für Visualisierungen
import numpy as np # Bibliothek für wissenschaftliche Berechnungen
import pandas as pd # Bibliothek zur Datenanalyse
import sklearn # Bibliothek zum maschinellen Lernen

In [None]:
import warnings
warnings.filterwarnings(action='ignore', message='X does not have valid feature names, but KNeighborsClassifier was fitted with feature names')

<hr style="border:1px solid black"> </hr>

### Problemstellung und Vorbereitung: Risse in Stahlproben

Nachdem Sie der Entwicklungsabteilung ein Modell zur Klassifizierung der Stahlqualität versprochen haben, wurde ein neuer Datensatz erhoben, um den Unterschied der beiden Stähle herauszuarbeiten. Dieser Datensatz entstand aus Aufnahmen der Stahloberfläche von Proben des alten und neues Stahls, die einer bestimmten Anzahl von Lastwechseln ausgesetzt wurden, um die Belastung im Bauteil zu simulieren. Aus Aufnahmen der Proben nach der Belastung konnten dann die Anzahl der Risse und die Breite des längsten Risses ermittelt werden. 

Der hierzu nachgelieferte Datensatz steht Ihnen nun zur Verfügung und soll am Ende des Notebooks mit Ihrem Modell klassifiziert werden. 

![Risse](Stahl.jpg)

Die folgenden Zellen wurden im Rahmen des letzten Jupyter Notebooks bereits genutzt, um die Daten einzulesen und für die Visualisierung vorzubereiten, und werden nun auch hier ausgeführt.

In [None]:
daten = pd.read_excel(r'Qualitaet.xlsx')
daten

In [None]:
daten = daten.dropna()
daten = daten.replace("gut",0)
daten = daten.replace("schlecht",1)
daten = daten.replace("schlehct",1)
display(daten)

In [None]:
X = daten.iloc[:,1:3]
klasse = daten['Ausschuss']

<hr style="border:1px solid black"> </hr>

### Visualisierung

Der folgende Code definiert eine komplexere Möglichkeit der Visualisierung, die in vergangenen Notebooks bereits hilfreich gewesen ist. Die einzelnen Zeilen müssen nicht nachvollzogen werden und die Funktionalität wird in einem späteren Arbeitsauftrag erläutert. 

In [None]:
from matplotlib.colors import ListedColormap

cmap_bold = ListedColormap(['#0000FF', '#00FF00', '#FF0000'])
cmap_light = ListedColormap(['#AAAAFF', '#AAFFAA', '#FFAAAA'])
font_size = 25

def meshGrid(x_data, y_data):
    h = 2  # step size in the mesh, ursprünglich 0.02
    x_min, x_max = x_data.min() - 1, x_data.max() + 1
    y_min, y_max = y_data.min() - 1, y_data.max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    return (xx,yy)
    
def plotPrediction(clf, x_data, y_data, x_label, y_label, colors, cmap=cmap_bold, title="", mesh=True):
    xx,yy = meshGrid(x_data, y_data)
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

    # Put the result into a color plot
    Z = Z.reshape(xx.shape)
    plt.figure(figsize=(20,10))
    if mesh:
        plt.pcolormesh(xx, yy, Z, cmap=cmap_light, shading='auto')
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.scatter(x_data, y_data, c=colors, cmap = cmap, s=80, marker='o')
    plt.xlabel(x_label, fontsize=font_size)
    plt.ylabel(y_label, fontsize=font_size)
    plt.title(title, fontsize=font_size)

<hr style="border:1px solid black"> </hr>

### kNN Algorithmus

<div class="alert alert-block alert-success">
<b>Arbeitsauftrag:</b> In den folgenden Zellen sind unvollständige Vorlagen für das Teilen von Trainingsmenge und Testmenge und das Fitten eines Modells mit der kNN-Klassifikation vorgegeben. Im Anschluss werden die bekannten Visulisierungen erstellt und einige Gütemaße berechnet. Nutzen Sie Ihr bisher erworbenes Wissen, um ein für die Stahklassifikation möglichst "gutes" Modell zu erstellen. Die Zellen können dafür vollständig oder auch teilweise immer wieder neu ausgeführt werden. Kommentieren Sie Ihr Vorgehen innerhalb der Zellen. </div> 

In [None]:
from sklearn import neighbors
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score 

In [None]:
# Platz für Arbeitsauftrag 
X_train, X_test, y_train, y_test = train_test_split(X, klasse, test_size= , random_state= , stratify= )

In [None]:
# Platz für Arbeitsauftrag 
k = 
clf = neighbors.KNeighborsClassifier(k, p= ) # p = 1: Betragsmetrik, p = 2: Euklidische Metrik
clf.fit(X_train, y_train)

Grafik mit Trainingsdaten: 

In [None]:
plotPrediction(clf, X_train.iloc[:, 0], X_train.iloc[:, 1], 'Anzahl der  Risse', 'Breite des größten Risses', y_train, title="Datensatz zur Stahlqualität")

Grafik mit Testdaten: 

In [None]:
plotPrediction(clf, X_test.iloc[:, 0], X_test.iloc[:, 1], 'Anzahl der  Risse', 'Breite des größten Risses', y_test, title="Datensatz zur Stahlqualität")

Gütemaße: 

In [None]:
cm = confusion_matrix(y_test, clf.predict(X_test)).transpose()
print('Konfusion-Matrix:')
print(cm)
print('Accuracy:')
print(accuracy_score(y_test, clf.predict(X_test)))
prec = cm[0,0]/(cm[0,0]+cm[0,1])
rec = cm[0,0]/(cm[0,0]+cm[1,0])
F1 = 2*(prec*rec)/(prec+rec)
print('Precision, Recall, F1-Score:')
print(prec,rec,F1)

<div class="alert alert-block alert-success">
<b>Frage:</b> Notieren Sie <b>ausführlich</b> die Gründe, aus denen Sie sich für Ihr Modell entschieden haben. Speziell: 
    <ul>
    <li>Wie und warum haben Sie die Hyperparameter ausgewählt?</li>
    <li>Welche Ansprüche hatten Sie an Ihr Modell? </li>
    <li>Konnten diese Ansprüche erfüllt werden? </li>
    </ul>
</div>

**Antwort:**

<hr style="border:1px solid black"> </hr>

### Klassifizierung des neuen Datensatzes 

Nun wird der angereicherte erste Datensatz (aus der ersten Veranstaltung) eingelesen und für die Klassifizierung mit Ihrem Modell vorbereitet.

In [None]:
daten_2 = pd.read_excel(r'CracksCounts_neu.xlsx')
daten_2

In [None]:
daten_2 = daten_2.replace("alt",0)
daten_2 = daten_2.replace("neu",1)
display(daten_2)

In [None]:
X_2 = daten_2.iloc[:,1:3]
stahlart = daten_2['Klasse']

<div class="alert alert-block alert-success">
<b>Frage:</b> Welche Variable muss in <tt>clf.predict</tt> eingegeben werden, um die Klassifizierung des zweiten Datensatzes mit vorzunehmen?
</div>

In [None]:
# Platz für Arbeitsauftrag
clf.predict( )

In [None]:
plotPrediction(clf, X_2.iloc[:, 0], X_2.iloc[:, 1], 'Anzahl der  Risse', 'Breite des größten Risses', stahlart, cmap='binary', title="Datensatz zur Stahlqualität")
# cmap 'binary': 0: weiß // 1: schwarz. Hier also: alt - 0 - weiß // neu - 1 - schwarz

<div class="alert alert-block alert-success">
<b>Frage:</b> Welche Aussage kann aus den vorhergehenden Ausgaben geschlossen werden? 
</div>

**Antwort:**

<hr style="border:1px solid black"> </hr>

### Projektabschluss

Sie haben nun ein Modell mit Hilfe des kNN gefittet und das gefittete Modell zur Beurteilung des neuen Datensatzes genutzt. Um das Projekt abzuschließen, bearbeiten Sie den letzten Arbeitsauftrag. 

<div class="alert alert-block alert-success">
Notieren Sie <b>ausführlich</b> die Antwort auf die folgende Frage: Welche Empfehlung an die Entscheidungsträger Ihrer Firma würden Sie zum aktuellen Zeitpunkt herausgeben? Begründen Sie Ihre Antwort.
</div>

**Antwort:**