# Beispiel Anwendung Naive Bayes
Kurs Maschinelles Lernen in der Produktion

Ziel des Notebooks ist die Anwendung des Naive Bayes Klassifikators

### Prozessschritte Data-Mining:

![Bild konnte nicht geladen werden! 1. Daten erfassen - 2. Daten erkunden - 3. Daten vorbereiten - 4. Modelle bilden - 5. Modelle validieren - 6. Modell testen](Prozess_Modellentwicklung_v2.png "Prozess Modellentwicklung")

## 0. Bibliotheken importieren

In [None]:
# Importiere benötigte Bibliotheken
import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt

#Einstellungen für die Grafikausgabe
style = 'seaborn-whitegrid'
plt.style.use(style)
plt.rcParams.update({'font.size': 14})  # Schriftgröße aller Textzeichen im Graphen

## 1. Daten einlesen

In [None]:
# Daten händisch encoded, notwendig für die Anwendung des Modells
# Geht auch automatisch mit:  from sklearn import preprocessing  preprocessing.LabelEncoder()
raw_data = {'Bohrtiefe': [2, 3, 6, 1, 2, 5, 5, 3, 1, 4], 
            'NeuesWerkzeug': ['ja', 'nein', 'nein', 'nein', 'ja', 'ja', 'nein', 'nein', 'ja', 'ja'], 
            'NeuesWerkzeugEncoded': [1, 2, 2, 2, 1, 1, 2, 2, 1, 1],
            'HaerteMaterial': ['hart', 'hart', 'mittel', 'weich', 'mittel', 'weich', 'weich', 'hart', 'mittel', 'weich'],
            'HaerteMaterialEncoded': [3, 3, 2, 1, 2, 1, 1, 3, 2, 1],
            'BohrungIO': ['ja', 'nein', 'nein', 'ja', 'ja', 'ja', 'nein', 'nein', 'ja', 'ja'],
            'BohrungIOEncoded': [1, 0, 0, 1, 1, 1, 0, 0, 1, 1]}
    
df = pd.DataFrame(data = raw_data)
print('Daten erfolgreich erstellt')

## 2. Daten erkunden
Es ist immer gut auch einen Blick in die Daten selbst zu werfen. Eine Möglichkeit dazu ist die Anzeige des DataFrames  bzw. eines Teils davon.  

In [None]:
# Darstellung des Dataframes
df

## 3. Daten vorbereiten
Hier werden der DataFrame in 
* Einflussgrößen, die für das Modell verwendet werden sollen, hier X_train  
und 
* Zielgrößen, die vom Modell vorhergesagt werden sollen, hier y_train  

aufgeteilt.

In [None]:
# Trainingsdaten und Trainingszielgröße (X_train und y_train) festlegen
X_train = df[['Bohrtiefe', 'NeuesWerkzeugEncoded', 'HaerteMaterialEncoded']]
y_train = df['BohrungIOEncoded']

## 4. Modelle bilden
In diesem Schritt muss das gewünschte Verfahren importiert werden. Danach wird ein Modell erstellt. Dieses Modell kann anschließend mit den Trainingsdaten trainiert werden.  
Wenn nicht klar ist, welches Modell importiert werden soll bzw. wie das Modell genau heißt, empfiehlt sich eine Internetsuche nach dem Schema:    
python sklearn Verfahrensname  

Gefundener Link zur Dokumentation:  
* Allgemeine Infos zu Naive Bayes inkl. welche Varianten werden bereitgestellt:  
https://scikit-learn.org/stable/modules/naive_bayes.html  
* Konkrete Infos zum Verfahren Categorical Naive Bayes welches verwendet werden soll:  
https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.CategoricalNB.html#sklearn.naive_bayes.CategoricalNB


In [None]:
# Importiere Modell 
from sklearn.naive_bayes import CategoricalNB

# Erstelle Modell
model = CategoricalNB()

# Trainiere Modell
model = model.fit(X_train, y_train)

## 5. Modelle validieren
Entfällt, da keine Parameter des CategrocialNB angepasst werden und somit nur ein Modell trainiert wurde. 


## 6. Modell testen
In diesem Schritt soll bewertet, werden wie gut das Modell bei neuen unbekannten Daten funktioniert, um abschätzen zu können wie gut das Modell letztendlich generalisiert und bei der Anwendung performt. 

In [None]:
# Neue Daten zum validieren
X_new1 = pd.DataFrame(data = np.array([[2, 2, 1]]), columns = X_train.columns)
X_new2 = pd.DataFrame(data = np.array([[4, 1, 2]]), columns = X_train.columns)
X_new3 = pd.DataFrame(data = np.array([[6, 2, 3]]), columns = X_train.columns)

In [None]:
#Vorhersage mit .predict-Funktion
# Bohrtiefe 2, Neues Werkzeug 'Nein' und Härte Material 'weich'
vorhersage1 = model.predict(X_new1)
print('Vorhersage für Bohrtiefe 2, Neues Werkzeug Nein und Härte Material weich: \t' + str(vorhersage1[0]))

# Bohrtiefe 4, Neues Werkzeug 'Ja' und Härte Material 'mittel'
vorhersage2 = model.predict(X_new2)
print('Vorhersage für Bohrtiefe 4, Neues Werkzeug Ja und Härte Material mittel: \t' + str(vorhersage2[0]))

# Bohrtiefe 6, Neues Werkzeug 'Nein' und Härte Material 'hart'
vorhersage3 = model.predict(X_new3)
print('Vorhersage für Bohrtiefe 6, Neues Werkzeug Nein und Härte Material hart: \t' + str(vorhersage3[0]))
