# Training mittels Linearer Regression
Bisher haben wir zum Training Entscheidungsbäume verwendet. In diesem Kapitel wollen wir nun ein anderes Modell betrachten, die so genannte **lineare Regression**.

Wie vorher teilen wir die Daten wieder auf in die drei Gruppen:
- Trainingsdaten
- Validierungsdaten
- Testdaten



<center>
<img width="60%" src="trainingsprozess.png"/>
<center>

## Einlesen der Daten und erster Überblick

In [None]:
import pandas as pd
daten = pd.read_csv('d55.csv')
display(daten.head(5))   # Anzeige der ersten n Datensätze

## Aufteilung der Daten in zufällige Gruppen
Im folgenden Quelltext kann man die **Größe der einzelnen Gruppen angeben**. Die Summe muss dabei natürlich der Anzahl der Datensätze entsprechen. 

Oft wird für die Aufteilungverhältnis der Trainigs-, Validierungs und Testdaten von 70% : 15% : 15% gewählt.

In [None]:
anzahl_training    = 35
anzahl_validierung = 15
anzahl_test        = len(daten) - anzahl_training - anzahl_validierung   # der Rest
print( "Aufteilungsverhältnis:", 
       round(anzahl_training/len(daten)*100,1) ,"% :",
       round(anzahl_validierung/len(daten)*100,1) ,"% :",
       round(anzahl_test/len(daten)*100,1) ,"%" )

Für die zufällige Verteilung auf die drei Gruppen erzeugen wir eine **Zufallsliste** mit den Nummern der Datensätze, in der die Elemente mit **random.shuffle** durchgemischt werden.
Du kannst diesen Block mehrmals ausführen und dabei das wiederholte Neumischen in der Ausgabe beobachten.

In [None]:
import random
zufallsliste= list( range(len(daten)) ) # Liste mit den Nummern von 0 bis Anzahl der Datensätze
random.shuffle( zufallsliste )          # Liste wird zufällig durchgeschüttelt
print( zufallsliste )                   # Ausgabe zur Kontrolle

Jetzt müssen noch die **Daten in die einzelnen Gruppen** aufgeteilt werden. Dazu verwenden wir natürlich die Zufallsliste.

In [None]:
daten_training    = daten.loc[ zufallsliste[:anzahl_training] ] 
daten_validierung = daten.loc[ zufallsliste[anzahl_training:anzahl_training+anzahl_validierung] ] 
daten_test        = daten.loc[ zufallsliste[anzahl_training+anzahl_validierung:] ]
#print(daten_training['Name'])

## Training des Modells
Hier können die Attribute ausgewählt werden, die bei der linearen Regression berücksichtigt werden.

In [None]:
import sklearn.linear_model

attribute = ['Salz','Eiweiss']

model = sklearn.linear_model.LinearRegression()
model.fit(daten_training[attribute], daten_training['Label'])
model.score(daten_training[attribute], daten_training['Label'])

## Validierung
Die Validierung wird nun mit den **Validierungsdaten** durchgeführt. 

In [None]:
def validierung(datenliste):
  korrekt = 0
  falsch = 0
  for datensatz in datenliste.index:  #Schleife über alle Validierungs-Datensätze
#      if( int(model.predict(daten.loc[[datensatz]][attribute])[0] + 0.5 ) 
#          == (daten.loc[datensatz]['Label']) ):
      if daten.loc[datensatz]['Label'] == 1 and model.predict(daten.loc[[datensatz]][attribute])[0] >= 0.5 or \
         daten.loc[datensatz]['Label'] == 0 and model.predict(daten.loc[[datensatz]][attribute])[0] < 0.5: 
           korrekt += 1
      else:
          falsch += 1
          print("Fehlklassifizierung bei", "{:>2}".format(datensatz), datenliste.loc[datensatz]['Name'])
  gesamt = korrekt + falsch
  print( "Anzahl falsch  klassifiziert: ",  falsch, "(" , round(falsch/gesamt*100,2), "% )")  
  print( "Anzahl korrekt klassifiziert: ", korrekt, "(" , round(korrekt/gesamt*100,2), "% )") 


In [None]:
print("**************  V A L I D I E R U N G  *************")
validierung(daten_validierung)


In [None]:
daten_validierung.loc[[21]]

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 1: Iterative Verbesserung des Modells
Gehe nun zurück zum Abschnitt [Training des Modells](##Training-des-MOdells) und verändere die Auswahl der für die lineare Regression berücksichtigten Attribute solange, bis du zufrieden bist mit dem Ergebnis.

Ebenso kannst du natürlich auch wieder das Aufteilungsverhältnis der Daten in Traings-, Validierung- und Testdaten abändern.

Ergebnisse bitte hierher

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 2: Regressionskoeffizienten
Untersuche systematisch, welche Attribute wie stark mit dem Label korrelieren. Verwende dazu die Funktion `model.score` und halte deine Ergebnisse in einer Tabelle fest.

Kannst du mit Hilfe der Tabelle erklären, welche Auswahl an Attributen sich gut für unser Modell eignet und welche nicht so gut geeignet ist?

Ergebnisse bitte hierher

---
# Akzeptanz-Test
Erst **nach** dem vollständigen Abschluss des iterativen Trainigsprozesses wird nur die Akzeptanzkontrolle mittels der **Testdaten** durchgeführt. Beachte, dass die Testdaten nun völlig neu für unser Modell sind, da wir diese im Trainingsprozess niemals verwendet haben.

In [None]:
print("**************      T E S T U N G      *************")
print("** mit Attributen: ", model.feature_names_in_ , "**")
validierung(daten_test)

Wenn das Erbebnis zufriedenstellend ist, dann wird das nun fertig trainierte und getestete Modell im produktiven Einsatz verwedendet.

Andernfalls wird es verworfen und es wird ein anderes Modell entworfen.

<div style="padding: 5px; border: 5px solid #0077b6;">

### Aufgabe 3: Beurteile dein fertiges Modell
Beurteile dein fertiges Modell. Falls du nicht zufrieden damit bist, dann äußere Vermutungen darüber, was schief gegangen sein könnte.

Ergebnisse bitte hierher