# 5. Maschinelles Lernen
Heute werden wir uns mit dem Thema "Maschinelles Lernen" beschäftigen. Dazu schauen wir uns zunächst kurz an, welche Datenstruktur wir in Python verwenden können, um unsere Daten zunächst zu explorieren und vorzubereiten. 

Anschließend schauen wir uns ein einfaches Klassifikationsproblem an und probieren verschiedene Klassifikationsalgorithmen aus.

## 5.1. Pandas

Ein weit verbreitetes Python-Paket für Datenmanagement und -analyse ist `pandas`. Die grundlegende Datenstruktur die dieses Paket bereitstellt ist das Data Frame. Ein Data Frame ist eine Tabelle, die im Prinzip so verwendet werden kann wie eine Tabelle in einer relationalen Datenbank. So können z.B. Zeilen oder Spalten (oder beides) selektiert werden.

In [None]:
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
        'Alter': [25, 30, 35, 40, 45],
        'Stadt': ['Berlin', 'München', 'Hamburg', 'Frankfurt', 'Köln']}
df = pd.DataFrame(data)

# show complete dataframe
df

Wir können uns auch nur die ersten oder letzten Zeilen des DataFrames anschauen.

In [None]:
print(f"Die ersten zwei Zeilen: \n {df.head(2)}\n")
print(f"Die letzten zwei Zeilen: \n {df.tail(2)}\n")

Weitere Informationen über unser DataFrame können wir uns mit folgenden Methoden holen:

In [None]:
# Anzeigen der Spaltennamen
print("\nSpaltennamen:")
print(df.columns)

# Anzeigen der Informationen zum DataFrame
print("\nInfo zum DataFrame:")
print(df.info())

### Zeilen und Spalten auswählen

Mit pandas können einfach bestimmte Zeilen und Spalten aus dem Data Frame ausgewählt werden. Eine Option besteht darin, Spalten über ihren Namen auszuwählen.

In [None]:
names = df.loc[:,"Name"]
print(names)

Der `:` steht für "Wähle alle Zeilen". Wenn nur eine einzige Spalte gewählt wird, ist das Ergebnis vom Typ `Series`, ansonsten ist das Ergebnis wieder ein Data Frame. Spalten können auch über ihren Index ausgewählt werden:

In [None]:
mult_columns = df.iloc[:,1:3]
mult_columns

Auf Zeilen kann auf die gleiche Art zugegrifen werden. Der folgende Ausdruck liefert beispielsweise die ersten 5 Zeilen:

In [None]:
df.iloc[0:4,:]

In [None]:
df.loc[0:4,["Alter", "Stadt"]]

Eine andere praktische Möglichkeit besteht darin, Zeilen oder Spalten über Bool'sche Ausdrücke auszuwählen. Der folgende Ausdruck liefert z.B. alle Zeilen, bei denen der Wert von  `Alter` kleiner als 36 ist.

In [None]:
df[df['Alter'] < 36]

### Werte Einfügen

Das Einfügen von Werten in ein Data Frame funktioniert genau so. Der folgende Ausdruck setzt alle Werde der Spalte  `Sensor_T8_Acceleration_Y`, die kleiner als 0 sind, auf den Wert 0.

In [None]:
# Hinzufügen einer neuen Spalte
df['Beruf'] = ['Ingenieur', 'Lehrer', 'Arzt', 'Anwalt', 'Designer']
print("DataFrame nach Hinzufügen der Spalte 'Beruf':")
print(df)
df.loc[len(df)] = ['Klaus', 12, 'Rostock', 'Informatiker']
df

### Speichern und Laden von DataFrames
Wir können DataFrames auch in CSV-Dateien speichern oder Daten aus CSV-Dateien in ein DataFrame importieren: 

In [None]:
# Speichern des DataFrames in einer CSV-Datei
df.to_csv('daten.csv', index=False)
print("\nDataFrame wurde in 'daten.csv' gespeichert.")

# Speichern des DataFrames in einer CSV-Datei
df = pd.read_csv('iris.csv', index_col=0)
print(f"\nEin neues DataFrame wurde aus der Datei 'iris.csv' geladen: \n {df}")

## Maschinelles Lernen
Für das Maschinelle Lernen in Python stehen Ihnen unterschiedliche Packages zur Verfügung. Eines dieser Packages ist scikit-learn, welches fertige Implementierung von verschiedenen ML-Verfahren anbietet. Im weiteren Verlauf der Übung werden wir zunächst sehen aus welchen Schritten eine klassische ML-Pipeline besteht und wie diese mithilfe von Pandas und scikit-learn umgesetzt werden kann.    

Zunächst beginnen wir damit die benötigten Bibliotheken zu importieren und unseren Datensatz aus einer CSV-Date zu laden:   

Aufgabe: Importieren Sie die Daten aus der Datei `iris.csv` in eine DataFrame. Schauen sie sich anschließend die ersten paar Zeilen des DataFrame an und lassen Sie sich eine statistische Zusammenfassung aller Spalten generieren.    

Zusatz: Überprüfen Sie das DataFrame auf fehlende Werte. Wie können Sie gegebenenfalls Null-Werte ersetzen? 

In [None]:
# Importieren der erforderlichen Bibliotheken
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# 1. Importieren von Daten aus einer CSV-Datei
data = "Implement me!"

# 2. Datenexploration
print("Erste paar Zeilen des DataFrames:")
print("Implement me!")

print("\nStatistische Zusammenfassung:")
print("Implement me!")

print("\nAnzahl der fehlenden Werte pro Spalte:")
print("Implement me!")

Nachdem wir die ersten beiden Schritte (Importieren der Daten, Exploration der Daten) erledigt haben, müssen wir die Daten für das Training des Klassifikators vorbereiten.    

Aufgabe: Was müssen wir nun mit den Daten machen, um sie anschließend für das Training eines Klassifikators verwenden zu können?

In [None]:
# 3. Datenvorbereitung
# Aufteilen der Daten in Features und Zielvariable
X = "Implement me!"
y = "Implement me!"

Nachdem wir nun auch den dritten Schritt, die Datenvorbereitung, erleidgt haben, können schlussendlich unseren Klassifikator trainieren. Wir verwenden hier zunächst den `DecisionTreeClassifier`. Nachdem diesen trainiert haben, lassen wir uns eine Zusammenfassung über die Qualität unseres Klassifikators ausgeben.

In [None]:
# 4. Training und Evaluation eines Klassifikators
# Aufteilen der Daten in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Initialisieren des Klassifikators
classifier = RandomForestClassifier()

# Trainieren des Klassifikators
classifier.fit(X_train, y_train)

# Vorhersagen für die Testdaten
y_pred = classifier.predict(X_test)

# Auswertung der Vorhersagen
cm = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)
print(f'Confusion matrix: \n {cm}')
print(f'Classification report: \n {report}')

## Titanic-Challenge
Programmieren Sie nun einen Klassifikator für die Titanic-Challenge. Dabei soll ihr Klassifikator vorhersagen können, ob ein Passagier überlebt oder nicht. Verwenden Sie dazu den gegebenen Titanic-Datensatz und führen Sie alle Schritte durch, die Sie in dieser Übung kennengelernt haben. Auf welche Accuracy kommen Sie am Ende? 

In [None]:
# Importieren der erforderlichen Bibliotheken
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import ssl

# SSL-Verifizierung deaktivieren
ssl._create_default_https_context = ssl._create_unverified_context

# 1. Importieren der Daten
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
data = pd.read_csv(url)

# 2. Datenexploration

print("\nStatistische Zusammenfassung:")
print("Implement me!")

print("\nAnzahl der fehlenden Werte pro Spalte:")
print("Implement me!")

# 3. Datenvorbereitung
data = "Implement me!"

# 4. Training und Evaluation eines Klassifikators
# Initialisieren des Klassifikators
classifier = "Implement me!"

# Trainieren des Klassifikators
"Implement me!"

# Vorhersagen für die Testdaten
y_pred = "Implement me!"

# Auswertung der Vorhersagen
cm = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)
print(f'Confusion matrix: \n {cm}')
print(f'Classification report: \n {report}')