# Maschinelles Lernen
Heute werden wir uns mit dem Thema "Maschinelles Lernen" beschäftigen. Dazu schauen wir uns zunächst kurz an, welche Datenstruktur wir in Python verwenden können, um unsere Daten zunächst zu explorieren und vorzubereiten.

Anschließend schauen wir uns ein einfaches Klassifikationsproblem an und probieren verschiedene Klassifikationsalgorithmen aus.

## 1. Pandas

Ein weit verbreitetes Python-Paket für Datenmanagement und -analyse ist `pandas`. Die grundlegende Datenstruktur die dieses Paket bereitstellt ist das Data Frame. Ein Data Frame ist eine Tabelle, die im Prinzip so verwendet werden kann wie eine Tabelle in einer relationalen Datenbank. So können z.B. Zeilen oder Spalten (oder beides) selektiert werden.

In [7]:
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
        'Alter': [25, 30, 35, 40, 45],
        'Stadt': ['Berlin', 'München', 'Hamburg', 'Frankfurt', 'Köln']}
df = pd.DataFrame(data)

# show complete dataframe
df

Unnamed: 0,Name,Alter,Stadt
0,Alice,25,Berlin
1,Bob,30,München
2,Charlie,35,Hamburg
3,Dave,40,Frankfurt
4,Eve,45,Köln


Wir können uns auch nur die ersten oder letzten Zeilen des DataFrames anschauen.

In [8]:
print(f"Die ersten zwei Zeilen: \n {df.head(2)}\n")
print(f"Die letzten zwei Zeilen: \n {df.tail(2)}\n")

Die ersten zwei Zeilen: 
     Name  Alter    Stadt
0  Alice     25   Berlin
1    Bob     30  München

Die letzten zwei Zeilen: 
    Name  Alter      Stadt
3  Dave     40  Frankfurt
4   Eve     45       Köln



Weitere Informationen über unser DataFrame können wir uns mit folgenden Methoden holen:

In [9]:
# Anzeigen der Spaltennamen
print("\nSpaltennamen:")
print(df.columns)

# Anzeigen der Informationen zum DataFrame
print("\nInfo zum DataFrame:")
print(df.info())


Spaltennamen:
Index(['Name', 'Alter', 'Stadt'], dtype='object')

Info zum DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    5 non-null      object
 1   Alter   5 non-null      int64 
 2   Stadt   5 non-null      object
dtypes: int64(1), object(2)
memory usage: 248.0+ bytes
None


### Zeilen und Spalten auswählen

Mit pandas können einfach bestimmte Zeilen und Spalten aus dem Data Frame ausgewählt werden. Eine Option besteht darin, Spalten über ihren Namen auszuwählen.

In [10]:
names = df.loc[:,"Name"]
print(names)

0      Alice
1        Bob
2    Charlie
3       Dave
4        Eve
Name: Name, dtype: object


Der `:` steht für "Wähle alle Zeilen". Wenn nur eine einzige Spalte gewählt wird, ist das Ergebnis vom Typ `Series`, ansonsten ist das Ergebnis wieder ein Data Frame. Spalten können auch über ihren Index ausgewählt werden:

In [11]:
mult_columns = df.iloc[:,1:3]
mult_columns

Unnamed: 0,Alter,Stadt
0,25,Berlin
1,30,München
2,35,Hamburg
3,40,Frankfurt
4,45,Köln


Auf Zeilen kann auf die gleiche Art zugegrifen werden. Der folgende Ausdruck liefert beispielsweise die ersten 5 Zeilen:

In [12]:
df.iloc[0:4,:]

Unnamed: 0,Name,Alter,Stadt
0,Alice,25,Berlin
1,Bob,30,München
2,Charlie,35,Hamburg
3,Dave,40,Frankfurt


In [13]:
df.loc[0:4,["Alter", "Stadt"]]

Unnamed: 0,Alter,Stadt
0,25,Berlin
1,30,München
2,35,Hamburg
3,40,Frankfurt
4,45,Köln


Eine andere praktische Möglichkeit besteht darin, Zeilen oder Spalten über Bool'sche Ausdrücke auszuwählen. Der folgende Ausdruck liefert z.B. alle Zeilen, bei denen der Wert von  `Alter` kleiner als 36 ist.

In [14]:
df[df['Alter'] < 36]

Unnamed: 0,Name,Alter,Stadt
0,Alice,25,Berlin
1,Bob,30,München
2,Charlie,35,Hamburg


### Werte Einfügen

Das Einfügen von Werten in ein Data Frame funktioniert genau so. Der folgende Ausdruck setzt alle Werde der Spalte  `Sensor_T8_Acceleration_Y`, die kleiner als 0 sind, auf den Wert 0.

In [15]:
# Hinzufügen einer neuen Spalte
df['Beruf'] = ['Ingenieur', 'Lehrer', 'Arzt', 'Anwalt', 'Designer']
print("DataFrame nach Hinzufügen der Spalte 'Beruf':")
print(df)
df.loc[len(df)] = ['Klaus', 12, 'Rostock', 'INformatiker']
df

DataFrame nach Hinzufügen der Spalte 'Beruf':
      Name  Alter      Stadt      Beruf
0    Alice     25     Berlin  Ingenieur
1      Bob     30    München     Lehrer
2  Charlie     35    Hamburg       Arzt
3     Dave     40  Frankfurt     Anwalt
4      Eve     45       Köln   Designer


Unnamed: 0,Name,Alter,Stadt,Beruf
0,Alice,25,Berlin,Ingenieur
1,Bob,30,München,Lehrer
2,Charlie,35,Hamburg,Arzt
3,Dave,40,Frankfurt,Anwalt
4,Eve,45,Köln,Designer
5,Klaus,12,Rostock,INformatiker


### Speichern und Laden von DataFrames
Wir können DataFrames auch in CSV-Dateien speichern oder Daten aus CSV-Dateien in ein DataFrame importieren:

In [16]:
# Speichern des DataFrames in einer CSV-Datei
df.to_csv('daten.csv', index=False)
print("\nDataFrame wurde in 'daten.csv' gespeichert.")

# Speichern des DataFrames in einer CSV-Datei
df = pd.read_csv('iris.csv', index_col=0)
print(f"\nEin neues DataFrame wurde aus der Datei 'iris.csv' geladen: \n {df}")


DataFrame wurde in 'daten.csv' gespeichert.


ParserError: Error tokenizing data. C error: Expected 1 fields in line 40, saw 19


## Maschinelles Lernen
Für das Maschinelle Lernen in Python stehen Ihnen unterschiedliche Packages zur Verfügung. Eines dieser Packages ist scikit-learn, welches fertige Implementierung von verschiedenen ML-Verfahren anbietet. Im weiteren Verlauf der Übung werden wir zunächst sehen aus welchen Schritten eine klassische ML-Pipeline besteht und wie diese mithilfe von Pandas und scikit-learn umgesetzt werden kann.    

Zunächst beginnen wir damit die benötigten Bibliotheken zu importieren und unseren Datensatz aus einer CSV-Date zu laden:   

Aufgabe: Importieren Sie die Daten aus der Datei `iris.csv` in eine DataFrame. Schauen sie sich anschließend die ersten paar Zeilen des DataFrame an und lassen Sie sich eine statistische Zusammenfassung aller Spalten generieren.    

Zusatz: Überprüfen Sie das DataFrame auf fehlende Werte. Wie können Sie gegebenenfalls Null-Werte ersetzen?

In [20]:
# Importieren der erforderlichen Bibliotheken
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# 1. Importieren von Daten aus einer CSV-Datei
data = pd.read_csv('iris.csv', index_col=0)

# 2. Datenexploration
print("Erste paar Zeilen des DataFrames:")
print("Implement me!")

print("\nStatistische Zusammenfassung:")
print("Implement me!")

print("\nAnzahl der fehlenden Werte pro Spalte:")
data.isnull().sum()
data

Erste paar Zeilen des DataFrames:
Implement me!

Statistische Zusammenfassung:
Implement me!

Anzahl der fehlenden Werte pro Spalte:


Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Nachdem wir die ersten beiden Schritte (Importieren der Daten, Exploration der Daten) erledigt haben, müssen wir die Daten für das Training des Klassifikators vorbereiten.    

Aufgabe: Was müssen wir nun mit den Daten machen, um sie anschließend für das Training eines Klassifikators verwenden zu können?

In [24]:
# 3. Datenvorbereitung
# Aufteilen der Daten in Features und Zielvariable
X = data.iloc[:,0:3]
y = data.iloc[:,4]


0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: Name, Length: 150, dtype: object

Nachdem wir nun auch den dritten Schritt, die Datenvorbereitung, erleidgt haben, können schlussendlich unseren Klassifikator trainieren. Wir verwenden hier zunächst den `DecisionTreeClassifier`. Nachdem diesen trainiert haben, lassen wir uns eine Zusammenfassung über die Qualität unseres Klassifikators ausgeben.

In [28]:
# 4. Training und Evaluation eines Klassifikators
# Aufteilen der Daten in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Initialisieren des Klassifikators
classifier = RandomForestClassifier()

# Trainieren des Klassifikators
classifier.fit(X_train, y_train)

# Vorhersagen für die Testdaten
y_pred = classifier.predict(X_test)

# Auswertung der Vorhersagen
cm = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)
print(f'Confusion matrix: \n {cm}')
print(f'Classification report: \n {report}')

Confusion matrix: 
 [[10  0  0]
 [ 0  8  1]
 [ 0  0 11]]
Classification report: 
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       1.00      0.89      0.94         9
 Iris-virginica       0.92      1.00      0.96        11

       accuracy                           0.97        30
      macro avg       0.97      0.96      0.97        30
   weighted avg       0.97      0.97      0.97        30



## Titanic-Challenge
Programmieren Sie nun einen Klassifikator für die Titanic-Challenge. Dabei soll ihr Klassifikator vorhersagen können, ob ein Passagier überlebt oder nicht. Verwenden Sie dazu den gegebenen Titanic-Datensatz und führen Sie alle Schritte durch, die Sie in dieser Übung kennengelernt haben. Auf welche Accuracy kommen Sie am Ende?

In [30]:
# Importieren der erforderlichen Bibliotheken
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import ssl

# SSL-Verifizierung deaktivieren
ssl._create_default_https_context = ssl._create_unverified_context

# 1. Importieren der Daten
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
data = pd.read_csv(url)

# 2. Datenexploration

print("\nStatistische Zusammenfassung:")
print(data.describe())

print("\nAnzahl der fehlenden Werte pro Spalte:")
print(data.isnull().sum())

# 3. Datenvorbereitung
data = "Implement me!"

# 4. Training und Evaluation eines Klassifikators
# Initialisieren des Klassifikators
classifier = "Implement me!"

# Trainieren des Klassifikators
"Implement me!"

# Vorhersagen für die Testdaten
y_pred = "Implement me!"

# Auswertung der Vorhersagen
cm = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)
print(f'Confusion matrix: \n {cm}')
print(f'Classification report: \n {report}')


Statistische Zusammenfassung:
       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200  

Anzahl der fehlenden Werte pro Spalte:
PassengerI

ValueError: Found input variables with inconsistent numbers of samples: [30, 13]