# Datensatz

Der <a href="https://allisonhorst.github.io/palmerpenguins/">_Palmer Archipelago (Antarctica) Penguin_</a> Datensatz enthält Informationen über 344 Pinguine, die auf drei Inseln des Palmer-Archipels in der Antarktis beheimatet sind. Die Merkmale des Datensatzes enthalten verschiedene Messdaten, die über die Pinguine gesammelt wurden, und das Zielmerkmal beschreibt die entsprechende Pinguinart. Dabei gehören die Beobachtungen bzw. die Pinguine im Datensatz zu einer der drei Arten, _Adelie_, _Chinstrap_ und _Gentoo_.

Der Datensatz wird geladen und in ein _NumPy_-Array umgewandelt. Für die weitere Analyse werden nur die Merkmale _Schnabellänge_, _Schnabelhöhe_, _Flossenlänge_ und _Körpermasse_ in die Datenmatrix _X\_raw_ und die entsprechende Pinguinart in das Zielarray _y\_raw_ gespeichert. Da zwei Beobachtungen fehlende Werte enthalten, werden diese aus dem Datensatz entfernt. So verbleiben noch 342 Beobachtungen im Datensatz.

Der Datensatz wird in eine Trainings- und eine Testmenge aufgeteilt, wobei die Testmenge 10 % aller Beobachtungen enthält.

In [None]:
# Bitte den folgenden Programmcode vor Bearbeitung der Aufgaben ausführen

# Importiere die nötigen Module
import seaborn as sns
import numpy as np
import plotly.express as px
import plotly.offline as pyo
import plotly.graph_objects as go
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import tree, ensemble

# Lade den Palmer Archipelago (Antarctica) Penguin Datensatz
penguins = sns.load_dataset("penguins")

# Wandle das DataFrame in ein NumPy-Array um
penguins_arr = penguins.to_numpy()

# Speichere das dritte (Schnabellänge), das vierte (Schnabelhöhe),
# das fünfte (Flossenlänge) und das sechste (Körpermasse)
# Merkmal in die Datenmatrix
X_raw = np.array(penguins_arr[:,2:6]).astype(float)

# Speichere das erste Merkmal als Zielmerkmal
y_raw = penguins_arr[:,0]

# Lösche alle Zeilen aus der Datenmatrix, die
# fehlende Wert enthalten
X = X_raw[~np.isnan(X_raw).any(axis=1)]
y = y_raw[~np.isnan(X_raw).any(axis=1)]

# Teile den Datensatz in die Trainings- und die Testmenge auf
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.1, random_state=45)

# Aufgabe (_Entscheidungsbaumklassifikation_)

In dieser Aufgabe arbeitest du mit dem _Palmer Archipelago (Antarctica) Penguin_ Datensatz.

1. Erstelle ein Entscheidungsbaummodell mit der maximalen Baumtiefe von 3.
2. Trainiere dein Entscheidungsbaummodell mit der Trainingsmenge.
3. Stelle den resultierenden Entscheidungsbaum grafisch dar.
4. Prognostiziere mit dem trainierten Entscheidungsbaummodell die Pinguinart für alle Beobachtungen aus der Testmenge.
5. Berechne die _Accuracy_ für dein Entscheidungsbaummodell anhand der tatsächlichen und der prognostizierten Klassen für die Beobachtungen der Testmenge und gebe ihren Wert mit der _print()_-Funktion aus.

Ergänze deine Anweisungen mit sinnvollen Kommentaren.

(_Hinweis_: Du kannst die Beobachtungen der Testmenge in einem 3-dimensionalen Diagramm wie im Video grafisch darstellen. Die entsprechenden Anweisungen findest du in der zweiten Code-Zelle zu dieser Aufgabe. Beachte dabei, dass die prognostizierten Klassen für die Beobachtungen der Testmenge im Array _y\_pred\_dt_ gespeichert werden sollen. Entferne vor der Ausführung des Programmcodes die umschließenden Kommentarzeichen.)

In [None]:
# Hier kommt deine Lösung für die Teilaufgabe 1



# Hier kommt deine Lösung für die Teilaufgabe 2



# Hier kommt deine Lösung für die Teilaufgabe 3



# Hier kommt deine Lösung für die Teilaufgabe 4



# Hier kommt deine Lösung für die Teilaufgabe 5




In [None]:
"""
# Visualisiere die tatsächliche Zugehörigkeit als Diamant
# und die geschätzte als Kreuz
pyo.init_notebook_mode()
fig0 = px.scatter_3d(x=X_test[:,0], y=X_test[:,1], z=X_test[:,2],
                     color=y_test.astype(str), opacity=0.8,
                     symbol_sequence=["diamond"])
fig1 = px.scatter_3d(x=X_test[:,0], y=X_test[:,1], z=X_test[:,2],
                     color=y_pred_dt.astype(str),
                     symbol_sequence=["cross"])
fig2 = go.Figure(data=fig0.data + fig1.data)
fig2.show()
"""

# Aufgabe (_Random Forest-Klassifikation_)

In dieser Aufgabe arbeitest du mit dem _Palmer Archipelago (Antarctica) Penguin_ Datensatz.

1. Erstelle ein Random Forest-Modell und trainiere es mit der Trainingsmenge.
2. Speichere die Gewichte der Merkmale deines Random Forest-Modells im Array _importances_ und gebe diese mit der _print()_-Funktion aus.
3. Prognostiziere mit dem trainierten Random Forest-Modell die Pinguinart für alle Beobachtungen aus der Testmenge.
5. Berechne die _Accuracy_ für dein Random Forest-Modell anhand der tatsächlichen und der prognostizierten Klassen für die Beobachtungen der Testmenge und gebe ihren Wert mit der _print()_-Funktion aus.

Ergänze deine Anweisungen mit sinnvollen Kommentaren.

(_Hinweis_: Du kannst die Beobachtungen der Testmenge in einem 3-dimensionalen Diagramm wie im Video grafisch darstellen. Die entsprechenden Anweisungen findest du in der zweiten Code-Zelle zu dieser Aufgabe. Beachte dabei, dass die prognostizierten Klassen für die Beobachtungen der Testmenge im Array _y\_pred\_rf_ gespeichert werden sollen. Entferne vor der Ausführung des Programmcodes die umschließenden Kommentarzeichen.)

In [None]:
# Hier kommt deine Lösung für die Teilaufgabe 1




# Hier kommt deine Lösung für die Teilaufgabe 2




# Hier kommt deine Lösung für die Teilaufgabe 3




# Hier kommt deine Lösung für die Teilaufgabe 4





In [None]:
"""
# Visualisiere die tatsächliche Zugehörigkeit als Diamant
# und die geschätzte als Kreuz
pyo.init_notebook_mode()
fig3 = px.scatter_3d(x=X_test[:,0], y=X_test[:,1], z=X_test[:,2],
                     color=y_test.astype(str), opacity=0.8,
                     symbol_sequence=["diamond"])
fig4 = px.scatter_3d(x=X_test[:,0], y=X_test[:,1], z=X_test[:,2],
                     color=y_pred_rf.astype(str),
                     symbol_sequence=["cross"])
fig5 = go.Figure(data=fig3.data + fig4.data)
fig5.show()
"""