# Teil 3: Modellerstellung
In diesem Abschnitt erstelle ich ein Machine Learning Modell zur Klassifikation von Himmelsobjekten (Sterne, Galaxien, Quasare).  
Dabei werde ich:
- Den Datensatz in Trainings- und Testdaten aufteilen.
- Einen passenden Klassifikationsalgorithmus auswählen.
- Das Modell trainieren.
- Einige Vorhersagen manuell kontrollieren und die Ergebnisse interpretieren.

In [6]:
# 3.1 Aufteilen der Daten

import pandas as pd
from sklearn.model_selection import train_test_split

# Laden des Datensatzes
df = pd.read_csv('star_classification.csv')

# Eingabefelder (Features) und Zielvariable (Label) definieren
X = df[['u', 'g', 'r', 'i', 'z', 'redshift']]
y = df['class']

# Aufteilen in 80% Trainingsdaten und 20% Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Trainingsdaten: ", X_train.shape)
print("Testdaten: ", X_test.shape)

Trainingsdaten:  (80000, 6)
Testdaten:  (20000, 6)


# 3.2 Auswahl und Training des Modells


Ich habe mich für den Random Forest Classifier entschieden.

Begründung:
- Random Forest ist robust gegenüber Ausreißern und überfittet seltener.
- Er funktioniert gut bei Datensätzen mit nicht-linearer Struktur.
- Er kann sowohl numerische als auch kategoriale Features verarbeiten.
- Er liefert eine Schätzung der Wichtigkeit der einzelnen Features.

Für diese Klassifikationsaufgabe (Stern, Galaxie, Quasar) ist Random Forest daher sehr gut geeignet.

In [7]:
from sklearn.ensemble import RandomForestClassifier

# Initialisieren des Random Forest Modells
model = RandomForestClassifier(random_state=42)

# Training des Modells
model.fit(X_train, y_train)

print("Modelltraining abgeschlossen.")

Modelltraining abgeschlossen.


# 3.3 Überprüfung der Vorhersagen

Nun teste ich das Modell, indem ich einige Vorhersagen auf den Testdaten durchführe und sie mit den tatsächlichen Klassen vergleiche.

In [8]:

# Vorhersagen generieren
y_pred = model.predict(X_test)

# Anzeigen einiger Vorhersagen im Vergleich zu den tatsächlichen Werten
comparison = pd.DataFrame({'Tatsächliche Klasse': y_test.values, 'Vorhergesagte Klasse': y_pred})
comparison.head(10)

Unnamed: 0,Tatsächliche Klasse,Vorhergesagte Klasse
0,GALAXY,GALAXY
1,STAR,STAR
2,STAR,STAR
3,STAR,STAR
4,STAR,STAR
5,QSO,GALAXY
6,GALAXY,GALAXY
7,QSO,QSO
8,GALAXY,GALAXY
9,GALAXY,GALAXY


# Berechne Accuracy

In diesem Teil schaue ich, wie gut mein Modell wirklich funktioniert.
Zuerst rechne ich aus, wie viele Vorhersagen richtig waren – also Accuracy.
Dann lasse ich mir noch eine Konfusionsmatrix ausgeben. Damit sehe ich genau, wo das Modell richtig liegt und wo es Fehler gemacht hat, zum Beispiel ob es Sterne mit Galaxien verwechselt hat.
So bekomme ich ein besseres Gefühl dafür, wie gut mein Modell schon ist und wo es noch Probleme gibt.

In [9]:
from sklearn.metrics import accuracy_score, confusion_matrix

# Berechnung der Genauigkeit (Accuracy)
accuracy = accuracy_score(y_test, y_pred)
print(f"Genauigkeit des Modells: {accuracy:.2f}")

# Erstellen der Konfusionsmatrix
conf_matrix = confusion_matrix(y_test, y_pred)
print("Konfusionsmatrix:")
print(conf_matrix)


Genauigkeit des Modells: 0.98
Konfusionsmatrix:
[[11710   134    16]
 [  290  3506     1]
 [    3     0  4340]]


# Was bedeuten diese Zahlen in der Konfusionsmatrix?

|                         | Vorhergesagt: Stern | Vorhergesagt: Galaxie | Vorhergesagt: Quasar |
|-------------------------|---------------------|-----------------------|----------------------|
| **Tatsächlich: Stern**   | 11710               | 134                   | 16                   |
| **Tatsächlich: Galaxie** | 290                 | 3506                  | 1                    |
| **Tatsächlich: Quasar**  | 3                   | 0                     | 4340                 |
