**Einführung in Machine Learning mit Scikit-Learn**

Willkommen in der faszinierenden Welt des Machine Learning (ML)! Dieses Dokument soll dir einen sanften Einstieg ermöglichen und dir zeigen, wie du mit der Python-Bibliothek Scikit-Learn erste Modelle trainieren kannst. Wir konzentrieren uns auf zwei grundlegende Algorithmen: Lineare Regression und Logistische Regression.

**Was ist Machine Learning?**

Machine Learning ist ein Teilbereich der Künstlichen Intelligenz (KI), bei dem Computersysteme die Fähigkeit erlernen, aus Daten Muster zu erkennen und Vorhersagen zu treffen, ohne explizit für jede einzelne Aufgabe programmiert zu werden. Stell dir vor, du bringst einem Kind bei, Hunde von Katzen zu unterscheiden, indem du ihm viele Bilder von Hunden und Katzen zeigst. Das Kind lernt mit der Zeit, die charakteristischen Merkmale zu erkennen. ML funktioniert ähnlich.

**Was ist Scikit-Learn?**

Scikit-Learn (oft als `sklearn` abgekürzt) ist eine der beliebtesten und umfangreichsten Open-Source-Bibliotheken für Machine Learning in Python. Sie bietet einfache und effiziente Werkzeuge für Datenanalyse und Modellierung, darunter:
*   Klassifikation
*   Regression
*   Clustering
*   Dimensionsreduktion
*   Modellauswahl
*   Vorverarbeitung

**Grundlegende Konzepte im Machine Learning**

1.  **Datensatz (Dataset):** Eine Sammlung von Datenpunkten. Jeder Datenpunkt besteht aus:
    *   **Features (Merkmale, X):** Die unabhängigen Variablen oder Eingabewerte, die das Modell verwendet, um eine Vorhersage zu treffen (z.B. Größe eines Hauses, Anzahl der Zimmer).
    *   **Target (Zielvariable, y):** Die abhängige Variable oder der Ausgabewert, den das Modell vorhersagen soll (z.B. Preis eines Hauses, ob ein Kunde kündigt oder nicht).

2.  **Arten von Machine Learning (Fokus hier: Überwachtes Lernen):**
    *   **Überwachtes Lernen (Supervised Learning):** Das Modell lernt aus gelabelten Daten, d.h. Daten, bei denen sowohl die Features (X) als auch das Target (y) bekannt sind.
        *   **Regression:** Das Target ist ein kontinuierlicher Wert (z.B. Preis, Temperatur).
        *   **Klassifikation:** Das Target ist eine diskrete Kategorie (z.B. "Spam"/"Kein Spam", "Hund"/"Katze").
    *   **Unüberwachtes Lernen (Unsupervised Learning):** Das Modell lernt aus ungelabelten Daten und versucht, verborgene Muster oder Strukturen zu finden (z.B. Kundensegmentierung).

3.  **Training und Testen:**
    *   **Trainingsdaten:** Der Teil des Datensatzes, mit dem das Modell "lernt".
    *   **Testdaten:** Ein separater Teil des Datensatzes, der verwendet wird, um die Leistung des trainierten Modells auf ungesehenen Daten zu bewerten. Dies ist entscheidend, um sicherzustellen, dass das Modell nicht nur die Trainingsdaten auswendig lernt (Overfitting), sondern generalisieren kann.

**Installation**

Bevor wir starten, stelle sicher, dass du Python und die notwendigen Bibliotheken installiert hast. Du kannst sie mit pip installieren:
```bash
pip install numpy pandas matplotlib scikit-learn
```

---

**Schritt-für-Schritt: Lineare Regression**

Die Lineare Regression ist ein Algorithmus des überwachten Lernens, der verwendet wird, um eine kontinuierliche Zielvariable vorherzusagen. Die Idee ist, eine Gerade (oder Hyperebene in höheren Dimensionen) zu finden, die am besten zu den Datenpunkten passt.

**Die Formel (für ein einzelnes Feature):**
`y = mx + c`
*   `y`: Die vorhergesagte Zielvariable.
*   `x`: Das Feature.
*   `m`: Die Steigung der Geraden (Koeffizient).
*   `c`: Der y-Achsenabschnitt (Intercept).

Das Modell lernt die optimalen Werte für `m` und `c` aus den Trainingsdaten, indem es versucht, den Fehler zwischen den vorhergesagten Werten und den tatsächlichen Werten zu minimieren (oft durch die Methode der kleinsten Quadrate).

**Beispiel: Vorhersage von Prüfungsergebnissen basierend auf Lernstunden**

Angenommen, wir haben Daten darüber, wie viele Stunden Studenten gelernt haben und welche Punktzahl sie in einer Prüfung erreicht haben.

**1. Notwendige Bibliotheken importieren:**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

**2. Beispiel-Daten erstellen:**
Wir erstellen künstliche Daten, um das Konzept zu veranschaulichen.

In [None]:
# Features (X): Lernstunden
X = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1) # .reshape(-1, 1) ist wichtig für sklearn

# Target (y): Prüfungspunkte (mit etwas Rauschen)
y = np.array([50, 52, 63, 64, 72, 82, 81, 88, 93, 92])

*Hinweis:* `reshape(-1, 1)` wandelt unseren 1D-Array `X` in einen 2D-Array um, wie es Scikit-Learn erwartet (eine Spalte für Features, mehrere Zeilen für Datenpunkte).

**3. Daten visualisieren (optional, aber empfohlen):**


In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X, y, color='blue', label='Tatsächliche Datenpunkte')
plt.xlabel("Lernstunden")
plt.ylabel("Prüfungspunkte")
plt.title("Lernstunden vs. Prüfungspunkte")
plt.legend()
plt.grid(True)
plt.show()

**4. Daten aufteilen in Trainings- und Testsets:**
Obwohl unser Datensatz klein ist, ist dies ein wichtiger Schritt in der Praxis.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# test_size=0.2 bedeutet 20% der Daten für den Test, 80% für das Training
# random_state sorgt für reproduzierbare Aufteilungen

Für dieses sehr kleine Beispiel könnten wir auch alle Daten zum Trainieren verwenden, aber für die Demonstration halten wir uns an die gute Praxis.



**5. Modell erstellen und trainieren:**

In [None]:
# Modell-Instanz erstellen
model_lr = LinearRegression()

# Modell mit Trainingsdaten trainieren
model_lr.fit(X_train, y_train)

print("Lineare Regression trainiert.")
print(f"Achsenabschnitt (c): {model_lr.intercept_:.2f}")
print(f"Steigung (m): {model_lr.coef_[0]:.2f}")


**6. Vorhersagen mit dem Testset machen:**


In [None]:
y_pred_lr = model_lr.predict(X_test)


**7. Modell bewerten:**
*   **Mean Squared Error (MSE):** Der Durchschnitt der quadrierten Differenzen zwischen tatsächlichen und vorhergesagten Werten. Je kleiner, desto besser.
*   **R-squared (R²):** Gibt an, wie viel Prozent der Varianz in der Zielvariable durch das Modell erklärt werden kann. Werte liegen zwischen 0 und 1. Je näher an 1, desto besser.


In [None]:
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)

print(f"\nMean Squared Error (MSE): {mse_lr:.2f}")
print(f"R-squared (R²): {r2_lr:.2f}")

# Ausgabe der Testvorhersagen im Vergleich zu den tatsächlichen Werten
for i in range(len(X_test)):
    print(f"Lernstunden: {X_test[i][0]}, Tatsächliche Punkte: {y_test[i]}, Vorhergesagte Punkte: {y_pred_lr[i]:.2f}")

**8. Ergebnisse visualisieren:**

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X_test, y_test, color='blue', label='Tatsächliche Testdaten')
plt.plot(X_test, y_pred_lr, color='red', linewidth=2, label='Regressionsgerade') # Vorhersagen auf Testdaten
# Um die Linie über den gesamten Bereich zu zeichnen:
X_plot = np.array([[min(X)[0]], [max(X)[0]]]) # Min und Max X-Werte für die Linie
y_plot_lr = model_lr.predict(X_plot)
plt.plot(X_plot, y_plot_lr, color='green', linestyle='--', linewidth=2, label='Gesamte Regressionsgerade')

plt.xlabel("Lernstunden")
plt.ylabel("Prüfungspunkte")
plt.title("Lineare Regression: Vorhersage vs. Tatsächlich")
plt.legend()
plt.grid(True)
plt.show()



---

**Schritt-für-Schritt: Logistische Regression**

Die Logistische Regression wird für **Klassifikationsprobleme** verwendet, bei denen die Zielvariable kategorisch ist (z.B. Ja/Nein, 0/1, Klasse A/Klasse B). Obwohl der Name "Regression" enthält, ist es ein Klassifikationsalgorithmus.

Sie schätzt die Wahrscheinlichkeit, dass eine Beobachtung zu einer bestimmten Klasse gehört. Dies geschieht, indem eine lineare Gleichung (ähnlich der linearen Regression) durch eine **Sigmoidfunktion** (auch logistische Funktion genannt) transformiert wird. Die Sigmoidfunktion gibt Werte zwischen 0 und 1 aus, die als Wahrscheinlichkeiten interpretiert werden können.

**Die Formel (konzeptionell):**
1.  Lineare Kombination: `z = mx + c` (oder `β₀ + β₁x₁ + ...`)
2.  Sigmoidfunktion: `P(y=1) = 1 / (1 + e^(-z))`

Wenn `P(y=1) >= 0.5`, wird die Klasse als 1 vorhergesagt, andernfalls als 0 (für binäre Klassifikation).

**Beispiel: Vorhersage, ob ein Student eine Prüfung besteht (basierend auf Lernstunden)**

Angenommen, wir wollen vorhersagen, ob ein Student besteht (1) oder nicht besteht (0).

**1. Notwendige Bibliotheken importieren:**


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


**2. Beispiel-Daten erstellen:**

In [None]:

# Features (X): Lernstunden
X_log = np.array([1, 1.5, 2, 2.5, 3, 4, 4.5, 5, 6, 7, 8, 9]).reshape(-1, 1)
# Target (y): Bestanden (1) oder nicht bestanden (0)
y_log = np.array([0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1]) # Angenommen, ab ca. 4-5 Stunden besteht man eher



**3. Daten visualisieren (optional):**


In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X_log, y_log, color='purple', label='Tatsächliche Daten (0=Nicht Bestanden, 1=Bestanden)')
plt.yticks([0, 1])
plt.xlabel("Lernstunden")
plt.ylabel("Prüfung bestanden?")
plt.title("Lernstunden vs. Prüfungserfolg")
plt.legend()
plt.grid(True)
plt.show()



**4. Daten aufteilen in Trainings- und Testsets:**


In [None]:
X_log_train, X_log_test, y_log_train, y_log_test = train_test_split(X_log, y_log, test_size=0.3, random_state=42, stratify=y_log)
# stratify=y_log ist nützlich bei Klassifikation, um die Klassenproportionen in Trainings- und Testset beizubehalten.


**5. Modell erstellen und trainieren:**


In [None]:
# Modell-Instanz erstellen
model_logreg = LogisticRegression()

# Modell mit Trainingsdaten trainieren
model_logreg.fit(X_log_train, y_log_train)

print("Logistische Regression trainiert.")



**6. Vorhersagen mit dem Testset machen:**


In [None]:
y_pred_logreg = model_logreg.predict(X_log_test)
y_pred_proba_logreg = model_logreg.predict_proba(X_log_test) # Wahrscheinlichkeiten für jede Klasse


**7. Modell bewerten:**
*   **Accuracy (Genauigkeit):** Anteil der korrekt klassifizierten Instanzen.
*   **Confusion Matrix (Konfusionsmatrix):** Eine Tabelle, die die Leistung des Klassifikationsmodells zusammenfasst.
    *   True Positives (TP): Korrekt als positiv klassifiziert.
    *   True Negatives (TN): Korrekt als negativ klassifiziert.
    *   False Positives (FP): Fälschlicherweise als positiv klassifiziert (Typ-I-Fehler).
    *   False Negatives (FN): Fälschlicherweise als negativ klassifiziert (Typ-II-Fehler).
*   **Classification Report:** Bietet Präzision, Recall, F1-Score für jede Klasse.



### Aufgabe: 
Recherchiert was man unter einer ``confusion matrix`` versteht.


In [None]:
accuracy_logreg = accuracy_score(y_log_test, y_pred_logreg)
conf_matrix_logreg = confusion_matrix(y_log_test, y_pred_logreg)
class_report_logreg = classification_report(y_log_test, y_pred_logreg, zero_division=0)

print(f"\nAccuracy: {accuracy_logreg:.2f}")
print("\nConfusion Matrix:\n", conf_matrix_logreg)
print("\nClassification Report:\n", class_report_logreg)

In [None]:
# Ausgabe der Testvorhersagen im Vergleich zu den tatsächlichen Werten
print("\nVorhersagen auf Testdaten:")
for i in range(len(X_log_test)):
    print(f"Lernstunden: {X_log_test[i][0]}, Tatsächlich: {y_log_test[i]}, Vorhergesagt: {y_pred_logreg[i]}, Wahrsch. (Klasse 1): {y_pred_proba_logreg[i][1]:.2f}")


**8. Ergebnisse visualisieren (Sigmoidkurve):**


In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(X_log_test, y_log_test, color='purple', label='Tatsächliche Testdaten', zorder=2)
# Sortiere X für eine glatte Kurve
X_log_plot_sorted = np.sort(X_log, axis=0)
y_log_plot_proba = model_logreg.predict_proba(X_log_plot_sorted)[:, 1] # Wahrscheinlichkeit für Klasse 1

plt.plot(X_log_plot_sorted, y_log_plot_proba, color='green', linewidth=2, label='Logistische Regressionskurve (Wahrscheinlichkeit für "Bestanden")')
plt.axhline(0.5, color='red', linestyle='--', label='Entscheidungsgrenze (0.5)')

plt.yticks([0, 0.5, 1])
plt.xlabel("Lernstunden")
plt.ylabel("Wahrscheinlichkeit des Bestehens / Bestanden?")
plt.title("Logistische Regression: Vorhersage vs. Tatsächlich")
plt.legend()
plt.grid(True)
plt.show()


**Allgemeiner Workflow in Scikit-Learn**

1.  **Daten laden und vorbereiten:**
    *   Features (X) und Target (y) identifizieren.
    *   Daten bereinigen (fehlende Werte, Ausreißer).
    *   Daten transformieren (Skalierung, Kodierung kategorialer Variablen) - *nicht in diesen Beispielen behandelt, aber wichtig für komplexere Datensätze.*
2.  **Daten aufteilen:** `train_test_split` verwenden, um Trainings- und Testsets zu erstellen.
3.  **Modell auswählen:** Den passenden Algorithmus für das Problem wählen (z.B. `LinearRegression`, `LogisticRegression`).
4.  **Modell trainieren:** Die `fit(X_train, y_train)` Methode des Modells aufrufen.
5.  **Vorhersagen machen:** Die `predict(X_test)` Methode verwenden. Für Klassifikation auch `predict_proba(X_test)`.
6.  **Modell bewerten:** Geeignete Metriken verwenden (z.B. MSE, R² für Regression; Accuracy, Confusion Matrix für Klassifikation).
7.  **Modell optimieren (optional):** Hyperparameter anpassen, andere Modelle testen.


**Aufgaben mit Lösungen**

**Aufgabe 1: Lineare Regression - Vorhersage von Gehältern**

Du hast einen kleinen Datensatz mit Berufserfahrung (in Jahren) und dem entsprechenden Gehalt.
*   Erfahrung (Jahre): `[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]`
*   Gehalt (in Tausend €): `[30, 35, 40, 48, 55, 60, 68, 72, 78, 85]`

**Aufgabenstellung:**
1.  Erstelle ein lineares Regressionsmodell, um das Gehalt basierend auf der Berufserfahrung vorherzusagen.
2.  Trainiere das Modell mit 80% der Daten.
3.  Mache Vorhersagen für die Testdaten.
4.  Bewerte das Modell mit MSE und R².
5.  Was wäre das vorhergesagte Gehalt für jemanden mit 3.5 Jahren Erfahrung und für jemanden mit 12 Jahren Erfahrung?


In [None]:
#Lösung


**Lösung zu Aufgabe 1:**



**Aufgabe 2: Logistische Regression - Vorhersage von Kundenabwanderung**

Du hast Daten darüber, wie oft Kunden einen Dienst genutzt haben und ob sie gekündigt haben (1=gekündigt, 0=nicht gekündigt).
*   Nutzungshäufigkeit (pro Monat): `[1, 2, 3, 5, 6, 7, 10, 12, 15, 18, 20, 22, 25, 28, 30]`
*   Gekündigt: `[1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0]` (weniger Nutzung -> eher Kündigung)

**Aufgabenstellung:**
1.  Erstelle ein logistisches Regressionsmodell, um vorherzusagen, ob ein Kunde kündigt.
2.  Trainiere das Modell mit 70% der Daten.
3.  Mache Vorhersagen für die Testdaten (Klassen und Wahrscheinlichkeiten).
4.  Bewerte das Modell mit Accuracy und einer Confusion Matrix.
5.  Wie hoch ist die Wahrscheinlichkeit, dass ein Kunde mit 4 Nutzungen pro Monat kündigt? Und einer mit 16 Nutzungen?


In [None]:
#Lösung