# Standardschritte für eine lineare und eine logistische Regression

## Lineare Regression
Die lineare Regression wird verwendet, um den Zusammenhang zwischen einer abhängigen Variable (Ziel) und einer oder mehreren unabhängigen Variablen (Features) zu modellieren, wobei das Ergebnis kontinuierlich ist.


### 1. Datenvorbereitung
   - Sammle den Datensatz.
   - Bereinige die Daten (fehlende Werte, Ausreißer behandeln).
   - Formatiere die Daten als Pandas DataFrame, wobei die Zielvariable kontinuierlich ist.

### 2. Explorative Datenanalyse (EDA)
   - Visualisiere die Daten, z. B. mit Streudiagrammen, um Beziehungen zwischen den Features und der Zielvariablen zu verstehen.
   - Berechne den Korrelationskoeffizienten zwischen den Variablen.
   - Führe statistische Analysen durch, um die Verteilung der Daten zu verstehen.

### 3. Feature-Auswahl
   - Wähle die unabhängigen Variablen (Features) aus, die verwendet werden sollen, um die Zielvariable vorherzusagen.
   - Eventuell skaliere oder transformiere die Features (z. B. Standardisierung, falls notwendig).

### 4. Train-Test-Split
   - Teile den Datensatz in Trainings- und Testdaten auf (z. B. 80 % Training, 20 % Test) mit `train_test_split` von `sklearn`.

### 5. Modelltraining (Fitting
   - Trainiere das lineare Regressionsmodell mit den Trainingsdaten, um die Regressionskoeffizienten zu schätzen.
   - Berechne die Regressionsgleichung:
     $$
     y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n
     $$
     wobei $ y $ die Zielvariable, $ \beta_0 $ der Intercept und $ \beta_n $ die Koeffizienten der unabhängigen Variablen $ X_n $ sind.

### 6. Modellbewertung
   - Wende das Modell auf die Testdaten an und mache Vorhersagen.
   - Berechne Fehlerkennzahlen wie:
     - **Mittlerer quadratischer Fehler (MSE)**
     - **Root Mean Squared Error (RMSE)**
     - **R² (Bestimmtheitsmaß)**, um zu sehen, wie gut das Modell die Daten erklärt.
   - Vergleiche die Vorhersagen mit den tatsächlichen Werten, um die Modellgüte zu beurteilen.

### 7. Modelloptimierung
   - Führe Feature-Engineering oder Regularisierungsansätze (Lasso, Ridge Regression) durch, falls notwendig, um das Modell zu verbessern.

### 8. Vorhersagen für neue Daten
   - Verwende das trainierte Modell, um Vorhersagen für neue Datensätze zu machen.

### 9. Interpretation
   - Interpretiere die Regressionskoeffizienten, um die Stärke und Richtung des Einflusses der Features auf die Zielvariable zu verstehen.

---

## Logistische Regression
Die logistische Regression wird verwendet, um die Wahrscheinlichkeit des Eintretens eines bestimmten Ereignisses zu modellieren (binäre Klassifikation, z. B. Erfolg/Misserfolg). Das Ergebnis ist eine diskrete, binäre Zielvariable (z. B. 0 oder 1).


### 1. Datenvorbereitung
   - Sammle den Datensatz und bereinige ihn.
   - Die Zielvariable sollte binär sein (z. B. 0 oder 1).
   - Stelle sicher, dass die Daten in geeigneter Form (DataFrame) vorliegen.

### 2. Explorative Datenanalyse (EDA)
   - Visualisiere die Daten und überprüfe die Verteilung der Zielvariablen.
   - Analysiere die Verteilung der Features und ihre Beziehung zur Zielvariablen (z. B. durch Gruppenmittelwerte oder Histogramme).
   - Führe eine Korrelationsanalyse durch, um die Beziehung zwischen den Features zu bewerten.

### 3. Feature-Auswahl
   - Wähle die unabhängigen Variablen (Features) aus, die verwendet werden sollen, um die Wahrscheinlichkeit des Zielereignisses zu modellieren.
   - Eventuell skaliere oder normalisiere die Features.

### 4. Train-Test-Split
   - Teile den Datensatz in Trainings- und Testdaten auf (z. B. 80 % Training, 20 % Test) mit `train_test_split` von `sklearn`.

### 5. Modelltraining (Fitting
   - Trainiere das logistische Regressionsmodell mit den Trainingsdaten.
   - Das Modell schätzt die **Log-Odds** (logarithmierten Chancen), dass die Zielvariable 1 ist:
     $$
     \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n
     $$
     wobei $ p $ die Wahrscheinlichkeit ist, dass die Zielvariable den Wert 1 hat.

### 6. Modellbewertung
   - Mache Vorhersagen auf den Testdaten.
   - Berechne Kennzahlen zur Bewertung der Modellleistung, wie:
     - **Genauigkeit (Accuracy)**
     - **Präzision, Recall, F1-Score**
     - **Confusion-Matrix** (Verwirrungsmatrix), die zeigt, wie gut das Modell verschiedene Klassen vorhersagt.
   - Berechne die **ROC-Kurve** und den **AUC-Wert**, um die Trennfähigkeit des Modells zu visualisieren und zu bewerten.

### 7. Modelloptimierung
   - Führe Regularisierungsansätze wie L1 (Lasso) oder L2 (Ridge) durch, um das Modell zu verbessern und Overfitting zu vermeiden.
   - Eventuell können Feature-Auswahlmethoden (z. B. `SelectKBest`) verwendet werden, um das Modell zu optimieren.

### 8. Vorhersagen für neue Daten
   - Verwende das Modell, um die Wahrscheinlichkeit zu berechnen, dass neue Daten zur Klasse 1 gehören.

### 9. Interpretation
   - Interpretiere die **Log-Odds**: Jeder Koeffizient zeigt an, wie stark eine unabhängige Variable die Wahrscheinlichkeit beeinflusst, dass die Zielvariable den Wert 1 annimmt.
   - Übersetze die Log-Odds in Wahrscheinlichkeiten, um die Ergebnisse besser verständlich zu machen.

---

## **Vergleich der Metriken:**

- **Lineare Regression:**
  - Metriken: MSE, RMSE, R²
  - Vorhersagen: Kontinuierliche Werte
  - Zielvariable: Kontinuierlich

- **Logistische Regression:**
  - Metriken: Genauigkeit, F1-Score, AUC, ROC
  - Vorhersagen: Wahrscheinlichkeiten (später klassifiziert als 0 oder 1)
  - Zielvariable: Binär (0 oder 1)

---

Zusammengefasst:
- Beide Modelle folgen ähnlichen Schritten, unterscheiden sich jedoch in der Art der Zielvariable und der verwendeten Metriken.
- **Lineare Regression** wird verwendet, wenn das Ergebnis kontinuierlich ist, während die **logistische Regression** verwendet wird, wenn das Ergebnis binär ist.