# Projekt

## Zielsetzung und Datenverständnis

In diesem Projekt wendet ihr selbst alle Konzepte aus den vorherigen Notebooks auf einen echten Datensatz an. Ziel ist es, mithilfe der bisher erlernten Methoden ein maschinelles Lernmodell zu entwickeln, das auf Basis physikalischer und materialtechnischer Eigenschaften vorhersagen kann, ob ein bestimmtes Ereignis eintritt. Darüber hinaus werden wir nicht nur vorhersagen können, **ob** ein Ereignis eintritt, sondern auch **wann** dies voraussichtlich geschieht.
Dabei werdet ihr vom Preprocessing, über Visualisierung und Feature-Engineering bis hin zur Evaluation eures fertigen Modells alles bisher Gelerntes anwenden und vertiefen.

### Anmerkungen zur Bewertung/Benotung

TODO

### Der Kontext

Steckverbindungen sind essenzielle Bauteile in vielen technischen Systemen – von der Automobilindustrie bis zur Elektronikfertigung. Mit der Zeit und unter Belastung (z. B. durch Vibration oder Temperaturwechsel) kann der elektrische Kontaktwiderstand steigen. Überschreitet er einen bestimmten Schwellenwert (meist 300 mΩ), gilt die Verbindung typischerweise als defekt.

Der vorliegende Datensatz enthält Informationen zu mehreren Steckverbindungen, die einem Experiment unterzogen wurden, in dem Steckvorgänge zyklisch simuliert wurden. Darunter findet ihr:

* **Materialeigenschaften** wie die Art der Beschichtung (Silber, Zinn) oder das Vorhandensein einer Zwischenschicht (Nickel),
* **Prozessparameter** wie Normalkraft, Frequenz und Bewegungshub,
* sowie die **Zyklenzahl**, bei der ein bestimmter Widerstandsschwellenwert (z. B. 1 mΩ, 20 mΩ, …, 300 mΩ) erstmals überschritten wurde – falls überhaupt.

Im Experiment wurden die Steckverbindungen unter bekannter Normalkraft, Frequenz und Hub zyklisch der Steckbelastung (Einstecken und Ausstecken) unterzogen. Die Zyklenanzahl war vorher fest definiert und richtete sich nach der durchschnittlich zu erwartenden Zahl an Steckvorgängen, die im Leben einer Steckverbindung zu erwarten ist. Eine Überschreitung des Schwellenwerts von 300 mΩ während des Experiments heißt also, dass diese Verbindung in der Realität ebenfalls wahrscheinlich defekt geworden wäre. Wir wollen diese Daten nun folgendermaßen nutzen:

### Das Ziel

Ihr werdet ein **zweistufiges Modell** entwickeln:

1. **Klassifikation**:
   Vorhersage, ob eine Steckverbindung **überhaupt** den Schwellenwert von 300 mΩ überschreiten wird, basierend auf rein physikalischen Features.
   → Features: Beschichtung, Zwischenschicht, Normalkraft, Frequenz und Hub
   → Zielgröße: *Ja (1)* oder *Nein (0)*

2. **Regression** (für die vorhergesagten "Ja"-Fälle):
   Schätzung, **nach wie vielen Belastungszyklen** der Widerstand von 300 mΩ erreicht wird, basierend auf der gemessenen Zyklenanzahl während des Experiments.
   → Features: Zyklus_bei_1mOhm, Zyklus_bei_2mOhm, Zyklus_bei_5mOhm, ..., Zyklus_bei_300mOhm
   → Zielgröße: *Zyklenanzahl*

Diese Kombination ermöglicht es, zunächst risikobehaftete Steckverbindungen zu identifizieren und anschließend genauer abzuschätzen, wann voraussichtlich ein kritischer Zustand eintritt, um gezielt Wartungsarbeiten einzuleiten.

### Der Datensatz

Die Datei `Schwellenwerte-Table 1.csv` enthält pro Zeile eine Steckverbindung mit:

* einem **Dateinamen** (`Datei`)
* Angaben zu **Material und Prozessparametern**
* Zyklenzahlen, bei denen bestimmte **Ohm-Schwellen überschritten wurden** (z. B. `Zyklus_bei_300_mOhm`)

  * Ein Wert von **-1** bedeutet: Schwelle wurde **nicht** überschritten.

## Aufgabe 1: Überblick verschaffen

Lade die Datei `Schwellenwerte-Table 1.csv` mit `pandas` ein und speichere die Daten in einem DataFrame namens `df`. Verschaffe dir einen Überblick:

* Gib die Form des DataFrames mit `.shape` aus
* Zeige die ersten 5 Zeilen mit `.head()`
* Liste die Spaltennamen auf
* Gib eine Übersicht der statistischen Kenngrößen aus (max, min, std, mean, ...)

In [None]:
# Zu Beginn einmalig ausführen für Datenzugriff
!git clone https://github.com/MichaelBlauth/MachineLearningforEngineers.git
%cd MachineLearningforEngineers/Notebooks/

In [1]:
# Hier eure Lösung


## Aufgabe 2: Erste Visualisierungen – Muster in den Daten erkennen

Ein gutes Machine-Learning-Modell beginnt mit einem tiefen Verständnis für die Daten. In dieser Aufgabe wirst du verschiedene Visualisierungen erstellen, um ein Gefühl für die Verteilung, Streuung und Struktur der wichtigsten Merkmale im Datensatz zu bekommen.

### Hinweise

* Nutze `matplotlib` oder `seaborn`.
* Alle Plots sollten **sinnvoll beschriftet** sein (Achsen, Titel).
* Du musst an dieser Stelle **noch keine neuen Spalten erstellen**, sondern nur die bestehenden visualisieren.
* Versuche, alle Plots übersichtlich und interpretierbar zu gestalten.

### 2.1: Wie viele Steckverbindungen erreichen die einzelnen Schwellenwerte?

Untersuche für jede Widerstandsschwelle, **wie viele Steckverbindungen diesen Wert im Experiment erreicht haben**.

*Hinweis:* Die Spalten `Zyklus_bei_1_mOhm`, `Zyklus_bei_20_mOhm`, ..., `Zyklus_bei_300_mOhm` geben an, nach wie vielen Zyklen der jeweilige Schwellenwert überschritten wurde. Ein Wert von `-1` bedeutet: **nicht erreicht**.

**Plot:** Erstelle dann ein **Balkendiagramm**, das die Anzahl der Steckverbindungen zeigt, die den Schwellenwert erreicht haben.
* Zähle dafür für jede dieser Spalten, wie viele Steckverbindungen einen gültigen Zyklenwert (≠ –1) enthalten.
* Stelle diese Werte als Balkendiagramm dar.

> Ziel: Ein erster Eindruck zur Verteilung der erreichten Schwellwerte und über das Verhältnis von „defekt“ (300 mOhm erreicht) zu „nicht defekt“.


In [2]:
# Hier eure Lösung

### 2.2. Verteilung der numerischen physikalischen Merkmale untersuchen

   Analysiere die Verteilung der zentralen numerischen Eingangsgrößen:

   * `Normalkraft`
   * `Frequenz`
   * `Bewegungshub`

   **Plot:** Erstelle für jede dieser Spalten ein **Histogramm**.

   > Ziel: Gibt es auffällige Ausreißer? Gibt es dominante Wertebereiche? Welche Kombinationen der Features sind am wahrscheinlichsten?

In [3]:
# Hier eure Lösung

### 2.3. Zyklenanzahlen beim Überschreiten der Schwellenwerte untersuchen

   Die Spalten `Zyklus_bei_1_mOhm`, `Zyklus_bei_20_mOhm`, ..., `Zyklus_bei_300_mOhm` enthalten die Zyklenzahlen, bei denen bestimmte Schwellenwerte überschritten wurden oder `-1`, wenn das nie passiert ist.

   **Schritte:**
   * Erstelle eine Kopie deines DataFrames namens `df_visual`.
   * Ersetze in der Kopie alle `-1`-Werte durch `np.nan`, damit matplotlib/seaborn sie als „fehlend“ behandelt.
   * Erstelle für die obigen Spalten einen **horizontalen Boxplot**, um zu analysieren:

     * Nach wie vielen Zyklen werden die Schwellen erreicht?

     * Wie groß ist die Streuung?

   > Ziel: Ein Gespür für die Streuung und die Zeitpunkte des Ausfalls über verschiedene Widerstandsschwellen hinweg bekommen.

In [4]:
# Hier eure Lösung


## Aufgabe 3: Preprocessing
In dieser Aufgabe soll der Datensatz sowohl für die Klassifikation als auch für die Regression vorbereitet werden. Ihr werdet entscheiden, wie mit fehlenden Werten umzugehen ist, Zielvariablen erstellen, standardisieren, one-hot-encoden und einen Train-Test-Split erstellen.


### 3.1. Fehlende Werte
* Identifiziert alle Spalten in eurem originalen DataFrame `df`, die fehlende Werte beinhalten. Was sollte mit diesen Datenpunkten geschehen? Entscheidet euch, ob ihr fehlende Werte ersetzt oder Zeilen mit fehlenden Werten ausschließt.

In [5]:
# Hier eure Lösung

### 3.2. Zielvariablen erstellen

* Für die **Klassifikation** benötigen wir eine Zielspalte, die angibt, _ob_ die 300 mOhm überschritten wurden oder nicht. Erstelle eine Spalte namens `target`, die wie folgt definiert ist:
    * **1**, wenn `Zyklus_300_mOhm` einen Wert größer als 0 enthält
    * **0**, wenn der Wert -1 ist
* Die Klassifikationszielvariable ist erstellt. Für die **Regression** ist die Zielvariable die _Zyklenanzahl_, bei der die 300 mOhm-Schwelle überschritten wird. Um später die Verarbeitung der Spalte `Zyklus_bei_300_mOhm` zu erleichtern, ersetzt alle Einträge `-1` durch `np.nan`.

In [6]:
# Hier eure Lösung

### 3.3. Überflüssige Werte?
* Entscheidet euch, ob die Spalte `Datei` für das Training der zwei Modelle relevant ist, oder ob sie ignoriert und gedroppt werden sollte.
* Entscheidet euch, ob die Spalten `Zyklus_bei_1_mOhm` bis `Zyklus_bei_100_mOhm` für das Training der zwei Modelle relevant sind, oder ob sie ignoriert und gedroppt werden sollten.
* Begründet eure Entscheidungen und setzt sie ggf. um.

In [7]:
# Hier eure Lösung

### 3.4. One-Hot-Encoding und Standardisierung
Bereite den Datensatz für das Training der Modelle vor:

1. Erstelle einen DataFrame `X`, der nur die numerischen und kategorischen Features enthält.
2. Wandle **kategorische Variablen** in numerische mit One-Hot-Encoding um. Vermeide Multikollinearität.
3. Standardisiere alle **numerischen Features**, z. B. mit `StandardScaler` von scikit-learn.
4. Speichere die verarbeiteten Features in einem neuen DataFrame `X_processed` mit den gleichen Spaltennamen und Indizes wie vorher.

In [8]:
# Hier eure Lösung

### 3.5. Daten in Trainings- und Testmenge aufteilen

Teile die Features und Labels in Trainings- und Testdaten auf. Erstelle dafür einen DataFrame `y`, der nur die Zielspalten enthält und benutze `train-test-split` aus sklearn.

Anforderungen:
* 80 % Training, 20 % Test
* Speichere die Arrays als:
  - `X_train`, `X_test`
  - `y_train`, `y_test`
* Setze `random_state=38` für Reproduzierbarkeit

In [9]:
# Hier eure Lösung

In [10]:
# Überprüft hier euer Preprocessing
from scripts.checker import check_preprocessing_pipeline

'''
check_preprocessing_pipeline(
    df=df,
    X_processed=X_processed,
    X_train=X_train,
    X_test=X_test,
    y_train=y_train,
    y_test=y_test
)
'''

'\ncheck_preprocessing_pipeline(\n    df=df,\n    X_processed=X_processed,\n    X_train=X_train,\n    X_test=X_test,\n    y_train=y_train,\n    y_test=y_test\n)\n'

## Aufgabe 4: Logistisches Regressionsmodell trainieren

Trainiere ein logistisches Regressionsmodell auf den Trainingsdaten.

Anforderungen:
* Verwende `LogisticRegression` aus `sklearn.linear_model`
* Speichere das Modell in einer Variable `model`
* Trainiere das Modell mit den Features und der Klassifikationszielvariable.

In [11]:
# Hier eure Lösung

In [12]:
# Überprüft hier euer Modelltraining
from scripts.checker import check_model_training

# check_model_training(model, X_train, y_train_logreg)

## Aufgabe 5: Modell evaluieren

Bewerte die Qualität deiner Vorhersagen auf dem Testdatensatz.

Berechne folgende Metriken mit scikit-learn:

- Finaler Log-Loss
- Accuracy
- Precision
- Recall
- F1-Score
- Confusion Matrix

> Hinweis: Verwende `model.predict(X_test)` für die Klassenvorhersage und `model.predict_proba(X_test)[:, 1]` für Wahrscheinlichkeiten.

Speichere die Vorhersagen in `y_pred` und die Wahrscheinlichkeiten in `y_prob`.

In [13]:
# Hier eure Lösung

In [14]:
### Überprüft eure Lösung
from scripts.checker import check_metrics

# check_metrics(y_true, y_pred, y_prob)

## Aufgabe 6: Scatterplot der Vorhersagen

Visualisiere die Modellvorhersagen mithilfe eines Scatterplots:

Verändere schrittweise **ein einzelnes Feature** (z. B. die **Normalkraft**) und beobachte, wie sich die **Vorhersagewahrscheinlichkeit** des Modells ändert – während alle anderen Features konstant gehalten werden.

**Schritte**:

1. **Wähle ein einzelnes Datenbeispiel** aus dem Testdatensatz, z. B. `X_test.iloc[0]`
2. **Wähle ein numerisches Feature**, z. B. `"Normalkraft"`
3. Erstelle eine Kopie des Datenpunkts und **verändere das gewählte Feature** in kleinen Schritten (z. B. von -2 bis +2 in Standardskalierung).
4. Lass für jede Variante des Datenpunkts das Modell eine Vorhersagewahrscheinlichkeit berechnen.
5. Erstelle ein **Scatterplot**, der den Featurewert (auf normal skalierten Achsen -> Rücktransformation!) gegen die vorhergesagte Wahrscheinlichkeit zeigt.

**Plot**:

* x-Achse: Geänderter Wert des gewählten Features (z. B. Normalkraft)
* y-Achse: Vorhersagewahrscheinlichkeit für `target = 1`

**Interpretation**:

Beantworte folgende Fragen:

* Wie stark beeinflusst das Feature die Vorhersage?
* Welche Feature-Werte führen zu einer besonders hohen bzw. niedrigen Wahrscheinlichkeit?
* Wie steil ist der Anstieg? Was sagt das über den Einfluss des Features aus?
* Was bedeutet das im Kontext des Problems (z. B. hohe Normalkraft = geringeres Risiko)?

In [15]:
# Hier eure Lösung


## Aufgabe 7: Interpretation der Feature-Gewichte

Nutze die Koeffizienten des Modells, um zu verstehen, welche Features das Modell beeinflussen.

Schritte:
1. Erstelle ein DataFrame, das die Features (`X_prepared.columns`) den zugehörigen Koeffizienten (`model.coef_`) gegenüberstellt.
2. Sortiere es nach der Stärke des Einflusses (betraglich).
3. Stelle die wichtigsten Features in einem Balkendiagramm dar.

Beantworte folgende Fragen:

1. **Was bedeutet ein hoher positiver Wert eines Gewichts in Bezug auf die Vorhersagewahrscheinlichkeit für einen Defekt?**
   → Was sagt z. B. ein hohes Gewicht für das Feature „Bewegungshub“ über dessen Einfluss auf die Wahrscheinlichkeit eines Defekts aus?
2. **Was sagt ein negatives Gewicht eines Features über dessen Einfluss aus?**
3. **Welche Features haben den größten Einfluss auf die Vorhersageentscheidung des Modells?**
   → Schaut euch die Top 3 (nach Betrag des Gewichts) an: Sind das physikalisch plausible Einflussfaktoren?
4. **Welche Features erscheinen weniger relevant (nahe bei 0)?**
   → Könnte das auf Redundanz oder irrelevante Informationen hindeuten?

In [16]:
# Hier eure Lösung


## Aufgabe 8: Lineare Regression
Ihr trainiert nun ein **lineares Regressionsmodell** auf den Daten der **defekten Verbindungen**, um vorherzusagen, wann eine Verbindung voraussichtlich versagt. Die Zielvariable ist die Zyklenzahl bei 300 mOhm. Diese Größe an sich ist für echte Anwendungen nicht wirklich aussagekräftig, allerdings lässt sich die Zyklenzahl bei periodischer Belastung mit einer bestimmten Zeit identifizieren, bei der die Verbindung versagt. Sie ist also einfach eine Näherungsvariable, die ein Gefühl für die Zeit bis zum Versagen der Verbindung unter bestimmten Voraussetzungen liefert.

* Benutze die bereits gesplitteten Variablen `X_train` `y_train`, `X_test` und `y_test`, und filtere sie so, dass nur Steckverbindungen enthalten sind, die die 300 mΩ-Grenze **erreicht haben**.
* Speichere diese DataFrames mit dem Zusatz `_linreg`.
* Verwende dieselben Eingabefeatures wie für die Klassifikation.
* Die Zielvariable ist jetzt `Zyklus_bei_300_mOhm`.

In [17]:
# Hier eure Lösung

## Aufgabe 9: Visualisierung der Features vs. Zielvariable

Untersuche, wie die einzelnen Eingabefeatures mit der Zielvariable `Zyklus_bei_300_mOhm` zusammenhängen.

**Schritte:**
1. Erstelle für jedes Feature einen Scatterplot, in dem die Werte des Features auf der x-Achse und die Zielvariable `Zyklus_bei_300_mOhm` auf der y-Achse dargestellt werden.
3. Analysiere, ob sich Trends, Zusammenhänge oder Ausreißer erkennen lassen.

Gibt es Features, die besonders stark mit der Zielvariable korrelieren? Welche Merkmale zeigen keinen klaren Zusammenhang?

In [18]:
# Hier eure Lösung

## Aufgabe 9: Regressionsmodell trainieren

* Trainiere das Regressionsmodell (`LinearRegression`) auf den vorbereiteten Trainingsdaten.
* Ziel: Vorhersage der Zyklenanzahl, bei der die 300 mΩ-Grenze erreicht wird.

In [19]:
# Hier eure Lösung

In [20]:
### Überprüft euer Lineares Modelltraining

# check_model_training(reg_model, X_train_linreg, y_train_linreg)

## Aufgabe 10: Evaluation

Berechne die folgenden Regressionsmetriken:

* MAE (Mean Absolute Error)
* MSE (Mean Squared Error)
* RMSE (Root Mean Squared Error)
* R² (Bestimmtheitsmaß)

In [21]:
# Hier eure Lösung

In [22]:
### Überprüft eure Lösung

# check_metrics(y_test_linreg, y_pred_linreg)

## Aufgabe 11: Scatterplot der Vorhersagen

Vergleiche die Modellvorhersagen mit den tatsächlichen Werten in einem Scatterplot.

1. Erstelle einen Scatterplot mit den Testdaten:
   * x-Achse: vorhergesagte Werte
   * y-Achse: echte Zielwerte
   * Farbe (`hue` in seaborn): z. B. `Normalkraft` oder `Frequenz`, um Trends zu erkennen
   * Markiere die Idealdiagonale (y = x) zur Orientierung.

In [23]:
# Hier eure Lösung

### 12. **Interpretation der Regressionsgewichte**

Du hast ein lineares Regressionsmodell trainiert, das vorhersagt, **nach wie vielen Zyklen** die Schwelle von 300 mΩ überschritten wird (nur für Steckverbindungen, die tatsächlich defekt wurden). Visualisiere die Koeffizienten des trainierten Regressionsmodells wie bei der Klassifikation. Also:
1. Erstelle ein DataFrame, das die Features (`X_prepared.columns`) den zugehörigen Koeffizienten (`reg_model.coef_`) gegenüberstellt.
2. Sortiere es nach der Stärke des Einflusses (betraglich).
3. Stelle die wichtigsten Features in einem Balkendiagramm dar.

Interpretiere die Modellgewichte. Nutze dabei die folgenden Leitfragen:

1. **Allgemeines Verständnis**
   a. Was bedeutet ein negativer bzw. ein positiver Koeffizient in diesem Modell? (Hinweis: Nutze die Formel für die Vorhersage bei der linearen Regression).
   b. Was sagt z. B. der negative Wert für „Normalkraft“ über die Lebensdauer aus?

2. **Vergleich zur Klassifikation**
   a. Stimmen die Tendenzen mit den Ergebnissen der Klassifikation überein?
   b. Gibt es Features, deren Einfluss im Regressionsmodell **anders** aussieht als im Klassifikationsmodell?
   
3. **Diskussion der Einschränkungen**
   a. Auf welchen Teil der Daten wurde das Regressionsmodell trainiert?
   b. Warum kann das zu anderen Schlussfolgerungen führen als bei der Klassifikation?

In [24]:
# Hier eure Lösung
