# Projekt

## 1. Zielsetzung und Datenverständnis

In diesem Projekt wenden wir die Konzepte aus den vorherigen Notebooks auf einen echten Datensatz an. Ziel ist es, mithilfe der bisher erlernten Methoden ein einfaches maschinelles Lernmodell zu entwickeln, das auf Basis physikalischer und materialtechnischer Eigenschaften vorhersagen kann, ob eine Steckverbindung im Laufe der Zeit einen kritischen Widerstand überschreiten wird.

### Der Kontext

Steckverbindungen sind essenzielle Bauteile in vielen technischen Systemen – von der Automobilindustrie bis zur Elektronikfertigung. Mit der Zeit und unter Belastung (z. B. durch Vibration oder Temperaturwechsel) kann der elektrische Kontaktwiderstand steigen. Überschreitet er einen bestimmten Schwellenwert (meist 300 mΩ), gilt die Verbindung typischerweise als defekt.

Der vorliegende Datensatz enthält Informationen zu mehreren Steckverbindungen, darunter:

* **Materialeigenschaften** wie die Art der Beschichtung (Silber, Zinn) oder das Vorhandensein einer Zwischenschicht (Nickel),
* **Prozessparameter** wie Normalkraft, Frequenz und Bewegungshub,
* sowie die **Zyklenzahl**, bei der ein bestimmter Widerstandsschwellenwert (z. B. 1 mΩ, 20 mΩ, …, 300 mΩ) erstmals überschritten wurde – falls überhaupt.

### Das Ziel

Ihr werdet ein Modell entwickeln, das vorhersagt:

> **Wird eine Steckverbindung im Laufe der Belastungszyklen einen Widerstand von 300 mΩ überschreiten?**

Diese Frage ist eine **binäre Klassifikation**, d. h. wir möchten eine Ja-/Nein-Aussage (1/0) treffen:

* **Ja/1:** Der Widerstand wird irgendwann ≥ 300 mΩ.
* **Nein/0:** Die Schwelle wird nie überschritten.

### Der Datensatz

Die Datei `Schwellenwerte-Table 1.csv` enthält pro Zeile eine Steckverbindung mit:

* einem **Dateinamen** (`Datei`)
* Angaben zu **Material und Prozessparametern**
* Zyklenzahlen, bei denen bestimmte **Ohm-Schwellen überschritten wurden** (z. B. `Zyklus_300_mOhm`)

  * Ein Wert von **0** bedeutet: Schwelle wurde **nicht** überschritten.
  * Ein **NaN** bedeutet: Keine Messung oder keine Angabe vorhanden.


## Aufgabe 1: Überblick verschaffen

Lade die Datei `Schwellenwerte-Table 1.csv` mit `pandas` und verschaffe dir einen Überblick:

* Gib die Form des DataFrames mit `.shape` aus
* Zeige die ersten 5 Zeilen mit `.head()`
* Liste die Spaltennamen auf

In [None]:
### Hier ist Platz für eure Lösung

## Aufgabe 2: Fehlende Werte handlen und Datentypen überprüfen

Untersuche die fehlenden Werte:

* Gib die Anzahl der fehlenden Werte pro Spalte aus.
* Achte besonders auf die Spalten `Zyklus_300_mOhm`, `Zyklus_20_mOhm` etc.
* Gib die Datentypen aller Spalten mit `.dtypes` aus.

In [None]:
### Hier ist Platz für eure Lösung

In [None]:
### Überprüft eure Lösung
from scripts.checker import check_missing_and_types

#check_missing_and_types(<>Hier euren DataFrame einfügen<>)

## Aufgabe 3: Zielvariable erstellen

Erstelle eine Spalte namens `target`, die wie folgt definiert ist:

* **1**, wenn `Zyklus_300_mOhm` einen Wert größer als 0 enthält
* **0**, wenn der Wert 0 oder NaN ist

In [None]:
### Hier ist Platz für eure Lösung

In [None]:
# Überprüft eure Lösung
from scripts.checker import check_target_column
# check_target_column(<>Hier euren DataFrame einfügen<>)

## Aufgabe 4: One-Hot-Encoding und Standardisierung

Bereite den Datensatz für das Modell vor:

1. Wandle **kategorische Variablen** in numerische mit One-Hot-Encoding um
2. Standardisiere **alle numerischen Features**, z. B. mit `StandardScaler` von scikit-learn
3. Speichere die verarbeiteten Features in einer neuen Variable `X_processed`

In [None]:
### Hier ist Platz für eure Lösung

In [None]:
### Überprüft eure Lösung
from scripts.checker import check_preprocessing
# check_preprocessing(<>Hier euer X_processed einfügen<>)

## Aufgabe 5: Daten in Trainings- und Testmenge aufteilen

Teile die Daten aus `X_prepared` und `df["target"]` in Trainings- und Testdaten auf.

Anforderungen:
* 80 % Training, 20 % Test
* Speichere die Arrays als:
  - `X_train`, `X_test`
  - `y_train`, `y_test`
* Setze `random_state=42` für Reproduzierbarkeit

In [None]:
### Hier ist Platz für eure Lösung

In [None]:
### Überprüft eure Lösung
from scripts.checker import check_split
# check_split(<>Hier eure X_train, X_test, y_train, y_test einfügen<>)

## Aufgabe 6: Logistisches Regressionsmodell trainieren

Trainiere ein logistisches Regressionsmodell auf den Trainingsdaten.

Anforderungen:
* Verwende `LogisticRegression` aus `sklearn.linear_model`
* Speichere das Modell in einer Variable `model`
* Trainiere mit `.fit(X_train, y_train)`

In [None]:
### Hier ist Platz für eure Lösung

In [None]:
### Überprüft eure Lösung
from scripts.checker import check_model_training
# check_model_training(<>Hier euer model, X_train, y_train einfügen<>)

## Aufgabe 7: Scatterplot der Vorhersagen

Visualisiere die Modellvorhersagen mithilfe eines Scatterplots:

Schritte:
1. Wähle zwei numerische Features, z. B. `Kontaktkraft_N` und `Steckzyklen`
2. Plotte die Testdaten in diesen zwei Dimensionen
3. Farbe: Nutze `model.predict(X_test)` als Farbe (0 oder 1)


In [None]:
### Hier ist Platz für eure Lösung