<p><font size="6" color='grey'> <b>
Machine Learning
</b></font> </br></p>
<p><font size="5" color='grey'> <b>
RandomSearch - Keras - Combined Cycle Power Plant
</b></font> </br></p>

---


# 0  | Install & Import
***

In [None]:
# Install
!uv pip install --system -q keras_tuner

In [None]:
# Import
from pandas import read_csv, DataFrame, concat

from sklearn.datasets import fetch_openml
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_absolute_error

import keras
import keras_tuner
from keras_tuner import HyperParameters, RandomSearch
from keras.layers import Dense, Input

from keras.utils import set_random_seed, plot_model

from tensorflow import keras
from tensorflow.config.experimental import enable_op_determinism
import tensorflow as tf

In [None]:
# Warnung ausstellen
import warnings
warnings.filterwarnings("ignore")

# 1 | Understand
---


<p><font color='black' size="5">ðŸ“‹ Checkliste</font></p>

âœ… Aufgabe verstehen</br>
âœ… Daten sammeln</br>
âœ… Statistische Analyse (Min, Max, Mean, Korrelation, ...)</br>
âœ… Datenvisualisierung (Streudiagramm, Box-Plot, ...)</br>
âœ… Prepare Schritte festlegen</br>

<p><font color='black' size="5">
Anwendungsfall
</font></p>

---



Der Datensatz enthÃ¤lt 9568 Datenpunkte, die von einem Gas- und Dampfturbinenkraftwerk Ã¼ber einen Zeitraum von 6 Jahren (2006-2011) gesammelt wurden, als das Kraftwerk unter Volllast in Betrieb genommen wurde. Die Funktionen bestehen aus den stÃ¼ndlichen durchschnittlichen Umgebungsvariablen
+ Temperatur (T),
+ Umgebungsdruck (AP),
+ Relative Luftfeuchtigkeit (RH)
+ und Abgasvakuum (V),

um die stÃ¼ndliche Netto-Stromerzeugung (EP) der Anlage vorherzusagen.


Ein GuD-Kraftwerk (GuD-Kraftwerk) setzt sich aus Gasturbinen (GT), Dampfturbinen (ST) und Abhitzedampferzeugern zusammen. Bei einem GuD-Kraftwerk wird der Strom durch Gas- und Dampfturbinen erzeugt, die in einem Kreislauf kombiniert werden, und von einer Turbine auf eine andere Ã¼bertragen. WÃ¤hrend das Vakuum von der Dampfturbine beeinflusst wird und sich auf sie auswirkt, beeinflussen die anderen drei Umgebungsvariablen die GT-Leistung.

Der Hochdruckdampf in einem GuD-Kraftwerk wird im sogenannten Abhitzedampferzeuger (AHE) erzeugt â€“ einem zentralen Bauteil, das die AbwÃ¤rme der Gasturbine nutzt, um Wasser in Dampf umzuwandeln.

Nach der Expansion des Dampfes in der Dampfturbine muss dieser wieder kondensieren, um erneut im Kreislauf genutzt werden zu kÃ¶nnen. Das passiert im sogenannten Kondensator, einem WÃ¤rmeÃ¼bertrager, in dem der Dampf durch KÃ¼hlwasser (z.â€¯B. Fluss- oder Meerwasser) abgekÃ¼hlt wird.

Beim Kondensieren entsteht ein Unterdruck (Vakuum), weil Wasserdampf beim Ãœbergang in den flÃ¼ssigen Zustand viel Volumen verliert â€“ und das senkt den Druck im Kondensator erheblich, typischerweise auf etwa 0,05 bar oder sogar weniger (je nach KÃ¼hlwassertemperatur).

Das Vakuum erhÃ¶ht die Druckdifferenz Ã¼ber der Dampfturbine, also:

`DruckÂ amÂ EinlassÂ (Hochdruckdampf)âˆ’DruckÂ amÂ AuslassÂ (Vakuum)`


Je grÃ¶ÃŸer dieser Unterschied ist, desto mehr Energie kann der Dampf beim Expandieren in der Turbine abgeben.

Dadurch:

+ steigt die mechanische Leistung der Dampfturbine,

+ wird mehr Strom im Generator erzeugt,

+ und der Wirkungsgrad des gesamten GuD-Kraftwerks verbessert sich.

[DataSet](http://archive.ics.uci.edu/dataset/294/combined+cycle+power+plant)    
[Info](http://archive.ics.uci.edu/dataset/294/combined+cycle+power+plant)

In [None]:
df = read_csv(
    "https://raw.githubusercontent.com/ralf-42/ML_Intro/main/02_daten/05_tabellen/ccpp.csv"
)

In [None]:
data = df.copy()
target = data.pop("PE")

<p><font color='black' size="5">
EDA (Exploratory Data Analysis) mit Pandas
</font></p>

In [None]:
data.info()

In [None]:
data.describe().T

In [None]:
data.corr()

# 2 |  Prepare

---

<p><font color='black' size="5">ðŸ“‹ Checkliste</font></p>

âœ… Nicht benÃ¶tigte Features lÃ¶schen</br>
âœ… Datentyp ermitteln/Ã¤ndern</br>
âœ… Duplikate ermitteln/lÃ¶schen</br>
âœ… Missing Values behandeln</br>
âœ… AusreiÃŸer behandeln</br>
âœ… Kategorischer Features Kodieren</br>
âœ… Numerischer Features skalieren</br>
âœ… Feature-Engineering (neue Features schaffen)</br>
âœ… DimensionalitÃ¤t reduzieren</br>
âœ… Resampling (Over-/Undersampling)</br>
âœ… Pipeline erstellen/konfigurieren</br>
âœ… Train-Test-Split durchfÃ¼hren</br>

<p><font color='black' size="5">
Datentyp ermitteln
</font></p>

In [None]:
all_col = data.columns
num_col = data.select_dtypes(include="number").columns
cat_col = data.select_dtypes(exclude="number").columns

<p><font color='black' size="5">
Skalierung
</font></p>

In [None]:
scaler = MinMaxScaler()
data[num_col] = scaler.fit_transform(data[num_col])

<p><font color='black' size="5">
Train-Test-Set
</font></p>


In [None]:
data_train, data_test, target_train, target_test = train_test_split(
    data, target, test_size=0.3, random_state=42
)
data_train.shape, data_test.shape, target_train.shape, target_test.shape

# 3 | Modeling
---

<p><font color='black' size="5">ðŸ“‹ Checkliste</font></p>

âœ… Modellauswahl treffen</br>
âœ… Pipeline erweitern/konfigurieren</br>
âœ… Training durchfÃ¼hren</br>
âœ… Hyperparameter Tuning</br>
âœ… Cross-Valdiation</br>
âœ… Bootstrapping</br>
âœ… Regularization</br>

<p><font color='black' size="5">
Zufallszahl initialisieren
</font></p>

In [None]:
set_random_seed(42)
enable_op_determinism()

<p><font size="5">
Modelauswahl
</p>

In [None]:
# Hyperparameter-Objekt erstellen
hp = HyperParameters()

In [None]:
# Funktion, um das Keras-Modell mit variablen Hyperparametern zu erstellen - notwendig fÃ¼r die Verwendung des keras-tuners
def build_model(hp):
    model = keras.Sequential()
    model.add(Input(shape=(4,)))  # Definieren des Input-Layers separat

    # Bestimmen der Anzahl der versteckten Schichten
    num_layers = hp.Int("num_layers", min_value=1, max_value=5, step=1)

    # Schleife, um die jeweilige Anzahl von Schichten hinzuzufÃ¼gen
    for i in range(num_layers):
        model.add(
            Dense(
                units=hp.Int("units_" + str(i), min_value=50, max_value=1000, step=50),
                activation="relu",
            )
        )

    # Output Layer
    model.add(Dense(1))

    # Kompilieren des Modells
    model.compile(
        optimizer=keras.optimizers.Adam(
            hp.Choice("learning_rate", values=[1e-2, 1e-3, 1e-4, 1e-5])
        ),
        loss="mean_absolute_error",
    )
    return model

<p><font size="5">
Hyperparameter Tuning - RandomSearch
</p>

[keras_tuner](https://keras.io/keras_tuner/)

hp.Int: Hierbei wird ein ganzzahliger Hyperparameter mithilfe des hp-Objekts (Hyperparameter) aus KerasTuner definiert.
+ 'units': Dies ist der Name des Hyperparameters. Er bezieht sich  auf die Anzahl der Einheiten in einer neuronalen Netzwerkschicht, was ein gÃ¤ngiger Hyperparameter in maschinellen Lernmodellen ist.
+ min_value=32: Dieser Wert legt den minimal zulÃ¤ssigen Wert fÃ¼r die Anzahl der Einheiten fest, welcher in diesem Fall 32 betrÃ¤gt.
+ max_value=512: Hiermit wird der maximal zulÃ¤ssige Wert fÃ¼r die Anzahl der Einheiten definiert, welcher hier 512 ist.
+ step=32: Dies definiert die Schrittweite fÃ¼r die Suche nach mÃ¶glichen Werten.

Die Anzahl der Einheiten kann nur Werte annehmen, die Vielfache von 32 sind, beginnend bei 32 und endend bei 512 (einschlieÃŸlich). Die mÃ¶glichen Werte wÃ¤ren also 32, 64, 96, ..., 512.

hp.Choice: Diese Funktion definiert einen Hyperparameter vom Typ "Auswahl".
+ 'learning_rate': Dies ist der Name des Hyperparameters. Er bezieht sich auf die Lernrate, ein wichtiger Hyperparameter in der Optimierung neuronaler Netze. Die Lernrate steuert die Schrittweite, mit der das Modell wÃ¤hrend des Trainings seine Parameter anpasst.
+ values=[1e-2, 1e-3, 1e-4]: Diese Liste enthÃ¤lt die mÃ¶glichen Werte, die der Hyperparameter "learning_rate" annehmen kann.

In diesem Fall sind die mÃ¶glichen Werte 10^-2, 10^-3 und 10^-4.

In [None]:
# Keras Tuner Initialisierung
tuner = RandomSearch(
    build_model, objective="val_loss", max_trials=5, project_name="keras_tuner"
)

In [None]:
tuner.search_space_summary()

In [None]:
# Tuner-Suche starten
tuner.search(data_train, target_train, epochs=10, validation_split=0.2)

In [None]:
# Die Top 3 Modelle
best_hps_list = tuner.get_best_hyperparameters(num_trials=3)
for i, hps in enumerate(best_hps_list, start=1):
    num_layers = hps.get("num_layers")  # Anzahl der Layer abrufen
    print(f"Bestes Set {i}:")
    print("Layer:", num_layers)

    # Durch jeden Layer iterieren und die zugehÃ¶rigen 'units' abrufen
    for j in range(num_layers):
        print(f"  Units in Layer {j + 1}:", hps.get(f"units_{j}"))

    print("Lernrate:", hps.get("learning_rate"))
    print("-" * 30)

In [None]:
# tuner.results_summary()

# 4 | Evaluate
---

<p><font color='black' size="5">ðŸ“‹ Checkliste</font></p>

âœ… Prognose (Train, Test) erstellen</br>
âœ… ModellgÃ¼te prÃ¼fen</br>
âœ… Residuenanalyse erstellen</br>
âœ… Feature Importance/Selektion prÃ¼fen</br>
âœ… Robustheitstest erstellen</br>
âœ… Modellinterpretation erstellen</br>
âœ… SensitivitÃ¤tsanalyse erstellen</br>
âœ… Kommunikation (Key Takeaways)</br>

<p><font color='black' size="5">
Prognose auf Basis des besten Modells
</font></p>

In [None]:
# Laden des besten Modells
best_model = tuner.get_best_models(num_models=1)[0]

In [None]:
best_model.summary()

In [None]:
# Verwenden des besten Modells zur Vorhersage
target_pred = best_model.predict(data_test)

<p><font color='black' size="5">
Bestimmtheitsmass
</font></p>

In [None]:
r2 = r2_score(target_test, target_pred)
print(f"Modell: {best_model} -- Test --- Bestimmtheitsmass: {r2:5.2f}")

<p><font color='black' size="5">
Mean Absolut Error
</font></p>

In [None]:
mae = mean_absolute_error(target_test, target_pred)
print(f"Modell: {best_model} -- Test -- Mean Absolute Error: {mae:5.2f}")

# 5 | Deploy
---

<p><font color='black' size="5">ðŸ“‹ Checkliste</font></p>

âœ… Modellexport und -speicherung</br>
âœ… AbhÃ¤ngigkeiten und Umgebung</br>
âœ… Sicherheit und Datenschutz</br>
âœ… In die Produktion integrieren</br>
âœ… Tests und Validierung</br>
âœ… Dokumentation & Wartung</br>