# Importowanie bibliotek
W projekcie wykorzystano następujące biblioteki:
- TensorFlow i Keras: Do budowy i trenowania modelu głębokiego uczenia.
- NumPy i Pandas: Do manipulacji danymi i ich wstępnego przetwarzania.
- Scikit-learn: Do skalowania danych oraz podziału na zbiory treningowe i testowe.
- Keras Tuner: Do optymalizacji hiperparametrów modelu.
- Callbacks w Keras: EarlyStopping i ReduceLROnPlateau zapewniają zatrzymanie treningu w odpowiednim momencie i dostosowywanie tempa uczenia.

In [14]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau
import kerastuner as kt

# Wczytanie i przygotowanie danych
Źródło danych: Dane zostały wczytane z pliku CSV (data.csv).

Filtracja cech: Wybrano istotne numeryczne cechy do modelowania regresji:
- Size(L) - rozmiar partii piwa.
- OG, FG - gęstość początkowa i końcowa.
- IBU - jednostki goryczki.
- Color - barwa piwa.
- BoilSize, BoilTime, BoilGravity, Efficiency - parametry procesu warzenia.

Uzupełnianie braków danych: Wszystkie brakujące wartości zostały zastąpione średnią dla każdej cechy.

Normalizacja danych: Dane wejściowe zostały znormalizowane przy użyciu StandardScaler, aby wszystkie cechy miały porównywalne 
zakresy wartości.

Podział danych: Dane podzielono na zbiór treningowy (80%) i testowy (20%).

In [15]:
data = pd.read_csv('../data.csv')

numeric_columns = ['Size(L)', 'OG', 'FG', 'IBU', 'Color', 'BoilSize', 'BoilTime', 'BoilGravity', 'Efficiency']
X = data[numeric_columns].copy()

X = X.fillna(X.mean())

y = data['ABV'].copy()

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Struktura modelu
Zbudowano model sekwencyjny z następującymi warstwami:

Warstwa wejściowa:
- Liczba neuronów dynamicznie dobierana z przedziału 128–512.
- Funkcja aktywacji: ReLU.
Warstwy ukryte:
- Pierwsza warstwa: 256 neuronów, aktywacja ReLU.
- Druga warstwa: 112 neuronów, aktywacja ReLU.
- Trzecia warstwa: 48 neuronów, aktywacja ReLU.
- Każda warstwa ukryta zawierała:
  - Batch Normalization: Stabilizacja procesu uczenia poprzez normalizację wsadową.
  - Dropout: Dynamicznie dobierany (20–70%), aby zapobiec przeuczeniu modelu.
  
Warstwa wyjściowa:
- Jeden neuron, który zwraca przewidywaną wartość regresji (zawartość alkoholu).

Kompilacja modelu
- Optymalizator: Adam, dynamicznie dobierana szybkość uczenia (0.0001–0.01).
- Funkcja straty: mean_squared_error (średni błąd kwadratowy).
- Metryka: mean_absolute_error (średni błąd bezwzględny).

In [16]:
import kerastuner as kt
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, BatchNormalization, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.layers import Input

units_layer_1_list = [128, 160, 192, 224, 256, 288, 320, 352, 384, 416, 448, 480, 512]
units_layer_2_list = [64, 96, 128, 160, 192, 224, 256]
units_layer_3_list = [32, 48, 64, 80, 96, 112, 128]
units_layer_4_list = [16, 32, 48, 64]
dropout_list = [0.2, 0.3, 0.4, 0.5, 0.6, 0.7]
learning_rate_list = [1e-4, 3e-4, 1e-3, 3e-3, 1e-2]
batch_size_list = [16, 32, 48, 64, 80, 96, 112, 128]

def build_model(hp):
    model = Sequential()
    
    model.add(Input(shape=(X_train.shape[1],)))
    model.add(Dense(
        units=hp.Choice('units_layer_1', values=units_layer_1_list),  
        activation='relu'
    ))
    model.add(BatchNormalization())
    model.add(Dropout(hp.Choice('dropout_layer_1', values=dropout_list))) 
    
    model.add(Dense(
        units=hp.Choice('units_layer_2', values=units_layer_2_list), 
        activation='relu'
    ))
    model.add(BatchNormalization())
    model.add(Dropout(hp.Choice('dropout_layer_2', values=dropout_list))) 
    
    model.add(Dense(
        units=hp.Choice('units_layer_3', values=units_layer_3_list),
        activation='relu'
    ))
    model.add(BatchNormalization())
    model.add(Dropout(hp.Choice('dropout_layer_3', values=dropout_list)))  
    
    model.add(Dense(
        units=hp.Choice('units_layer_4', values=units_layer_4_list),
        activation='relu'
    ))
    model.add(BatchNormalization())
    model.add(Dropout(hp.Choice('dropout_layer_4', values=dropout_list)))
    
    model.add(Dense(1)) 
    
    model.compile(
        optimizer=Adam(learning_rate=hp.Choice('learning_rate', values=learning_rate_list)),  # Wybór z listy
        loss='mean_squared_error',
        metrics=['mean_absolute_error']
    )
    
    return model


# Proces tuningu hiperparametrów
Metoda tuningu: Bayesian Optimization (optymalizacja bayesowska).

Zakres testowanych hiperparametrów:
- Liczba neuronów w każdej warstwie:
  - Warstwa 1: 128–512 neuronów.
  - Warstwa 2: 64–256 neuronów.
  - Warstwa 3: 32–128 neuronów.
  - Warstwa 4: 16–64 neuronów.
- Dropout: 0.2–0.7 (krok 0.1).
- Learning rate: 0.0001–0.01 (skala logarytmiczna).
- Batch size: 16–128.

Liczba prób: 20 (maksymalna liczba konfiguracji).

Proces uczenia
- Parametry treningu:
  - Maksymalna liczba epok: 20.
  - Batch size: Dynamicznie dobierany, w przykładzie 32.
- Callbacki:
  - EarlyStopping: Monitorowanie straty walidacji (val_loss), zatrzymanie po 5 epokach bez poprawy.
  - TensorBoard: Monitorowanie wyników uczenia w czasie rzeczywistym.

In [17]:
tuner = kt.BayesianOptimization(build_model,
    objective='val_mean_absolute_error',
    max_trials=20,
    directory='logs/fit',
    project_name='regresja_alkoholu'
)
early_stopping = EarlyStopping(monitor='val_loss', 
                               patience=5, 
                               restore_best_weights=True)

tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir='logs/fit/regresja_alkoholu')

tuner.search(X_train, y_train, 
             epochs=20, 
             validation_split=0.2, 
             callbacks=[early_stopping, tensorboard_callback],
             batch_size=32)

Trial 20 Complete [00h 00m 52s]
val_mean_absolute_error: 0.30843237042427063

Best val_mean_absolute_error So Far: 0.2901741564273834
Total elapsed time: 00h 15m 28s


In [18]:
best_model = tuner.get_best_models(num_models=1)[0]

best_model.summary()

  saveable.load_own_variables(weights_store.get(inner_path))


# Wyniki
Najlepszy model: Osiągnął następujące wyniki na zbiorze walidacyjnym:
- Średni błąd bezwzględny (MAE): 0.29.
- Średni błąd kwadratowy (MSE): ~0.44.

Finalny model: Po zakończeniu treningu osiągnął MAE na zbiorze walidacyjnym na poziomie 0.56.

In [19]:
history = best_model.fit(
    X_train, y_train,
    epochs=20,
    validation_split=0.2,
    batch_size=32,
    callbacks=[early_stopping, tensorboard_callback],
)

best_model.summary()

final_val_mae = history.history['val_mean_absolute_error'][-1]
print(f"Final Validation MAE: {final_val_mae:.2f}")

Epoch 1/20
[1m1478/1478[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 2ms/step - loss: 1.4245 - mean_absolute_error: 0.6606 - val_loss: 0.7359 - val_mean_absolute_error: 0.4659
Epoch 2/20
[1m1478/1478[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 2ms/step - loss: 1.2478 - mean_absolute_error: 0.6449 - val_loss: 0.7179 - val_mean_absolute_error: 0.4859
Epoch 3/20
[1m1478/1478[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 2ms/step - loss: 1.2960 - mean_absolute_error: 0.6279 - val_loss: 0.5914 - val_mean_absolute_error: 0.3492
Epoch 4/20
[1m1478/1478[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 2ms/step - loss: 1.4735 - mean_absolute_error: 0.6497 - val_loss: 0.4930 - val_mean_absolute_error: 0.2981
Epoch 5/20
[1m1478/1478[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 2ms/step - loss: 1.5843 - mean_absolute_error: 0.6720 - val_loss: 0.7277 - val_mean_absolute_error: 0.5460
Epoch 6/20
[1m1478/1478[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [

Final Validation MAE: 0.56


In [20]:
%load_ext tensorboard
%tensorboard --logdir logs/fit/regresja_alkoholu