# Wstęp

Normalizacja i standaryzacja należą do najważniejszych operacji, jakie należy przeprowadzić przed przystąpieniem do prowadzenia eksperymentu uczenia maszynowego. Ze względu na fakt, że sieci neuronowe są aktywowane na podstawie podbudzenia (sumy wejść), jest bardzo ważne, żeby różnice w jedostkach nie były na tyle znaczące, by zaburzać proces. W ramach tego notebooka przyjrzymy się metodom normalizacji i standaryzacji - od postych do dużo bardziej złożonych.

In [None]:
%pip install keras_tuner

Collecting keras_tuner
  Downloading keras_tuner-1.4.7-py3-none-any.whl.metadata (5.4 kB)
Collecting kt-legacy (from keras_tuner)
  Downloading kt_legacy-1.0.5-py3-none-any.whl.metadata (221 bytes)
Downloading keras_tuner-1.4.7-py3-none-any.whl (129 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m129.1/129.1 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading kt_legacy-1.0.5-py3-none-any.whl (9.6 kB)
Installing collected packages: kt-legacy, keras_tuner
Successfully installed keras_tuner-1.4.7 kt-legacy-1.0.5


In [None]:
import gc
import os

import pandas as pd
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt
import seaborn as sns
import keras_tuner as kt

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_percentage_error, mean_squared_error
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [None]:
%matplotlib inline

# Wczytanie danych

W ramach tego ćwiczenia będziemy pracować na zbiorze danych **California Housing** opisującym ceny mieszkań w Kaliforni z lat 90-tych XX wieku. Dane zbierane były podczas spisu powszechnego i zostały pogrupowane według tzw. bloków, czyli podgrup o podobnym profilu. Zadaniem będzie przewidzenie mediany cen mieszkań dla określonych dzielnic.

Zbiór danych składa się z następujących cech, opisanych bardzo rożnymi cechami, o zmiennych zakresach wartości:


| cecha                  | opis                                                                                 | wart. min.               | wart. max.               |
|------------------------|--------------------------------------------------------------------------------------|--------------------------|--------------------------|
| **Longitude/latitude** | informacja o położeniu domu dalej  na wschód/zachód lub północ/południe.             | long.: -124.3 lat.: 32.5 | long.: -114.3 lat.: 42.5 |
| **HousingMedianAge**   | Mediana (w latach) wieku mieszkań wchodzących w skład badanego bloku                 | 1                        | 52                       |
| **TotalRooms**         | Całkowita liczba pokojów w badanym bloku                                             | 2                        | 37937                    |
| **TotalBedrooms**      | Całkowita liczba sypialni w badanym bloku                                            | 1                        | 6445                     |
| **population**         | Całkowita liczba osób w badanym bloku                                                | 3                        | 35682                    |
| **households**         | Ilość gospodarstw domowych w badanym bloku, tzn. grup ludzi zamieszkujących razem    | 1                        | 6082                     |
| **medianIncome**       | Mediana przychodu gospodarstwa domowego (w dziesiątkach tysięcy USD)                 | 0.5                      | 15                       |
| **medianHouseValue**   | Zmienna zależna/predykcyjna - mediana wartości domu w badanym bloku (mierzona w 100 tyś. USD) | 14999                    | 500001                   |

Zmienne nie są znormalizowane, wyrażono je w różnych jednostkach, zbiór zawiera także wartości odstające, tzn. znacznie wykraczające poza pożądany zakres wartości.

In [None]:
from sklearn.datasets import fetch_california_housing

In [None]:
california = fetch_california_housing()

In [None]:
#??? Proszę wykonać opis danych

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block group
        - HouseAge      median house age in block group
        - AveRooms      average number of rooms per household
        - AveBedrms     average number of bedrooms per household
        - Population    block group population
        - AveOccup      average number of household members
        - Latitude      block group latitude
        - Longitude     block group longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived

In [None]:
X = pd.DataFrame(california.data, columns=california.feature_names)
y = california.target

In [None]:
X.describe()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,3.870671,28.639486,5.429,1.096675,1425.476744,3.070655,35.631861,-119.569704
std,1.899822,12.585558,2.474173,0.473911,1132.462122,10.38605,2.135952,2.003532
min,0.4999,1.0,0.846154,0.333333,3.0,0.692308,32.54,-124.35
25%,2.5634,18.0,4.440716,1.006079,787.0,2.429741,33.93,-121.8
50%,3.5348,29.0,5.229129,1.04878,1166.0,2.818116,34.26,-118.49
75%,4.74325,37.0,6.052381,1.099526,1725.0,3.282261,37.71,-118.01
max,15.0001,52.0,141.909091,34.066667,35682.0,1243.333333,41.95,-114.31


# Uczenie sieci nieznormalizowanej

Dla porównania, zbudujemy dwa modele na **oryginalnych** danych, aby zobaczyć skalę problemu i wpływu braku normalizacji danych.

<div class='alert alert-block alert-warning'>
    <b>Zadanie</b>: przeprowadźmy prosty ekspertyment:
    <ol>
        <li>Podziel oryginalne dane na train-test, (% train = 0.8), random_state=123</li>
        <li>Wyszkol model, który zawsze przewiduje średnią wartości w zbiorze (<code>DummyRegressor</code>) treningowym</li>
        <li>Wyszkol model sieci neuronowej z dwoma warstwami ukrytmi <code> (Dense:8, relu), (Dense:8, relu), (Dense:1, relu) </code> i przewidującą wynik. Wielkość batcha i il. epok dobierz dowolnie.</li>
        <li>Dla sieci neurnowej użyj metryk: <code>mean_absolute_error, mean_absolute_percentage_error</code></li>
        <li>Porównaj otrzymane wyniki na danych testowych używając metryk <code>MSE, MAPE</code></li>
    </ol>
</div>


In [None]:
#???

In [None]:
from sklearn.dummy import DummyRegressor
#???

DummyRegressor()

Sprawdzenie, czy wynik jest zgodny z oczekiwaniami:

In [None]:
#???


MAPE dummy: 0.6177900742234355
MSE dummy: 1.3298460219228103


In [None]:
#???

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


Sprawdzenie, czy wynik jest zgodny z oczekiwaniami:

In [None]:
#???

MAPE: 1.0
MSE: 5.590082140508696


<div class='alert alert-block alert-info'>
Zapewne Twoje wyniki nie są zbyt zadowalające - bez nawet podstawowej normalizacji, sieć neuronowa powinna mieć około 100% błędu względnego. Tymczasem klasyfikator 'dummy' oscyluje w okolicach błędu na poziomie 61%. Nie jest dobrze.
</div>

# Skalowanie min-max

Sprawdzimy teraz wpływ skalowania min-max na wyniki uzyskiwane przez sieć neuronową.

<div class='alert alert-block alert-warning'>
    <b>Zadanie</b>: przeprowadźmy prosty ekspertyment:
    <ol>
        <li>Utwórz obiekty typu <code>MinMax Scaler</code> z pakietu Sklearn.</li>
        <li>Przetrenuj go na danych treningowych <code>X</code>, a następnie przetransformuj z jego użyciem dane treningowe i testowe, zapisując do osobnej zmiennej.</li>
        <li>Wyszkol model sieci neuronowej <b>o identycznzej architekutrze jak przedtem</b>, ale posługując się danymi przeskalowanymi techniką Min-Max.</li>
        <li>Dla sieci neurnowej użyj metryk: <code>mean_absolute_error, mean_absolute_percentage_error</code></li>
        <li>Porównaj otrzymane wyniki z poprzednią siecią i regresorem do średniej, na przeskalowanych danych testowych używając metryk <code>MSE, MAPE</code></li>
    </ol>
</div>

In [None]:
#???

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


Sprawdzenie, czy wynik jest zgodny z oczekiwaniami:

In [None]:
yhat_model2 = model2.predict(minmax.transform(X_test))

mape_model2 = mean_absolute_percentage_error(y_test, yhat_model2)
mse_model2 = mean_squared_error(y_test, yhat_model2)

print(f"MAPE model2: {mape_model2}")
print(f"MSE mdoel2: {mse_model2}")

assert 0.25 <= mape_model2 <= 0.45

MAPE model2: 0.32034155210231635
MSE mdoel2: 0.5317505017608231


<div class='alert alert-block alert-info'>
Uzyskane wyniki powinny się znacząco poprawić - spadek ze 100% błędu [%] do około 25-45% jest bardzo dużą poprawą.
</div>

# Standaryzacja danych

Wcześniej wykorzystywaliśmy skalowanie min-max. Teraz wykorzystamy typową

1.   Element listy
2.   Element listy

standaryzację danych.

<div class='alert alert-block alert-warning'>
    <b>Zadanie</b>: przeprowadź prosty ekspertyment:
    <ol>
        <li>Utwórz obiekty typu <code>StandardScaler</code> z pakietu Sklearn.</li>
        <li>Przetrenuj go na danych treningowych <code>X</code>, a następnie przetransformuj z jego użyciem dane treningowe i testowe, zapisując do osobnej zmiennej.</li>
        <li>Wyszkol model sieci neuronowej <b>o identycznzej architekutrze jak przedtem</b>, ale posługując się danymi przeskalowanymi techniką Standaryzacji.</li>
        <li>Dla sieci neurnowej użyj metryk: <code>mean_absolute_error, mean_absolute_percentage_error</code></li>
        <li>Porównaj otrzymane wyniki z poprzednią siecią i regresorem do średniej, na przeskalowanych danych testowych używając metryk <code>MSE, MAPE</code></li>
    </ol>
</div>

In [None]:
#???

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


Sprawdzenie, czy wynik jest zgodny z oczekiwaniami:

In [None]:
yhat_model3 = model3.predict(sscaler.transform(X_test))

mape_model3 = mean_absolute_percentage_error(y_test, yhat_model3)
mse_model3 = mean_squared_error(y_test, yhat_model3)

print(f"MAPE model3: {mape_model3}")
print(f"MSE model3: {mse_model3}")

assert 0.2 <= mape_model3 <= 0.35

MAPE model3: 0.27119682301132175
MSE model3: 0.40499974028669555


<div class='alert alert-block alert-info'>
Uzyskane wyniki powinny się znacząco poprawić w stosunku do początkowego modelu - spadek ze 100% błędu [%] do około 20-35% jest bardzo dużą poprawą. Jendocześnie, różnica pomiędzy normalizacją a standardyzacją nie powinna być zbyt zauważalna - oba modele powinny sprawować się bardzo podobnie.
</div>

# Batch Norm

W tej części notebooka wykorzystamy technikę, która pozwala sieci neuronowej przeprowadzić normalizację danych "według uznania", tzn. w taki sposób, który będzie najlepiej poprawiał uzyskiwane przez nią wyniki. Uzyskamy to dzięki dodaniu nowej warstwy: 'batch norm' na samym początku sieci.

<div class='alert alert-block alert-warning'>
    <b>Zadanie</b>: przeprowadź prosty ekspertyment:
    <ol>
        <li>Wyszkol model sieci neuronowej, którego pierwsza wastwa to <code>BatchNormalization</code>, która pozwoli odpowiednio dostosować dane  </li>
        <li>Reszta architektury sieci (kolejne warstwy i aktywacje) powinna być <b>identyczna jak przedtem</b></li>
        <li>Dla sieci neurnowej użyj metryk: <code>mean_absolute_error, mean_absolute_percentage_error</code></li>
        <li>Porównaj otrzymane wyniki z poprzednią siecią i regresorem do średniej, na przeskalowanych danych testowych używając metryk <code>MSE, MAPE</code></li>
    </ol>
</div>

In [None]:
#???

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


In [None]:
#???

assert 0.2 <= mape_model4 <= 0.35

MAPE model4: 0.24743245026317312
MSE model4: 0.4882442248505259


<div class='alert alert-block alert-info'>
Uzyskane wyniki powinny się znacząco poprawić w stosunku do początkowego modelu - spadek ze 100% błędu [%] do około 20-35% jest bardzo dużą poprawą. Jendocześnie, różnica pomiędzy normalizacją, standardyzacją a użyciem techniki <b>batch normalization </b> nie powinna być zbyt zauważalna - wszystkie trzy modele powinny się sprawować w podobny sposób.
</div>

# To wszystko?

Sprawdźmy we własnym zakresie, jak zmiana architektury sieci, zmiana wielkości batcha lub **ilości** warstw BatchNormalization (przeplatanych warstwami Dense) wpłynie na uzyskany wynik. W kolejnych notebookach będziemy się zajmować dokładną analizą, czy uzyskane wyniki są **statystycznie istotnie lepsze**, jednak na raize można to sprawdzić "naocznie" przez porównanie uzyskanych statystyk.

Warto w tym miejscu zaznaczyć, że przy wykorzystaniu **Batch normalization** nie ma raczej sensu używanie innych procedur normalizacji/standdardyzacji, ponieważ sieć neuronowa "zajmie się" tym wewnętrznie w procesie uczenia.

<div class='alert alert-block alert-warning'>
    <b>Zadanie</b>: przeprowadźmy kompleksowy eksperyment szukając najlepszej architektury sieci oraz sposobu normalizacji danych - Min-max, standaryzacja lub <b>batch normalization</b>.
    Możemy wykorzystywać Keras Tuner lub "ręczną" walidację krzyżową - według uznania. Jeśli samodizelnie chcesz prowadzić wybór architeltury, wówczas:
    <ol>
        <li>"Opakowauj" różne architektury modeli za pomocą <code>tf.keras.wrappers.scikit_learn.KerasRegressor</code></li>
        <li>Prowadź 10-o krotną walidację krzyżową na zbiorze treningowym, przyjmując jako metrykę MSE</li>
        <li>Na bieząco porónuj otrzymywane wyniki z rezultatami na zbiorze testowym</li>
        <li>Na koniec - gdy na podstawie eksperymentów wybierzesz najlepszy wariant,  przeszkol wybraną architekturę sieci na <b>całym zbiorze treningowym</b>, zbierz metryki MSE i MAPE i porównaj ze zbiorem testowym</li>
    </ol>
</div>

## Ręczny tuning

In [None]:
#???

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.metrics import make_scorer

sklearn_wrap = tf.keras.wrappers.scikit_learn.KerasRegressor(build_model, epochs=5, batch_size=16, verbose=0)
cv_scores = cross_val_score(sklearn_wrap, X_train, y_train, cv=10, scoring=make_scorer(mean_squared_error))

  sklearn_wrap = tf.keras.wrappers.scikit_learn.KerasRegressor(build_model, epochs=5, batch_size=16, verbose=0)


In [None]:
np.mean(cv_scores)

0.9697879603539429

In [None]:
final_model = build_model()
final_model.fit(X_train, y_train, batch_size=32, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fd7dfb91c40>

In [None]:
yhat_final = final_model.predict(X_test)

print(f"MAPE final: {mean_absolute_percentage_error(y_test, yhat_final)}")
print(f"MSE final: {mean_squared_error(y_test, yhat_final)}")

MAPE final: 0.2710390645212285
MSE final: 0.5080479103305098


## Keras tuner

In [None]:
def complex_architecture_search(hp):
    model = tf.keras.models.Sequential()
    model.add(tf.keras.layers.BatchNormalization())

    hp_nlayers = hp.Int('nlayers', min_value=1, max_value=4, step=1)
    for l_idx in range(hp_nlayers):
        hp_units = hp.Int(f'units_layer_{l_idx}', min_value=4, max_value=32, step=2)
        hp_activations = hp.Choice(f'activation_layer_{l_idx}', values=['relu', 'tanh'])
        model.add(tf.keras.layers.Dense(hp_units, hp_activations, input_shape=(X_train.shape[1],)))
    model.add(tf.keras.layers.Dense(1, 'relu'))
    model.compile(optimizer='adam', loss='mean_squared_error', metrics=[tf.keras.metrics.mean_absolute_error, tf.keras.metrics.mean_absolute_percentage_error])
    return model

In [None]:
tuner = kt.Hyperband(complex_architecture_search,
                     objective='val_loss',
                     max_epochs=10,
                     hyperband_iterations=5,
                     directory=os.path.normpath(os.path.join("/content/", "keras_tuner")),
                     project_name='tuner_regressor')

In [None]:
tuner.search(
    X_train,
    y_train,
    epochs=10,
    validation_split=0.2,
    callbacks=[tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=5)])

Trial 150 Complete [00h 00m 22s]
val_loss: 0.3846227526664734

Best val_loss So Far: 0.3545277416706085
Total elapsed time: 00h 20m 04s


In [None]:
best_params = tuner.get_best_hyperparameters()[0]
for i in range(best_params.get('nlayers')):
    print(f"Layer {i}, activation:", best_params.get(f'activation_layer_{i}'), "units: ", best_params.get(f'units_layer_{i}'))

Layer 0, activation: tanh units:  22
Layer 1, activation: relu units:  20
Layer 2, activation: tanh units:  26
Layer 3, activation: relu units:  30


In [None]:
def tuner_builder():
    model = tuner.hypermodel.build(best_params)
    return model

In [None]:
tuner_model = tuner_builder()
tuner_model.fit(X_train, y_train, epochs=5, batch_size=16)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fd7e22eda00>

In [None]:
yhat_tuner = tuner_model.predict(X_test)
print(f"MAPE final: {mean_absolute_percentage_error(y_test, yhat_tuner)}")
print(f"MSE final: {mean_squared_error(y_test, yhat_tuner)}")

MAPE final: 0.2221618037266241
MSE final: 0.3484366660158147
