<a href="https://colab.research.google.com/github/KacperLudwiczak/Data-Science-Study/blob/main/Lekcja_3_Business_Case.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Import

In [None]:
import numpy as np
from sklearn import preprocessing

raw_csv_data = np.loadtxt('Audiobooks_data.csv', delimiter=',')

unscaled_inputs_all = raw_csv_data[:,1:-1]
targets_all = raw_csv_data[:,-1]

# Ten kod zaimportuje potrzebne biblioteki, wczyta dane z pliku CSV o nazwie 'Audiobooks_data.csv' i przypisze dane do zmiennych. Konkretnie, nieprzeskalowane dane wejściowe są przechowywane w zmiennej "unscaled_inputs_all", a cele są przechowywane w zmiennej "targets_all". Przed przetwarzaniem danych, zazwyczaj należy przeskalować dane, co zostanie wykonane za pomocą biblioteki sklearn.

## Balance the dataset

In [None]:
num_one_targets = int(np.sum(targets_all))
zero_targets_counter = 0
indices_to_remove = []

for i in range(targets_all.shape[0]):
  if targets_all[i] ==0:
    zero_targets_counter +=1
    if zero_targets_counter > num_one_targets:
      indices_to_remove.append(i)

unscaled_inputs_equal_priors = np.delete(unscaled_inputs_all, indices_to_remove, axis = 0)
targets_equal_priors = np.delete(targets_all, indices_to_remove, axis=0)

# Ten kod ma na celu zrównoważenie liczby danych wejściowych dla dwóch klas. Pierwsza pętla oblicza ilość celów, które mają wartość 1, a następnie oblicza ilość celów, które mają wartość 0, przechodząc po wszystkich celach. Następnie oblicza indeksy danych wejściowych, które należy usunąć z niezrównoważonych danych, aby uzyskać zrównoważone dane wejściowe.
# W drugiej pętli, każdy indeks danych wejściowych, które mają wartość 0, są usuwane, jeśli przekraczają ilość danych wejściowych, które mają wartość 1. W ten sposób dane wejściowe będą miały równą liczbę przykładów dla obu klas. Skasowane indeksy są zapisywane w zmiennej "indices_to_remove".
# Na koniec, zmienne "unscaled_inputs_equal_priors" i "targets_equal_priors" przechowują odpowiednio przeskalowane dane wejściowe i cele, które zostały zrównoważone.

## Standardize the inputs

In [None]:
scaled_inputs = preprocessing.scale(unscaled_inputs_equal_priors)

# Ten kod przeprowadza standardyzację (znormalizowanie) nieprzeskalowanych danych wejściowych, które zostały zrównoważone pod względem liczby przykładów dla obu klas. Standardyzacja polega na przeskalowaniu każdej cechy (kolumny) danych wejściowych tak, aby miała średnią wartość równą 0 i odchylenie standardowe równe 1.
# W tym celu używana jest funkcja preprocessing.scale z biblioteki sklearn. W ten sposób, scaled_inputs przechowuje przeskalowane dane wejściowe, które są gotowe do użycia w modelu regresji logistycznej (lub innym modelu uczenia maszynowego) do dalszej analizy.

## Shuffle the data

In [None]:
shuffled_indices = np.arange(scaled_inputs.shape[0])
np.random.shuffle(shuffled_indices)

shuffled_inputs = scaled_inputs[shuffled_indices]
shuffled_targets = targets_equal_priors[shuffled_indices]

# Ten kod tasuje dane wejściowe i odpowiadające im cele, aby uniknąć wpływu jakiejkolwiek struktury, która mogłaby wpłynąć na proces uczenia się modelu.
# W pierwszej linii, tworzony jest wektor indeksów, który odpowiada indeksom wierszy w macierzy scaled_inputs. Następnie funkcja np.random.shuffle tasuje te indeksy w losowej kolejności.
# W drugiej i trzeciej linii, macierze shuffled_inputs i shuffled_targets są tworzone, aby przechowywać przetasowane dane wejściowe i odpowiadające im cele. Do przetasowania używana jest macierz shuffled_indices, która przechowuje indeksy w losowej kolejności. W ten sposób, indeksy w obu macierzach shuffled_inputs i shuffled_targets odpowiadają teraz innym wierszom niż w macierzy pierwotnej.
# Efektem końcowym jest uzyskanie tasowanych danych wejściowych i odpowiadających im celów, które będą używane do treningu i testowania modelu regresji logistycznej (lub innego modelu uczenia maszynowego) w sposób losowy i bez wpływu na istniejącą strukturę danych.

# Split the dataset into train, validation, and test

In [None]:
samples_count = shuffled_inputs.shape[0]

train_samples_count = int(0.8 * samples_count)
validation_samples_count = int(0.1 * samples_count)
test_samples_count = samples_count - train_samples_count - validation_samples_count

train_inputs = shuffled_inputs[:train_samples_count]
train_targets = shuffled_targets[:train_samples_count]

validation_inputs = shuffled_inputs[train_samples_count:train_samples_count+validation_samples_count]
validation_targets = shuffled_targets[train_samples_count:train_samples_count+validation_samples_count]

test_inputs = shuffled_inputs[train_samples_count+validation_samples_count:]
test_targets = shuffled_targets[train_samples_count+validation_samples_count:]

print(np.sum(train_targets), train_samples_count, np.sum(train_targets) / train_samples_count)
print(np.sum(validation_targets), validation_samples_count, np.sum(validation_targets) / validation_samples_count)
print(np.sum(test_targets), test_samples_count, np.sum(test_targets) / test_samples_count)

# Ten kod dzieli przetasowane dane wejściowe i odpowiadające im cele na trzy zbiory: treningowy, walidacyjny i testowy.
# W pierwszych trzech liniach, liczba wszystkich próbek jest przechowywana w samples_count.
# W następnej linii, liczba próbek w zbiorze treningowym jest obliczana na podstawie wartości samples_count. Jest to 80% wszystkich próbek, co odpowiada części treningowej.
# Następnie, liczba próbek w zbiorze walidacyjnym jest obliczana jako 10% wartości samples_count.
# Ostatnia linia oblicza liczbę próbek w zbiorze testowym jako pozostałe próbki.
# W kolejnych linijkach, macierze train_inputs i train_targets są tworzone jako pierwsze train_samples_count wierszy z shuffled_inputs i shuffled_targets, odpowiednio.
# Macierze validation_inputs i validation_targets są następnie tworzone jako kolejne validation_samples_count wierszy z shuffled_inputs i shuffled_targets, odpowiednio.
# Wreszcie, macierze test_inputs i test_targets są tworzone jako pozostałe próbki w shuffled_inputs i shuffled_targets.
# Ostatnie trzy linijki kodu drukują sumę etykiet dla każdego zbioru (treningowego, walidacyjnego, testowego) oraz średnią liczbę etykiet pozytywnych w każdym zbiorze. Ta informacja jest przydatna do monitorowania zrównoważenia klas w każdym zbiorze.

1772.0 3579 0.4951103660240291
222.0 447 0.4966442953020134
243.0 448 0.5424107142857143


## Save the three datasets in .npz

In [None]:
np.savez('Audiobooks_data_train', inputs=train_inputs, targets=train_targets)
np.savez('Audiobooks_data_validation', inputs=validation_inputs, targets=validation_targets)
np.savez('Audiobooks_data_test', inputs=test_inputs, targets=test_targets)

# Te linie kodu zapisują trzy pary plików wejściowych-wyjściowych za pomocą np.savez(), co umożliwia zapisanie kilku macierzy NumPy w jednym pliku.
# Każdy zestaw danych składa się z dwóch macierzy: inputs i targets.
# Pierwszy argument funkcji np.savez() określa nazwę pliku, który zostanie utworzony, a pozostałe argumenty określają pary klucz-wartość, gdzie klucz jest nazwą macierzy, a wartość jest samą macierzą.
# Tak więc pierwsza linia kodu zapisuje dane treningowe, druga linia kodu zapisuje dane walidacyjne, a trzecia linia kodu zapisuje dane testowe.

## Import the relevant libraries

In [None]:
import numpy as np
import tensorflow as tf

## Data

In [None]:
npz = np.load('Audiobooks_data_train.npz')

train_inputs = npz['inputs'].astype(np.float)
train_targets = npz['targets'].astype(np.int)

npz = np.load('Audiobooks_data_validation.npz')
validation_inputs, validation_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np.int)

npz = np.load('Audiobooks_data_test.npz')
test_inputs, test_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np.int)

# Ten kod ładuje dane z trzech różnych plików, które prawdopodobnie są zestawami treningowymi, walidacyjnymi i testowymi dla projektu związanego z audiobookami. Dane są ładowane z plików .npz, który jest skompresowanym formatem pliku używanym przez NumPy do przechowywania tablic.
# Po załadowaniu danych są one przechowywane w zmiennych o opisowych nazwach. Dane treningowe są przechowywane w train_inputs (tablica wartości zmiennoprzecinkowych) i train_targets (tablica wartości całkowitych). Dane walidacyjne są przechowywane w validation_inputs i validation_targets, a dane testowe w test_inputs i test_targets.
# Zauważ, że metoda astype jest używana do konwersji wczytanych danych na odpowiednie typy danych (typ zmiennoprzecinkowy dla wejść i typ całkowitoliczbowy dla celów). Może to być konieczne, ponieważ dane były przechowywane w skompresowanym formacie lub były pierwotnie przechowywane w innym typie danych.
# Warto zauważyć, że ten kod zakłada, że trzy pliki .npz znajdują się w tym samym katalogu co skrypt i zawierają dane o oczekiwanych nazwach ('inputs' i 'targets'). Jeśli pliki lub dane nie są obecne lub są sformatowane inaczej, kod prawdopodobnie zawiedzie.

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  train_inputs = npz['inputs'].astype(np.float)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  train_targets = npz['targets'].astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  validation_inputs, validation_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  validation_inputs, validation_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  test_inputs, test_targets = npz['inputs'].astype(np.float), npz['targets'].astype(np

## Model

In [None]:
input_size = 10
output_size = 2
hidden_layer_size = 50

model = tf.keras.Sequential([
    tf.keras.layers.Dense(hidden_layer_size, activation='relu'), # 1st hidden layer
    tf.keras.layers.Dense(hidden_layer_size, activation='relu'), # 2nd hidden layer
    tf.keras.layers.Dense(output_size, activation='softmax') # output layer
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

batch_size = 100
max_epochs = 100
early_stopping = tf.keras.callbacks.EarlyStopping(patience=2)

model.fit(train_inputs, # train inputs
          train_targets, # train targets
          batch_size=batch_size, # batch size
          epochs=max_epochs, # epochs that we will train for (assuming early stopping doesn't kick in)
          callbacks=[early_stopping], # early stopping
          validation_data=(validation_inputs, validation_targets), # validation data
          verbose = 2 # making sure we get enough information about the training process
          )

# Ten kod definiuje i trenuje sieć neuronową przy użyciu biblioteki Keras w TensorFlow. Zostaje utworzony model Sequential, który zawiera trzy warstwy - dwie warstwy ukryte z aktywacją relu oraz warstwa wyjściowa z aktywacją softmax. Warstwy ukryte zawierają po 50 neuronów, a rozmiar wejścia i wyjścia wynosi odpowiednio 10 i 2.
# Model jest kompilowany z użyciem optymalizatora adam, funkcji straty sparse_categorical_crossentropy i miary jakości accuracy. sparse_categorical_crossentropy jest funkcją straty dla przypadków, gdy cele są przypisane do całkowitych wartości, a nie jako wektory one-hot.
# Następnie sieć jest trenowana na danych treningowych (train_inputs i train_targets) z batch size wynoszącym 100, maksymalną liczbą epok wynoszącą 100 i wykorzystaniem wcześniejszego zatrzymania (EarlyStopping) w celu uniknięcia przeuczenia. Dane walidacyjne (validation_inputs i validation_targets) są wykorzystywane do oceny dokładności modelu podczas treningu, a verbose ustawiony na 2 pozwala na wyświetlanie szczegółowych informacji na temat procesu trenowania.
# Warto zauważyć, że warstwy ukryte z funkcją aktywacji relu pomagają w ekstrakcji cech z wejścia, a warstwa wyjściowa z funkcją aktywacji softmax dokonuje klasyfikacji na dwie możliwe klasy.

Epoch 1/100
36/36 - 1s - loss: 0.5803 - accuracy: 0.6818 - val_loss: 0.5072 - val_accuracy: 0.7315 - 987ms/epoch - 27ms/step
Epoch 2/100
36/36 - 0s - loss: 0.4654 - accuracy: 0.7527 - val_loss: 0.4464 - val_accuracy: 0.7651 - 123ms/epoch - 3ms/step
Epoch 3/100
36/36 - 0s - loss: 0.4184 - accuracy: 0.7795 - val_loss: 0.4114 - val_accuracy: 0.7897 - 124ms/epoch - 3ms/step
Epoch 4/100
36/36 - 0s - loss: 0.3940 - accuracy: 0.7921 - val_loss: 0.4021 - val_accuracy: 0.7763 - 102ms/epoch - 3ms/step
Epoch 5/100
36/36 - 0s - loss: 0.3784 - accuracy: 0.7966 - val_loss: 0.3934 - val_accuracy: 0.7696 - 111ms/epoch - 3ms/step
Epoch 6/100
36/36 - 0s - loss: 0.3696 - accuracy: 0.7991 - val_loss: 0.3758 - val_accuracy: 0.8076 - 112ms/epoch - 3ms/step
Epoch 7/100
36/36 - 0s - loss: 0.3597 - accuracy: 0.8142 - val_loss: 0.3816 - val_accuracy: 0.7718 - 117ms/epoch - 3ms/step
Epoch 8/100
36/36 - 0s - loss: 0.3535 - accuracy: 0.8187 - val_loss: 0.3654 - val_accuracy: 0.8009 - 109ms/epoch - 3ms/step
Epoch 9

<keras.callbacks.History at 0x7fb60bd22e80>

## Test the model

In [None]:
test_loss, test_accuracy = model.evaluate(test_inputs, test_targets)
print('\nTest loss: {0:.2f}. Test accuracy: {1:.2f}%'.format(test_loss, test_accuracy*100.))

# Ten kod oblicza stratę i dokładność modelu na danych testowych (test_inputs i test_targets) za pomocą metody evaluate z biblioteki Keras i wyświetla wyniki w czytelny sposób. Wartość straty i dokładność są przechowywane w zmiennych test_loss i test_accuracy.
# Wywołanie metody evaluate oblicza stratę i dokładność modelu na podstawie danych testowych. Wynik test_loss to wartość funkcji straty dla danych testowych, a test_accuracy to dokładność modelu dla danych testowych. Ostatecznie wynik test_loss i test_accuracy są wyświetlane za pomocą metody print i formatowane z użyciem format.


Test loss: 0.32. Test accuracy: 79.69%
