<a href="https://colab.research.google.com/github/Paulina9555/Repo1/blob/master/Wst%C4%99p_do_sieci_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Obliczanie wag w sieci MLP

Aby obliczyć liczbę parametrów w warstwie Dense w sieci neuronowej, musisz wziąć pod uwagę dwa rodzaje parametrów: wagi (weights) i obciążenia (biases). Warstwa Dense, nazywana także warstwą w pełni połączoną, jest jednym z podstawowych rodzajów warstw w sieciach neuronowych.

Warstwa Dense składa się z wielu neuronów (zwanych także jednostkami lub węzłami). Każdy neuron w warstwie Dense jest połączony z każdym neuronem w poprzedniej warstwie (lub wejściowej warstwie, jeśli jest to pierwsza warstwa). Parametry dla każdego połączenia to waga i obciążenie. Oto jak obliczyć liczbę parametrów w warstwie Dense:

1. Wagi (weights): Każde połączenie między neuronem w poprzedniej warstwie a neuronem w warstwie Dense ma swoją wagę. Jeśli warstwa Dense ma n neuronów, a poprzednia warstwa ma m neuronów, to liczba wag wynosi m * n. Każda waga jest liczbą rzeczywistą, co oznacza, że każda z nich ma przypisaną wartość numeryczną.

2. Obciążenia (biases): Każdy neuron w warstwie Dense ma także przypisane obciążenie. Jeśli warstwa Dense ma n neuronów, to liczba obciążenia wynosi n. Obciążenia są również liczbami rzeczywistymi.

Ostatecznie liczba parametrów w warstwie Dense to suma liczby wag i liczby obciążeń. Możemy to podsumować równaniem:

Liczba parametrów = (Liczba neuronów w poprzedniej warstwie * Liczba neuronów w warstwie Dense) + Liczba neuronów w warstwie Dense

Na przykład, jeśli masz warstwę Dense o rozmiarze 64 z poprzednią warstwą, która ma 128 neuronów, to liczba parametrów wynosi:

Liczba parametrów = (128 * 64) + 64 = 8256

To oznacza, że w tej warstwie jest 8256 parametrów, które będą uczone podczas treningu modelu.

In [None]:
import tensorflow as tf

n_classes = 7
# jakas tam siec MLP, inputow ma 14, do klasyfikacji 7-mio klasowej
model = tf.keras.Sequential([
    tf.keras.layers.Dense(25,input_shape=(14,), activation="relu"),
    tf.keras.layers.Dense(36, activation="relu"),
    tf.keras.layers.Dense(47, activation="relu"),
    tf.keras.layers.Dense(n_classes, activation="softmax"),
])

In [None]:
w1= 14*25+25
w2 = 25*36+36
w3 = 36*47+47
w4=47*7+7
print(w1,w2,w3,w4)

375 936 1739 336


In [None]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 25)                375       
                                                                 
 dense_1 (Dense)             (None, 36)                936       
                                                                 
 dense_2 (Dense)             (None, 47)                1739      
                                                                 
 dense_3 (Dense)             (None, 7)                 336       
                                                                 
Total params: 3386 (13.23 KB)
Trainable params: 3386 (13.23 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


# Wczesne zatrzymywanie treningu

Early stopping (wczesne zatrzymywanie) to technika regularyzacji używana podczas treningu modeli uczenia maszynowego, a w szczególności sieci neuronowych. Celem tej techniki jest uniknięcie przeuczenia modelu poprzez monitorowanie jego wydajności na zbiorze walidacyjnym podczas treningu i zatrzymywanie treningu, gdy model zaczyna się pogarszać na zbiorze walidacyjnym, zamiast kontynuować uczenie do momentu osiągnięcia zbieżności na zbiorze treningowym.

Ogólny przebieg early stopping jest następujący:

1. **Podziel dane na zbiór treningowy, walidacyjny i testowy**: Dzieli się dostępne dane na trzy zestawy. Zbiór treningowy służy do uczenia modelu, zbiór walidacyjny służy do monitorowania wydajności modelu podczas treningu, a zbiór testowy służy do ostatecznej oceny wydajności modelu po treningu.

2. **Inicjalizacja modelu**: Inicjuje się model sieci neuronowej i inicjuje się parametry treningowe, takie jak szybkość uczenia (learning rate) i liczbę epok (iteracji przez zbiór treningowy).

3. **Trening z monitorowaniem**: Model jest trenowany na zbiorze treningowym, a po każdej epoce obliczana jest jego wydajność na zbiorze walidacyjnym.

4. **Monitorowanie wydajności na zbiorze walidacyjnym**: Podczas treningu śledzi się wyniki na zbiorze walidacyjnym. Jeśli wydajność na zbiorze walidacyjnym przestaje się poprawiać lub zaczyna się pogarszać, jest to sygnał do zatrzymania treningu.

5. **Zatrzymanie treningu**: Kiedy wykryte zostaje pogorszenie się wydajności na zbiorze walidacyjnym, trening jest zatrzymywany, a model z najlepszymi osiągnięciami na zbiorze walidacyjnym jest zachowywany. Może to być model z dowolnej wcześniejszej epoki, w której wydajność na zbiorze walidacyjnym była najlepsza.

Early stopping pomaga w uniknięciu przetrenowania (overfittingu) modelu, co może prowadzić do słabej zdolności generalizacji na nowe dane. Jest to szczególnie przydatne, gdy trening modelu trwa długo, a istnieje ryzyko, że model dostosuje się zbyt dokładnie do danych treningowych. Early stopping pozwala oszczędzić czas i zasoby, eliminując konieczność kontynuowania treningu po osiągnięciu optymalnej wydajności na zbiorze walidacyjnym.

Aby zastosować Early Stopping w TensorFlow, możesz skorzystać z callbacku o nazwie `EarlyStopping`. Ten callback monitoruje wydajność modelu na zbiorze walidacyjnym i zatrzymuje trening, gdy wydajność przestaje się poprawiać lub zaczyna się pogarszać. Oto jak to zrobić:


1. Najpierw przygotuj dane treningowe, walidacyjne i testowe oraz zdefiniuj swoją sieć neuronową w TensorFlow.

2. Importuj moduł `EarlyStopping` i skonfiguruj go podczas treningu modelu. Oto przykład:

   ```python
   import tensorflow as tf
   from tensorflow.keras.callbacks import EarlyStopping

   # Przygotowanie danych treningowych, walidacyjnych i testowych
   x_train, y_train = ...
   x_val, y_val = ...

   # Definicja modelu
   model = tf.keras.models.Sequential([
       # Dodaj warstwy modelu
       # ...
   ])

   # Kompilacja modelu
   model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

   # Konfiguracja EarlyStopping
   early_stopping = EarlyStopping(
       monitor='val_loss',    # Monitoruj funkcję straty na zbiorze walidacyjnym
       patience=5,            # Zatrzymaj trening po 5 epokach bez poprawy
       verbose=1,             # Wyświetl komunikaty o zatrzymaniu treningu
       restore_best_weights=True  # Przywróć najlepsze wagi modelu po zatrzymaniu
   )

   # Rozpoczęcie treningu z użyciem callbacku EarlyStopping
   history = model.fit(
       x_train,
       y_train,
       epochs=100,
       validation_data=(x_val, y_val),
       callbacks=[early_stopping]  # Dodaj callback do monitorowania treningu
   )
   ```

W powyższym kodzie:
- `monitor` określa, co będzie monitorowane podczas treningu. W tym przypadku monitorujemy funkcję straty na zbiorze walidacyjnym (`'val_loss'`).
- `patience` określa, ile epok bez poprawy musi minąć, zanim trening zostanie zatrzymany.
- `verbose` określa, czy chcesz widzieć komunikaty o zatrzymaniu treningu (ustawione na `1` wyświetli komunikat).
- `restore_best_weights` po zatrzymaniu treningu przywraca najlepsze wagi modelu zapisane podczas treningu.

Dzięki temu setupowi trening zostanie zatrzymany, gdy model przestanie się poprawiać na zbiorze walidacyjnym, co pomaga uniknąć przeuczenia i oszczędza czas treningu.

# Dodatek Tensorboard

TensorBoard to narzędzie do wizualizacji i monitorowania procesu treningu modeli uczenia maszynowego w TensorFlow, popularnym frameworku do głębokiego uczenia. Jest to potężne narzędzie, które pomaga w analizie i zrozumieniu zachowania modelu w trakcie treningu poprzez prezentację różnych metryk, wykresów, histogramów i grafów.

Oto kilka głównych funkcji i zastosowań TensorBoard:

1. **Wizualizacja metryk treningowych**: TensorBoard pozwala na śledzenie różnych metryk, takich jak funkcja straty (loss), dokładność (accuracy), czy dowolne inne metryki, które są zbierane podczas treningu. Wykresy i przebiegi metryk są prezentowane w czasie rzeczywistym, co pozwala monitorować postęp treningu.

2. **Wykresy histogramów wag**: Możesz przeglądać rozkłady wag w poszczególnych warstwach modelu. To pomaga zrozumieć, jak zmieniają się wagi podczas treningu i czy występują problemy związane z ich zbieżnością.

3. **Wizualizacja grafu modelu**: TensorBoard umożliwia wyświetlanie grafu obliczeń modelu, co ułatwia zrozumienie jego architektury i struktury. Możesz przejrzeć całą strukturę modelu, włącznie z warstwami i połączeniami między nimi.

4. **Wizualizacja dystrybucji aktywacji**: Możesz analizować dystrybucję aktywacji w poszczególnych warstwach modelu. To pomaga w zrozumieniu, czy występują problemy z eksplodującym lub zanikającym gradientem.

5. **Projekcje T-SNE**: TensorBoard pozwala na projekcje danych treningowych w przestrzeń niższego wymiaru (na przykład 2D lub 3D) za pomocą algorytmu T-SNE. To umożliwia wizualizację rozkładu danych w bardziej zrozumiały sposób.

6. **Porównywanie różnych treningów**: Możesz porównywać różne przebiegi treningu, eksperymenty i modele, aby wybrać najlepszą konfigurację i śledzić postępy w ulepszaniu modelu.

7. **Zapisywanie logów treningowych**: TensorBoard zapisuje logi z metrykami i innymi danymi treningowymi w specjalnym formacie, który można później odtwarzać i analizować.

TensorBoard jest częścią pakietu TensorFlow i jest łatwo dostępny, gdy masz zainstalowany TensorFlow. Możesz go uruchomić z poziomu wiersza poleceń, a następnie przeglądać interaktywną wizualizację w przeglądarce internetowej. Jest to ważne narzędzie w procesie rozwoju modeli uczenia maszynowego i pomaga w usprawnieniu i zoptymalizowaniu treningu.

Aby zastosować TensorBoard w Google Colab, możesz skorzystać z kilku kroków:

4. **Konfiguracja TensorBoard**:
   Przygotuj callback TensorBoard, który będzie monitorować postęp treningu i zapisywać logi TensorBoard.

   ```python
   # Ustaw katalog, w którym będą zapisywane logi TensorBoard
   log_dir = "logs/"

   # Przygotuj callback TensorBoard
   tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir=log_dir)
   ```

   Możesz dostosować `log_dir` do własnych preferencji.

5. **Trening modelu**:
   Trenuj swój model z użyciem callbacku TensorBoard:

   ```python
   model.fit(x_train, y_train, epochs=10, validation_data=(x_val, y_val), callbacks=[tensorboard_callback])
   ```

6. **Uruchomienie TensorBoard w Colab**:
   Teraz możesz uruchomić TensorBoard w Colab, wykonując poniższą komórkę:

   ```python
   %tensorboard --logdir logs/
   ```

   Ta komórka uruchomi TensorBoard i wyświetli interaktywną wizualizację w Colab. Możesz przeglądać wykresy, histogramy, wykresy rozkładu i inne informacje związane z treningiem modelu.

7. **Kontrola TensorBoard**:
   Po uruchomieniu TensorBoard w Colab, otrzymasz link do dostępu do TensorBoard w przeglądarce internetowej w Colab. Możesz korzystać z różnych opcji wizualizacji i analizy treningu modelu.

To jest ogólny przewodnik dotyczący korzystania z TensorBoard w Colab. Dzięki temu narzędziu możesz lepiej zrozumieć zachowanie swojego modelu w trakcie treningu i zoptymalizować go.

# Zapisywanie i wczytywanie gotowego modelu

W TensorFlow istnieją różne sposoby zapisywania modelu. Jednym z najpopularniejszych i rekomendowanych jest zapisywanie modelu za pomocą API Keras, które jest częścią TensorFlow. Oto przykład, jak zapisać i załadować model w TensorFlow:

### Zapisywanie modelu

```python
import tensorflow as tf

# Przykładowy model Keras
model = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# Kompilacja modelu
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# Trening modelu (dla celów ilustracyjnych)
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
model.fit(x_train.reshape(-1, 784), y_train, epochs=5)

# Zapisz model do katalogu "my_model"
model.save('my_model')
```

W powyższym przykładzie używamy metody `save` obiektu modelu, aby zapisać model w katalogu o nazwie "my_model". Model zostanie zapisany w formacie HDF5, który jest obsługiwany przez TensorFlow i wiele innych narzędzi do uczenia maszynowego.

### Ładowanie zapisanego modelu

Aby załadować zapisany model, możesz użyć funkcji `load_model` z modułu `keras.models`:

```python
import tensorflow as tf
from tensorflow.keras.models import load_model

# Ładuj model z katalogu "my_model"
loaded_model = load_model('my_model')

# Przykładowe dane testowe
(x_test, y_test) = tf.keras.datasets.mnist.load_data()[1]

# Dokonaj predykcji załadowanym modelem
predictions = loaded_model.predict(x_test.reshape(-1, 784))

# Możesz kontynuować pracę z załadowanym modelem
```

Po załadowaniu modelu możesz użyć go do przewidywania, ewaluacji lub kontynuacji treningu (jeśli to ma sens w kontekście twojego zadania).

Format HDF5 (Hierarchical Data Format version 5) jest otwartym standardem do przechowywania i organizacji dużych ilości danych, szczególnie używany w dziedzinie nauki danych, uczenia maszynowego i przetwarzania sygnałów. Poniżej przedstawiam jego główne cechy i zalety:

**1. Hierarchiczna struktura danych:** Format HDF5 pozwala na przechowywanie danych w hierarchiczny sposób, podobny do struktury drzewa. Dane mogą być grupowane wewnątrz grup, co umożliwia łatwą organizację dużych zbiorów danych.

**2. Obsługa różnych typów danych:** HDF5 obsługuje wiele różnych typów danych, w tym liczby całkowite, liczby zmiennoprzecinkowe, napisy, tablice wielowymiarowe i wiele innych. To sprawia, że jest to format wszechstronny, który może być używany do przechowywania różnorodnych danych.

**3. Wsparcie dla kompresji:** Format HDF5 umożliwia kompresję danych, co może znacząco zmniejszyć rozmiar plików, co jest szczególnie przydatne, gdy pracujesz z dużymi zbiorami danych.

**4. Wsparcie dla metadanych:** Możesz dołączać metadane do plików HDF5, co ułatwia opisywanie i dokumentowanie zawartości plików.

**5. Przenośność:** Pliki HDF5 są przenośne, co oznacza, że można je otwierać i odczytywać na wielu platformach i w różnych językach programowania. Istnieją biblioteki i narzędzia do obsługi HDF5 w wielu popularnych językach, takich jak Python, R, C++, Java i inne.

**6. Wieloplatformowość:** Format HDF5 jest obsługiwany na różnych systemach operacyjnych, w tym na systemach Windows, macOS i Linux.

**7. Wsparcie dla dużych zbiorów danych:** HDF5 jest efektywny w zarządzaniu dużymi zbiorami danych, co sprawia, że jest używany w dziedzinach nauki danych i uczenia maszynowego, gdzie dane mogą być bardzo obszerne.

**8. Obsługa współbieżna:** Format HDF5 obsługuje dostęp współbieżny do plików, co pozwala na równoczesne operacje odczytu i zapisu z wielu źródeł.

Te zalety czynią format HDF5 popularnym wyborem do przechowywania i wymiany danych w dziedzinach nauki danych, uczenia maszynowego, badań naukowych i wielu innych obszarach, gdzie efektywna organizacja i zarządzanie dużymi zbiorami danych są kluczowe. Popularne biblioteki takie jak h5py w Pythonie ułatwiają pracę z formatem HDF5 w ramach różnych zastosowań.

Pliki w formacie HDF5 mają zazwyczaj rozszerzenie `.h5`. Jest to powszechnie używane rozszerzenie dla plików HDF5 w różnych aplikacjach i językach programowania. Na przykład, jeśli korzystasz z biblioteki h5py w języku Python do tworzenia i obsługi plików HDF5, pliki te często mają rozszerzenie `.h5`.

Przykład nazwy pliku HDF5: `moj_model.h5`

Rozszerzenie `.h5` jest powszechnie używane w kontekście przechowywania modeli uczenia maszynowego, zbiorów danych, danych naukowych i innych typów danych, które można skompresować, hierarchicznie zorganizować i przenosić między różnymi platformami.

# Generatory w uczeniu maszynowym

Generatory są często stosowane w uczeniu maszynowym z kilku istotnych powodów:

1. **Oszczędność pamięci:** Generatory pozwalają na leniwe ładowanie danych, co oznacza, że dane są wczytywane do pamięci w miarę potrzeb, a nie wczytywane w całości na początku. To jest szczególnie ważne, gdy pracujemy z dużymi zbiorami danych, które nie zmieszczą się w pamięci RAM.

2. **Efektywność czasowa:** Generatory pozwalają na równoczesne wczytywanie danych i trening modelu. Dzięki temu można zmniejszyć czas oczekiwania na wczytanie wszystkich danych i rozpocząć trening szybciej.

3. **Możliwość przetwarzania strumieniowego:** Generatory są idealne do przetwarzania danych strumieniowo, co jest przydatne w przypadku, gdy nowe dane stają się dostępne w miarę przetwarzania. Na przykład, gdy pracujemy z danymi w czasie rzeczywistym lub gdy dane są generowane dynamicznie.

4. **Zasoby CPU/GPU:** Generatory pozwalają efektywnie zarządzać zasobami CPU/GPU, ponieważ dane są wczytywane tylko wtedy, gdy są potrzebne do obliczeń, co może ograniczyć obciążenie pamięci i przyspieszyć trening.

5. **Możliwość pracy z nieskończonymi danymi:** Generatory pozwalają na pracę z nieskończonymi lub bardzo dużymi zbiorami danych, które nie mogą być wczytane do pamięci w całości. Przykładem może być przetwarzanie strumieni wideo lub dźwięku.

6. **Augmentacja danych:** Generatory mogą być używane do generowania augmentowanych danych w czasie rzeczywistym podczas treningu, co pomaga w zwiększeniu różnorodności danych treningowych i poprawia zdolność generalizacji modelu.

Przykładem użycia generatora w uczeniu maszynowym jest korzystanie z generatorów danych w bibliotece Keras, które mogą dostarczać dane do treningu modelu partiami (batchami) bez wczytywania całego zbioru danych do pamięci. To pozwala na efektywny trening modelu na dużych zbiorach danych bez obciążania pamięci RAM.

# Regularyzacja w sieciach

Można stosować L1, L2

In [None]:
import tensorflow as tf
from tensorflow.keras import layers, models

# Tworzenie modelu MLP z regularyzacją L1 i L2
model = models.Sequential()

# Dodanie warstwy wejściowej
model.add(layers.InputLayer(input_shape=(4,)))

# Dodanie warstw ukrytych z regularyzacją L1 i L2
model.add(layers.Dense(16, activation='relu', kernel_regularizer=tf.keras.regularizers.l1(0.01)))
model.add(layers.Dense(32, activation='relu', kernel_regularizer=tf.keras.regularizers.l2(0.01)))
model.add(layers.Dense(16, activation='relu', kernel_regularizer=tf.keras.regularizers.l1_l2(l1=0.01, l2=0.01)))

# Dodanie warstwy wyjściowej z funkcją aktywacji sigmoidalną (klasyfikacja binarna)
model.add(layers.Dense(1, activation='sigmoid'))

# Kompilacja modelu
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Wyświetlenie informacji o modelu
model.summary()


Istnieją inne techniki reg. w sieciach - dedykowane dla sieci. Dropout - zachęcam.

# Zanikający/ eksplodujący gradient

Zanikający i eksplodujący gradient to problemy, które mogą wystąpić podczas procesu uczenia się sieci neuronowych, zwłaszcza w głębokich modelach. Oto krótkie wyjaśnienie obu problemów i sugestie dotyczące radzenia sobie z nimi:

1. **Zanikający gradient:**
   - Problem: W trakcie propagacji wstecznej, gradienty (pochodne) obliczane są dla wag w sieci. W przypadku zanikającego gradientu, gradienty dla wag w warstwach bliżej warstwy wejściowej stają się bardzo małe, co powoduje, że wagi w tych warstwach nie są aktualizowane, a model przestaje się uczyć.
   - Rozwiązania:
     - Używanie funkcji aktywacji, które są mniej podatne na zanikające gradienty, np. ReLU (Rectified Linear Unit).
     - Użycie warstw normalizacji, takich jak Batch Normalization, aby utrzymać stabilność wewnętrznej korelacji w warstwach.
     - Używanie odpowiednich inicjalizacji wag, takich jak He Initialization.

2. **Eksplodujący gradient:**
   - Problem: Eksplodujący gradient występuje, gdy gradienty stają się bardzo duże, co prowadzi do niestabilności i trudności w zbieganiu algorytmu optymalizacyjnego.
   - Rozwiązania:
     - Obcinanie gradientów: Stosowanie technik, takich jak gradient clipping, aby ograniczyć wartości gradientów w trakcie propagacji wstecznej.
     - Używanie bardziej zaawansowanych optymalizatorów, takich jak Adam, które automatycznie dostosowują współczynniki uczenia.

Podsumowując, stosowanie funkcji aktywacji, inicjalizacji wag, normalizacji i technik regularyzacji, oraz wybór odpowiedniego optymalizatora, mogą pomóc w radzeniu sobie z problemami zanikającego i eksplodującego gradientu. Ważne jest również doświadczenie i eksperymentowanie z różnymi konfiguracjami modelu w celu znalezienia najlepszych praktyk dla danego zadania.

# Procedury

Zadania:


Napisać model - przygotować dane - wytrenować model

Procedura:

1. Napisać model
2. Wykonać predykcję na losowym tensorze
3. Skompiluje model
4. Wykonam ewaluacje na losowych danych lub probce wlasciwych danych
5. Wykonac trening na losowych danych
6. Przygotowac dane do konca
7. Powtorzyc kroki 2. - 5. na wlasciwych danych

