# Transfer Learning&#x20;

&#x20;

## Wprowadzenie teoretyczne do transfer learningu

Uczenie transferowe (**Transfer Learning**) to technika uczenia maszynowego polegająca na wykorzystaniu wiedzy zdobytej podczas rozwiązywania jednego zadania do przyspieszenia i ułatwienia uczenia modelu na innym, **powiązanym zadaniu**. Zamiast trenować sieć neuronową od zera dla nowego problemu, możemy **przenieść** wiedzę (parametry modelu) z wcześniej wytrenowanego modelu na nowy model. Dzięki temu:

* **Szybsze trenowanie:** Model zaczyna z lepszymi parametrami początkowymi, co skraca czas potrzebny do osiągnięcia wysokiej skuteczności.
* **Mniej danych:** Wymagane jest mniej danych treningowych, ponieważ model **zna już** wiele przydatnych reprezentacji (cech) z poprzedniego zadania.
* **Lepsza skuteczność:** Często uzyskujemy wyższą dokładność, szczególnie gdy zbiór danych dla nowego zadania jest niewielki. Pretrenowane modele nabyły już umiejętność rozpoznawania ogólnych wzorców, co poprawia wyniki na nowym zadaniu.

![What Is Transfer Learning? \[Examples & Newbie-Friendly Guide\]](https://framerusercontent.com/images/7INIdkIR6fGLVB3OKx3SACpwkI.png "What Is Transfer Learning? \[Examples & Newbie-Friendly Guide]")

**Przykład:** Wyobraź sobie model sieci neuronowej nauczony rozpoznawać tysiące kategorii obrazów (np. na zbiorze ImageNet, który zawiera 1,2 miliona obrazów w 1000 kategoriach). Taki model nauczył się w pierwszych warstwach wykrywać bardzo **ogólne cechy** obrazów, takie jak krawędzie, tekstury czy proste kształty. W kolejnych warstwach łączy te proste cechy w bardziej złożone (np. fragmenty obiektów), a w ostatnich warstwach rozpoznaje specyficzne elementy odpowiadające klasom, na których był trenowany. Jeśli teraz chcemy zbudować model do rozpoznawania np. gatunków kwiatów, możemy wykorzystać **wiedzę** z modelu wytrenowanego na ImageNet. W praktyce oznacza to, że większość warstw takiego modelu wykorzystamy bez zmian (bo **umieją** już rozpoznawać ogólne wzorce na obrazach), a tylko ostatnią warstwę (odpowiedzialną za klasyfikację na oryginalne 1000 klas) zastąpimy nową warstwą wyjściową dostosowaną do rozpoznawania naszych gatunków kwiatów. W ten sposób **transferujemy** wiedzę z zadania rozpoznawania ogólnych obiektów do zadania rozpoznawania kwiatów.


<br />

Transfer learning jest szeroko stosowany nie tylko w rozpoznawaniu obrazów, ale także w innych dziedzinach **Data Science**. W przetwarzaniu języka naturalnego modele językowe (np. BERT, GPT) wytrenowane na ogromnych korpusach tekstu są następnie dostrajane do konkretnych zadań (np. analiza sentymentu, odpowiadanie na pytania). W dziedzinie rozpoznawania mowy modele akustyczne wytrenowane na dużych zbiorach danych mogą być adaptowane do nowych języków lub akcentów. We wszystkich tych przypadkach idea jest podobna: wykorzystać istniejącą wiedzę modelu, zamiast zaczynać od zupełnie losowych parametrów.


![The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning) –  Jay Alammar – Visualizing machine learning one concept at a time.](https://jalammar.github.io/images/bert-transfer-learning.png "The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning) –  Jay Alammar – Visualizing machine learning one concept at a time.")


![Chapter 7 Transfer Learning for NLP I | Modern Approaches in Natural  Language Processing](https://slds-lmu.github.io/seminar_nlp_ss20/figures/02-01-transfer-learning-for-nlp-1/sequential-transfer-learning-gpt.PNG "Chapter 7 Transfer Learning for NLP I | Modern Approaches in Natural  Language Processing")

<br />

**Kiedy Transfer Learning jest szczególnie przydatny?** Gdy mamy ograniczoną ilość danych dla nowego zadania lub trenowanie od zera byłoby zbyt czasochłonne lub kosztowne. Zamiast zbierać setki tysięcy danych i trenować model przez wiele godzin/dni, możemy użyć modelu pretrenowanego na podobnym zadaniu i dostosować go do naszego problemu. W praktyce, transfer learning pozwala osiągnąć dobre wyniki nawet na małych zbiorach danych – coś, co byłoby bardzo trudne przy trenowaniu modelu od podstaw (tzw. **from scratch**).

Warto jednak pamiętać, że transfer learning najlepiej sprawdza się, gdy **zadanie źródłowe** (to, na którym model został pierwotnie wytrenowany) i **zadanie docelowe** (to, na którym go użyjemy) są stosunkowo zbliżone. Jeśli różnica między zadaniami jest zbyt duża (np. model trenowany na zdjęciach zwierząt użyty do analizy zdjęć medycznych rentgenowskich), to przenoszona wiedza może okazać się mało przydatna lub wymagać głębszego dostrojenia modelu.



## Kluczowe pojęcia w transfer learningu

W transfer learningu pojawia się kilka kluczowych pojęć i strategii, które należy zrozumieć:

* **Model pretrenowany:** Jest to model już **wcześniej wytrenowany** na dużym zbiorze danych do jakiegoś zadania. Przykładem może być sieć **ResNet50** wytrenowana na ImageNet (rozpoznawanie 1000 klas obrazów) lub model **BERT** wytrenowany na zadaniu maskowania wyrazów w ogromnym zbiorze tekstów. Taki model posiada już wagi (parametry), które zawierają *wiedzę* zdobytą podczas tego wcześniejszego treningu. W transfer learningu wykorzystujemy te wagi jako punkt wyjścia dla nowego zadania, zamiast inicjalizować model losowo.





* **Ekstrakcja cech (feature extraction):** Strategia, w której używamy modelu pretrenowanego jako **ekstraktora cech**. Polega ona na **zamrożeniu** (ang. *freeze*) wszystkich (lub większości) warstw pretrenowanego modelu, tak aby ich wagi **nie ulegały zmianie** podczas trenowania na nowym zadaniu. Następnie do tak *zamrożonego* modelu dodajemy jedynie nową warstwę (lub kilka warstw) wyjściową dostosowaną do naszego zadania i trenujemy **tylko te nowe warstwy**. W praktyce model działa wtedy tak: obraz (lub inny sygnał) przechodzi przez sieć pretrenowaną, która wylicza **wysokopoziomowe cechy** (feature'y) tego obrazu, a nowo dodana warstwa na końcu przekształca te cechy na przewidywaną klasę (lub inną pożądaną odpowiedź). Ten sposób wykorzystuje fakt, że **pierwsze warstwy sieci uczą się bardzo ogólnych cech**, przydatnych w wielu zadaniach. Ekstrakcja cech jest szczególnie przydatna, gdy mamy **bardzo mało danych** – ograniczamy wtedy liczbę parametrów, które muszą się nauczyć (uczymy tylko ostatnią warstwę), co zmniejsza ryzyko przeuczenia.




* **Fine-tuning (dostrajanie modelu):** Strategia, w której **dodatkowo trenujemy (dostrajamy)** część (lub wszystkie) warstwy modelu pretrenowanego na nowym zadaniu. Zazwyczaj fine-tuning wykonuje się **po uprzednim** etapie ekstrakcji cech. To znaczy, najpierw dodajemy nową warstwę wyjściową i trenujemy ją, trzymając resztę sieci zamrożoną (to pozwala sieci nauczyć się wstępnie dostosowanych wag na nowy problem). Następnie **odmrażamy** niektóre z wyższych (bliżej wyjścia) warstw oryginalnego modelu i trenujemy ponownie całość (lub część warstw) przy **bardzo niskiej szybkości uczenia (learning rate)**. Fine-tuning pozwala modelowi **delikatnie dostosować** wcześniej nauczone cechy do specyfiki nowego zadania. Ważne jest, by nie użyć zbyt wysokiej stopy uczenia – w przeciwnym razie istnieje ryzyko "nadpisania" (utracenia) wcześniej wyuczonej wiedzy. Zwykle fine-tuning stosujemy, gdy nowy zbiór danych jest w miarę duży lub zadanie jest dostatecznie podobne do oryginalnego – wówczas **dodatkowe dostrajanie** może poprawić wyniki ponad to, co uzyskaliśmy przy samej ekstrakcji cech.




* **Zamrażanie i odmrażanie warstw:** "Zamrozić" warstwy znaczy ustawić je jako nieuczony (niezmienne) podczas trenowania – w praktyce w frameworkach oznacza to ustawienie atrybutu, który sprawia, że optymalizator nie będzie aktualizował wag tych warstw. "Odmrozić" to ponownie zezwolić na uczenie (aktualizację wag) wybranych warstw. Typowym podejściem jest zamrożenie **wszystkich** warstw modelu bazowego podczas trenowania nowej warstwy wyjściowej, a następnie odmrożenie **ostatnich kilku** warstw modelu bazowego i kontynuacja trenowania (fine-tuning). Ilość odmrażanych warstw zależy od wielkości i podobieństwa nowego zbioru danych – można np. odmrozić tylko ostatni **blok** sieci (np. ostatnie 2-3 warstwy konwolucyjne), pozostawiając resztę zamrożoną.
* ![Transfer learning. Concepts: | by Saba Hesaraki | Medium](https://miro.medium.com/v2/resize:fit:1200/1*rInXt5nkZfPL7H95pS5QPA.jpeg "Transfer learning. Concepts: | by Saba Hesaraki | Medium")



Podsumowując, **transfer learning** w praktyce sprowadza się do dwóch głównych etapów:

1. **Wykorzystanie modelu pretrenowanego jako bazowego:** Wczytujemy model z wytrenowanymi wagami i wykorzystujemy jego strukturę oraz *wiedzę*. Dodajemy na końcu nową warstwę/warstwy dopasowane do naszego zadania (np. warstwa klasyfikująca określoną liczbę nowych klas).
2. **Trenowanie modelu w nowym zadaniu:** Możemy najpierw trenować tylko nowe warstwy (feature extraction), a następnie ewentualnie trenować wspólnie część starych i nowych warstw (fine-tuning) dla lepszego dostosowania.




W kolejnej sekcji zobaczymy **praktyczny przykład** ilustrujący powyższe pojęcia z użyciem kodu w Pythonie (biblioteka TensorFlow/Keras).


## Transfer learning z użyciem modelu pretrenowanego

W tym przykładzie pokażemy, jak skorzystać z pretrenowanego modelu sieci konwolucyjnej do zbudowania nowego modelu rozwiązującego inne zadanie. Posłużymy się biblioteką **TensorFlow 2.x** z interfejsem **Keras** (wysokopoziomowe API do budowy i trenowania sieci neuronowych). Podobne kroki można zrealizować w PyTorch – idee są analogiczne, ale składnia jest nieco inna.





Załóżmy następujący scenariusz: Mamy nowy problem klasyfikacji obrazów z, powiedzmy, 5 klasami (np. chcemy rozpoznawać 5 gatunków kwiatów). Dysponujemy jednak ograniczoną liczbą obrazów treningowych dla tych klas. Wykorzystamy model **MobileNetV2** pretrenowany na ImageNet jako bazę. MobileNetV2 to względnie lekka sieć konwolucyjna, która była trenowana do klasyfikacji obrazów na 1000 klas z ImageNet – w efekcie nauczyła się wielu przydatnych reprezentacji wizualnych. Nasz plan:



1. **Wczytać model MobileNetV2 z pretrenowanymi wagami** (bez ostatniej warstwy, bo oryginalnie służyła do 1000-klasowej klasyfikacji).
2. **Zamrozić** wszystkie jego warstwy, aby podczas wstępnego trenowania nowego modelu te wagi się nie zmieniały.
3. **Dodać nowe warstwy** na wyjściu – w szczególności warstwę, która będzie przewidywać 5 klas (w naszym hipotetycznym zadaniu).
4. **Skompilować model** (ustalić funkcję straty, optymalizator, metryki) i przeprowadzić **trening** nowej warstwy wyjściowej na naszym zbiorze danych.
5. (Opcjonalnie) **Fine-tuning:** Odmrozić część warstw bazowego modelu i dalej trenować całość bardzo wolno, aby nieznacznie poprawić jakość modelu dostosowując wcześniej nauczone cechy do naszych danych.


Poniżej znajduje się kod realizujący te kroki, wraz z objaśnieniami:

### 1. Wczytanie modelu bazowego i zamrożenie jego warstw (Feature Extraction)

Najpierw zaimportujemy potrzebne biblioteki i wczytamy pretrenowany model. Użyjemy `tf.keras.applications.MobileNetV2` z wagami z ImageNet. Ustawimy `include_top=False`, aby pominąć oryginalną warstwę klasyfikacyjną (tzw. top) modelu, ponieważ i tak chcemy zastąpić ją własną. Zdefiniujemy też `input_shape=(224, 224, 3)`, bo takie wejście oczekuje MobileNetV2 (obrazy 224x224 z 3 kanałami koloru). Następnie *zamrozimy* model bazowy (`base_model.trainable = False`), aby jego wagi nie ulegały zmianie podczas trenowania nowej warstwy wyjściowej.

In [None]:
import tensorflow as tf

# 1. Wczytujemy pretrenowany model MobileNetV2 (bez oryginalnej warstwy klasyfikującej).
base_model = tf.keras.applications.MobileNetV2(weights='imagenet',
                                              include_top=False,
                                              input_shape=(224, 224, 3))
# 2. Zamrażamy wszystkie warstwy modelu bazowego, aby nie były trenowane.
base_model.trainable = False

# Sprawdźmy dla pewności, ile warstw ma model bazowy i czy są zamrożone:
print(f"Liczba warstw w modelu bazowym: {len(base_model.layers)}")
print(f"Czy pierwsza warstwa jest trenowalna? {base_model.layers[0].trainable}")
print(f"Czy ostatnia warstwa jest trenowalna? {base_model.layers[-1].trainable}")


* `tf.keras.applications.MobileNetV2(...)` zwraca nam obiekt modelu Keras z załadowanymi wagami wytrenowanymi na ImageNet. Parametr `include_top=False` oznacza, że **nie dołączamy** ostatniej warstwy w pełni połączonej (Dense), odpowiedzialnej za 1000 klas w ImageNet. W ten sposób model `base_model` będzie zwracał **mapy cech (feature maps)** z ostatniej warstwy konwolucyjnej, które my wykorzystamy.
* `base_model.trainable = False` ustawia cały model bazowy jako nie-trenowalny. W Keras oznacza to, że żadna z jego wag nie będzie aktualizowana podczas treningu (model zachowa umiejętności zdobyte na ImageNet).
* Wydruk kontroli (`print`) ma pokazać, ile warstw ma model bazowy i czy pierwsza oraz ostatnia z tych warstw są trenowalne. Dla zamrożonego modelu oczekujemy, że zwróci `False` (nie trenowalna) dla tych warstw. (Pierwsza warstwa to zwykle warstwa wejściowa lub pierwsza konwolucyjna, ostatnia to ostatnia konwolucyjna / pooling z MobileNetV2).


**Uwaga:** Modele z `tf.keras.applications` często wymagają wstępnego przetwarzania danych wejściowych w taki sam sposób, w jaki były trenowane. Dla MobileNetV2 wejścia powinny być skalowane do przedziału \[-1, 1] (zamiast typowego \[0, 255] dla pikseli). TensorFlow udostępnia funkcję `tf.keras.applications.mobilenet_v2.preprocess_input`, którą należałoby zastosować do naszych obrazów przed podaniem ich do modelu. W naszym pseudokodzie pominiemy szczegóły wczytywania i przetwarzania obrazów, ale warto pamiętać o tej kwestii podczas praktycznej realizacji.

### 2. Dodanie nowej warstwy klasyfikującej (tzw. "głowy" modelu)

Mając zamrożony model bazowy, dodamy teraz na jego wyjściu nowe warstwy, które będą uczyć się naszego zadania. W przypadku klasyfikacji dodajemy zazwyczaj warstwę typu **GlobalAveragePooling2D** albo **Flatten**, aby przekształcić trójwymiarowe mapy cech z sieci konwolucyjnej w wektor cech. Następnie dodajemy **warstwę Dense** (w pełni połączoną) z liczbą neuronów równą liczbie nowych klas i z odpowiednią funkcją aktywacji (softmax dla klasyfikacji wieloklasowej). Załóżmy, że w naszym nowym zadaniu mamy `num_classes = 5` (5 klas do rozróżnienia).

In [None]:
# 3. Dodajemy nową warstwę Pooling, aby spłaszczyć mapy cech do jednego wektora
global_avg_layer = tf.keras.layers.GlobalAveragePooling2D()
# Stosujemy ją do wyjścia modelu bazowego
feature_vector = global_avg_layer(base_model.output)

# 4. Dodajemy nową warstwę w pełni połączoną (Dense) jako warstwę wyjściową.
num_classes = 5  # przykładowa liczba klas w nowym zadaniu
output_layer = tf.keras.layers.Dense(num_classes, activation='softmax')
outputs = output_layer(feature_vector)

# 5. Tworzymy nowy model, łącząc bazowy model i nową warstwę wyjściową.
model = tf.keras.Model(inputs=base_model.input, outputs=outputs)

# Sprawdźmy architekturę naszego modelu:
model.summary()



Wyjaśnienie powyższego kodu:

* Tworzymy warstwę `GlobalAveragePooling2D()` i stosujemy ją do wyjścia modelu bazowego: `feature_vector = global_avg_layer(base_model.output)`. Warstwa global average pooling weźmie mapy cech o wymiarach `(7,7,1280)` (dla MobileNetV2 ostatnia konwolucja ma takie wymiary wyjściowe) i zamieni je na wektor o długości 1280, uśredniając wartości w każdym kanale cech. Alternatywnie, moglibyśmy użyć `Flatten()`, aby po prostu spłaszczyć tensor do rozmiaru `7*7*1280`, ale global average pooling zmniejsza liczbę parametrów i często działa lepiej zapobiegając przeuczeniu.
* Następnie tworzymy warstwę Dense: `output_layer = tf.keras.layers.Dense(num_classes, activation='softmax')`. Ma ona `num_classes` neuronów i funkcję softmax, co jest standardem dla klasyfikacji wieloklasowej (softmax da rozkład prawdopodobieństwa na klasy).
* Stosujemy tę warstwę do naszego wektora cech: `outputs = output_layer(feature_vector)`. Teraz `outputs` to już wyjście naszego nowego modelu – wektor długości 5 z przewidywanymi prawdopodobieństwami klas.
* Tworzymy obiekt modelu Keras: `model = tf.keras.Model(inputs=base_model.input, outputs=outputs)`. Łączy on wejście oryginalnego modelu bazowego z naszym nowym wyjściem, tworząc spójny model end-to-end. Ten model składa się z **zamrożonego** modelu bazowego MobileNetV2 oraz nowej, trenowalnej warstwy na końcu.
* `model.summary()` wypisze podsumowanie warstw modelu. Zobaczymy listę warstw MobileNetV2 (wszystkie nie-trenowalne, parametry\*\*=0\*\* do trenowania), następnie warstwę GlobalAveragePooling2D i Dense (te na końcu będą miały **parametry do trenowania** odpowiadające nowej warstwie). Liczba parametrów do trenowania powinna być stosunkowo niewielka (tylko to, co w ostatniej warstwie Dense, czyli `1280 * num_classes + num_classes` wag oraz biasów).


### 3. Kompilacja i trening nowego modelu (trening tylko nowej warstwy)

Zanim rozpoczniemy trenowanie, musimy skompilować model, wybierając **funkcję straty**, **optymalizator** i ewentualne **metryki**, które chcemy śledzić. Dla klasyfikacji wieloklasowej użyjemy typowej straty `categorical_crossentropy`. Jako optymalizator wybierzemy `Adam` (często dobrze się sprawdza), a jako metrykę – **accuracy** (dokładność klasyfikacji). Założymy, że mamy przygotowane dane treningowe i walidacyjne (`train_dataset`, `val_dataset`) w postaci np. obiektów tf.data Dataset lub numpy (dla prostoty detali wczytywania danych pominiemy).

In [None]:
# 6. Kompilujemy model z odpowiednią funkcją straty i optymalizatorem.
model.compile(loss='categorical_crossentropy',
              optimizer=tf.keras.optimizers.Adam(),
              metrics=['accuracy'])

# 7. Trenujemy model na nowych danych (tylko ostatnia warstwa będzie się uczyć, reszta modelu jest zamrożona).
# Poniższa linia to pseudokod - zakładamy, że train_dataset i val_dataset są przygotowane.
history = model.fit(train_dataset, 
                    epochs=10, 
                    validation_data=val_dataset)



Objaśnienie:

* `model.compile(...)` – konfigurujemy uczenie modelu. Ustawiamy funkcję straty (loss) na `categorical_crossentropy` (zakładamy, że etykiety klas są zakodowane one-hot lub że używamy generatora dającego one-hot vektory; jeśli używaliśmy etykiet liczbowych i chcieliśmy skorzystać z `sparse_categorical_crossentropy`, też byłoby ok – to szczegół implementacyjny). Optymalizator Adam z domyślnymi parametrami sprawdzi się dość dobrze na początek. Metryka `accuracy` pozwoli nam obserwować dokładność klasyfikacji podczas treningu.

* `model.fit(...)` – rozpoczynamy proces trenowania. Przekazujemy dane treningowe oraz liczbę epok (powtórzeń całego zbioru treningowego). Zakładamy, że `train_dataset` i `val_dataset` są wcześniej zdefiniowane (np. za pomocą `tf.keras.preprocessing.image_dataset_from_directory` lub innym sposobem). **Ważne:** Na tym etapie **trenuje się tylko nowo dodana warstwa Dense**, ponieważ wszystkie inne są zamrożone. To oznacza, że model uczy się ważyć i łączyć cechy już wykrywane przez sieć bazową tak, aby dopasować się do naszych klas. Przez 10 epok powinniśmy zaobserwować wzrost dokładności zarówno na treningu, jak i (miejmy nadzieję) na walidacji.



Po tym wstępnym etapie model prawdopodobnie już osiągnie pewien przyzwoity poziom skuteczności w naszym zadaniu. Często jednak można go jeszcze poprawić poprzez **fine-tuning**, czyli lekkie dostrojenie części wag modelu bazowego.



### 4. Fine-tuning – dostrajanie części modelu bazowego

![TensorFlow: Transfer Learning (Fine-Tuning) in Image Classification](https://daehnhardt.com/images/drawings/feature_extraction_vs_fine_tuning.png "TensorFlow: Transfer Learning (Fine-Tuning) in Image Classification")




Załóżmy, że po treningu samej nowej warstwy nasz model działa całkiem nieźle. Teraz spróbujemy nieco podnieść jego jakość poprzez dalsze treningi: odmrozimy *część* warstw modelu bazowego, aby dać im szansę dostosować się do danych naszego konkretnego zadania. Typowo, **nie odmrażamy całego modelu naraz**, lecz stopniowo – np. odmrażamy ostatni blok konwolucyjny. Sieci takie jak MobileNetV2 czy ResNet są podzielone na bloki (grupy warstw); często wystarczy odmrozić ostatni blok (kilka warstw) lub ostatnie N warstw.


W MobileNetV2 możemy np. odmrozić ostatnich 20 warstw (to arbitralna liczba dla przykładu). Ważne jest, by **nie trenować zbyt wielu parametrów naraz**, jeśli danych jest mało, oraz by użyć **niższej szybkości uczenia**, żeby nie zniszczyć już wyuczonych parametrów.


In [None]:
# 8. Ustalamy, do którego poziomu warstwy pozostawić zamrożone.
# Np. odmrażamy ostatnich 20 warstw modelu bazowego:
fine_tune_at = len(base_model.layers) - 20

for layer in base_model.layers[:fine_tune_at]:
    layer.trainable = False  # te warstwy pozostawiamy zamrożone
for layer in base_model.layers[fine_tune_at:]:
    layer.trainable = True   # te warstwy (ostatnie 20) ustawiamy jako trenowalne

# Sprawdźmy, ile warstw jest teraz trenowalnych:
trainable_count = sum(1 for layer in model.layers if layer.trainable)
print(f"Warstw trenowalnych: {trainable_count} / {len(model.layers)}")

# 9. Ponownie kompilujemy model, tym razem z mniejszym learning rate dla fine-tuningu.
model.compile(loss='categorical_crossentropy',
              optimizer=tf.keras.optimizers.Adam(learning_rate=1e-5),
              metrics=['accuracy'])

# 10. Kontynuujemy trening (fine-tuning) - trenujemy zarówno nowe warstwy, jak i wybrane odmrożone warstwy bazowe.
history_fine = model.fit(train_dataset,
                         epochs=5,
                         validation_data=val_dataset)



W powyższym kodzie:

* Ustalamy indeks warstwy, od której zaczniemy odmrażać (`fine_tune_at`). Użyliśmy tutaj liczby 20 przykładowo – czyli pozostawiamy początkowe `len(base_model.layers) - 20` warstw zamrożonych, a ostatnie 20 warstw odmrażamy. Można też zamiast absolutnej liczby warstw posłużyć się nazwą warstwy: np. w MobileNetV2 znaleźć nazwę warstwy bloku, od którego chcemy trenować, i na jej podstawie rozdzielić.
* Pętlą `for` przechodzimy przez warstwy modelu bazowego: wcześniej `base_model.trainable` zostało ustawione na False, więc musimy konkretnie włączyć trenowanie dla wybranych warstw. Po tym kroku część warstw ma `layer.trainable = True` (ostatni fragment sieci), reszta pozostaje False.
* Sprawdzamy i wypisujemy, ile warstw jest trenowalnych spośród całości (w tym liczą się też nasze nowe warstwy). Powinniśmy zobaczyć, że wcześniej trenowalna była tylko ostatnia warstwa Dense (i ewentualnie warstwa global pooling, choć ona nie ma uczenia), a teraz dodatkowo doszły np. 20 warstw konwolucyjnych.
* **Ponowna kompilacja:** Za każdym razem, gdy zmieniamy coś w parametrach trenowalnych modelu, powinniśmy skompilować go od nowa, by optymalizator mógł uwzględnić nowe parametry. Tutaj kluczowe jest ustawienie **mniejszego learning rate**. Dajemy `1e-5` (to 0.00001) dla optymalizatora Adam – jest to dużo mniejsza wartość niż domyślna (1e-3). Dzięki temu zmiany wag w trakcie fine-tuningu będą bardzo małe, co zapobiega drastycznemu zniekształceniu wcześniej nauczonych cech.
* `model.fit` ponownie – kontynuujemy trening. Można wykonać kilka epok (np. 5-10) fine-tuningu. Zwykle obserwujemy, że na początku fine-tuningu metryka na walidacji może lekko spaść (model musi się *przestroić*), ale potem powinna poprawić się nieco powyżej wyniku osiągniętego przy zamrożonych warstwach. Trzeba uważać, by nie trenować zbyt długo, bo mając mało danych łatwo przeuczyć model, dopasowując zbytnio odmrożone warstwy do danych treningowych.



Po zakończeniu fine-tuningu mamy finalny model, który wykorzystuje **wiedzę przeniesioną** z modelu bazowego oraz jest częściowo dostrojony do naszego konkretnego zadania. Teraz taki model można używać do predykcji (np. `model.predict(new_images)`) lub ocenić na danych testowych.



### 5. Zastosowanie modelu – inferencja

Na koniec, gdy model jest już wytrenowany (przynajmniej nowa warstwa, a opcjonalnie po fine-tuningu), możemy wykorzystać go do predykcji na nowych danych. Wykonuje się to tak samo jak dla każdego modelu Keras:


In [None]:
# Załóżmy, że mamy nowe obrazy do klasyfikacji w tablicy numpy new_images (np. o wymiarach [N, 224, 224, 3])
# Upewnijmy się, że przeskalujemy je odpowiednio (MobileNetV2 wymaga skalowania do [-1,1]):
new_images_preprocessed = tf.keras.applications.mobilenet_v2.preprocess_input(new_images)

# Predykcja klasy dla nowych obrazów:
predictions = model.predict(new_images_preprocessed)
predicted_classes = predictions.argmax(axis=1)
print("Przewidywane klasy:", predicted_classes)




Tutaj `predictions` będzie macierzą kształtu `(N, 5)` z przewidywanymi prawdopodobieństwami dla każdej z 5 klas. Metodą `argmax` wybieramy indeks najwyższego prawdopodobieństwa, czyli przewidywaną klasę. Jeśli mamy zdefiniowaną listę nazw klas, możemy łatwo zamapować indeksy na nazwy.


## Q\&A – Pytania sprawdzające zrozumienie

Poniżej znajduje się kilka pytań wraz z odpowiedziami, które pomogą utrwalić zdobytą wiedzę:

**P1: Na czym polega uczenie transferowe (transfer learning) i dlaczego jest użyteczne?**\
&#x20;**Odpowiedź:** Transfer learning polega na wykorzystaniu wiedzy (wytrenowanych parametrów) modelu z jednego zadania do przyspieszenia uczenia modelu na innym, powiązanym zadaniu. Jest użyteczne, ponieważ pozwala trenować modele szybciej i przy mniejszej liczbie danych treningowych – model startuje z dobrą inicjalizacją (wiedza z zadania źródłowego), co często skutkuje wyższą dokładnością na zadaniu docelowym niż trenowanie od zera, zwłaszcza gdy dane są ograniczone.

**P2: Czym jest** ***model pretrenowany*** **i jak się go wykorzystuje w transfer learningu?**\
&#x20;**Odpowiedź:** Model pretrenowany to model, który został już wcześniej wytrenowany na dużym zbiorze danych do jakiegoś zadania (np. klasyfikacji obrazów na ImageNet). Taki model posiada wagi odzwierciedlające wiedzę z tamtego zadania. W transfer learningu pobieramy taki model i wykorzystujemy go jako bazę dla nowego zadania – zwykle zachowujemy jego architekturę i większość wag, modyfikując jedynie ostatnie warstwy (lub dodając nowe warstwy), tak aby model dawał odpowiedzi w kontekście nowego zadania. W ten sposób korzystamy z wcześniej wytrenowanych cech, zamiast uczyć się wszystkiego od początku.

**P3: Jaka jest różnica między podejściem** ***feature extraction*** **a** ***fine-tuning*** **w kontekście transfer learningu?**\
&#x20;**Odpowiedź:** *Feature extraction* (ekstrakcja cech) polega na zamrożeniu wag modelu pretrenowanego i użyciu go jedynie do wyciągania cech z danych – uczymy wówczas tylko nowo dodaną warstwę wyjściową, która na podstawie tych cech dokonuje klasyfikacji (lub innego zadania). Model bazowy działa wtedy jak stały ekstraktor cech. Z kolei *fine-tuning* (dostrajanie) to dalsze trenowanie części lub całości modelu bazowego już po wstępnym etapie ekstrakcji cech. Innymi słowy, przy fine-tuningu **odmrażamy** niektóre (lub wszystkie) warstwy modelu bazowego i kontynuujemy ich trenowanie (zazwyczaj z niską szybkością uczenia), aby delikatnie dostosować wcześniej nauczone wzorce do nowego zadania. Różnica więc polega na tym, że *feature extraction* nie modyfikuje wag pretrenowanego modelu (uczymy tylko nowe warstwy), a *fine-tuning* modyfikuje również część wag oryginalnego modelu.

**P4: Dlaczego zaleca się zamrażać większość warstw modelu bazowego podczas trenowania nowej warstwy wyjściowej?**\
&#x20;**Odpowiedź:** Zamrażanie warstw zapobiega zmianom wcześniej wyuczonych parametrów modelu bazowego. Dzięki temu **nie nadpisujemy** (nie tracimy) wiedzy, którą model już posiada z zadania źródłowego. Kiedy danych do nowego zadania jest mało, próba trenowania wszystkich wag mogłaby prowadzić do silnego przeuczenia – model mógłby zacząć *zapamiętywać szum* zamiast uogólniać. Zamrażając większość warstw, ograniczamy liczbę parametrów, które muszą się nauczyć od nowa (uczą się głównie wagi nowej warstwy), co ułatwia trening i stabilizuje go. Dopiero gdy nowa warstwa nauczy się korzystać z istniejących cech, ewentualnie można **stopniowo** odmrażać kolejne warstwy i kontynuować trening (fine-tuning) – ale zawsze z ostrożnością (mały learning rate, monitorowanie wyników), by nie zniszczyć wcześniejszej wiedzy.

**P5: Kiedy samo** ***feature extraction*** **może nie wystarczyć i warto zastosować** ***fine-tuning*****?**\
&#x20;**Odpowiedź:** Jeśli po dodaniu nowej warstwy i wytrenowaniu jej (przy zamrożonym modelu bazowym) wyniki na walidacji/testach są niezadowalające, a posiadamy przynajmniej umiarkowaną ilość danych, można rozważyć fine-tuning. Fine-tuning jest szczególnie przydatny, gdy:

* Nowe zadanie jest dość **podobne** do zadania oryginalnego – wtedy możemy bezpiecznie dostroić wyższe warstwy, by poprawić wyniki.
* Mamy jednak pewną ilość danych (choć nie tak dużo jak do trenowania od zera, to więcej niż kilka przykładów na klasę), aby umożliwić uczenie się dodatkowych wag bez natychmiastowego przeuczenia.\
  &#x20;Jeśli model bazowy osiągnął już pewien pułap i nie może poprawić się uczeniem tylko nowej głowy, dostrojenie kilku ostatnich warstw może pomóc wyciągnąć dodatkową poprawę skuteczności. Przykładowo, przy rozpoznawaniu kwiatów korzystając z modelu trenowanego na ImageNet – może okazać się, że kwiaty mają specyficzne wzorce, których kombincja wymaga lekkiej modyfikacji wag wyższych warstw. Fine-tuning pozwoli na to dostosowanie.

**P6: Jakie ryzyka lub wyzwania wiążą się z użyciem transfer learningu?**\
&#x20;**Odpowiedź:** Mimo wielu zalet, transfer learning ma też pewne wyzwania:

* Jeśli zadanie źródłowe i docelowe są **bardzo różne**, model pretrenowany może nie dawać pożądanych korzyści (jego cechy mogą być mało przydatne do nowego zadania). Np. model wytrenowany na zdjęciach naturalnych może słabo transferować do obrazów medycznych lub zdjęć satelitarnych, chyba że zastosujemy głębszy fine-tuning.
* **Przeuczenie**: Jeśli nowy zbiór danych jest bardzo mały, istnieje ryzyko przeuczenia nawet podczas fine-tuningu kilku warstw. Model może zbytnio dopasować się do danych treningowych. Rozwiązaniem jest bardzo ostrożny fine-tuning lub pozostanie przy feature extraction, a także zastosowanie technik augmentacji danych.
* **Niedouczenie**: Z drugiej strony, jeśli zbyt mało warstw dostroimy (albo użyjemy zbyt niskiego learning rate czy za krótko trenujemy), model może pozostać w stanie, który nie jest optymalnie dopasowany do nowego zadania – utknie z cechami, które nie są idealne. Dlatego fine-tuning wymaga pewnego eksperymentowania (ile warstw odmrażać, jaki learning rate, ile epok).
* **Zgodność danych wejściowych**: Trzeba pamiętać, że dane wejściowe muszą być podane w formacie oczekiwanym przez model pretrenowany (np. rozmiar obrazu, skala pikseli, normalizacja). Np. modele z ImageNet zwykle oczekują obrazów 224x224 i konkretnych normalizacji. Niedopasowanie tych aspektów może skutkować słabym działaniem modelu.

#

