# Kluczowe pojęcia i krótkie opisy

- **Machine Learning** – dziedzina nauki dająca komputerom możliwość uczenia się bez konieczności ich jawnego programowania.  

- **Training Set (dane uczące)** – przykładowe dane używane do trenowania modelu, składające się z próbek (sample).  

- **Accuracy** – konkretna miara wydajności modelu, często stosowana w zadaniach klasyfikacyjnych.  

- **Data Mining** – analizowanie zbioru danych w celu poszukiwania ukrytych wzorców.  

- **NLP (Natural Language Processing)** – przetwarzanie języka naturalnego; dziedzina AI zajmująca się analizą, rozumieniem i generowaniem ludzkiego języka przez komputery.  

- **RNN (Recurrent Neural Network)** – rekurencyjna sieć neuronowa; sieć przetwarzająca dane sekwencyjne (np. tekst, dźwięk) poprzez zapamiętywanie wcześniejszych stanów.  

- **CNN (Convolutional Neural Network)** – konwolucyjna sieć neuronowa; model szczególnie skuteczny w rozpoznawaniu obrazów dzięki operacjom splotu.  

- **NLU (Natural Language Understanding)** – rozumienie języka naturalnego; poddziedzina NLP skupiająca się na interpretacji znaczenia wypowiedzi.  

- **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)** – algorytm grupowania na podstawie gęstości punktów; wykrywa skupiska danych i odrzuca szum.  

- **MNIST (Modified National Institute of Standards and Technology dataset)** – popularny zbiór danych zawierający ręcznie pisane cyfry, używany do trenowania i testowania modeli ML.  

- **Transformator (Transformer)** – architektura sieci neuronowych oparta na mechanizmie uwagi (attention); podstawa modeli językowych, takich jak GPT czy BERT.  

- **Redukcja wymiarowości (Dimensionality Reduction)** – proces upraszczania danych przez zmniejszenie liczby cech przy zachowaniu najważniejszych informacji.  

- **Splot (Convolution)** – operacja matematyczna w CNN, która wyłapuje lokalne wzorce w danych (np. krawędzie na obrazie).  

- **Regresja liniowa (Linear Regression)** – metoda przewidywania wartości ciągłych poprzez dopasowanie prostej linii do danych.  

- **Regresja wielomianowa (Polynomial Regression)** – rozszerzenie regresji liniowej, w której zależność między zmiennymi jest opisana wielomianem.  

- **Random Forest Regression (Regresja lasu losowego)** – metoda oparta na wielu drzewach decyzyjnych, uśredniająca ich wyniki w celu zwiększenia dokładności.  

- **Decision Tree** to model uczenia maszynowego używany zarówno w **klasyfikacji**, jak i **regresji**.  Działa podobnie do procesu podejmowania decyzji przez człowieka — zadaje kolejne pytania, aż dojdzie do odpowiedzi.

- **SVM (Support Vector Machine)** – maszyna wektorów nośnych; algorytm klasyfikacji i regresji, który znajduje granicę maksymalnie oddzielającą klasy.  


# Wykorzystanie ML

- Problemy, ktore wymagaja czestego dostrajania algorytmu lub korzystanie z dlugich list regul.

- Zlozonoe problemy, ktorych nie da sie rozwiazac tradycyjnymi metodami

- Zmiennych srodowisk ( `model ml` moze sie dostosowac szybko do nowych danych i byc aktualizowany z latwoscia w dowolnym momencie )

- Do analizy ogromnej ilosci danych

# Rodzaje systemów ML


- **Nadzorowanie w fazie uczenia** - (uczenie nadzorowane, nienadzorowane, półnadzorowane, samonadzorowane, wzmocnienie itd.)

- **Uczenie się w czasie rzeczywistym** - (u. przyrostowe, wsadowe)

- **Sposób pracy** - proste porównanie nowych punktów danychze znanymi punktami, lub wykrywanie wzorców w `training set` i tworzenie modelu predykcyjnego 


## Uczenie nadzorowane (Supervised Learning)

#### Etykieta (Label) i Cel (Target)

- **Etykieta (Label)** – to **prawidłowa odpowiedź** w danych uczących, której model używa do nauki.  
- **Cel (Target)** – to **wartość, którą model ma przewidzieć** podczas działania na nowych danych.  
W praktyce oba pojęcia często oznaczają to samo – wynik, do którego model dąży.

#### 🔹 Przykład:

| Powierzchnia (m²) | Liczba pokoi | Lokalizacja | **Cena (etykieta / target)** |
|--------------------|--------------|--------------|------------------------------|
| 60                 | 3            | Centrum      | 520 000 zł                   |

➡️ **Cechy (features):** powierzchnia, liczba pokoi, lokalizacja  
➡️ **Etykieta / Cel:** czy email jest spamem czy nie -> SPAM / NOT SPAM

---


Uczenie nadzorowane to rodzaj uczenia maszynowego, w którym model uczy się na podstawie **danych oznaczonych (z etykietami)**.  
Każdy przykład w danych zawiera:
- **wejście/cechy (features)** – czyli dane wejściowe, np. liczba pokoi, lokalizacja, temperatura, słowa w zdaniu,  
- **wyjście (label lub target value)** – czyli oczekiwany wynik, np. cena domu, gatunek kwiatu, klasa obrazu.  

Celem jest nauczenie modelu zależności między wejściem a wyjściem, tak aby mógł **przewidywać etykiety (lub wartości)** dla nowych, nieznanych danych.  

---

### 🔹 Regresja (Regression)

Regresja to typ uczenia nadzorowanego, w którym celem jest **przewidywanie wartości liczbowych (ciągłych)** — tzw. **wartości docelowej (target value)**.  
Model stara się znaleźć zależność matematyczną między cechami (features) a wartością, którą chcemy przewidzieć.

#### Jak to działa:
Model analizuje dane wejściowe i dopasowuje funkcję (np. prostą lub krzywą), która najlepiej opisuje zależność między zmiennymi.  
Podczas treningu minimalizuje różnicę między przewidywaną a rzeczywistą wartością (np. za pomocą błędu MSE – Mean Squared Error).

#### Przykłady praktyczne:
- **Prognozowanie cen nieruchomości** na podstawie powierzchni, lokalizacji i liczby pokoi.  
- **Przewidywanie zużycia energii** lub wody w budynkach.  
- **Szacowanie przyszłej sprzedaży** produktów lub przychodów firmy.  
- **Prognozowanie pogody** – np. temperatury lub opadów.  
- **Przewidywanie kursów akcji lub kryptowalut** w czasie.  
- **Modelowanie wzrostu populacji** lub trendów gospodarczych.

#### Popularne algorytmy:
- Regresja liniowa (Linear Regression)  
- Regresja wielomianowa (Polynomial Regression)  
- Random Forest Regression  
- Support Vector Regression (SVR)  
- Sieci neuronowe (Neural Networks)

---

### 🔹 Klasyfikacja (Classification)

Klasyfikacja to rodzaj uczenia nadzorowanego, w którym celem jest **przypisanie danych do jednej lub wielu kategorii (klas)**.  
Model nie przewiduje liczby, lecz **etykietę** — np. „kot” / „pies”, „spam” / „nie spam”.

#### Jak to działa:
Model uczy się rozróżniać wzorce w danych, tak aby dla nowych przykładów mógł zdecydować, do której klasy należą.  
Podczas uczenia minimalizuje liczbę błędnych przypisań (np. za pomocą funkcji strat cross-entropy).

#### Przykłady praktyczne:
- **Filtracja spamu** – rozpoznawanie, czy e-mail to spam czy wiadomość prawidłowa.  
- **Rozpoznawanie obrazów** – np. identyfikacja obiektów (samochód, człowiek, drzewo).  
- **Diagnostyka medyczna** – klasyfikacja, czy pacjent ma daną chorobę na podstawie wyników badań.  
- **Analiza nastrojów (sentiment analysis)** – określenie, czy opinia jest pozytywna, neutralna, czy negatywna.  
- **Wykrywanie oszustw finansowych** – klasyfikacja transakcji jako prawdziwe lub podejrzane.  
- **Rozpoznawanie mowy lub tekstu** – np. komendy głosowe lub analiza języka naturalnego.  

#### Popularne algorytmy:
- Logistic Regression  
- Decision Tree  
- Random Forest  
- k-NN (k-Nearest Neighbors)  
- SVM (Support Vector Machine)  
- Naive Bayes  
- Sieci neuronowe (CNN, RNN)

---

### 🔹 Proces uczenia modelu:
1. **Przygotowanie danych** – zebranie i oznaczenie danych (features + labels).  
2. **Podział danych** – na zbiór uczący (*training set*) i testowy (*test set*).  
3. **Trenowanie modelu** – model uczy się zależności między wejściami a wyjściami.  
4. **Walidacja i testowanie** – sprawdzenie, jak dobrze model działa na nowych danych.  
5. **Ewaluacja wyników** – np. przy użyciu metryk: *accuracy, precision, recall, MSE, R²*.

---

### 🔹 Zastosowania w realnym świecie:
- Systemy rekomendacji (Netflix, Amazon, Spotify).  
- Asystenci głosowi (rozumienie mowy i komend).  
- Systemy wykrywania oszustw bankowych.  
- Ocena ryzyka kredytowego i scoring klientów.  
- Wykrywanie defektów w produkcji przemysłowej.  
- Automatyczne rozpoznawanie obrazu w kamerach bezpieczeństwa.  
- Prognozowanie cen, popytu, trendów i sprzedaży.  


## Uczenie nienadzorowane (Unsupervised Learning)

Uczenie nienadzorowane to rodzaj uczenia maszynowego, w którym model uczy się na podstawie **danych nieoznaczonych (bez etykiet)**.  
Celem jest odkrywanie ukrytych wzorców, struktur i zależności w danych wejściowych, bez wcześniejszego informowania modelu, jakie są „prawidłowe” odpowiedzi. Model samodzielnie grupuje, redukuje lub identyfikuje anomalie.

---

### 🔹 Klastrowanie / Analiza Skupień (Clustering)

Klastrowanie, często nazywane **Analizą Skupień**, to typ uczenia nienadzorowanego, w którym celem jest **grupowanie podobnych punktów danych w klastry (grupy)**.  
Model samodzielnie identyfikuje wewnętrzne struktury w danych, tak aby punkty w tym samym klastrze były do siebie podobne (wysoka spójność wewnątrzklastrowa), a punkty z różnych klastrów – jak najbardziej różne (niska spójność międzyklastrowa).

#### Jak to działa:
Algorytmy klastrowania analizują cechy danych i na podstawie ich podobieństwa (często mierzonego odległością w przestrzeni cech, np. odległością euklidesową) przypisują je do grup. Nie potrzebują z góry określonych kategorii czy etykiet. Liczba klastrów może być z góry narzucona (np. K-Means) lub odkryta przez algorytm (np. DBSCAN).

#### Przykłady praktyczne:
- **Segmentacja klientów** – grupowanie klientów na podstawie zachowań zakupowych, danych demograficznych, historii przeglądania. Pozwala to firmom na tworzenie spersonalizowanych kampanii marketingowych i strategii produktowych.
- **Analiza danych genetycznych i medycznych** – grupowanie genów, próbek DNA, komórek lub pacjentów, aby odkryć podobieństwa i różnice, które mogą wskazywać na wspólne cechy, podtypy chorób lub reakcje na leczenie.
- **Organizacja i eksploracja dokumentów lub artykułów** – automatyczne grupowanie tekstów o podobnej tematyce bez ich wcześniejszego tagowania. Ułatwia to wyszukiwanie, przeglądanie i odkrywanie nowych tematów w dużych zbiorach danych tekstowych.
- **Detekcja miast w danych geograficznych** – grupowanie punktów danych lokalizacji (np. z GPS), aby zidentyfikować obszary o wysokim zagęszczeniu, co może odpowiadać miastom lub obszarom miejskim.
- **Kompresja i segmentacja obrazów** – grupowanie podobnych pikseli lub obszarów obrazu na podstawie koloru, tekstury czy jasności, co może być wykorzystane do kompresji, analizy obiektów lub edycji obrazu.
- **Wstępna analiza danych** – odkrywanie naturalnych grup w zbiorze danych, co może dostarczyć cennych insightów przed zastosowaniem algorytmów nadzorowanych lub w celu lepszego zrozumienia danych.

#### Popularne algorytmy:
- K-Means
- Hierarchical Clustering (klastrowanie hierarchiczne)
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
- Gaussian Mixture Models (GMM)
- Agglomerative Clustering
- Mean-Shift

---

### 🔹 Redukcja Wymiarowości (Dimensionality Reduction)

Redukcja wymiarowości to typ uczenia nienadzorowanego, który ma na celu **zmniejszenie liczby cech (zmiennych) w zbiorze danych**, jednocześnie zachowując jak najwięcej istotnych informacji.  
Pomaga to w wizualizacji danych, usuwaniu szumu, kompresji danych i przyspieszaniu pracy innych algorytmów.

#### Jak to działa:
Model znajduje sposoby na reprezentowanie danych w przestrzeni o niższej liczbie wymiarów, tworząc nowe, syntetyczne cechy (tzw. komponenty lub embeddingi), które są kombinacją oryginalnych cech. Metody te mogą być liniowe (np. PCA) lub nieliniowe (np. t-SNE, UMAP), zdolne do wykrywania bardziej złożonych struktur.

#### Przykłady praktyczne:
- **Wizualizacja danych wielowymiarowych** – przekształcenie danych z setek czy tysięcy wymiarów do 2 lub 3 wymiarów, aby móc je wykreślić i zrozumieć strukturę, dostrzec klastry lub anomalie. Jest to kluczowy krok w eksploracyjnej analizie danych.
- **Kompresja obrazów i dźwięku** – redukcja liczby pikseli, kanałów kolorów lub próbek sygnału przy zachowaniu akceptowalnej jakości wizualnej/słuchowej, co zmniejsza wymagania dotyczące przechowywania i przesyłania danych.
- **Przygotowanie danych do uczenia nadzorowanego** – zmniejszenie liczby cech wejściowych dla klasyfikatorów lub regresorów, aby zapobiec nadmiernemu dopasowaniu (overfitting), zmniejszyć złożoność obliczeniową i poprawić generalizację modelu.
- **Redukcja szumu (denoising)** – usunięcie zbędnych, redundantnych lub mało istotnych cech, które mogą wprowadzać szum do modelu i pogarszać jego wydajność.
- **Uczenie embeddingów** – tworzenie niskowymiarowych, gęstych reprezentacji (wektorów) dla złożonych obiektów, takich jak słowa (word embeddings), obrazy czy użytkownicy, które zachowują semantyczne lub strukturalne relacje.

#### Popularne algorytmy:
- PCA (Principal Component Analysis – Analiza Składowych Głównych)
- t-SNE (t-Distributed Stochastic Neighbor Embedding)
- UMAP (Uniform Manifold Approximation and Projection)
- Autoenkodery (Autoencoders – w sieciach neuronowych)
- NMF (Non-negative Matrix Factorization)
- LLE (Locally Linear Embedding)

---

### 🔹 Wizualizacja (Visualization)

Wizualizacja danych w kontekście uczenia nienadzorowanego to proces **graficznego przedstawiania złożonych danych**, aby ułatwić zrozumienie ich struktury, wzorców, klastrów, anomalii i relacji między cechami, często po przeprowadzeniu redukcji wymiarowości. Choć nie jest to algorytm uczenia maszynowego per se, jest to nieodzowne narzędzie do interpretacji wyników nienadzorowanych modeli.

#### Jak to działa:
Wykorzystuje się różne techniki graficzne (wykresy punktowe, mapy cieplne, dendrogramy, wykresy 3D) do przedstawienia danych w sposób, który jest łatwy do odbioru przez człowieka. Często wizualizacja jest efektem zastosowania metod redukcji wymiarowości, które transformują dane do 2 lub 3 wymiarów, umożliwiając ich wykreślenie.

#### Przykłady praktyczne:
- **Wizualizacja klastrów** – przedstawienie punktów danych w 2D/3D, gdzie punkty należące do tego samego klastra są oznaczone tym samym kolorem lub kształtem. Pozwala to na ocenę jakości klastrowania i zrozumienie, jakie cechy charakteryzują poszczególne grupy.
- **Odkrywanie anomalii** – punkty danych, które są wizualnie odseparowane od głównych skupisk, mogą wskazywać na anomalie.
- **Eksploracja danych** – szybkie dostrzeżenie relacji między zmiennymi, wykrycie brakujących danych, obserwacja rozkładów cech czy identyfikacja korelacji.
- **Ocena jakości redukcji wymiarowości** – sprawdzenie, czy metoda redukcji wymiarowości skutecznie zachowała strukturę danych, np. czy klastry są nadal dobrze rozdzielone po projekcji na niższe wymiary.
- **Komunikacja wyników** – prezentowanie złożonych analiz szerszej publiczności w przystępny i intuicyjny sposób.

#### Popularne techniki i narzędzia:
- Wykresy punktowe (Scatter Plots)
- Macierze wykresów punktowych (Scatter Plot Matrices)
- Wykresy 3D
- Mapy cieplne (Heatmaps)
- Dendrogramy (dla klastrowania hierarchicznego)
- Wykresy radarowe
- Biblioteki Python: Matplotlib, Seaborn, Plotly, Altair
- Narzędzia: Tableau, Power BI, Qlik Sense

---

### 🔹 Wykrywanie Anomalii (Anomaly Detection)

Wykrywanie anomalii to typ uczenia nienadzorowanego, który ma na celu **identyfikację punktów danych, które znacznie odbiegają od większości danych** (tzw. odstępstw lub outlierów).  
Anomalie często wskazują na nietypowe, interesujące lub problematyczne zdarzenia.

#### Jak to działa:
Model uczy się "normalnego" wzorca danych, a następnie identyfikuje punkty, które są na tyle różne od tego wzorca, że można je uznać za anomalie. Nie potrzebuje wcześniejszych etykiet anomalii (choć może być wspierane przez nadzór). Podejścia obejmują metody statystyczne, oparte na gęstości, odległości czy modelach uczenia maszynowego.

#### Przykłady praktyczne:
- **Wykrywanie oszustw finansowych** – identyfikacja nietypowych transakcji kartą kredytową, które mogą wskazywać na oszustwo, lub podejrzanych roszczeń ubezpieczeniowych.
- **Monitorowanie sieci komputerowych** – wykrywanie nietypowego ruchu sieciowego, który może sygnalizować atak hakerski, złośliwe oprogramowanie lub naruszenie bezpieczeństwa.
- **Diagnostyka usterek maszyn i konserwacja predykcyjna** – monitorowanie danych z sensorów maszyn (np. wibracje, temperatura, zużycie energii) w celu wykrycia nietypowych wzorców wskazujących na zbliżającą się awarię lub potrzebę serwisu.
- **Kontrola jakości w produkcji przemysłowej** – automatyczna identyfikacja produktów z wadami, które odbiegają od normy, na podstawie danych z kamer lub sensorów.
- **Monitorowanie zdrowia pacjentów** – wykrywanie nietypowych odczytów z urządzeń medycznych (np. EKG, glukometr, smartwatche), które mogą wskazywać na nagły problem zdrowotny lub pogorszenie stanu.
- **Analiza danych z sensorów IoT** – wykrywanie nieprawidłowości w odczytach z czujników w inteligentnych domach, miastach czy rolnictwie, np. awarii sprzętu czy nietypowych warunków środowiskowych.

#### Popularne algorytmy:
- Isolation Forest
- One-Class SVM (Support Vector Machine dla jednej klasy)
- Local Outlier Factor (LOF)
- DBSCAN (może być używany do wykrywania punktów nieprzypisanych do klastrów)
- Autoenkodery (wersje do wykrywania anomalii, gdzie duży błąd rekonstrukcji wskazuje na anomalię)
- K-Nearest Neighbors (k-NN) na podstawie odległości do sąsiadów
- Statystyczne metody: 3-Sigma Rule, Box Plots

---

### 🔹 Uczenie Reguł Asocjacyjnych (Association Rule Learning)

Uczenie reguł asocjacyjnych to typ uczenia nienadzorowanego, który ma na celu **odkrywanie interesujących relacji i zależności między zmiennymi w dużych zbiorach danych**, często w kontekście danych transakcyjnych.

#### Jak to działa:
Model szuka często występujących razem zestawów elementów (np. produktów w koszyku zakupowym) i na ich podstawie generuje reguły typu "Jeśli kupiono X, to prawdopodobnie kupiono też Y". Mierzy się wsparcie (support), ufność (confidence) i lift, aby ocenić istotność tych reguł.

#### Przykłady praktyczne:
- **Analiza koszyka zakupowego (Market Basket Analysis)** – identyfikacja produktów, które często są kupowane razem (np. "Klienci, którzy kupują pieluchy, często kupują też piwo", "Jeśli klient kupi kawę i cukier, prawdopodobnie kupi też mleko"). Pomaga to w układaniu towarów w sklepach, ofertach promocyjnych, cross-sellingu czy rekomendacjach online.
- **Optymalizacja układu sklepu internetowego lub fizycznego** – umieszczanie często kupowanych razem produktów w pobliżu siebie w celu zwiększenia sprzedaży.
- **Systemy rekomendacji** – sugerowanie produktów na podstawie tego, co inni klienci z podobnymi preferencjami kupili (np. "Często kupowane razem z tym produktem").
- **Analiza danych medycznych** – odkrywanie powiązań między objawami, diagnozami, wynikami badań i lekami, które mogą wspierać badania medyczne i decyzje kliniczne.
- **Zarządzanie zapasami** – przewidywanie popytu na produkty komplementarne, aby zoptymalizować stany magazynowe.
- **Wykrywanie wzorców w danych sekwencyjnych** – znajdowanie często występujących sekwencji zdarzeń lub czynności (np. w logach systemowych).

#### Popularne algorytmy:
- Apriori
- FP-Growth (Frequent Pattern Growth)
- ECLAT

---

### 🔹 Proces uczenia modelu nienadzorowanego:
1. **Przygotowanie danych** – zebranie, wstępne oczyszczenie i ewentualne przekształcenie danych (bez etykiet).  
2. **Wybór algorytmu** – w zależności od celu (klastrowanie, redukcja, anomalia, reguły asocjacyjne).  
3. **Trenowanie modelu** – model samodzielnie odkrywa struktury i wzorce w danych.  
4. **Ocena, interpretacja i wizualizacja wyników** – analiza odkrytych wzorców (np. wizualizacja klastrów, analiza komponentów, identyfikacja anomalii, interpretacja reguł).  
5. **Dostosowanie parametrów** – iteracyjne poprawianie modelu i algorytmu w celu uzyskania optymalnych i sensownych wyników.

---

### 🔹 Zastosowania w realnym świecie:
- Segmentacja rynku i personalizacja ofert marketingowych.
- Wizualizacja i eksploracja złożonych zbiorów danych dla lepszego zrozumienia.
- Kompresja danych, optymalizacja przechowywania i przesyłania.
- Wykrywanie oszustw, błędów, usterek i zagrożeń bezpieczeństwa.
- Ulepszanie systemów rekomendacyjnych poprzez odkrywanie ukrytych powiązań.
- Uczenie się cech (feature learning) dla innych modeli nadzorowanych (jako pre-processing).
- Wstępne badanie danych i generowanie hipotez przed zastosowaniem bardziej zaawansowanych technik.

## Uczenie Pół-nadzorowane (Semi-supervised Learning)

Uczenie pół-nadzorowane to rodzaj uczenia maszynowego, który łączy w sobie elementy **uczenia nadzorowanego** i **nienadzorowanego**. Model uczy się na podstawie **niewielkiej ilości danych oznaczonych (z etykietami)** oraz **dużej ilości danych nieoznaczonych (bez etykiet)**.  
Jest to szczególnie przydatne w sytuacjach, gdy etykietowanie danych jest kosztowne, czasochłonne lub wymaga specjalistycznej wiedzy.

#### Dlaczego Semi-supervised Learning?
- **Ograniczone etykiety:** Wiele realnych problemów ma dostęp do dużej ilości danych, ale tylko niewielka ich część jest etykietowana.
- **Wykorzystanie nieoznaczonych danych:** Dane nieoznaczone zawierają cenne informacje o strukturze rozkładu danych, które mogą pomóc modelowi lepiej uogólniać.
- **Zmniejszenie kosztów:** Redukuje potrzebę ręcznego etykietowania ogromnych zbiorów danych.

---

### 🔹 Uczenie oparte na spójności (Consistency Regularization / Self-training)

Uczenie oparte na spójności to podejście, w którym model jest trenowany tak, aby jego przewidywania dla danych nieoznaczonych były **spójne** nawet po niewielkich perturbacjach danych wejściowych lub samego modelu. Self-training jest pokrewną techniką, gdzie model "etykietuje" dane nieoznaczone.

#### Jak to działa:
1.  **Self-training:** Model jest początkowo trenowany na małym zbiorze danych oznaczonych. Następnie używa się go do przewidywania etykiet dla danych nieoznaczonych. Te "pseudo-etykiety" są dodawane do zbioru treningowego (często z wysoką pewnością), a model jest ponownie trenowany. Proces może być iteracyjny.
2.  **Consistency Regularization:** Model jest trenowany tak, aby jego wyjścia dla nieoznaczonych danych były podobne, nawet jeśli te dane zostaną lekko zmienione (np. dodanie szumu, drobne transformacje obrazu). Dodaje się człon regularyzacyjny do funkcji straty, który karze za niespójne przewidywania.

#### Przykłady praktyczne:
- **Klasyfikacja obrazów z ograniczonymi etykietami** – np. rozpoznawanie gatunków zwierząt, gdzie mamy tylko kilka zdjęć z etykietami, ale tysiące nieoznaczonych. Model uczy się na etykietowanych, a następnie generuje pseudo-etykiety dla reszty.
- **Analiza tekstu (NLP)** – klasyfikacja sentymentu, wykrywanie spamu, gdzie dostępnych jest wiele nieoznaczonych tekstów, ale etykietowanie jest kosztowne.
- **Rozpoznawanie mowy** – poprawa dokładności modeli rozpoznawania mowy poprzez wykorzystanie dużych zbiorów nieoznaczonych nagrań audio.
- **Diagnostyka medyczna** – wspomaganie klasyfikacji chorób na podstawie obrazów medycznych (np. MRI, RTG), gdzie etykietowanie wymaga ekspertów.
- **Systemy rekomendacji** – wykorzystanie nieoznaczonych danych o interakcjach użytkowników do poprawy rekomendacji.

#### Popularne algorytmy/techniki:
- Pseudo-Labeling
- Mean Teacher
- Pi-Model
- Temporal Ensembling
- MixMatch, FixMatch (zaawansowane techniki consistency regularization)

---

### 🔹 Uczenie oparte na grafach (Graph-based Semi-supervised Learning)

Uczenie oparte na grafach wykorzystuje strukturę grafu, gdzie punkty danych są wierzchołkami, a krawędzie reprezentują podobieństwo między nimi. Informacje z etykietowanych wierzchołków są "rozprzestrzeniane" na nieoznaczone wierzchołki wzdłuż krawędzi grafu.

#### Jak to działa:
Tworzy się graf, w którym każdy punkt danych jest węzłem. Krawędzie łączą podobne punkty danych, a ich wagi odzwierciedlają stopień podobieństwa. Etykiety z nielicznych oznaczonych węzłów są propagowane przez graf do nieoznaczonych węzłów, zakładając, że podobne węzły powinny mieć podobne etykiety.

#### Przykłady praktyczne:
- **Klasyfikacja dokumentów** – tworzenie grafu, gdzie dokumenty są węzłami, a krawędzie łączą podobne dokumenty. Etykiety z kilku oznaczonych dokumentów są propagowane na resztę.
- **Analiza sieci społecznościowych** – klasyfikacja użytkowników (np. identyfikacja botów, segmentacja grup interesu) na podstawie ich połączeń i aktywności, gdzie tylko niewielka część użytkowników jest etykietowana.
- **Bioinformatyka** – klasyfikacja białek lub genów na podstawie ich interakcji i podobieństwa sekwencji.
- **Wykrywanie oszustw** – budowanie grafu transakcji lub użytkowników i propagowanie informacji o znanych oszustwach na powiązane, nieoznaczone węzły.
- **Segmentacja obrazów** – tworzenie grafu z pikseli lub superpikseli obrazu i propagowanie etykiet z kilku oznaczonych regionów na resztę.

#### Popularne algorytmy/techniki:
- Label Propagation (Propagacja etykiet)
- Label Spreading
- Graph Convolutional Networks (GCNs) – w kontekście głębokiego uczenia na grafach

---

### 🔹 Uczenie oparte na modelach generatywnych (Generative Models for Semi-supervised Learning)

Uczenie oparte na modelach generatywnych zakłada, że dane pochodzą z pewnego rozkładu, który można modelować. Modele te próbują nauczyć się tego rozkładu, co pozwala im wykorzystać zarówno dane oznaczone, jak i nieoznaczone.

#### Jak to działa:
Model generatywny (np. GMM, VAE, GAN) uczy się wspólnego rozkładu prawdopodobieństwa dla danych wejściowych i etykiet. Dane nieoznaczone pomagają modelowi lepiej zrozumieć strukturę danych wejściowych, co z kolei poprawia jego zdolność do klasyfikacji danych oznaczonych.

#### Przykłady praktyczne:
- **Klasyfikacja obrazów** – wykorzystanie VAE lub GAN do nauczenia się reprezentacji obrazów, co pomaga w klasyfikacji nawet z ograniczonymi etykietami.
- **Rozpoznawanie wzorców** – budowanie modelu, który potrafi generować nowe przykłady danych, co świadczy o zrozumieniu ich struktury.
- **Segmentacja obrazów** – modele generatywne mogą pomóc w nauczeniu się, jak wyglądają różne regiony obrazu, nawet jeśli tylko niewielka ich część jest etykietowana.

#### Popularne algorytmy/techniki:
- Gaussian Mixture Models (GMM)
- Variational Autoencoders (VAEs)
- Generative Adversarial Networks (GANs) w trybie pół-nadzorowanym (SGAN)

---

### 🔹 Uczenie oparte na redukcji wymiarowości (Dimensionality Reduction for Semi-supervised Learning)

Chociaż redukcja wymiarowości jest techniką nienadzorowaną, może być wykorzystana w kontekście pół-nadzorowanym, aby znaleźć reprezentację danych, która jest optymalna zarówno dla struktury danych (nienadzorowane), jak i dla zadania klasyfikacji (nadzorowane).

#### Jak to działa:
Niektóre algorytmy redukcji wymiarowości mogą uwzględniać dostępne etykiety, aby znaleźć projekcję, która nie tylko zmniejsza wymiarowość, ale także maksymalizuje separację klas. Inne metody nienadzorowane (np. PCA) mogą być użyte jako pre-processing, a następnie na zredukowanych danych stosuje się techniki pół-nadzorowane.

#### Przykłady praktyczne:
- **Wizualizacja danych z etykietami i bez** – użycie t-SNE lub UMAP do wizualizacji danych, gdzie punkty z etykietami są wyróżnione, co pomaga w ocenie, czy struktura danych wspiera separację klas.
- **Poprawa wydajności klasyfikatorów** – redukcja wymiarowości danych wejściowych przed zastosowaniem algorytmu pół-nadzorowanego lub nadzorowanego, co może zmniejszyć szum i poprawić generalizację.
- **Uczenie reprezentacji** – tworzenie niskowymiarowych embeddingów, które są użyteczne zarówno dla zadań nienadzorowanych (np. klastrowanie), jak i nadzorowanych (np. klasyfikacja).

#### Popularne algorytmy/techniki:
- Semi-supervised PCA (SSPCA)
- Linear Discriminant Analysis (LDA) – choć głównie nadzorowane, może być adaptowane
- Manifold Learning (np. Isomap, LLE) w połączeniu z etykietami
- Autoenkodery z dodatkową funkcją straty dla etykiet

---

### 🔹 Proces uczenia modelu pół-nadzorowanego:
1. **Przygotowanie danych** – zebranie danych, podział na mały zbiór oznaczony i duży zbiór nieoznaczony.  
2. **Wybór algorytmu** – w zależności od dostępnych danych i problemu (np. self-training, graph-based).  
3. **Trenowanie modelu** – model uczy się, wykorzystując zarówno etykiety, jak i strukturę danych nieoznaczonych.  
4. **Walidacja i testowanie** – ocena modelu na zbiorze testowym (z etykietami).  
5. **Ewaluacja wyników** – przy użyciu metryk klasyfikacji (accuracy, precision, recall, F1-score).

---

### 🔹 Zastosowania w realnym świecie:
- **Rozpoznawanie obrazów i wideo** – klasyfikacja obiektów, segmentacja, detekcja twarzy, gdzie etykietowanie każdego piksela jest niemożliwe.
- **Przetwarzanie języka naturalnego (NLP)** – klasyfikacja tekstu, analiza sentymentu, rozpoznawanie encji, gdzie dostępnych jest wiele nieoznaczonych tekstów.
- **Bioinformatyka** – klasyfikacja danych genetycznych, analiza ekspresji genów, gdzie etykietowanie próbek jest kosztowne.
- **Diagnostyka medyczna** – wspomaganie klasyfikacji chorób na podstawie obrazów medycznych lub danych pacjentów.
- **Wykrywanie oszustw i anomalii** – wykorzystanie nieoznaczonych danych do lepszego zrozumienia "normalnego" zachowania i skuteczniejszego wykrywania odstępstw.
- **Personalizacja i systemy rekomendacji** – wykorzystanie nieoznaczonych danych o zachowaniach użytkowników do poprawy rekomendacji.
- **Uczenie robotów** – roboty mogą uczyć się na podstawie niewielkiej liczby demonstracji (etykiet) i dużej liczby nieoznaczonych interakcji ze środowiskiem.


## Uczenie Samonadzorowane (Self-supervised Learning - SSL)

Uczenie samonadzorowane to rodzaj uczenia maszynowego, w którym model uczy się na podstawie **danych nieoznaczonych**, ale generuje **własne "pseudo-etykiety"** z tych danych, aby rozwiązać tzw. **zadanie pretekstowe (pretext task)**.  
Celem nie jest rozwiązanie samego zadania pretekstowego, lecz nauczenie modelu **ogólnych, użytecznych reprezentacji (embeddingów)** danych, które mogą być następnie wykorzystane do rozwiązywania innych, bardziej złożonych zadań (tzw. **zadań downstream**), często z użyciem uczenia nadzorowanego.

#### Dlaczego Self-supervised Learning?
- **Brak etykiet:** Podobnie jak w uczeniu nienadzorowanym, SSL nie wymaga ręcznie etykietowanych danych.
- **Bogatsze reprezentacje:** W przeciwieństwie do tradycyjnego uczenia nienadzorowanego (np. klastrowania), SSL często prowadzi do nauki bardziej semantycznie bogatych i ogólnych reprezentacji, które są bardzo skuteczne w transfer learningu.
- **Skalowalność:** Możliwość wykorzystania ogromnych, nieoznaczonych zbiorów danych (np. miliardów obrazów, terabajtów tekstu) do wstępnego trenowania.
- **Most między unsupervised a supervised:** Umożliwia wykorzystanie nienadzorowanych danych do "rozgrzania" modelu, który następnie jest dostrajany (fine-tuned) na małym zbiorze danych oznaczonych.

---

### 🔹 Zadania Pretekstowe (Pretext Tasks)

Zadania pretekstowe to specjalnie zaprojektowane zadania, które model rozwiązuje na danych nieoznaczonych, aby nauczyć się użytecznych reprezentacji. Model generuje własne etykiety dla tych zadań.

#### Jak to działa:
Dane wejściowe są modyfikowane w kontrolowany sposób (np. maskowanie części obrazu, tasowanie zdań), a model jest trenowany, aby przewidzieć oryginalny stan lub brakującą część. Rozwiązując te "sztuczne" problemy, model uczy się rozumieć strukturę, kontekst i semantykę danych.

#### Przykłady praktyczne:
- **Przewidywanie brakujących fragmentów obrazu (Image Inpainting/Context Prediction):** Model otrzymuje obraz z zamaskowanym fragmentem i musi przewidzieć, co się tam znajdowało. Uczy się relacji przestrzennych i semantycznych obiektów.
- **Przewidywanie względnej pozycji fragmentów obrazu (Relative Patch Prediction):** Model otrzymuje centralny fragment obrazu i kilka innych fragmentów, a jego zadaniem jest przewidzenie, gdzie te inne fragmenty znajdowały się względem centralnego. Uczy się relacji przestrzennych.
- **Kolorowanie obrazów czarno-białych (Colorization):** Model otrzymuje obraz czarno-biały i musi przewidzieć jego kolory. Uczy się rozpoznawać obiekty i ich typowe barwy.
- **Generowanie następnego słowa/maskowanie słów (Next Word Prediction/Masked Language Modeling):** W NLP, model otrzymuje sekwencję słów i musi przewidzieć następne słowo (np. GPT) lub zamaskowane słowa w zdaniu (np. BERT). Uczy się gramatyki, składni i semantyki języka.
- **Przewidywanie rotacji obrazu (Rotation Prediction):** Model otrzymuje obraz obrócony o losowy kąt i musi przewidzieć ten kąt. Uczy się rozpoznawania obiektów niezależnie od ich orientacji.
- **Kontrastowe uczenie się (Contrastive Learning):** Model uczy się, aby podobne przykłady (np. różne augmentacje tego samego obrazu) miały podobne reprezentacje, a niepodobne przykłady – różne. Jest to obecnie jedna z najskuteczniejszych metod SSL.

#### Popularne algorytmy/techniki (przykłady zadań pretekstowych):
- **Dla obrazów:** Jigsaw Puzzles, Rotation Prediction, Context Prediction, Colorization, SimCLR, MoCo, BYOL (ostatnie trzy to metody kontrastowe).
- **Dla tekstu:** Masked Language Modeling (BERT), Next Sentence Prediction (BERT), Next Token Prediction (GPT), ELECTRA.

---

### 🔹 Transfer Learning (Przenoszenie Wiedzy)

Transfer Learning to kluczowy element i główna zaleta uczenia samonadzorowanego. Polega na **przenoszeniu wiedzy (nauczenia się reprezentacji) z jednego zadania (zadania pretekstowego SSL) do innego, często bardziej złożonego zadania (zadania downstream)**.

#### Jak to działa:
1.  **Pre-training (Wstępne trenowanie):** Model (np. duża sieć neuronowa) jest trenowany na ogromnym zbiorze danych nieoznaczonych, rozwiązując zadanie pretekstowe SSL. W tym etapie model uczy się ogólnych, niskopoziomowych i wysokopoziomowych cech danych (np. krawędzie, tekstury, kształty dla obrazów; gramatyka, semantyka dla tekstu).
2.  **Fine-tuning (Dostrajanie):** Nauczenie reprezentacje (wagi i bias sieci) są następnie wykorzystywane jako punkt wyjścia dla nowego zadania (np. klasyfikacji obrazów, analizy sentymentu), które ma dostęp do małego zbioru danych oznaczonych. Zazwyczaj dodaje się nową, małą warstwę wyjściową, która jest trenowana na danych oznaczonych, a reszta modelu jest albo zamrożona, albo trenowana z bardzo małym współczynnikiem uczenia.

#### Przykłady praktyczne:
- **Rozpoznawanie obiektów na obrazach medycznych:** Wstępne trenowanie modelu na miliardach ogólnych obrazów (np. ImageNet, ale bez etykiet, używając SSL), a następnie dostrajanie go na małym zbiorze obrazów medycznych (np. RTG klatki piersiowej) z etykietami.
- **Klasyfikacja tekstu w rzadkich językach:** Wstępne trenowanie modelu językowego (np. BERT) na ogromnym korpusie tekstu w języku angielskim (lub innym bogatym w dane), a następnie dostrajanie go na małym zbiorze danych w rzadkim języku do zadania klasyfikacji.
- **Personalizacja asystentów głosowych:** Wstępne trenowanie modelu na ogólnych danych audio, a następnie dostrajanie go do rozpoznawania mowy konkretnego użytkownika.
- **Wykrywanie oszustw:** Wstępne trenowanie modelu na dużej ilości nieoznaczonych danych transakcyjnych, aby nauczyć się "normalnych" wzorców, a następnie dostrajanie go do wykrywania oszustw na małym zbiorze etykietowanych transakcji.

#### Korzyści z Transfer Learningu w SSL:
- **Lepsza wydajność:** Modele osiągają znacznie lepsze wyniki, nawet z małą ilością danych oznaczonych.
- **Szybszy trening:** Wstępnie wytrenowany model szybciej konwerguje podczas dostrajania.
- **Mniejsze zapotrzebowanie na dane:** Zmniejsza potrzebę posiadania ogromnych, etykietowanych zbiorów danych dla każdego nowego zadania.

---

### 🔹 Porównanie Self-supervised Learning (SSL) z Unsupervised Learning (UL)

Chociaż SSL jest formą uczenia nienadzorowanego, istnieje kluczowa różnica w ich celach i metodologii:

| Cecha                  | Uczenie Nienadzorowane (Unsupervised Learning - UL)                               | Uczenie Samonadzorowane (Self-supervised Learning - SSL)                               |
| :--------------------- | :-------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------- |
| **Cel główny**         | Odkrywanie ukrytych struktur w danych (np. klastry, redukcja wymiarowości).       | Uczenie się ogólnych, użytecznych reprezentacji danych do **transferu wiedzy**.        |
| **Etykiety**           | Brak etykiet.                                                                     | Brak ręcznych etykiet. Model **generuje własne "pseudo-etykiety"** z danych.            |
| **Zadanie**            | Bezpośrednie rozwiązanie problemu (np. klastrowanie klientów).                    | Rozwiązanie **zadania pretekstowego**, które jest środkiem do celu (nauki reprezentacji). |
| **Wyjście**            | Klastry, zredukowane wymiary, wykryte anomalie.                                   | **Reprezentacje (embeddingi)** danych, które są wejściem dla kolejnych zadań.          |
| **Zastosowanie**       | Segmentacja, wizualizacja, detekcja anomalii, analiza koszyka.                    | **Pre-training** dla zadań nadzorowanych (klasyfikacja, detekcja obiektów, NLP).       |
| **Typowe algorytmy**   | K-Means, PCA, DBSCAN, Isolation Forest, Apriori.                                  | BERT, GPT, SimCLR, MoCo, BYOL (często oparte na głębokich sieciach neuronowych).       |
| **Złożoność modelu**   | Często prostsze modele, choć mogą być też głębokie autoenkodery.                   | Zazwyczaj **głębokie sieci neuronowe** (transformery, konwolucyjne).                   |

**Kluczowa różnica:**
UL skupia się na **bezpośrednim odkrywaniu wzorców** w danych. SSL natomiast skupia się na **uczeniu się reprezentacji**, które są tak dobre, że mogą być **przeniesione** do innych zadań, często nadzorowanych, znacząco poprawiając ich wydajność, nawet przy małej ilości etykiet. SSL jest często postrzegane jako sposób na "rozgrzanie" dużych modeli głębokiego uczenia, aby były bardziej efektywne w późniejszym dostrajaniu.

---

### 🔹 Proces uczenia modelu samonadzorowanego:
1. **Przygotowanie danych** – zebranie dużego zbioru danych nieoznaczonych.  
2. **Definicja zadania pretekstowego** – zaprojektowanie zadania, które pozwoli modelowi nauczyć się użytecznych reprezentacji.  
3. **Trenowanie modelu (Pre-training)** – model uczy się rozwiązywać zadanie pretekstowe, generując własne pseudo-etykiety.  
4. **Ekstrakcja reprezentacji** – po pre-treningu, warstwy modelu (z wyjątkiem warstwy wyjściowej zadania pretekstowego) są wykorzystywane do ekstrakcji embeddingów.  
5. **Dostrajanie (Fine-tuning)** – na małym zbiorze danych oznaczonych, model jest dostrajany do właściwego zadania (downstream task).  
6. **Ewaluacja wyników** – ocena modelu na zbiorze testowym dla zadania downstream.

---

### 🔹 Zastosowania w realnym świecie:
- **Przetwarzanie języka naturalnego (NLP):** Modele takie jak BERT, GPT-3/4, T5 są trenowane samonadzorowanie na ogromnych korpusach tekstu, a następnie dostrajane do tłumaczenia maszynowego, generowania tekstu, analizy sentymentu, odpowiadania na pytania.
- **Wizja komputerowa:** Modele trenowane samonadzorowanie (np. SimCLR, MoCo) na miliardach obrazów, a następnie dostrajane do klasyfikacji obrazów, detekcji obiektów, segmentacji, rozpoznawania twarzy, nawet z bardzo małą ilością etykiet.
- **Rozpoznawanie mowy:** Wstępne trenowanie na dużych zbiorach audio, a następnie dostrajanie do transkrypcji mowy, identyfikacji mówcy.
- **Bioinformatyka:** Uczenie reprezentacji sekwencji DNA/RNA/białek, które mogą być następnie użyte do przewidywania funkcji białek, wykrywania mutacji.
- **Robotyka:** Uczenie się reprezentacji środowiska i interakcji na podstawie nieoznaczonych danych z sensorów, co pomaga robotom w nawigacji i manipulacji.
- **Medycyna:** Wstępne trenowanie na dużych zbiorach nieoznaczonych obrazów medycznych, a następnie dostrajanie do diagnozy chorób.

## Uczenie ze Wzmocnieniem (Reinforcement Learning - RL)

Uczenie ze wzmocnieniem to zupełnie inny paradygmat uczenia maszynowego, w którym system uczący, zwany w tym kontekście **agentem**, może **obserwować środowisko**, **wybierać i wykonywać akcje**, a w zamian otrzymuje **nagrody** (lub kary w postaci negatywnych nagród).  
Agent musi samodzielnie nauczyć się, jaka jest najlepsza strategia, zwana **polityką (policy)**, aby z czasem uzyskać jak najwięcej nagród. Polityka definiuje, jaką akcję agent powinien wybrać w danej sytuacji.

#### Dlaczego Reinforcement Learning?
- **Interakcja ze środowiskiem:** RL jest idealne do problemów, gdzie system musi podejmować sekwencję decyzji w dynamicznym środowisku.
- **Brak etykiet:** Nie wymaga ręcznie etykietowanych danych wejścia-wyjścia; uczy się na podstawie prób i błędów oraz otrzymywanych nagród.
- **Optymalizacja długoterminowa:** Skupia się na maksymalizacji skumulowanej nagrody w czasie, a nie tylko na natychmiastowych korzyściach.
- **Autonomiczne systemy:** Umożliwia tworzenie systemów, które uczą się adaptować i optymalizować swoje zachowanie w złożonych scenariuszach.

---

### 🔹 Agent i Środowisko (Agent and Environment)

W uczeniu ze wzmocnieniem, interakcja odbywa się między **agentem** a **środowiskiem**.

#### Jak to działa:
- **Agent:** To system uczący się, który podejmuje decyzje. Obserwuje stan środowiska, wybiera akcję do wykonania i otrzymuje nagrodę (lub karę) oraz nowy stan środowiska.
- **Środowisko:** To świat, w którym działa agent. Reaguje na akcje agenta, zmieniając swój stan i dostarczając nagrody.

#### Przykłady praktyczne:
- **Robot kroczący:** Robot (agent) obserwuje swoje położenie i równowagę (stan środowiska), wykonuje ruchy nogami (akcje), a otrzymuje nagrody za utrzymanie równowagi i poruszanie się do przodu, a kary za upadek.
- **Gra w Go (AlphaGo):** Program AlphaGo (agent) obserwuje planszę (stan środowiska), wykonuje ruch (akcję), a otrzymuje nagrody za wygrane partie i kary za przegrane.
- **Autonomiczny samochód:** Samochód (agent) obserwuje drogę, inne pojazdy, znaki (stan środowiska), wykonuje akcje (przyspieszanie, hamowanie, skręcanie), a otrzymuje nagrody za bezpieczną jazdę i dotarcie do celu, a kary za kolizje czy naruszenia przepisów.
- **System zarządzania energią:** System (agent) obserwuje zużycie energii, ceny, prognozy pogody (stan środowiska), podejmuje decyzje o włączeniu/wyłączeniu urządzeń (akcje), a otrzymuje nagrody za oszczędności i kary za przekroczenie limitów.

---

### 🔹 Akcje, Stany i Nagrody (Actions, States, and Rewards)

To podstawowe elementy, które definiują interakcję agenta ze środowiskiem.

#### Jak to działa:
- **Akcje (Actions):** Decyzje, które agent może podjąć w danym stanie środowiska. Mogą być dyskretne (np. "idź w lewo", "kup") lub ciągłe (np. "przyspiesz o 0.5 m/s²").
- **Stany (States):** Reprezentacja aktualnej sytuacji środowiska, którą agent może obserwować. Stan zawiera wszystkie istotne informacje potrzebne agentowi do podjęcia decyzji.
- **Nagrody (Rewards):** Sygnał zwrotny od środowiska, który informuje agenta o jakości jego ostatniej akcji. Nagrody są kluczowe dla uczenia się polityki. Celem agenta jest maksymalizacja skumulowanej nagrody w czasie.

#### Przykłady praktyczne:
- **Gra w szachy:**
    - **Akcje:** Wykonanie ruchu figurą.
    - **Stany:** Układ figur na szachownicy.
    - **Nagrody:** +1 za wygraną, -1 za przegraną, 0 za remis lub ruchy pośrednie.
- **Zarządzanie magazynem:**
    - **Akcje:** Zamówienie towaru, wysyłka towaru.
    - **Stany:** Poziom zapasów, prognozy popytu.
    - **Nagrody:** + za zysk ze sprzedaży, - za koszty magazynowania, - za brak towaru.
- **Sterowanie robotem przemysłowym:**
    - **Akcje:** Ruch ramienia robota w określonym kierunku.
    - **Stany:** Pozycja ramienia, położenie obiektu.
    - **Nagrody:** + za prawidłowe chwycenie obiektu, - za upuszczenie obiektu.

---

### 🔹 Polityka (Policy)

Polityka to **strategia** agenta, która definiuje, jaką akcję powinien wybrać w danej sytuacji (stanie środowiska). Jest to "mózg" agenta, który kieruje jego zachowaniem.

#### Jak to działa:
Polityka może być deterministyczna (dla danego stanu zawsze wybiera tę samą akcję) lub stochastyczna (dla danego stanu wybiera akcję z pewnym prawdopodobieństwem). Celem uczenia ze wzmocnieniem jest znalezienie optymalnej polityki, która maksymalizuje oczekiwaną skumulowaną nagrodę.

#### Przykłady praktyczne:
- **Polityka AlphaGo:** AlphaGo nauczyło się swojej zwycięskiej polityki poprzez analizę milionów gier i rozgrywanie wielu gier przeciwko sobie. Polityka ta definiowała, jaki ruch wykonać w każdej możliwej konfiguracji planszy Go.
- **Polityka robota kroczącego:** Polityka robota może definiować, jak poruszać nogami w zależności od aktualnego stanu równowagi i prędkości, aby utrzymać się na nogach i iść do przodu.
- **Polityka systemu rekomendacji:** Polityka może decydować, jaki produkt zarekomendować użytkownikowi w zależności od jego historii przeglądania i zakupów, aby zmaksymalizować prawdopodobieństwo zakupu.

---

### 🔹 Proces uczenia modelu (Reinforcement Learning):
1. **Definicja środowiska i nagród** – określenie, jak agent będzie wchodził w interakcje ze światem i jakie nagrody będzie otrzymywał.  
2. **Inicjalizacja polityki** – początkowa, często losowa, strategia agenta.  
3. **Interakcja ze środowiskiem** – agent obserwuje stan, wybiera akcję zgodnie z polityką, wykonuje ją, otrzymuje nagrodę i nowy stan.  
4. **Aktualizacja polityki** – na podstawie otrzymanych nagród, agent modyfikuje swoją politykę, aby w przyszłości podejmować lepsze decyzje.  
5. **Iteracja** – proces interakcji i aktualizacji powtarza się wielokrotnie, aż agent nauczy się optymalnej polityki.  
6. **Zastosowanie polityki** – po nauczeniu, agent stosuje wyuczoną politykę do rozwiązywania problemu (np. AlphaGo stosujące wyuczoną politykę w grze przeciwko mistrzowi).

---

### 🔹 Zastosowania w realnym świecie:
- **Robotyka:** Uczenie robotów chodzenia, manipulacji obiektami, nawigacji w złożonych środowiskach.
- **Gry:** Tworzenie agentów AI, którzy potrafią grać w gry (szachy, Go, gry wideo) na poziomie mistrzowskim lub ponadludzkim (np. AlphaGo, AlphaStar, OpenAI Five).
- **Autonomiczne pojazdy:** Uczenie samochodów, jak bezpiecznie i efektywnie jeździć, unikać przeszkód, parkować.
- **Systemy rekomendacji:** Optymalizacja rekomendacji produktów, filmów czy muzyki w celu maksymalizacji zaangażowania użytkownika.
- **Zarządzanie zasobami:** Optymalizacja zużycia energii w centrach danych, zarządzanie ruchem w sieciach telekomunikacyjnych.
- **Finanse:** Optymalizacja strategii handlowych, zarządzanie portfelem inwestycyjnym.
- **Medycyna:** Optymalizacja planów leczenia, dawkowania leków w czasie.