# Modele analizy danych

Tomasz Rodak

---

## 1.1 Trening w uczeniu maszynowym

Trening (uczenie, optymalizacja) w uczeniu maszynowym to proces, podczas którego model wyznacza swoje parametry w oparciu o dostępne dane. Proces ten może być jednorazowy (gdy istnieje wzór na parametry) lub stopniowy, polegający na iteracyjnym dostosowywaniu parametrów. 

W przypadku iteracyjnym istotą treningu jest ocena modelu. Do oceny wykorzystuje się funkcję zwaną funkcją **straty** lub **kosztu** pokazującą jak bardzo przewidywania modelu odbiegają od rzeczywistych wartości (kóre w uczeniu nadzorowanym są nam znane). Funkcja ta ma różną postać w zależności od tego z jakim problemem mamy do czynienia:
* błąd średniokwadratowy (MSE) w przypadku regresji,
* entropia krzyżowa w przypadku klasyfikacji,
* funkcja wiarygodności w rożnych modelach probabilistycznych.

Trening w postaci iteracyjnej wygląda zwykle następująco:
1. inicjalizacja modelu z losowymi parametrami,
2. obliczenie wartości funkcji straty na zbiorze testowym,
3. sprawdzenie, 
   * czy parametry modelu przestały się istotnie zmieniać (optymalizacja zbieżna), lub
   * czy nie przekroczono limitu iteracji (brak zbieżności).
   
   Jeśli tak, to proces jest przerywany.
4. dostosowanie parametrów,
5. powrót do punktu 2.

Powstaje pytanie w jaki sposób dostosować parametry modelu w punkcie 4? Funkcja straty może być rozpatrywana jako funkcja przekształcająca parametry modelu w wartość oceny na zbiorze testowym. Zatem poszukiwany jest taki układ parametrów, dla którego funkcja straty obliczana na zbiorze testowym osiąga minimum. Dostosowanie parametrów w punkcie 4 może zatem polegać na podmianie bieżącego układu parametrów na taki układ, który wypada bliżej lokalnego minimum funkcji straty. **Algorytm gradientu prostego** (i wielu jego odmian) opiera się na obserwacji, że kierunek przemieszczania się w przestrzeni parametrów w rejon minimum lokalnego wyznacza ujemny **gradient** funkcji straty.

Celem tego arkusza jest wizualna demonstracja działania algorytmu gradientu prostego na prostych przykładach funkcji rzeczywistych. 

## 1.2 Algorytm gradientu prostego

Załóżmy, że mamy daną funkcję rzeczywistą $y=f(x)$, $x\in\mathbb{R}^p$. Chcemy znaleźć jej minimum lokalne. Algorytm gradientu prostego wygląda następująco:

1. Ustalamy parametry algorytmu:
   * $x_0$ - punkt startowy (dowolny),
   * $\eta>0$ - współczynnik uczenia (dowolny, ale nie za duży),
2. Obliczamy kolejne punkty $x_1,x_2,\ldots$ w następujący sposób:
   * $x_{n+1} = x_n - \eta \cdot \nabla f(x_n)$, gdzie $\nabla f(x_n)$ to gradient funkcji $f$ w punkcie $x_n$.
3. Proces kończymy, gdy osiągniemy zbieżność, czyli gdy różnice między kolejnymi punktami staną się zaniedbywalnie małe, lub gdy osiągniemy maksymalną liczbę iteracji.
4. Zwracamy ostatni punkt $x_n$ jako przybliżenie minimum lokalnego funkcji $f$.

Dlaczego to działa? Otóż gradient $f$ w punkcie $x$ wskazuje kierunek, w którym funkcja $f$ **najszybciej rośnie**. Kierunek przeciwny, to kierunek, w którym funkcja $f$ najszybciej maleje. Dlatego przemieszczenie się w kierunku przeciwnym do wskazywanego przez gradient powinno prowadzić do (jakiegoś) minimum lokalnego funkcji $f$ i to jest powód, dla którego do bieżącej wartości $x_n$ dodajemy 

\begin{equation*}
-\eta \cdot f'(x_n)
\end{equation*}

## 1.3 Przypadek funkcji jednej zmiennej 

Załóżmy, że $y=f(x)$ jest funkcją jednej zmiennej $x$. W tym przypadku algorytm redukuje się do postaci:

1. Ustalamy parametry algorytmu:
   * $x_0$ - punkt startowy (dowolny),
   * $\eta>0$ - współczynnik uczenia (dowolny, ale nie za duży),
2. Obliczamy kolejne punkty $x_1,x_2,\ldots$ w następujący sposób:
   * $x_{n+1} = x_n - \eta \cdot f'(x_n)$, gdzie $f'(x_n)$ to pochodna funkcji $f$ w punkcie $x_n$.
3. Proces kończymy, gdy osiągniemy zbieżność, czyli gdy różnice między kolejnymi punktami staną się zaniedbywalnie małe, lub gdy osiągniemy maksymalną liczbę iteracji.
4. Zwracamy ostatni punkt $x_n$ jako przybliżenie minimum lokalnego funkcji $f$.

### 1.3.1 Przykład dla wybranej funkcji jednej zmiennej

Na początek wybierz jakąś prostą dobrze znaną funkcję, np. $f(x) = x^2$. Później możesz ją dowolnie zmieniać. 

Zdefiniuj swoją funkcję w Pythonie.

Narysuj wykres funkcji na jakimś wybranym przedziale zawierającycm przynajmniej jedno minimum lokalne. Dla funkcji kwadratowej takie minimum jest tylko jedno, ale inne funkcje mogą mieć ich więcej.

Ustal punkt startowy $x_0$ oraz współczynnik uczenia $\eta>0$. Wykonaj kilka iteracji algorytmu gradientu prostego i narysuj na wykresie funkcji kolejno uzyskiwane punkty $x_n$. Punkty połącz linią pokazującą ścieżkę optymalizacji. Pochodną obliczaj numerycznie stosując wzór:

\begin{equation*}
f'(x) \approx \frac{f(x+h) - f(x)}{h},
\end{equation*}

gdzie $h$ to liczba bliska zeru (np. $h=10^{-9}$).

Napisz kod, który automatycznie wykona powyższe kroki.  

### 1.3.2 Wnioski

Przeprowadź różne eksperymenty zmieniając funkcję, punkt startowy oraz współczynnik uczenia. Odpowiedz na pytania:

1. co się dzieje, gdy współczynnik uczenia jest zbyt duży?
2. co się dzieje, gdy współczynnik uczenia jest zbyt mały?
3. jak ostateczny wynik algorytmu zależy od wyboru punktu startowego?

## 1.4 Przypadek funkcji dwóch zmiennych

Załóżmy teraz, że $z=f(x,y)$ jest funkcją dwóch zmiennych $x$ i $y$. Oto postać algorytmu dla tego przypadku:

1. Ustalamy parametry algorytmu:
   * $(x_0, y_0)$ - punkt startowy (dowolny),
   * $\eta>0$ - współczynnik uczenia (dowolny, ale nie za duży),
2. Obliczamy kolejne punkty $(x_1,y_1), (x_2,y_2),\ldots$ w następujący sposób:

    \begin{gather*}
    x_{n+1} = x_n - \eta \cdot \frac{\partial f}{\partial x}(x_n, y_n) \\
    y_{n+1} = y_n - \eta \cdot \frac{\partial f}{\partial y}(x_n, y_n)
    \end{gather*}

3. Proces kończymy, gdy osiągniemy zbieżność, czyli gdy różnice między kolejnymi punktami staną się zaniedbywalnie małe, lub gdy osiągniemy maksymalną liczbę iteracji.
4. Zwracamy ostatni punkt $(x_n, y_n)$ jako przybliżenie minimum lokalnego funkcji $f$.

### 1.4.1 Przykład dla wybranej funkcji dwóch zmiennych

Na początek wybierz jakąś prostą dobrze znaną funkcję, np. $f(x,y) = x^2 + y^2$ lub $f(x,y) = (x-1)^2 + 10(y+2)^2$. Możesz też wypróbować coś o bardziej wyszukanym zachowaniu, np. funkcję Rosenbrocka 

\begin{equation*}
f(x,y) = (1-x)^2 + 100(y-x^2)^2
\end{equation*}

czy funkcję Himmelblaua

\begin{equation*}
f(x,y) = (x^2 + y - 11)^2 + (x + y^2 - 7)^2
\end{equation*}

Zdefiniuj swoją funkcję w Pythonie.

Narysuj wykres 3D funkcji oraz wykres konturowy (widok z góry) na jakimś wybranym obszarze zawierającym przynajmniej jedno minimum lokalne.

Ustal punkt startowy $(x_0, y_0)$ oraz współczynnik uczenia $\eta>0$. Wykonaj kilka iteracji algorytmu gradientu prostego i narysuj na mapie konturowej kolejno uzyskiwane punkty $(x_n, y_n)$ połączone linią pokazującą ścieżkę optymalizacji. 

Pochodne cząstkowe obliczaj numerycznie stosując wzory:

\begin{equation*}
\frac{\partial f}{\partial x}(x,y) \approx \frac{f(x+h, y) - f(x, y)}{h}
\end{equation*}

\begin{equation*}
\frac{\partial f}{\partial y}(x,y) \approx \frac{f(x, y+h) - f(x, y)}{h}
\end{equation*}

gdzie $h$ to liczba bliska zeru (np. $h=10^{-9}$).

Napisz kod, który automatycznie wykona powyższe kroki z kryterium zatrzymania opartym na zbieżności.

### 1.4.2 Wnioski

Przeprowadź różne eksperymenty zmieniając funkcję, punkt startowy oraz współczynnik uczenia. Odpowiedz na pytania:

1. Co się dzieje, gdy współczynnik uczenia jest zbyt duży?
2. Co się dzieje, gdy współczynnik uczenia jest zbyt mały?
3. Jak ostateczny wynik algorytmu zależy od wyboru punktu startowego?
4. Jak zachowuje się algorytm dla różnych funkcji (np. funkcja Rosenbrocka vs. prosta parabola)?
5. Czy algorytm zawsze znajduje globalne minimum?