# MUM 2023-24 Funkcje bazowe

## Motywacja

1. model liniowy jest za słaby
  * np. klasyfikacja punktów na bliskie i dalekie od zera
    * nieliniowa granica decyzyjna
2. wiele nieliniowych hipotez, których nie możemy wziąć pod uwagę
3. proste rozwiązanie - zdefiniować nieliniową funkcję $\Phi$
$$\begin{align} 
\Phi &: \mathbb{R}^D \ni \mathbf{x} \mapsto \Phi(\mathbf{x}) \in \mathbb{R}^J\\
\Phi &= (\phi_1, \ldots, \phi_J)
\end{align}$$ przy czym zwykle $J>D$
4. $\phi_j$ to __funkcja bazowa__
  * tworzy nową (nieliniową) __cechę__ na podstawie __całego wektora__ $\mathbf{x}$
  * łącznie $J$ nowych cech (zamiast $D$ starych)
  * zwykle dodajemy $\phi_0=1$, pozwalające na dodanie "biasu" do modelu
  * model uczy się $$y=^T\Phi(x)=w_0\phi_0(x)+w_1\phi_1(x)+\dots+w_J\phi_J(x)$$
    * można powiedzieć, że uzyskujemy nieliniowy model wykorzystując metody regresji liniowej
5. dla nieliniowej funkcji $\Phi$ i $J>D$ dostajemy tzw. **model Pao**, który teoretycznie jest w stanie rozwiązać dowolne zadanie z dowolną dokładnością
  * patrz ogólne twierdzenie o sieciach z jedną warstwą ukrytą
  * zwykle płacimy za to słabymi zdolnościami do generalizacji
  * potrzebny jest bardzo dobrze zaprojektowany proces uczenia ze zbiorami walidacyjnymi, poszukiwaniem hiperparametrów, ostrą regularyzacją, dużym zbiorem uczącym
5. zbyt duże $J$ stwarza problemy
  * dobrze jest, gdy $N >> J$ (czyli też $N >> D$)
6. $\Phi$ musi zostać zdefiniowane __przed uczeniem__
  * "udawany" nieliniowy model
  * model tak naprawdę wciąż jest liniowy, bo __nie może sam nauczyć się $\Phi$__
    * model jest liniowy w przestrzeni parametrów $\theta$, co ułatwia analizę modelu
  * model wciąż niekoniecznie będzie mógł znaleźć prawdziwe rozwiązanie
  * ale $\Phi$ pozwala nam dodać do modelu __wiedzę ekspercką__
7. model, który uczy się $\Phi$ - sieć neuronowa
  * w teorii - __uniwersalny aproksymator__
    * może nauczyć się dowolnego rozkładu prawdopodobieństwa
  * w praktyce
    * sieć musiałaby być nieskończenie duża
    * optymalizacja gradientowa niekoniecznie znajdzie minimum globalne
    * a nawet jak znajdzie, to MLE wcale nie jest takie dobre
    * ale wciąż to jeden z najlepszych modeli (jeśli umie się go stabilnie trenować)
8. innym podejściem, podobnym, może być zdefiniowanie funkcji ekstrahujących cechy bezpośrednio związane z problemem
  * **plus** nasz model nie musi się uczyć
  * **minus** możemy źle wybrać istotne cechy

## Przykłady

1. często funkcje wielomianowe $\phi_j(x)=x^j$
  * wielomiany są funkcjami globalnymi
  * zmiany w jednym obszarze wpływają na wszystkie inne
  * użycie wielomianów jest uzasadnione tym, że każda ciągła funkcja może być dowolnie dokładnie aproksymowana wielomianami
2. funkcje o postaci $$x_1^{p_1}x_2^{p_2}\dots x_D^{p_D}$$ z ograniczeniem $p_1+p_2+\dots+p_D\leq r$
  * razem $$J=\frac{(D+r)!}{D!\,r!}$$ funkcji
  * $D=10$ i $r=3$ daje $J=286$
    * bardzo dużo parametrów do ustalenia
      * tylko ostra regularyzacja usunie redundantne
  * to są funkcje __globalne__
    * zmiany w jednym obszarze danych wpływają na wszystkie inne
3. inne to funkcje __spline__
  * podział na podobszary i różne wielomiany w nich
4. częste są funkcje __lokalne__
  * gausowskie 
    $$\phi_j(x)=\exp\left(-\frac{(x-\mu_j)^2}{2\sigma^2}\right)$$
    * wartości $\mu_j$
      * równo rozłożone
      * centroidy klastrów
    * sigmoidalne $$\phi_j(x)=\sigma\left(\frac{x-\mu_j}{a}\right)$$
5. także Fourierowskie i wavelets
  * szczególnie dla przetwarzania sygnałów
6. sklejane, radialne, furierowskie, etc.