Będziemy zawsze pisali $p$, co oznacza:
* prawdopodobieństwo - w przypadku dyskretnym
* wartość funkcji gęstości - w przypadku ciągłym

## Model generatywny

1. uczenie nienadzorowane, _unsupervised learning_
2. dane $$\{\mathbf{x}_n\}$$
    * $\mathbf{x}$ - wektor __przykładów__
        * wartości ciągłe - liczby rzeczywiste
        * wartości dyskretne - np. liczby całkowite
3. rozkład prawdopodobieństwa
    * dane treningowe to __sample z rozkładu__ $p(\mathbf{x})$
    * model uczy się __rozkładu prawdopodobieństwa__ $p(\mathbf{x})$
4. generatywność
    * model __nie musi__ umieć __generować__ (samplować) nowych danych (ale zazwyczaj potrafi)
    * model __nie musi__ umieć podać wartości liczbowej $p(\mathbf{x})$ (ale wtedy powinien umieć przynajmniej samplować)
5. najpopularniejsze modele
    * Variational Auto-Encoder (VAE)
    * Generative Adversarial Networks (GAN)
    * dziesiątki różnych wariantów
6. spektakularne przykłady
    * https://blog.openai.com/glow/
    * https://deepmind.com/blog/neural-scene-representation-and-rendering/
    * https://deepmind.com/blog/wavenet-generative-model-raw-audio/
    * https://towardsdatascience.com/auto-regressive-generative-models-pixelrnn-pixelcnn-32d192911173
    * https://affinelayer.com/pixsrv/
    * https://junyanz.github.io/CycleGAN/

## Model dyskryminatywny

1. uczenie nadzorowane, _supervised learning_
2. dane $$\{(\mathbf{x}_n,y_n)\}$$ lub $$\{(\mathbf{x}_n,\mathbf{y}_n)\}$$
    * $\mathbf{x}$ - wektor __cech__
        * cechy ciągłe - liczby rzeczywiste
        * cechy dyskretne - np. liczby całkowite
    * $y$ - __etykieta__
        * etykieta dyskretna, np. __klasa__ w __problemie klasyfikacji__
        * etykieta ciągła, np. liczba rzeczywista w __problemie regresji__
    * $\mathbf{y}$ - __wektor etykiet__
        * __multilabel classification__ (nie mylić z klasyfikacją wieloklasową)
        * __multioutput regression__
3. konkretny wektor $\mathbf{x}$ może mieć __wiele różnych "prawdziwych"__ wartości $y$
    * np. zdjęcia ręcznie pisanych cyfr - ten sam obrazek może oznaczać $1$ lub $7$
    * "prawdziwa" wartość zależy od osoby, która pisała, nie od obrazka
    * dlatego chcemy $p(y\mid \mathbf{x})$, a nie funkcję $\mathbf{x} \mapsto y$
4. rozkład prawdopodobieństwa
    * dane treningowe to __sample z rozkładu łącznego__ $p(\mathbf{x},y)$
    * model uczy się __tylko rozkładu warunkowego__ $p(y\mid \mathbf{x})$
    * model __nie__ uczy się rozkładu brzegowego $p(\mathbf{x})$ ani rozkładu łącznego $p(\mathbf{x}, y)$
    * ale model może lepiej nauczyć się przewidywać etykiety częstych wartości $\mathbf{x}$, ponieważ jest ich więcej w danych treningowych

## Funkcja dyskryminatywna
1. funkcja __dyskryminatywna__
    * ma za zadanie zwrócić __jedną konkretną wartość__ $\widehat{y}$ dla ustalonego $\mathbf{x}$
    * zakładamy, że znamy rozkład $p(y\mid x)$
    * występuje w połączeniu z pewną miarą oceny skuteczności modelu

2. przykład - maksymalizowanie __accuracy__ w problemie klasyfikacji
$$\widehat{y} = \arg\max_a p(y = a \mid \mathbf{x})$$
    * zawsze wybieramy najbardziej prawdopodobną klasę
    * w ten sposób mylimy się najrzadziej
    * __granica decyzyjna__
        * zbiór $\mathbf{x}$ dla których następuje __zmiana decyzji__ $\widehat{y}$
        * w problemie dwuklasowym prawdopodobieństwo wynosi tam 50% / 50%

3. przykład - minimalizowanie __mean squared error__ w problemie regresji
$$\widehat{y} = \mathbb{E}(y\mid \mathbf{x})$$
    * zawsze wybieramy wartość oczekiwaną pod warunkiem $\mathbf{x}$
    * to optymalizuje błąd średniokwadratowy
    * ale uwaga - inne miary wymagają innego podejścia (co zrobić np. w wypadku __mean absolute error__? dlaczego?)


## Można jeszcze inaczej

na przykład:
* uczenie częściowo nadzorowane (_semi-supervised_)
    * połączenie modelu generatywnego i dyskryminatywnego
    * dużo danych __nieetykietowanych__, mało __etykietowanych__ (kosztowne etykietowanie)
    * chcemy wykorzystać wszystkie dane
* klastrowanie (uczenie nienadzorowane)
    * ekspert może określić klasy dla skupisk
* agent w Reinforcement Learning (zasada podobna do modeli dyskryminatywnych)
    * robot przewiduje właściwą akcję $y$ na podstawie obserwacji $\mathbf{x}$

## Modele

1. najpopularniejsze modele występują w dwóch wariantach - klasyfikator i regressor:
    * naiwny Bayesowski
    * liniowy
    * KNN
    * Support Vector Machines SVM
    * drzewa decyzyjne i lasy drzew
    * drzewa gradient boosted
    * modele składające wyniki, np. AdaBoost
2. modele generatywne to zazwyczaj
    * proste modele gęstościowe
    * głębokie sieci neuronowe