## Zadanie klasyfikacji

1. $y$ przyjmuje jedną z $K$ wartości $\{c_1, \ldots, c_K\}$ - __zbiór klas__
    * __klasyfikacja binarna__ gdy $K=2$
    * __klasyfikacja wieloklasowa__ (_multi-class_) gdy $K>2$ 


## Reprezentacja klas w kodzie

1. jako liczba całkowita
    * $c_k$ reprezentowane jako liczba $k-1$
    * wyłącznie dla wygody, klasy w żaden sposób nie są semantycznie związane z liczbą
2. notacja __one-hot__
    * $c_k$ reprezentowane jako wektor $y=(0,\dots,0,1,0,\dots,0)$, jedynka na $k$-tej pozycji, zero na pozostałych
    * używana przez modele gradientowe

## Model

1. oznaczmy model literą $M$
2. parametry $\theta$, nauczone parametry $\widehat\theta$
3. w problemie klasyfikacji __model jest funkcją__
$$M: (\mathbf{x}, \theta) \mapsto \widehat{\mathbf{p}}$$
4. można oznaczyć nauczony model $M_{\widehat\theta}$ i wtedy
$$M_{\widehat\theta}: \mathbf{x} \mapsto \widehat{\mathbf{p}}$$
5. $\widehat{\mathbf{p}}$ to wektor długości $K$, który opisuje nauczony rozkład prawdopodobieństwa $p(y\mid\mathbf{x})$
    * oznaczmy $\widehat{\mathbf{p}} = (\widehat{p}_1, \ldots, \widehat{p}_K)$
    * $\widehat{p}_1$ to przewidywane $p(y=c_k\mid\mathbf{x})$
    * wszystkie współrzędne $\widehat{\mathbf{p}}$ mają nieujemne wartości
    * suma współrzędnych $\widehat{\mathbf{p}}$ wynosi $1$
    * pamiętamy, że dla różnych $\mathbf{x}$ model zwraca różne $\widehat{\mathbf{p}}$

#### Klasyfikacja binarna

1. zazwyczaj oznaczamy $c_1$ liczbą $0$, a $c_2$ liczbą $1$
2. nauczony model może zwracać tylko jedną liczbę
$$M_{\widehat\theta}: \mathbf{x} \mapsto \widehat{p}$$
3. umawiamy się, że ta liczba oznacza prawdopodobieństwo klasy $c_2$
    * $\widehat{p} \in [0,1]$
4. prawdopodobieństwo $c_1$ to $1 - \widehat{p}$
5. $\widehat{\mathbf{p}} = (1-\widehat{p}, \widehat{p})$

## Maximum Likelihood w klasyfikacji

1. podwójne indeksy
  * $(\mathbf{x}_n, y_n)$ to $n$-ty element zbioru treningowego
  * $M_{\widehat\theta}(\mathbf{x}_n) = \widehat{\mathbf{p}}_n$
  * $\widehat{\mathbf{p}}_n$ to $n$-ta predykcja (wektor)
  * $c_k$ to $k$-ta klasa
  * $\widehat{\mathbf{p}}_n = (\widehat{p}_{n,1}, \ldots, \widehat{p}_{n,K})$
  * $\widehat{p}_{n,k}$ to $k$-ta współrzędna $n$-tej predykcji
  * $\widehat{p}_{n,k}$ modeluje $p(y_n=c_k\mid\mathbf{x}_n)$

2. maksymalizujemy __warunkowe__ likelihood
  * likelihood $y_n$ pod warunkiem $\mathbf{x}_n$
  * iloczyn po wszystkich parach $(\mathbf{x}_n, y_n)$ - __założenie I.I.D.__!
  * potrzebujemy oznaczenia, które poda indeks klasy przykładu treningowego $y_n$
    * niech $c(y_n) = k$ wtedy i tylko wtedy, gdy $y_n = c_k$
  * wzór na likelihood
$$ \widehat{p}_{1,c(y_1)}\cdot\ldots\cdot\widehat{p}_{N,c(y_N)} = \prod_{n=1}^N \widehat{p}_{n,c(y_n)}$$
  * negative mean log likelihood
$$ -\dfrac{1}{N}\sum_{n=1}^N \ln[\widehat{p}_{n,c(y_n)}]$$

3. przypominamy model generatywny na rozkładzie dyskretnym
  * uwaga na parametry $\theta$!
    * tam $\theta$ oznaczało prawdopodobieństwa
    * tutaj $\theta$ kontroluje sposób, w jaki $\mathbf{x}$ jest przekształcane w prawdopodobieństwa
  * maksimum likelihood $(y\mid\mathbf{x})$ to maksimum likelihood $y$ dla każdego $\mathbf{x}$ z osobna
    * $y$ może przyjąć skończenie wiele różnych wartości
    * wiemy, jak wygląda maximum likelihood $y$ - tak jak w modelu generatywnym

### Wnioski

1. niech pewna wartość $\mathbf{x}$ występuje __dokładnie raz__ w zbiorze treiningowym
  * załóżmy, że na $n$-tej pozycji
    * $\mathbf{x}$ = $\mathbf{x}_n$
  * model uczony maximum likelihood stwierdzi, że
    * $\widehat{p}(y=y_n\mid\mathbf{x}_n) = 1$
    * model __zapamięta__ lub __memoryzuje__ etykietę
    * prawdziwy rozkład $p(y\mid\mathbf{x}_n)$ może być zupełnie inny, ale mamy tylko jedną parę do estymacji

2. niech pewna wartość $\mathbf{x}$ występuje __kilka razy__ w zbiorze treiningowym
  * jak teraz wygląda $\widehat{p}(y\mid\mathbf{x}_n)$?
    * przypomnieć sobie model generatywny
  * czy to jest lepsza estymacja prawdziwego $p(y\mid\mathbf{x}_n)$?
  * zazwyczaj $\mathbf{x}$ pochodzi z rozkładu ciągłego
    * żadna wartość $\mathbf{x}$ nie występuje wielokrotnie w zbiorze treningowym

3. załóżmy, że etykieta $y$ jest niezależna od $\mathbf{x}$
  * model powinien się nauczyć zwracać zawsze rozkład $p(y)$
  * gdyby model wiedział, że etykieta jest niezależna, to mógłby estymować $p(y)$ ze wszystkich $N$ przykładów $y_n$, nie patrząc w ogóle na $\mathbf{x}_n$
  * czego nauczy się model?

4. załóżmy, że w __bliskim otoczeniu__ pewnego $\mathbf{x}_n$ rozkład warunkowy $p(y\mid\mathbf{x})\simeq p(y\mid\mathbf{x}_n)$
  * niech $\mathbf{x}_{n_1}, \mathbf{x}_{n_2}, \ldots, \mathbf{x}_{n_M}$ leżą w bliskim otoczeniu $\mathbf{x}_n$
  * gdyby model wiedział, że rozkład $p(y\mid\mathbf{x})$ jest tu mniej więcej taki sam, to mógłby estymować go przy użyciu $M$ przykładów $y_{n_1}, \ldots, y_{n_M}$
  * czego nauczy się model?

## Bezpośrednie uczenie funkcji dyskryminatywnej

1. być może potrzebujemy jedynie modelu, który __podejmuje decyzje__
    * czyli wskazuje jedną konkretną wartość $y$
2. mając nauczony łatwo zdefiniować funkcję dyskryminatywną
3. można od razu uczyć się funkcji dyskryminatywnej
    * potencjalnie łatwiej - nie trzeba modelować pełnego rozkładu $p(y\mid\mathbf{x})$
    * ale w takim razie nie ma likelihood, więc nie można uczyć metodą maximum likelihood
    * przykład: SVM

## Klasyfikacja wieloetykietowa

1. klasy nie są rozłączne
2. $y$ jest __podzbiorem__ $\{c_1, \ldots, c_k\}$
3. można np. wytrenować $K$ klasyfikatorów binarnych
    * $k$-ty klasyfikator przewiduje, czy $\mathbf{x}$ ma etykietę $c_k$
    * podejście naiwne, nie korzystamy z zależności pomiędzy różnymi etykietami (a to mogłoby pomóc)

## Nieskończenie wiele klas

1. czy można zrobić klasyfikator, jeśli $p(y\mid\mathbf{x})$ jest dyskretne na __nieskończonym__ zbiorze?
2. w jaki sposób model może zwrócić nieskończenie wiele liczb?
3. jak poradzić sobie z faktem, że w __skończonym__ zbiorze treningowym nie może wystąpić jednocześnie __nieskończenie wiele__ klas?