<a href="https://colab.research.google.com/github/geocarvalho/uni-proj/blob/master/IF699/cleber/4-classificadores_lineares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Classificadores lineares

* Sabe-se que se formarmos uma **combinação linear de duas variáveis**, e igualá-la a um número, então os pontos no espaço bidimensional podem ser divididos em três categorias:

> 1. Pontos **pertencentes à linha** com coordenadas tais que $w_1.x_1 + w_2.x_2 = \theta$
> 2. Pontos **em um lado da linha** com coordenadas tais que $w_1.x_1 + w_2.x_2 < \theta$
> 3. Pontos **no outro lado da linha** com coordenadas tais que $w_1.x_1 + w_2.x_2 > \theta$

## Modelos lineares

* Pense em **exemplos de treinamento** como pontos em um espaço n-dimensional. Cada dimensão corresponder a uma *feature*;

* Um classificador binário define um plano no espaço que separa exemplos **positivos** dos **negativos**.

## Fronteira de decisão linear

* Um hiper-plano é a generalização de uma linha reta para mais de duas dimensões;

* Um hiper-plano contém todos os pontos de um espaço n-deminesional satisfazendo a equação $w_1x_1 + w_2x_2 + , ... , w_dx_d + w_0 = 0$

* Cada coeficiente w_i pode ser pensado como o peso para uma *feature* correspondente;

* O vetor que contém todos os pesos $\mathbf{w} = (w_0, ..., w_d)$ é o **vetor parâmetro** ou **vetor peso**.

## Vetor normal

* Geometricamente, o vetor peso $\mathbf{w}$ é um **vetor normal** do hiper-plano separado. Um **vetor normal** de uma superfície é qualquer vetor no qual é perpendicular a ela.

![vetor_normal](vetor_normal.png)

## Hiper-plano como classificador

$g(\mathbf{x}) = w_1x_1 + w_2x_2, ..., w_dx_d + w_0$

$y = sign(g(\mathbf{x})) = 
  \begin{cases}
  +1 & \quad se\ g(x) \geq 0 \\
  -1 & \quad senão
  \end{cases}$

## Bias

* A inclinação do hiper-plano é determinada por $w_1 ... w_d$ e a localização (interceptação) é determinada pelo bias (tendência) $w_0$;

* Incluimos o bias no vetor peso e adicionamos um componente modelo para o vetor *feture* ($x_0=1$).

$g(x) = \sum^d_{i=0}w_i . x_i$

$g(x) = \mathbf{w} . \mathbf{x}$

## Separando hiper-planos em duas dimensões

![3_lines](3_lines.png)

## Exemplo

* Vantagens de separabilidade linear

![easy](easy_linear.png)

* Como separar as duas classes com apenas um ponto?

![not_easy](not_easy_linear.png)

* Possível solução é aumentar a quantidade de dimensões (**Teorema de Cover**, 1965)

$\Phi(X_1) = (X_1, X^2_1)$

![table_graph](table_graph.png)

## Método paramétrico

* Função recebe imagem e parâmetros resultando em 10 números indicando as pontuações das classes;

$f(x_i, W) = Wx_i + b$

> Onde os pesos $W$ alteram o ângulo por exemplo, enquanto o bias $b$ altera somente a posição. 

![slide_17](slide_17)

* Quais classes seriam difíceis para um classificador linear distinguir?

> Exemplo s com 3 imagens (gato, carro, rã) com $W$ aleatório;

> Primeiro passo é definir uma **função de perda** que quantifica nossa infelicidade com as pontuações dos dados de treino;

> Depois encontrar uma forma eficiente de encontrar parâmetros que minimizem a função de perda (**otimização**).

* Dado um exemplo $(x_i, y_i)$ onde $x_i$ é a imagem e o $y_i$ é o rótulo, usando a função para o vetor de pontuações $s = f(x_i, W)$ a função de perda para um SVM é

$L_i = \sum_{j \neq y_i}max(0, s_j - s_{y_i} + 1)$

* E a perda total no treinamento é a média entre todos os exemplos nos dados de treinamento.

$L = \frac{1}{N}\sum^N_{i=1}L_i$

* Ficando:

$L = \frac{1}{N}\sum^N_{i=1}\sum_{j \neq y_i}max(0,f(x_i;W)_j - f(x_i;W)_{y_i} + 1)$

> **Temos um bug para W dado L=0, temos mais de um W ótimo e isso não é uma propriedade boa. Para preferir um W invés de outro, usamos regularização.**

* Existem infinitos hiperplanos que separam dois conjuntos de pontos linearmente separáveis. Qual o melhor?

> Menor erro de classificação e maior margem.

## Peso por regularização

$L = \frac{1}{N}\sum^N_{i=1}\sum_{j \neq y_i}max(0,f(x_i;W)_j - f(x_i;W)_{y_i} + 1) + \lambda R(W)$

* É normal usar:

> **Regularização L2** (Euclidean?)  $R(W) = \sum_k\sum_lW^2_{k,l}$

> Regularização L1 (Manhattan) $R(W) = \sum_k\sum_l|W^2_{k,l}|$

> Elastic net (L1 + L2) $R(W) = \sum_k\sum_l \beta W^2_{k,l} + |W_{k,l}|$

> Outras alternativas são: regularização Max Norm e Dropout

## Classificador softmax: Regressão logística multinomial

$P(Y=k | X=x_i) = \frac{e^{s_k}}{\sum_j e^{s_j}}$

> Onde $s = f(x_i; W)$

* Queremos maximizar o log da probabilidade ou (para a função de perda) minimizar o log negativo da probabilidade da classe correta;

$L_i = -log(\frac{e^s}{\sum_j e^{s_j}})$

![slide_47](slid_47.png)



## Otimização

* Temos um dataset, uma **função de pontuação** e a **função de perda**;

> Softmax $L_i = -log(\frac{e^s}{\sum_j e^{s_j}})$

> SVM $L_i = \sum_{j \neq y_i}max(0, s_j - s_{y_i} + 1)$

> Perda total $L = \frac{1}{N}\sum^N_{i=1}L_i + R(W)$

* A primeira alternativa é a **pesquisa aleatória** que não é viável;

* A segunda é **seguir a inclinação**:

> Para uma dimensão a derivada da função $\frac{df(x)}{dx} = lim_{h \to 0} \frac{f(x+h) - f(x)}{h}$

> Para múltiplas dimensões, o **gradiente** é o vetor das derivativas parciais;

> É aproximado e é muito lento para avaliar;


## Em resumo:

* Gradiente numérico é aproximado, lento e fácil de escrever;

* Gradiente analítico é exato, rápido e propenso a erro;

* Na prática sempre usar o gradiente analíticos, mas checar a implementação com o gradiente numérico (essa revisão é chamada **gradient check**).

## Mini-batch gradient descent

* Na prática é o que se usa, é mais eficiente. Usa GPU.

## Referências

* [CS231n Winter 2016: Lecture 2: Data-driven approach, kNN, Linear Classification 1](https://www.youtube.com/watch?v=8inugqHkfvE)
> Linear classification (26:00)

* [CS231n Winter 2016: Lecture 3: Linear Classification 2, Optimization](https://www.youtube.com/watch?v=qlLChbHhbg4)
* [CS231n: Convolutional Neural Networks for Visual Recognition](http://vision.stanford.edu/teaching/cs231n/)
* [Python Numpy Tutorial, This tutorial was contributed by Justin Johnson.](http://cs231n.github.io/python-numpy-tutorial/)

In [0]:

https://classroom.google.com/u/0/c/NDE5NDQxOTU1MTJa