# Classificação

## 1. Regressão Logística
- Supervisionada: y = 0 (classe negativa) ou 1 (classe positiva ==> é a que queremos detectar, mais rara)
- Paramétrica
- Rede neural de uma camada
- Feature scaling necessária (gradient descent)

Exemplos:
- Email: **Spam (1)** x Not-spam (0)
- Transações: **Fraude (1)** x Não fraude (0)
- Crédito: adimplente (0) x **inadimplente (1)**

Por que não Regressão Linear?
- Predições > 1 ou < 0 não fazem sentido
- Outliers podem afetar o preditor

![linear_vs_logistic](img/linear_vs_logistic.png)

### 1.1 Função de predição: Sigmoide
Função de predição (modelo) limitada entre 0 e 1:

$g(z) = \frac{1}{1 + e^{-z}}$ com $z = \theta^Tx$ (sigmoide)

Sendo X uma matriz pxn (p: número de parâmetros, n: número de samples) e $\theta$ um vetor de dimensão p.

Uma das vantagens da função sigmoide é que sua derivada é simples de calcular:

$s'(z) = s(z)(1 - s(z))$

![sigmoide](img/sigmoide.png)

$g(z) \geq 0.5 \implies z \geq 0$
$g(z) \leq 0.5 \implies z \leq 0$

O g(z) é a "probabilidade de prevermos 1 (a classe positiva). Ou seja, $h_{\theta}(x) = p(y = 1;x)$.

#### Função de custo
Não podemos usar a mesma função de custo que a regressão linear, pois isso resultaria em uma função não-convexa. Isso implicaria em vários mínimos locais, de forma que o gradient descent poderia não encontrar o mínimo global.

![convex_not_convex](img/convex_not_convex.png)

Usaremos então a função Cross-Entropy (Log-Loss):

\begin{equation}
cost(h_{\theta}(x), y) =  
\begin{cases} 
-log(h_{\theta}(x))  , &y = 1\\
-log(1 - h_{\theta}(x))  , &y = 0\\
\end{cases}
\end{equation}

Ou de outra forma:

$cost(h_{\theta}(x), y) = -ylog(h_{\theta}(x)) - (1-y)log(1 - h_{\theta}(x))$

![cost_logistic](img/cost_logistic.png)

Quando y=1, queremos penalizar predições próximas de 0

Quando y=0, queremos penalizar predições próximas de 1

### 1.2 Gradient Descent
repeat {

$\theta_j := \theta_j - \alpha\frac{1}{m}\sum_{i=1}^m(h_{\theta}(x^{(i)}) - y^{(i)})x_j^{(i)}$

} (simultaneously update $\theta_j$ for $j=0, 1, ..., n$)

A derivada da função Log-Loss é proporcional à diferença entre a predição e o valor real (h(x)-y). Se a predição é boa, a diferença é pequena, e portanto a derivada é pequena (estamos nos aproximando do mínimo).

#### Decision Boundary
$H_{\theta}(x) \geq 0.5 \implies \theta^Tx \geq 0 \implies predict : 1$

$H_{\theta}(x) \leq 0.5 \implies \theta^Tx \leq 0 \implies predict : 0$

Decision boundary: $\theta^Tx = 0$ (pois nosso threshold está em 0.5)

![decision_boundary](img/decision_boundary.png)

Se **diminuímos o threshold** (exemplo: threshold = 0.25), então o intervalo em que prevemos 1 é maior. Logo somos **menos exigentes** na nossa predição.

Se **aumentamos o threshold** (exemplo: threshold = 0.75), então o intervalo em que prevemos 1 é menor. Logo somos **mais exigentes** na nossa predição.

#### Interpretação dos coeficientes
Logit:

$ln\frac{p(1|X)}{1 - p(1|X)} = b_0 + b_1x_1 + ... + b_jx_j$

Aumentar X de uma unidade altera as log odds de $\beta_1$, ou seja, multiplica as odds por $e^{-\beta_1$.

A quantidade que p(x) muda por conta de uma mudança de uma unidade em X depende do valor atual de X.

Obs: Odds = $\frac{p(x)}{1 - p(x)}$

A **probabilidade** de um evento acontecer é a **fração de vezes** que você espera ver aquele evento em várias tentativas.

As **chances (odds)** são definidas como sendo a **fração entre a probabilidade do evento ocorrido pela probabilidade do evento não ocorrer.**

Ex: Se um cavalo de corrida ganha 25 vezes durante 100 corridas, e perde nas 75 restantes, a probabilidade dele ganhar é 0.25, e as chances dele ganhar são 25/75 = 0.333...

#### Determinação dos coeficientes
A determinação dos coeficientes é feita através do método do Gradient Descent.

Max Verossimilhança: a gente consegue descobrir o formato do custo que tenta maximizar as probabilidades dos exemplos

A ideia é maximizar a função a seguir:

$l(\beta_0, \beta_1) = \prod_{i: y_i = 1}p(x_i)\prod_{i': y_{i'} = 0}p(x_{i'})$

Podemos ver que nos casos onde a probabilidade calculada é próxima do valor real de y, a função de verossimilhança é maximizada.

#### Regularização

Na regressão logistica, também podemos nos de parar com problemas de overfitting. Para contornar esse problema podemos aplicar técnicas de regularização.

![overfit_logistic](img/overfit_logistic.png)

A função de custo é atualizada da seguinte forma:

FALTA UMA IMAGEM AQUI

#### Classificação multiclasse
Problemas em que y pode assumir mais de dois valores

Ex.: temperatura (y = {ensolarado, chuvoso, nublado), classificar animal em uma imagem (y = {cachorro, gato, peixe, ...})

![multiclass](img/multiclass.jpeg)

**One Vs All**

![one_vs_all](img/one_vs_all.jpeg)

## 2. Naive Bayes

- Supervisionado
- Paramétrico
- Uma coleção de algoritmos (classificadores de Naive Bayes)
- Não precisa de feature scaling
- Baseia-se no Teorema de Bayes:

$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$ ou $posterior = \frac{likelihood * prior}{evidence}$

Assume que:
- Cada par de features é **independente** (o que raramente é válido...)

Modelo da probabilidade de y, dado um dataset X:
$P(y|X) = \frac{P(X|y)P(y)}{P(X)}

Como assumimos que as features são independentes, temos que $P(x_i,x_j) = P(x_i)P(x_j)$. Portanto:

$P(y|x_1, ..., x_n) = \frac{P(x_1|y)P(x_2|y)...P(x_n|y)P(y)}{P(x_1)P(x_2)...P(x_n)}$

O denominador é constante, portanto podemos ignorá-lo:

$P(y|x_1, ..., x_n) \propto P(y)\prod_{i=1}^nP(x_i|y)$

O classificador pode ser escrito como:

$\hat{y} = argmax_{k \in {1,...,K}} p(C_k)\prod_{i=1}^n p(x_i|C_k)$

O valor calculado é **proporcional às probabilidades** (Nosso dataset pode não ser representativo)

Nós **estimamos** as curvas de probabilidade!!! Logo, **não são realmente probabilidades**. São **likelihoods**. Existe uma chance de o valor estimado de probabilidade pelo modelo não ser o valor real da probabilidade.

Ex: Detector de spams

Em um conjunto de 100 emails, 25 deles são spam.

|  | Buy| Cheap | Buy + Cheap |
| --- | --- | --- | --- |
| Spam | 20 | 15 | 12|
| Não-Spam | 5 | 10 | 0 |

Se um email tem as palavras Buy e Cheap, é spam ou não spam?
P(S|"Buy"+"Cheap) P(S) P("Buy"|S) P["Cheap"|S) = 25/100 * 20/25 * 15/25 = 0.12

P(NS|"Buy"+"Cheap) P(NS) * P("Buy"| NS) P("Cheap" |NS) = 75/100 * 5/75 * 10/75 = 0.0067

Como P(S|"Buy"+"Cheap) > P(NS|"Buy"+"Cheap) -> é spam

Ex:

y = {sim, não) ==> jogar golf hoje

x1 = {sol, encoberto, chuva) ==> clima

x2 = {calor, médio, frio) ==> temperatura

![outlook_temp](img/outlook_temp.png)

Pra cada valor de variável x1 e xj, estimamos $p(x_i|y_j)$, pra cada $i$ e $j$, construindo a tabela anterior, a partir das ocorrências das variáveis no dataset.

Para estimarmos a probabilidade de irmos jogar golf dado que hoje está (X=(sol, calor)):

$p(y = Sim | X) \propto p(x_1 = sol| y = Sim) * p(x_2 = calor | y = Sim) * p(y = Sim)$

$p(y = Não | X) \propto p(x_1 = sol| y = Não) * p(x_2 = calor | y = Não) * p(y = Não)$

Vemos qual é maior e decidimos.

### Multinomial

As variáveis preditoras são valores discretos que correspondem à frequência de ocorrência de cada um dos eventos

$X = (x_1, x_2, ..., x_n)$, com cada $x_i$ sendo ocorrências do evento $i$

$p = (p_1, p_2, ..., p_n)$ são as probabilidades estimadas de cada evento, com base no dataset

Likelihood de observarmos um dado X:

$p(x|C_k) = \frac{(\sum_i x_i)!}{\prod_i x_i!}\prod_i p_{ki}^{x_i}$

Usado para Bag of Words: cada $x_i$ é a qtde de uma palavra no texto. Queremos estimar a probabilidade de o texto pertence a alguma classe $y_j$.

OBS: Bernouilli-caso particular do multinomial, onde as features são valores booleanos (binários).

### Gaussiano
As variáveis preditoras são valores continuos, e **assumimos** que elas provêm de uma distribuição Gaussiana.


$p(x=v|C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}e^{-\frac{(v-\mu_k)^2}{2\sigma_k^2}}$

Se algum $x_i$ não é normal, podemos aplicar o método KDE (Kernel Density Distribution): A ideia é convoluir uma Kernel distribution que tente normalizar a estimativa de probabilidades $f(x_i)$.

Observações:
- E se X teste for muito grande? (algumas probs serão bem pequenas)
    - Tirar o log pode resolver o problema do underflow
- O classificador Bayesiano é ótimo (matematicamente)
    - Mas a hipótese de independência + não representatividade da amostra X em relação à população ==> na realidade não é ótimo.
- Não deveria funcionar, pois as vars devem ter uma correlação (parece uma hipótese
fraca), mas na prática, empiricamente, vemos que o algoritmo funciona bem!
    - O Naive Baves raramente consegue estimar bem a probabilidade correta das classes, mas isso não costuma ser necessário para muitas aplicações. O importante é saber qual classe tem maior probabilidade, e isso ele consegue fazer relativamente bem.
- Zero frequency: valor de um $x_i$ (categórico) que não ocorre nunca no train, mas ocorre no teste, terá probabilidade estimada O pelo modelo.
    - Alternativa: pode-se atribuir 1 no início para o count desses valores de $x_i$.

## 3. KNN pra classificação
- Supervisionado
- Não paramétrico
- Preguiçoso → Funciona a partir do cálculo de distâncias (ao dar fit, ele carrega todos os dados na memória) → Se o dataset for mto grande ele vai demorar mais 
- Precisa de feature scaling (Normalizações)

FALTA UMA IMAGEM AQUI

- Curse of dimensionality

O KNN busca estimar a distribuição condicional de Y dado X, e então classificar uma determinada observação para a classe com maior probabilidade **estimada**. A probabilidade da classe j dado X é dada pela fração de pontos no espaço cujo valor de
resposta é j:

$P_r(Y=j|X=x_0) = \frac{1}{K}\sum_{i \in N_0}I(y_i=j)$

Treino: Somente escolher os pontos que vão fazer parte do espaço.

Teste: Usar os pontos anteriores pra fazer a votação (encontrar a classe mais frequente). Atribuímos essa classe ao novo exemplo,

### 3.1 Algoritmo
O sample é classificado por um voto majoritário de seus K vizinhos.

### 3.2 Escolha do k
K pequeno: Decision Boundary muuuito flexível (overfit)

K grande: Decision Boudary inflexível, usando muitos pontos do dataset pra cada cálculo de média (underfit)

![knn_1_100](img/knn_1_100.jpg)

Problema binário (duas classes) e valor de K par.

E empates, como ele resolve?
- Desempate com pesos da distância
- Desempate aleatório

Se o número de classes é impar (3, por exemplo) e K par (K = 4, por exemplo), não ocorrerão tantos empates.

É interessante utilizar K ímpar.


### 3.3 Lazy Algorithm
- Não constroem descrições gerais e explícitas (função alvo) a partir dos exemplos de treinamento;
- Generalização é adiada até o momento da classificação;
- Armazena-se uma base de exemplos instances) que é usada para realizar a classificação de uma nova query (exemplo não visto);
- Em muitos casos apresenta um alto custo computacional (por conta do cálculo de distâncias).

### 3.4 Como lidar com atributos nominais?
Mudar a função de distância-e.g., usando coeficiente de casamento simples (simple matching):

$d_{SM}(x,y) = \sum_{i=1}^n s_i$

Onde $s_i$ é tal que $(x_i = y_i) \implies s_i = 0$ e $(x_i \neq y_i) \implies s_i = 1$

$f(x_q) = argmax_{v \in V} \sum_{i=1}^k w_i \delta(x, f(x_i))$ 

Onde $\delta(a,b)$ é tal que $(a = b) \implies \delta(a,b) = 1$ e $(a \neq b) \implies \delta(a,b) = 0$

![knn_nominal](img/knn_nominal.png)

(Hipótese) Usa vars continuas para decidir os k mais próximos, em seguida, verifica nesses k exemplos quantos (count) têm um valor de X K != do próprio valor. Com isso, simula-se uma distância.

## 4. Árvores de Classificação
- Árvore de Classificação
- Supervisionado
- Não paramétrico
- Não precisa de feature scaling

**Vantagens**:
- Fácil de compreender/visualizar

**Desvantagens**:
- Possibilidade de overfitting

**Como fazer previsões?**

"Descer" na árvore até o no correspondente. A saída prevista será a classe que ocorre mais naquela folha.

### 4.1 Gini
(== impureza de uma região (falta de preponderância de uma classe na região))

Para cada classe,

$G = \sum_{k=1}^K \hat{p_{mk}}(1 - \hat{p_{mk}})$

Outra forma de escrever

$G = 1 - \sum_{k=1}^K \hat{p_{mk}}^2$

Exemplos:
- 1-(0.5^2-(0.5)^2 = 0.5
- 1-(0.2)^2-(0.8)^2 = 0.32
- 1 - (0.05)^2 - 10.95)^2 = 0.095 (a folha tem muitos exemolos de uma classe, a divisão foi muito boa)
- 1-(1.0)^2-(0.0)^2 = 0 (divisão perfeita)

### 4.2 Cross-Entropy
Uma alternativa ao Gini é a cross-entropy

$D = -\sum_{k=1}^K \hat{p_{mk}}log(\hat{p_{mk}})$

($\approx 0$ se $p \approx 1$ ou $p \approx 0$, como no Gini)

### 4.3 Construção da árvore
1. Calcular a entropia (ou impureza) da variável target

2. O dataset é dividido a partir dos diferentes atributos.

    a. A entropia para cada ramo é calculada
    
    b. Calcula-se a entropia total da divisão (split) a partir de uma média ponderada das entropias de cada ramo.

    c. Calcula-se o **Ganho de Informação = entropia antes da divisão - entropia da divisão**
    
3. Escolher o atributo com maior Ganho de Informação para ser o nó de decisão. Dividir o dataset em dois ramos a partir desse nó.

4. Repetir o processo em cada Ramo

- Pre poda: gtde de exemplos max por folha, etc.
- Pós poda: constrói a árvore e vai cortando ramos.

## 5. Bagging, Boosting, Random Forest

Melhoram a predição, mas reduzem a interpretabilidade:

FALTA UMA IMAGEM AQUI

### 5.1 Bagging (é um método geral) - Boostrae AGgregation
Árvores são "building blocks".

Treinamos B árvores de regressão, usando B bootstrapped training sets. Fazemos a média das predições das B árvores.

(Bootstrapped sample: amostra tirada aleatoriamente do dataset original)

$\hat{f}_{bag}(x) = \frac{1}{B}\sum_{b=1}^B\hat{f}^{*b}(x)$

As árvores intermediárias não são podadas.

Ideia: reduzir a variância! Propriedade: $Var(\bar{x}) = \frac{\sigma^2}{n}$

#### Out of Bag Error
Quando realizamos o Bootstrap, em torno de 1/3 dos dados não são selecionados. Esses dados compõem o Out-of-Bag dataset, que pode ser utilizado para validar o nosso modelo. Assim, aplicamos o modelo no Out-of-Bag dataset, e a proporção de observações que forem incorretamente classificadas definirão o **Out-of-Bag Error**.


#### Feature importance
Somar o quanto que o Gini Index diminui a cada divisão em relação a uma feature, e fazer a média de todas as árvores B. Com isso, conseguimos determinar as features mais importantes.

### 5.2 Random Forest
- Bagged Tree melhorado
- Estratégia para descorrelacionar as árvores

Treinamos B árvores de regressão, usando B bootstrapped training sets. Fazemos a média das predições das B árvores.

A diferença é que, sempre que formos fazer um split na construção de uma árvore, vamos **escolher aleatoriamente $m \leq \sqrt{p}$ preditores de todos os $p$ preditores do modelo**.

Então, usamos esses $m$ preditores para calcular o melhor corte.

Ideia: Preditores importantes ficam no topo da maioria das árvores, no bagging. Assim, evitamos isso na RF, e descorrelacionamos as árvores.

B pode ser tão grande quanto quisermos, não dá overfitting (RF, Bagging).


#### Algoritmo
Considere que temos N exemplos de treinamento

Para cada uma das t iterações faça:

1. Amostrar N exemplos com reposição (bagging).

2. Induzir uma árvore repetindo recursivamente os seguintes passos em cada novo nó da árvore, até que o critério de parada seja satisfeito:

    a. Selecionar m atributos (e.g., $m \leq \sqrt{p}$) aleatoriamente.

    b. Selecionar o melhor atributo/corte (entre os m candidatos).

    c. Criar dois nós filhos usando o ponto de corte do passo anterior.
3. Armazenar a árvore obtida.

Para cada uma das t árvores classificação:
1. Predizer o rótulo de classe do exemplo do conjunto-alvo.

2. Retornar a classe predita com maior frequência.

#### Parámetros Sklearn
- n estimators (B): número de árvores na floresta
    - Quanto mais árvores, menor a probabilidade de dar overfit
    - N estimators = 1 equivale a uma árvore de classificação
    -Ex: 100, 200,500...
- max depth: máxima profundidade das árvores
    - Quanto menor, mais simples serão as árvores, diminuindo o overfit
    - Ex: 5,10,20...
- min samples leaf: número mínimo de exemplos para ser considerado uma folha
    - Ex: 1,2,4..
- max features (m): número de features para considerar quando estiver procurando a melhor divisão
    - O mais comum é $m = \sqrt{p}
    - Quanto menor, menor a probabilidade de dar overfit (mas se for muito pequeno pode dar underfit)
    - Ex: 'auto', 'sgrt', 'log2'
