# Classificação

Entraremos num capítulo que trata de um dos problemas mais comuns para Machine Learning: classificação! Em problemas de classificação, temos um dataset com elementos de diversas classes e temos que ser capazes de treinar o algorítmo para separar estas classes. 




---------------

# O que é Classificação?

Classificação é o processo de prever a classe de determinados pontos de dados. Às vezes, as classes são chamadas de destinos/marcadores ou categorias. A modelagem preditiva de classificação é a tarefa de aproximar uma função de mapeamento (f) de variáveis de entrada (X) para variáveis de saída discretas (y).

A classificação pertence à categoria de aprendizado supervisionado, onde os objetivos também são fornecidos com os dados de entrada, e é melhor usado quando a saída possui valores finitos e discretos. 

Existem 2 tipos de classificação:

- Binomial
- Multi-Class


Existem muitas aplicações na classificação em muitos domínios, como:

- Aprovação de crédito
- Diagnóstico médico
- Marketing direcionado

Outros exemplos mais específicos de problemas de classificação:

- Descobrir se um email recebido é spam 
- Inferir se um empréstimo bancário deve ser concedido

## Tipos de algoritmos de classificação

Vamos dar uma olhada rápida nos tipos de algoritmo de classificação abaixo, segundo a estratégia de abordagem para o cálculo dos otimizadores das funções (mappings):

1. Aprendizado por minimização dos erros (error-based learning)
    - Regressão Logística
    - Suport Vector Machines (SVM)


2. Aprendizado por similaridade (similarity-based learning)
    - K-Nearest Neighbors (KNN)


3. Aprendizado por probabilidades (probability-based learning)
    - Naive Bayes


4. Aprendizado por ganho de informação (information-based learning)
    - Árvores de Decisão (Decision Trees)
    - Random Forest 
    
Nesta aula, iremos ampliar os conceitos de Regressão Logística, e estudar os algoritmos SVM e KNN. Nas próximas aulas, nos aprofundaremos em Naive Bayes e Decision Trees. 

---------------

# K-Nearest Neighbors (KNN)

O algoritmo KNN pressupõe que coisas semelhantes existem próximas. Em outras palavras, coisas semelhantes estão próximas umas das outras.

"Pássaros de uma mesma espécie voam juntos."<br>
"Diga-me com quem andas e eu direi quem és."

<br>
<img src="knn.png" align="center" width=350>
<br>

Observe na imagem acima que, na maioria das vezes, pontos de dados semelhantes estão próximos um do outro. O algoritmo KNN depende dessa suposição, sendo verdadeira o suficiente para que o algoritmo seja útil. O KNN captura a idéia de similaridade (às vezes chamada de distância, proximidade ou proximidade) com algumas matemáticas que aprendemos na infância - calculando a distância entre os pontos de um gráfico.

<br>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/55/Euclidean_distance_2d.svg/1200px-Euclidean_distance_2d.svg.png" align='center' width=350>
<br>


Nota: É necessário entender como calculamos a distância entre os pontos em um gráfico antes de prosseguir. Existem diversas maneiras de calcular a distância, e uma delas pode ser preferível, dependendo do problema que estamos resolvendo. No entanto, a distância em linha reta (também chamada de distância euclidiana) é uma escolha popular e familiar.

<img src="knn.gif" align="center" width=500>

Para mais detalhes:


<a href='https://arxiv.org/pdf/1708.04321.pdf'>  Artigo sobre Distâncias <a>

Prós:
- Simples implementação
- Poucos parâmetros (distância e K)
- Lida com problemas binominais e multi classe
- Trata bem problemas não lineares

Contras:
- Alto custo computacional (calculo das distâncias ponto a ponto)
- É um lazzy learner
- Não lida tão bem com alta dimensionalidade

------------------

# SVM (Suport Vector Machines)

O objetivo do algoritmo da SVM é encontrar um hiperplano N-1 dimensional em um espaço N-dimensional (N - o número de recursos) que classifica distintamente os pontos de dados. O SVM é um Maximal Margin Classifier

<br>
<img src="svm.png" align="center" width=500>
<br>

Para separar as duas classes de pontos de dados, existem muitos hiperplanos possíveis que podem ser escolhidos. Nosso objetivo é encontrar um plano com a margem máxima, ou seja, a distância máxima entre os pontos de dados das duas classes. A maximização da distância da margem fornece algum reforço para que os pontos de dados futuros possam ser classificados com mais confiança.


## Hiperplanos e vetores de suporte

<br>
<img src="svm_hyperplane.png" align="center" width=500>
<br>

Hiperplanos são limites de decisão que ajudam a classificar os pontos de dados. Os pontos de dados que caem em ambos os lados do hiperplano podem ser atribuídos a diferentes classes. Além disso, a dimensão do hiperplano depende do número de recursos. Se o número de recursos de entrada for 2, o hiperplano será apenas uma linha. Se o número de recursos de entrada for 3, o hiperplano se tornará um plano bidimensional. Torna-se difícil imaginar quando o número de recursos excede 3.

Os vetores de suporte são pontos de dados que estão mais próximos do hiperplano e influenciam a posição e a orientação do hiperplano. Usando esses vetores de suporte, maximizamos a margem do classificador. A exclusão dos vetores de suporte alterará a posição do hiperplano. Esses são os pontos que nos ajudam a criar nosso SVM.




### Intuição de margem grande

Na regressão logística, pegamos a saída da função linear e comprimimos o valor dentro da faixa de [0,1] usando a função sigmóide. Se o valor compactado for maior que um valor limite (0,5), atribuímos a ele um rótulo 1, caso contrário, atribuímos a ele um rótulo 0. 

No SVM, obtemos a saída da função linear e, se essa saída for maior que 1, identificamos com uma classe e se a saída for -1, identificamos com outra classe. Como os valores limite são alterados para 1 e -1 no SVM, obtemos esse intervalo de valores de reforço ([- 1,1]) que atua como margem.

Hiperplanos com margens maiores apresentam menor erro de generalização. Os hiperplanos positivos e negativos são representados por:

$ w_0 + w^T x_{pos} = 1 $ \
$ w_0 + w^T x_{pos} = -1 $ 

Portanto, o objetivo da função é maximizar com a restrição de que as amostras sejam classificadas corretamente, o que é representado como:


$ w_0 + w^T x^{(i)} \geqslant 1 \space  if  \space  y^{(i)} = 1 $ \
$ w_0 + w^T x^{(i)} < 1 \space  if  \space  y^{(i)} = -1 $

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/7/72/SVM_margin.png/300px-SVM_margin.png" align='center' width=300>

### Visualização do Hiperplano de Separação

<img src="svm.gif" align="center" width=300>


## Margem Rígida (Hard Margin)

Estamos falando aqui de um conjunto de dados linearmente separável, ou seja, para o qual conseguimos criar uma superfície plana e então segmentar as classes envolvidas no problema. Nesse cenário, temos um modelo de margem rígida, o qual exige que todas as amostras fiquem foram da região da margem. Qualquer mudança nos pontos próximos à margem pode provocar alteração no hiperplano. Além disso, qualquer ruído, inviabiliza a utilização do modelo!

A essa altura, vocês já devem saber que o mundo não é perfeito e nem sempre temos classes linearmente separáveis. Nesse caso, introduzimos o conceito de Margem Flexível (Soft margin).

<img src="https://miro.medium.com/max/552/1*CD08yESKvYgyM7pJhCnQeQ.png" align='center' width=700>

SVMs de Margem Flexível permitem violações ao hiperplano! Desas forma, o algoritmo fica menos suscetível a ruído e pode generalizar melhor. Adicionamos à otimização do algoritmo um parâmetro de penalização para os pontos que estão violando a condição da margem.

A SVM pode permitir que vários pontos violem a margem, mas ao preço de que a soma das penalizações não ultrapasse um valor C.

## Truque do Kernel

Apesar da correção feita com as soft margins, a maioria dos problemas que encaramos são não-lineares e para isso é necessário introduzir um componente que faz toda diferença na construção da SVM: O Truque do Kernel.

O truque do kernel nada mais é do que uma transformação algébrica que aumenta a dimensionalidade do problema, na tentativa de torná-lo um problema linearmente separável!.

<img src="https://miro.medium.com/max/1556/1*Wp8tGecatxHqUgHNaVQddg.png" align='center' width=300>

Acima temos a imagem de um conjunto de pontos não linearmente separáveis. Ao usar o truque do kernel, podemos transformar esses dados, de forma que eles possam ganhar uma dimensão a mais e, nessa dimensão, eles serão linearmente separáveis.

RBF

<img src="https://gregorygundersen.com/image/kerneltrick/idea.png" align="center" width=700>

Polinomial

<img src='https://miro.medium.com/max/1400/1*gIHnZCcl4Q9fFx2AZsJ7pw.png'>

Após a transformação podemos construir um hiperplano de separação!

Basicamente, existem 3 tipos de transformações:
- Linear
- Gaussiana (RBF - Base Radial)
- Polinomial

Prós:
- Lida bem com alta dimensionalidade
- Matemática robusta e bem definida (existência de prova matemática)

Contras:
- Lento com datasets de muitas linhas
- Não produz probabilidades de forma nativa (tem como fazer gambiarra)
- Não lida de forma nativa com problemas multi classe (tem como fazer gambiarra)

------------

# Métricas: Matriz de Confusão

Numa classificação binária, temos 4 possíveis *outputs*: True Positive, False Positive, False Negative e True Negative. Podemos visualizar esses outputs numa matriz de confusão como essa: 

<img src="confusion_matrix.png" align="center" width="60%">

<br>

Como podemos observar acima, trabalhamos com 4 métricas sobre essa matriz de confusão. Elas são:
 - **Accuracy**: de tudo o que você classificou, qual parte você acertou. É a primeira métrica que olhamos, mas algumas vezes ela pode não responder nossas perguntas de modo satisfatório e ocultar o que está acontecendo com os erros.
 - **Precision**: fração dos dados categorizados positivamente que são, de fato, casos positivos. É útil para sabermos quão confiável é nossa previsão para positivo.
 - **Recall / Sensivity**: fração de dados positivos categorizados de fato como positivos. Mostra como nosso modelo enxerga os dados positivos
 - **Specificity**: fração de dados negativos categorizados de fato como negativos. Mostra como nosso modelo enxerga os dados negativos.

<br>
Para cada problema de classificação binária, é interessante utilizar uma ou mais dessas métricas. A ideia é que sempre tenhamos controle não só da nossa acurácia, mas como estamos acertando e errando com nosso modelo, de modo a entender como melhorá-lo e quais as consequências dele nas previsões. Além das 4 métricas acima, também utilizamos o F1 Score, que é um balanço entre Precision e Recall, calculado por F1 = 2*((precision * recall) / (precision + recall)). <br>


Com essas métricas em mãos, nos levamos à uma questão mais primordial: como escolher uma métrica para meu problema? Embora não exista uma resposta pronta para essa pergunta, é sempre interessante observarmos acurácia, precision e recall, juntas, para termos um entendimento do que está acontecendo :) <br>



# Curva ROC e métrica AUC (Area Under the Curve)

A curva ROC e a métrica AUC é uma medida de desempenho para o problema de classificação em várias configurações de limites. ROC é uma curva de probabilidade e AUC representa grau ou medida de separabilidade. Diz quanto modelo é capaz de distinguir entre classes. Quanto maior a AUC, melhor o modelo em prever 0s como 0s e 1s como 1s. Por analogia, quanto maior a AUC, melhor o modelo é distinguir entre pacientes com doença e sem doença.

<br>
<img src="roc_curve.png" align="center" width="350">
<br>

A curva ROC é plotada com TPR (True Positive Rate) contra o FPR (False Positive Rate), onde TPR está no eixo y e FPR está no eixo x.

<br>
<img src="roc_formulas.png" align="center" width="350">
<br>

Separei alguns links para vocês irem mais a fundo nesse assunto de interpretar e escolher métricas:

 - __[Classification Accuracy is Not Enough: More Performance Measures You Can Use](https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/)__
 - __[Data Science Performance Metrics for Everyone](https://towardsdatascience.com/data-science-performance-metrics-for-everyone-4d68f4859eef)__
 - __[Measuring Model Goodness — Part 1](https://towardsdatascience.com/measuring-model-goodness-part-1-a24ed4d62f71)__
 - __[The 3 Pillars of Binary Classification: Accuracy, Precision & Recall](https://medium.com/@yashwant140393/the-3-pillars-of-binary-classification-accuracy-precision-recall-d2da3d09f664)__


