<a href="https://colab.research.google.com/github/LucasPequenoSterzeck/Machine_Learning_LPS/blob/main/Exemplos_Classifica%C3%A7%C3%A3o_revisao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Revisão do arquiovo Classificação com Scikit learn

Material do site https://dadosaocubo.com/classificacao-com-scikit-learn/

Utilizado aqui somente como estudo e fixação.

# Classificação

> **O que é:** Problemas que envolvem classificação se resumem em uma tarefa de atribuição de classes dado a amostra analisada.

> **Exemplo:** Temos fotos de gatos e cachorros, será classificado entre 0 e 1 (Podendo por exempo 1 = Cachorro e 0 = Gato). Se adicionarmos uma terceira possibilidade de animal como Colho, teríamos uma classificação do tipo multiclasse.

## Um problema classifoc de classificação:

Temos um dataset com 3 espécies de flot íris, temos algumas medidas para realizar essa classificação:

<img src='https://lh6.googleusercontent.com/DSPcFoGn1tIPsZSuY9NVi1kFHWgpKY-EECtZ_iDhieW7PmRPK8PpV28Hgi2wOLepLLAyY_4poi1KKV8k4NpJa6G-LF_grMOkr_VUmAtz2ltwWIo1uKbyKtHqlGeP4iKG07m_B3FV' width='800'>

De acordo com a imagem acima podemos visualizar de uma forma clara a separação entre algumas variáveis. E nesse exemplo já temos a classificação, como podemos então aferir se nosso modelo está performando bem? Vamos conferir a seguir.

# Avaliação do modelo

Para realizar a avaliação do modelo temos duas ferramentas:


## Matriz de confusão
> É uma tabela que representa os acertos e erros de uma classificação, dessa forma é possível realizarmos calculos de performance atravez dos resultados obtidos.

<img src='https://lh6.googleusercontent.com/4xdBRkFH8ROwt3OVWnSuUPZ3rQcH_7ll-prXJApIP3kLgjB57Mvq8IMPcFNnXiEwrG8nRXaXF82hOCyMg9iuulKDiaVug_5axKpwYnlfTbsFAt3x20eDwYTCqYQrgyMRQtAVB99U' width='350'>

Com base na imagem acima, consideremos que:
> Verdadeiros Positivos e Negativos são os acertos do classificador;

> Falsos Positivos e Negativos são os erros do classificador.

**NOTA_1:** Falso positivo é quando o classificador aponta como positivo, porém o correto é negativo (Erro tipo 1).

**NOTA_2:** Falso Negativo é quando o classificador aponta negativo mas o correto seria positivo (Erro tipo 2).

As lógicas aplicadas para aferir o modelo são:

> **Acurácia** – A acurácia é a proporção das observações classificadas corretas dentre o total de observações.

> **Precisão** – A precisão é a proporção das observações positivas classificadas corretamente dentre as observações positivas que foram previstas.

> **Recall** – O recall é a proporção das observações positivas classificadas corretamente dentre as observações positivas verdadeiras.

> **F1 Score** – O F1 Score é a média harmônica entre precisão e recall.


## Curva ROC
> (Receiver Operating Characteristic Curve) É uma representação gráfica do desempenho do classificador conforme a seguir.

<img src='https://lh4.googleusercontent.com/KPtLFMaUNXp5XsFV0_UEKnbAtWmML3H2oOO7A0kh9V9rqx-8YaIMWEuQBrEFtjP-FwXhv57M6RV_r_6f3plCovijMjOGYlv25gkDma7JB8b8bCCz-l3M_d6J33OTXqisfopAuLCa' width='350'>

Em um mundo ideal (que não acontece na realidade) a curva ROC deveria estar na **CLASSIFICAÇÃO PERFEITA**. Acertar todas as observações positivas em 100% (recall = 1) e nunca classificar errado uma observação negativa.

Mas no mundo real, com problemas reais, basta a curva ROC estar acima do limite ALEATÓRIO que já temos algo satisfatório. Qualquer ponto seguindo a seta MELHOR é bom? Não é bem assim também, a avaliação de performance depende de cada problema e isso é muito relativo. A curva ROC bem como a matriz de confusão e suas métricas servem para ajudar a se aproximar do modelo ideal para aquele problema.

# Desbalanceamento dos dados

Um problema muito comum em problemas de classificação é ter **uma classe sendo minoritária,** ou seja, ela representa a minoria naquela conjunto de observações.

**Exemplo:** temos um classificador que identifica se uma foto é gato ou não em um conjunto de fotos de animais. Porém no nosso conjunto de fotos 97% são fotos de gatos e apenas 3% são outros animais (não gatos). Os classificadores entendem, de forma equivocada, que se ele prever todas as fotos como gato ele vai acertar em 97% das vezes. Gerando uma falsa avaliação de bom desempenho.

Para resolver este problema precisamos balancear os dados antes de fazer a classificação. As técnicas mais comuns são através de reamostragem (resampling). Podendo ser feito basicamente de duas formas:

> **Undersampling:** Remover dados da classe majoritária;

> **Oversampling:** Reamostrar dados da classe minoritária;


## Técnica SMOTE (Oversampling)

Uma das abordagens para balancear os dados é criar dados sintéticos que preencham a classe minoritária:

<img src='https://lh6.googleusercontent.com/Igp6UpH7F5V80J0SKKcQrODJBuy36WFhTFkU2HlKXay1UqIVNG1edgz62mYTUqWCfi66FaWjiCc1Jgb2pdr0YsdHAAD37hmbeaQbxg6wv8djzqqeY82khy8EkaZMQqj1E9tg1Cti'>


## Técnica NearMISS (Undersampling)

Uma outra abordagem é reduzir a classe majoritária, objetivando também um balanceamento dos dados:

<img src='https://lh5.googleusercontent.com/HtX91RZ1jZ8iar0JbXvlwUA_htnzpB8UBSnkvLBzK2cYB8fMNdqCvQHOFLpybeQ0eAf7BLeDhcgadn_SJn0K35V4pgIn3-YLEvf7LYfv3Pci1VmdepsuvULRafvNuQfXXxJTCSwn'>

# Classificação no python

Abaixo será realizada uma classificação em Python

In [1]:
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

df = sns.load_dataset("iris")

X = df.drop(columns='species')
y = df.species

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.7)

## Regressão logística

Regressão logística? Mas não estávamos falando sobre classificação? Sim claro, apesar do nome regressão é um algoritmo para problemas de classificação. A regressão logística estima probabilidades para uma observação de acordo com a(s) variável(eis) explicativa(s), ou seja, nossa(s) variável(eis) de entrada. Confere a imagem abaixo.



In [3]:
# Criando modelo e treinando com os dados de treino
clr = LogisticRegression()
clr.fit(X_train, y_train)
# Fazendo a predição nos dados de treino
resultado_clr = clr.predict(X_test)

In [4]:
# Principais métricas de performance
print(classification_report(y_test, resultado_clr))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        36
  versicolor       0.88      0.94      0.91        32
   virginica       0.94      0.89      0.92        37

    accuracy                           0.94       105
   macro avg       0.94      0.94      0.94       105
weighted avg       0.94      0.94      0.94       105



A função classification_report() disponível nas métricas do scikit-learn trás as principais métricas de performance para modelos de classificação. Como vimos no item 2.1 os 4 principais indicadores de performance acurácia, precisão, recall e o F1 score. Agora vamos ver a matriz de confusão e a curva ROC para o modelo de regressão logística.

<img src='https://i0.wp.com/dadosaocubo.com/wp-content/uploads/2020/07/MC_Logistic-4.png?strip=info&w=759&ssl=1' width='500'> <img src='https://i1.wp.com/dadosaocubo.com/wp-content/uploads/2020/07/ROC_logistic-4.png?strip=info&w=742&ssl=1' width='455'>

# K Nearest Neighbors (KNN)

Ou K Vizinho mais próximo (Tradução literal) é um algoritmo que utiliza a distancia euclidiana para classificar as amostras comparando sua distancia entre outras amostras. (Além da euclidiana pode utilizar-sem outras medidas).

<img src='https://lh3.googleusercontent.com/Bi9vV2mR9OZv1kE9m9OvtONJsGXunbA8G3Q_W8A_w9SLAk8pCqcM8LijRPtEnA1EYJ6ngwJXV7UDKqNHBNSSX34kbgGBZQy5Vxk4CkDwi6abncv9Cry4yHYfOLdql49zfvvM_aWI' width='400'>

A representa o nosso NOVO EXEMPLO que vamos classificar, quadrados azuis são a CLASSE1 e triângulos vermelhos são a CLASSE2. Então temos a DISTÂNCIA para os pontos mais próximos e o NÚMERO DE VIZINHOS que vão ser levados em consideração para classificar. Caso o algoritmo seja configurado como K=1 o NOVO EXEMPLO seria classificado como quadrado azul, mas se for configurado como K=3 o NOVO EXEMPLO seria classificado como triângulo vermelho. Portanto dá para perceber como uma sutil mudança que pode fazer toda a diferença.



# KNN com python

In [5]:
# Criando modelo e treinando com os dados de treino
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
# Fazendo a predição nos dados de treino
resultado_knn = knn.predict(X_test)

In [6]:
# Principais métricas de performance
print(classification_report(y_test, resultado_knn))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        36
  versicolor       0.94      0.94      0.94        32
   virginica       0.95      0.95      0.95        37

    accuracy                           0.96       105
   macro avg       0.96      0.96      0.96       105
weighted avg       0.96      0.96      0.96       105



A função classification_report() disponível nas métricas do scikit-learn trás as principais métricas de performance para modelos de classificação. Agora vamos ver a matriz de confusão e a curva ROC para o modelo knn.

<img src='https://i1.wp.com/dadosaocubo.com/wp-content/uploads/2020/07/MC_knn-1.png?strip=info&w=759&ssl=1' width='455'> <img src='https://i2.wp.com/dadosaocubo.com/wp-content/uploads/2020/07/ROC_knn-1.png?strip=info&w=742&ssl=1' width='415'>

Para completar a nossa avaliação a nossa matriz de confusão, uma forma visual para ver os erros e acertos do nosso classificador.

E a ameixa do bolo, a curva ROC para finalizar a avaliação do nosso modelo, que podemos ver com todas as métricas até aqui e comparado aos outros modelos seria também uma boa opção.

 # Árvores de decisão / Decision Tree

 Para finalizar nossos algoritmos hoje, a árvore de decisão, que funciona realmente como uma árvore. Cada galho da árvore se divide em dois até chegar às folhas, que são as decisões da árvore. Vamos ver a figura a seguir para fixar o entendimento.

<img src='https://lh3.googleusercontent.com/UrqzWqRQv-Pe53HnJuLO0QHZehEwGCbAHAovDrZX3X56hsbLks1Vhvxnzeo0-KcpoGDYvUQSM1wG9EdSvhAEStV4_t1K751wsxSTItKRm3XxRBZOrdsuKaC7z3BIJMEddkJ4d5M9' width='300'>

No exemplo figurado acima, temos duas variáveis de entradas e três classes possíveis como saída. Primeiramente o algoritmo verifica a variável X, caso ela seja menor ou igual a 0 a saída é CLASSE 1. Se a variável X for maior que 0, ele verifica a segunda variável, caso Y seja maior ou igual a 0 a saída é CLASSE 2, mas se Y for menor que 0 a saída será CLASSE 3. Portanto vimos neste simples exemplo de uma forma ilustrada o funcionamento do algoritmo.

In [7]:
# Criando modelo e treinando com os dados de treino
dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)
# Fazendo a predição nos dados de treino
resultado_dtc = dtc.predict(X_test)
# Principais métricas de performance
print(classification_report(y_test, resultado_dtc))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        36
  versicolor       0.90      0.88      0.89        32
   virginica       0.89      0.92      0.91        37

    accuracy                           0.93       105
   macro avg       0.93      0.93      0.93       105
weighted avg       0.93      0.93      0.93       105



A função classification_report() disponível nas métricas do scikit-learn trás as principais métricas de performance para modelos de classificação. Agora vamos ver a matriz de confusão e a curva ROC para o modelo da árvore de decisão.

<img src='https://i1.wp.com/dadosaocubo.com/wp-content/uploads/2020/07/MC_arvore.png?strip=info&w=759&ssl=1' width='455'> <img src='https://i2.wp.com/dadosaocubo.com/wp-content/uploads/2020/07/ROC_arvore.png?strip=info&w=742&ssl=1' width='415'>

Para completar a nossa avaliação a nossa matriz de confusão, uma forma visual para ver os erros e acertos do nosso classificador.