# Classificações Básicas

Um dataset pode ter elementos com várias características ou classes e é necessário diferenciá-los por alguma classificação. Essas são divididas em 3 tipos:

 - **Classificação Binária**: atribui um datapoint como pertencente a 1 de 2 classes.
 - **Classificação Multiclasse**: atribui um datapoint como pertencente a 1 de n classes, n > 2.
 - **Classificação Multilabel**: atribui um datapoint como pertence a n de m classes, m > n. <br>
 
 __Classificação Binária:__ Possui 4 possíveis saídas: True Positive, False Positive, False Negative e True Negative.
     Matriz de confusão:
     <br>
     <img src="img/confusion_matrix.png" align="left" width="100%">
     <br>
     
Essa matriz de confusão produz 4 métricas:

 - **Accuracy**: de tudo o que foi classificado, e qual parte esta correta. É a primeira das métricas, mas algumas vezes pode não responder as perguntas de modo satisfatório e ocultar o que está acontecendo com os erros.
 - **Precision**: fração dos dados categorizados positivamente e que são, de fato, casos positivos. É útil para saber quão confiável é a previsão para o positivo.
 - **Recall / Sensivity**: fração de dados positivos categorizados de fato como positivos. Mostra como o modelo enxerga os dados positivos
 - **Specificity**: fração de dados negativos categorizados de fato como negativos. Mostra como o modelo enxerga os dados negativos.
 
 As métricas podem e devm ser utilizadas para para cada problema de classificação binária pois assim se tem controle sobre os acertos (acurácia) do modelo.
 
 Além dessas 4 métricas também é usado o F1 Score, um balaceamento entre precision e recall, com função:
 <br>
 F1 = 2*((precision * recall) / (precision + recall)). 
 <br>
 
É sempre interessante usar essas métricas em conjunto pois elas conseguem dar um entendimento maior sobre os acertos e erros do modelo e deuq eu forma melhorá-lo.

### Utilizando o Breast Cancer Dataset do scikit.
#### Existem 13 atributos e 2 classificações: M (maligno) e B (benigno). Prever o tipo de tumor de cada paciente.

### 1 - Importando o dataset

In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

%matplotlib inline
# Import scikit-learn dataset library
from sklearn import datasets

# Load dataset
df_cancer = datasets.load_breast_cancer()
import warnings
warnings.filterwarnings('ignore')

In [7]:
df_cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [14]:
df_cancer.data.shape

(569, 30)

In [17]:
df_cancer.data

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

### 2 - Train Test Split

In [18]:
from sklearn.model_selection import train_test_split

#amostra de 20% e randon state de 42

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2,random_state=42) 

### 3 - Aplicando uma regressão logística

In [19]:
from sklearn.linear_model import LogisticRegression

#Create a svm Classifier
clf = LogisticRegression()

#Train the model using the training sets
clf.fit(X_train, y_train)

#Predict the response for test dataset
y_pred = clf.predict(X_test)



### 4 - Montando uma matriz de confsão de dados para analisar o resultado

In [20]:
from sklearn import metrics
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

array([[39,  4],
       [ 1, 70]], dtype=int64)

De acordo com a matriz de confusão, os resultados são:

True Negative = 39 casos <br>
False Positive = 4 casos <br>
False Negative = 1 caso <br>
True Positive = 70 casos <br>

Calculando a __acurácia__ (.accuracy_score()), a __precisão__ (.precision_score()) e a __sensibilidade__ (.recall_score())

In [21]:
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))
print("Precision:",metrics.precision_score(y_test, y_pred))
print("Recall:",metrics.recall_score(y_test, y_pred))

Accuracy: 0.956140350877193
Precision: 0.9459459459459459
Recall: 0.9859154929577465


As 3 métricas estão muito boas, acima de 90%, o que significa que o modelo está prevendo bem o perfil da doença.

### 5 - Partindo para um modelo de previsão mais sofisticado: vários modelos e seus resultados

In [23]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB

classifiers = [
    KNeighborsClassifier(3),
    GaussianNB(),
    SVC(),
    DecisionTreeClassifier(),
    RandomForestClassifier(),
    GradientBoostingClassifier()]


for clf in classifiers:
    clf.fit(X_train, y_train)
    name = clf.__class__.__name__
    
    print("="*30)
    print(name)
    
    print('****Results****')
    y_pred = clf.predict(X_test)
    print("Accuracy:", metrics.accuracy_score(y_test, y_pred))
    print("Precision:", metrics.precision_score(y_test, y_pred))
    print("Recall:", metrics.recall_score(y_test, y_pred))

KNeighborsClassifier
****Results****
Accuracy: 0.9298245614035088
Precision: 0.9315068493150684
Recall: 0.9577464788732394
GaussianNB
****Results****
Accuracy: 0.9736842105263158
Precision: 0.9594594594594594
Recall: 1.0
SVC
****Results****
Accuracy: 0.6228070175438597
Precision: 0.6228070175438597
Recall: 1.0
DecisionTreeClassifier
****Results****
Accuracy: 0.9473684210526315
Precision: 0.9577464788732394
Recall: 0.9577464788732394
RandomForestClassifier
****Results****
Accuracy: 0.9649122807017544
Precision: 0.958904109589041
Recall: 0.9859154929577465




GradientBoostingClassifier
****Results****
Accuracy: 0.956140350877193
Precision: 0.9583333333333334
Recall: 0.971830985915493
