# Classificação de Dados com Python 3

## 0- Objetivo

Carregar Conjunto de Dados com informações de Diagnósticos de Câncer de Mama para realizar a Classificação (em Malígno ou Benígno) destes dados utilizando algoritmos de Aprendizado de Máquina Supervisionado em Python.

## 1- Conjunto de Dados (_Dataset_)

Conjunto com amostras de Diagnósticos de Câncer de Mama com duas Classificações: Malígno (M) e Benígno (B).

Informações do Conjunto:
- Construído em 1995;
- Origem: `scikit-learn`;
- Estrutura de Dados ao Carregar: `bunch`;
- Atributos da Estrutura:
    - `target`: rótulos das amostras;
    - `target_names`: significado dos rótulos;
    - `feature`names`: nome dos atributos;
    - `DESCR`: descrição do Conjunto de Dados;
    - `filename`: localização do Conjunto de Dados em .CSV.
- Página do Conjunto de Dados: http://bit.ly/load_breast_cancer

Informações dos Dados:
- Número de Diagnósticos (Amostras): 569;
- Duas Classificações:
    - Diagnósticos Malígnos: 212;
    - Diagnósticos Benígnos: 357.
- Quantidade de Atributos: 30.


## 3- Resultados

Diversas são as formas de comparar os resultados obtidos nas Previsões dos modelos, sendo comum a utilização da Matriz de Confusão que calcula os 4 resultados possíveis:
- Verdadeiro Negativo (VN) - `confusion_matrix[0][0]`;
- Falso Positivo (FP) - `confusion_matrix[0][1]`;
- Falso Negativo (FN) - `confusion_matrix[1][0]`;
- Verdadeiro Positivo (VP) - `confusion_matrix[1][1]`.


Os 4 resultados podem ser utilizados em diversas métricas estatísticas, das quais serão utilizadas:
- Acurácia (_Accuracy_);
- Precisão (_Precision_);
- Sensibilidade (_Recall_).

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score

#criando dicionários para armazenar métricas de cada modelo
metricsMNB = {} ; metricsDT = {} ; metricsRF = {} ; metricsAB = {}

#armazenando as métricas para cada modelo
metricsMNB['confusion'] = confusion_matrix(testY, previsionMNB)
metricsMNB['accuracy'] = accuracy_score(testY, previsionMNB)
metricsMNB['precision'] = precision_score(testY, previsionMNB)
metricsMNB['recall'] = recall_score(testY, previsionMNB)

metricsDT['confusion'] = confusion_matrix(testY, previsionDT)
metricsDT['accuracy'] = accuracy_score(testY, previsionDT)
metricsDT['precision'] = precision_score(testY, previsionDT)
metricsDT['recall'] = recall_score(testY, previsionDT)

metricsRF['confusion'] = confusion_matrix(testY, previsionRF)
metricsRF['accuracy'] = accuracy_score(testY, previsionRF)
metricsRF['precision'] = precision_score(testY, previsionRF)
metricsRF['recall'] = recall_score(testY, previsionRF)

metricsAB['confusion'] = confusion_matrix(testY, previsionAB)
metricsAB['accuracy'] = accuracy_score(testY, previsionAB)
metricsAB['precision'] = precision_score(testY, previsionAB)
metricsAB['recall'] = recall_score(testY, previsionAB)


print('Resultados Métricos:')

print('\nMultinomial Naive Bayes:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsMNB['confusion'][0][0], metricsMNB['confusion'][0][1], metricsMNB['confusion'][1][0], metricsMNB['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsMNB['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsMNB['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsMNB['recall']))

print('\nDecision Tree:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsDT['confusion'][0][0], metricsDT['confusion'][0][1], metricsDT['confusion'][1][0], metricsDT['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsDT['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsDT['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsDT['recall']))

print('\nFloresta Aleatória:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsRF['confusion'][0][0], metricsRF['confusion'][0][1], metricsRF['confusion'][1][0], metricsRF['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsRF['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsRF['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsRF['recall']))

print('\nAumento Adaptativo:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsAB['confusion'][0][0], metricsAB['confusion'][0][1], metricsAB['confusion'][1][0], metricsAB['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsAB['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsAB['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsAB['recall']))