# Classificação de Dados com Python 3 - Parte 2

Autor: Rodolfo Bolconte Donato - https://github.com/rodolfobolconte

Data: 14 de Janeiro de 2020

## Objetivo

Carregar Conjunto de Dados com informações de Diagnósticos de Câncer de Mama para realizar a Classificação (em Malígno ou Benígno) destes dados utilizando algoritmos de Aprendizado de Máquina Supervisionado em Python com alterações do Conjunto de Dados e também parâmetros dos modelos, além de usar métricas estatísticas voltadas para mensuração de Modelos de Classificação de Dados.

## 0- Carregando Código

Cópia de trechos do código já utilizado na Parte 1 (https://github.com/rodolfobolconte/minicurso-aprendizado-supervisionado/blob/master/Parte%201.ipynb) para carregar o Conjunto de Dados e tratá-lo para ser utilizado a partir das Reamostragens.

In [88]:
from sklearn.datasets import load_breast_cancer

dataset = load_breast_cancer()

import numpy as np

#transforma os numpy arrays em arrays python
samples = np.ndarray.tolist(dataset.data)
feature_names = np.ndarray.tolist(dataset.feature_names)

#insere a coluna 'target' no array de atributos
feature_names.append('target')

#insere o array de atributos no início do array de amostras
samples.insert(0, feature_names)

#variavel com os rótulos das amostras
targets = np.ndarray.tolist(dataset.target)

#coloca o rótulo de cada amostra em seu próprio array no array de amostras
for sample, target in zip(samples[1:], targets):
    sample.append(target)

#transforma o array python com as amostras em um numpy array para ser transformado em dataframe pandas, por ser melhor estruturado
samples = np.asarray(samples)

import pandas as pd

#transforma o numpy array com as amostras em dataframe pandas
samples = pd.DataFrame(samples[1:], index=samples[1:], columns=samples[0])

## 1- Tratamento dos Dados



## 2- Reamostragem de Dados

Construção de _Datasets_ a partir de métodos de Reamostragem:
- _Holdout_: divisão do _Dataset_ em dois subconjuntos sem Reposição dos Dados;
- _K-Fold_: divisão do conjunto em k subconjuntos que serão utilizados para treino e teste simultaneamente k vezes;
- _Bootstrap_: divisão do _Dataset_ em dois subconjuntos com Reposição dos Dados.

In [89]:
from sklearn.model_selection import train_test_split, KFold

#divide os dados para classificação (X) e os rótulos (Y) dos mesmos
X = samples[feature_names[:-1]]
Y = samples[feature_names[-1]]

#transforma os rótulos em booleanos para ser utilizado no método de dividir o Dataset
Y = [True if i == '1' else False for i in Y]

#divisão do Dataset utilizando a reamostragem Holdout, com 60% para treino e 40% para teste
trainXHT, testXHT, trainYHT, testYHT = train_test_split(X, Y, train_size=0.66)

#reamostragem K-Fold será realizada na execução do treino e teste dos modelos
#divisão do Dataset utilizando a reamostragem K-Fold, com k=10
#kf = KFold(n_splits=10)
#for train_index, test_index in kf.split(X):
    #print("TRAIN:", train_index, "\nTEST:", test_index)
    #print(X.iloc[train_index])

#divisão do Dataset utilizando a reamostragem Bootstrap, com 60% para treino e 40% para teste
trainXBT, testXBT, trainYBT, testYBT = train_test_split(X, Y, train_size=0.66, shuffle=True)

## 3- Algoritmos de Classificação

Construção dos modelos editando suas configurações para criar as melhores combinações possíveis para Classificações com bons resultados.

Serão utilizados os modelos:
- _Multinomial Naive Bayes_: https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html;
- _Decision Tree_: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html;
- _Random Forest_: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html;
- _Adaptive Boosting_: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html.


In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

#MultinomialNB: 3 parâmetros - 8 
#fit_prior: se deve aprender com as probabilidades das classes anteriores
modelMNB = MultinomialNB()
#
modelDT = DecisionTreeClassifier()

#criando os modelos ensemble methods de classificação
modelRF = RandomForestClassifier()
modelAB = AdaBoostClassifier()

## 3- Resultados

Diversas são as formas de comparar os resultados obtidos nas Previsões dos modelos, sendo comum a utilização da Matriz de Confusão que calcula os 4 resultados possíveis:
- Verdadeiro Negativo (VN) - `confusion_matrix[0][0]`;
- Falso Positivo (FP) - `confusion_matrix[0][1]`;
- Falso Negativo (FN) - `confusion_matrix[1][0]`;
- Verdadeiro Positivo (VP) - `confusion_matrix[1][1]`.


Os 4 resultados podem ser utilizados em diversas métricas estatísticas, das quais serão utilizadas:
- Acurácia (_Accuracy_);
- Precisão (_Precision_);
- Sensibilidade (_Recall_).

In [90]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score


#criando dicionários para armazenar métricas de cada modelo
metricsMNB = {} ; metricsDT = {} ; metricsRF = {} ; metricsAB = {}

#armazenando as métricas para cada modelo
metricsMNB['confusion'] = confusion_matrix(testY, previsionMNB)
metricsMNB['accuracy'] = accuracy_score(testY, previsionMNB)
metricsMNB['precision'] = precision_score(testY, previsionMNB)
metricsMNB['recall'] = recall_score(testY, previsionMNB)

metricsDT['confusion'] = confusion_matrix(testY, previsionDT)
metricsDT['accuracy'] = accuracy_score(testY, previsionDT)
metricsDT['precision'] = precision_score(testY, previsionDT)
metricsDT['recall'] = recall_score(testY, previsionDT)

metricsRF['confusion'] = confusion_matrix(testY, previsionRF)
metricsRF['accuracy'] = accuracy_score(testY, previsionRF)
metricsRF['precision'] = precision_score(testY, previsionRF)
metricsRF['recall'] = recall_score(testY, previsionRF)

metricsAB['confusion'] = confusion_matrix(testY, previsionAB)
metricsAB['accuracy'] = accuracy_score(testY, previsionAB)
metricsAB['precision'] = precision_score(testY, previsionAB)
metricsAB['recall'] = recall_score(testY, previsionAB)


print('Resultados Métricos:')

print('\nMultinomial Naive Bayes:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsMNB['confusion'][0][0], metricsMNB['confusion'][0][1], metricsMNB['confusion'][1][0], metricsMNB['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsMNB['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsMNB['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsMNB['recall']))

print('\nDecision Tree:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsDT['confusion'][0][0], metricsDT['confusion'][0][1], metricsDT['confusion'][1][0], metricsDT['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsDT['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsDT['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsDT['recall']))

print('\nFloresta Aleatória:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsRF['confusion'][0][0], metricsRF['confusion'][0][1], metricsRF['confusion'][1][0], metricsRF['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsRF['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsRF['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsRF['recall']))

print('\nAumento Adaptativo:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsAB['confusion'][0][0], metricsAB['confusion'][0][1], metricsAB['confusion'][1][0], metricsAB['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsAB['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsAB['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsAB['recall']))

NameError: name 'previsionMNB' is not defined