# Classificação de Dados com Python 3 - Parte 2

Autor: Rodolfo Bolconte Donato - https://github.com/rodolfobolconte

Data: 14 de Janeiro de 2020

## Objetivo

Carregar Conjunto de Dados com informações de Diagnósticos de Câncer de Mama para realizar a Classificação (em Malígno ou Benígno) destes dados utilizando algoritmos de Aprendizado de Máquina Supervisionado em Python com alterações do Conjunto de Dados e também parâmetros dos modelos, além de usar métricas estatísticas voltadas para mensuração de Modelos de Classificação de Dados.

## 0- Carregando Código

Cópia de trechos do código já utilizado na Parte 1 (https://github.com/rodolfobolconte/minicurso-aprendizado-supervisionado/blob/master/Parte%201.ipynb) para carregar o Conjunto de Dados e tratá-lo para ser utilizado a partir das Reamostragens.

In [None]:
from sklearn.datasets import load_breast_cancer

dataset = load_breast_cancer()

import numpy as np

#transforma os numpy arrays em arrays python
samples = np.ndarray.tolist(dataset.data)
feature_names = np.ndarray.tolist(dataset.feature_names)

#insere a coluna 'target' no array de atributos
feature_names.append('target')

#insere o array de atributos no início do array de amostras
samples.insert(0, feature_names)

#variavel com os rótulos das amostras
targets = np.ndarray.tolist(dataset.target)

#coloca o rótulo de cada amostra em seu próprio array no array de amostras
for sample, target in zip(samples[1:], targets):
    sample.append(target)

#transforma o array python com as amostras em um numpy array para ser transformado em dataframe pandas, por ser melhor estruturado
samples = np.asarray(samples)

import pandas as pd

#transforma o numpy array com as amostras em dataframe pandas
samples = pd.DataFrame(samples[1:], index=samples[1:], columns=samples[0])

## 1- Reamostragem de Dados

Construção de _Datasets_ a partir de métodos de Reamostragem:
- _Holdout_: divisão do _Dataset_ em dois subconjuntos sem Reposição dos Dados;
- _Bootstrap_: divisão do _Dataset_ em dois subconjuntos com Reposição dos Dados.

In [None]:
from sklearn.model_selection import train_test_split, KFold

#divide os dados para classificação (X) e os rótulos (Y) dos mesmos
X = samples[feature_names[:-1]]
Y = samples[feature_names[-1]]

#transforma os rótulos em booleanos para ser utilizado no método de dividir o Dataset
Y = [True if i == '1' else False for i in Y]

#divisão do Dataset utilizando a reamostragem Holdout, com 60% para treino e 40% para teste
trainXHT, testXHT, trainYHT, testYHT = train_test_split(X, Y, train_size=0.66)

#divisão do Dataset utilizando a reamostragem Bootstrap, com 60% para treino e 40% para teste
trainXBT, testXBT, trainYBT, testYBT = train_test_split(X, Y, train_size=0.66, shuffle=True)

## 2- Algoritmos de Classificação

Construção dos modelos editando suas configurações para criar as melhores combinações possíveis para Classificações com bons resultados.

Serão utilizados os modelos:
- _Multinomial Naive Bayes_: https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html;
- _Decision Tree_: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html;
- _Random Forest_: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html;
- _Adaptive Boosting_: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html.


In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier


#Modelos Multinomial Naive Bayes para serem utilizandos com Reamostragem Holdout e Bootstrap
modelMNHT = MultinomialNB() ; modelMNBT = MultinomialNB()

#Modelos Decision Tree para serem utilizandos com Reamostragem Holdout e Bootstrap
modelDTHT = DecisionTreeClassifier() ; modelDTBT = DecisionTreeClassifier()

#Modelos Random Forest para serem utilizandos com Reamostragem Holdout e Bootstrap
modelRFHT = RandomForestClassifier() ; modelRFBT = RandomForestClassifier()

#Modelos Adaptive Boosting para serem utilizandos com Reamostragem Holdout e Bootstrap
modelABHT = AdaBoostClassifier(base_estimator=None, n_estimators=100, learning_rate=) ; modelABBT = AdaBoostClassifier(base_estimator=None, n_estimators=100, learning_rate=)

### 2.1- Treino e Teste dos Algoritmos

Nessa etapa os algoritmos serão treinados e testados com seus respectivos conjuntos de dados para que suas previsões sejam analisadas a partir de métricas estatísticas.

In [None]:
#treino dos algoritmos com reamostragem holdout
modelMNHT.fit(trainXHT, trainYHT)
modelDTHT.fit(trainXHT, trainYHT)
modelRFHT.fit(trainXHT, trainYHT)
modelABHT.fit(trainXHT, trainYHT)
#treino dos algoritmos com reamostragem bootstrap
modelMNBT.fit(trainXBT, trainYBT)
modelDTBT.fit(trainXBT, trainYBT)
modelRFBT.fit(trainXBT, trainYBT)
modelABBT.fit(trainXBT, trainYBT)

#previsão dos algoritmos com reamostragem holdout
previsionMNHT = modelMNHT.predict(testXHT)
previsionDTHT = modelDTHT.predict(testXHT)
previsionRFHT = modelRFHT.predict(testXHT)
previsionABHT = modelABHT.predict(testXHT)
#previsão dos algoritmos com reamostragem bootstrap
previsionMNBT = modelMNBT.predict(testXBT)
previsionDTBT = modelDTBT.predict(testXBT)
previsionRFBT = modelRFBT.predict(testXBT)
previsionABBT = modelABBT.predict(testXBT)

## 3- Resultados

Diversas são as formas de comparar os resultados obtidos nas Previsões dos modelos, sendo comum a utilização da Matriz de Confusão que calcula os 4 resultados possíveis:
- Verdadeiro Negativo (VN) - `confusion_matrix[0][0]`;
- Falso Positivo (FP) - `confusion_matrix[0][1]`;
- Falso Negativo (FN) - `confusion_matrix[1][0]`;
- Verdadeiro Positivo (VP) - `confusion_matrix[1][1]`.


Os 4 resultados podem ser utilizados em diversas métricas estatísticas, das quais serão utilizadas:
- Acurácia (_Accuracy_);
- Precisão (_Precision_);
- Sensibilidade (_Recall_).

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score

#criando dicionários para armazenar métricas de cada modelo e de cada tipo de reamostragem
metricsMN = dict() ; metricsMN['holdout'] = dict() ; metricsMN['bootstrap'] = dict()
metricsDT = dict() ; metricsDT['holdout'] = dict() ; metricsDT['bootstrap'] = dict()
metricsRF = dict() ; metricsRF['holdout'] = dict() ; metricsRF['bootstrap'] = dict()
metricsAB = dict() ; metricsAB['holdout'] = dict() ; metricsAB['bootstrap'] = dict()

#metricas para Multinomial NB rodando os dados holdout
metricsMN['holdout']['confusion'] = confusion_matrix(testYHT, previsionMNHT)
metricsMN['holdout']['accuracy'] = accuracy_score(testYHT, previsionMNHT)# * 100
metricsMN['holdout']['precision'] = precision_score(testYHT, previsionMNHT)# * 100
metricsMN['holdout']['recall'] = recall_score(testYHT, previsionMNHT)# * 100
#metricas para Multinomial NB rodando os dados bootstrap
metricsMN['bootstrap']['confusion'] = confusion_matrix(testYBT, previsionMNBT)
metricsMN['bootstrap']['accuracy'] = accuracy_score(testYBT, previsionMNBT)# * 100
metricsMN['bootstrap']['precision'] = precision_score(testYBT, previsionMNBT)# * 100
metricsMN['bootstrap']['recall'] = recall_score(testYBT, previsionMNBT)# * 100


#metricas para Decision Tree rodando os dados holdout
metricsDT['holdout']['confusion'] = confusion_matrix(testYHT, previsionDTHT)
metricsDT['holdout']['accuracy'] = accuracy_score(testYHT, previsionDTHT)# * 100
metricsDT['holdout']['precision'] = precision_score(testYHT, previsionDTHT)# * 100
metricsDT['holdout']['recall'] = recall_score(testYHT, previsionDTHT)# * 100
#metricas para Decision Tree rodando os dados bootstrap
metricsDT['bootstrap']['confusion'] = confusion_matrix(testYBT, previsionDTBT)
metricsDT['bootstrap']['accuracy'] = accuracy_score(testYBT, previsionDTBT)# * 100
metricsDT['bootstrap']['precision'] = precision_score(testYBT, previsionDTBT)# * 100
metricsDT['bootstrap']['recall'] = recall_score(testYBT, previsionDTBT)# * 100


#metricas para Random Forest rodando os dados holdout
metricsRF['holdout']['confusion'] = confusion_matrix(testYHT, previsionRFHT)
metricsRF['holdout']['accuracy'] = accuracy_score(testYHT, previsionRFHT)# * 100
metricsRF['holdout']['precision'] = precision_score(testYHT, previsionRFHT)# * 100
metricsRF['holdout']['recall'] = recall_score(testYHT, previsionRFHT)# * 100
#metricas para Random Forest rodando os dados bootstrap
metricsRF['bootstrap']['confusion'] = confusion_matrix(testYBT, previsionRFBT)
metricsRF['bootstrap']['accuracy'] = accuracy_score(testYBT, previsionRFBT)# * 100
metricsRF['bootstrap']['precision'] = precision_score(testYBT, previsionRFBT)# * 100
metricsRF['bootstrap']['recall'] = recall_score(testYBT, previsionRFBT)# * 100


#metricas para Adaptive Boosting rodando os dados holdout
metricsAB['holdout']['confusion'] = confusion_matrix(testYHT, previsionABHT)
metricsAB['holdout']['accuracy'] = accuracy_score(testYHT, previsionABHT)# * 100
metricsAB['holdout']['precision'] = precision_score(testYHT, previsionABHT)# * 100
metricsAB['holdout']['recall'] = recall_score(testYHT, previsionABHT)# * 100
#metricas para Adaptive Boosting rodando os dados bootstrap
metricsAB['bootstrap']['confusion'] = confusion_matrix(testYBT, previsionABBT)
metricsAB['bootstrap']['accuracy'] = accuracy_score(testYBT, previsionABBT)# * 100
metricsAB['bootstrap']['precision'] = precision_score(testYBT, previsionABBT)# * 100
metricsAB['bootstrap']['recall'] = recall_score(testYBT, previsionABBT)# * 100

### 3.1- Exportando Resultados

Exportar todos os resultados para arquivo .CSV de melhor interpretação e apresentação de valores utilizando um editor de Planilhas.

In [None]:
csv = open('Parte 2 - Resultados.csv', 'w')

csv.write('Algoritmos;Métricas Bootstrap;;;;;Métricas Holdout')
csv.write('\n;[VN FP];[FN VP];Acurácia;Precisão;Sensibilidade;[VN FP];[FN VP];Acurácia;Precisão;Sensibilidade;')

csv.write("\nMultinomial NB;%s;%s;%.4f;%.4f;%.4f;%s;%s;%.4f;%.4f;%.4f" %(metricsMN['holdout']['confusion'][0], metricsMN['holdout']['confusion'][1], metricsMN['holdout']['accuracy'], metricsMN['holdout']['precision'], metricsMN['holdout']['recall'], metricsMN['holdout']['confusion'][0], metricsMN['holdout']['confusion'][1], metricsMN['bootstrap']['accuracy'], metricsMN['bootstrap']['precision'], metricsMN['bootstrap']['recall']))

csv.write("\nDecision Tree;%s;%s;%.4f;%.4f;%.4f;%s;%s;%.4f;%.4f;%.4f" %(metricsDT['holdout']['confusion'][0], metricsDT['holdout']['confusion'][1], metricsDT['holdout']['accuracy'], metricsDT['holdout']['precision'], metricsDT['holdout']['recall'], metricsDT['holdout']['confusion'][0], metricsDT['holdout']['confusion'][1], metricsDT['bootstrap']['accuracy'], metricsDT['bootstrap']['precision'], metricsDT['bootstrap']['recall']))

csv.write("\nRandom Forest;%s;%s;%.4f;%.4f;%.4f;%s;%s;%.4f;%.4f;%.4f" %(metricsRF['holdout']['confusion'][0], metricsRF['holdout']['confusion'][1], metricsRF['holdout']['accuracy'], metricsRF['holdout']['precision'], metricsRF['holdout']['recall'], metricsRF['holdout']['confusion'][0], metricsRF['holdout']['confusion'][1], metricsRF['bootstrap']['accuracy'], metricsRF['bootstrap']['precision'], metricsRF['bootstrap']['recall']))

csv.write("\nAdaptive Boosting;%s;%s;%.4f;%.4f;%.4f;%s;%s;%.4f;%.4f;%.4f" %(metricsAB['holdout']['confusion'][0], metricsAB['holdout']['confusion'][1], metricsAB['holdout']['accuracy'], metricsAB['holdout']['precision'], metricsAB['holdout']['recall'], metricsAB['holdout']['confusion'][0], metricsAB['holdout']['confusion'][1], metricsAB['bootstrap']['accuracy'], metricsAB['bootstrap']['precision'], metricsAB['bootstrap']['recall']))