# Classificação de Dados com Python 3

## 0- Objetivo

Carregar Conjunto de Dados com informações de Diagnósticos de Câncer de Mama para realizar a Classificação (em Malígno ou Benígno) destes dados utilizando algoritmos de Aprendizado de Máquina Supervisionado em Python.

## 1- Conjunto de Dados (_Dataset_)

Conjunto com amostras de Diagnósticos de Câncer de Mama com duas Classificações: Malígno (M) e Benígno (B).

Informações do Conjnuto:
- Construído em 1995;
- Origem: _scikit-learn_;
- Estrutura de Dados ao Carregar: _bunch_;
- Atributos da Estrutura:
    - _target_: rótulos das amostras;
    - _target_names_: significado dos rótulos;
    - _feature_names_: nome dos atributos;
    - _DESCR_: descrição do Conjunto de Dados;
    - _filename_: localização do Conjunto de Dados em .CSV.
- Página do Conjunto de Dados: http://bit.ly/load_breast_cancer

Informações dos Dados:
- Número de Diagnósticos (Amostras): 569;
- Duas Classificações:
    - Diagnósticos Malígnos: 212;
    - Diagnósticos Benígnos: 357.
- Quantidade de Atributos: 30.


In [106]:
from sklearn.datasets import load_breast_cancer

dataset = load_breast_cancer()

print("Rótulos das amostras:\n{}\n".format(dataset.target))

print("Classificações possíveis:\n{}\n".format(dataset.target_names))

print('Atributos utilizados:\n{}\n'.format(dataset.feature_names))

print('Quantidade de Amostras com Câncer:\n{}\n'.format(len(dataset.target[dataset.target == 0])))

print('Quantidade de Amostras sem Câncer:\n{}\n'.format(len(dataset.target[dataset.target == 1])))

print('Caminho do arquivo .CSV do Conjunto:\n{}\n'.format(dataset.filename))

print('Descrição do Conjunto de Dados:\n{}\n'.format(dataset.DESCR))

Rótulos das amostras:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 

### 1.1- Organizando o Conjunto de Dados

Utilizar o método _Holdout_ para dividir o Conjunto de Dados em:

- Quantidade de Amostras para Treino: 66% do Conjunto = 376 Amostras;
- Quantidade de Amostras para Teste: 34% do Conjunto = 193 Amostras.

In [107]:
import numpy as np

#transforma os numpy arrays em arrays python
samples = np.ndarray.tolist(dataset.data)
feature_names = np.ndarray.tolist(dataset.feature_names)

#insere a coluna 'target' no array de atributos
feature_names.append('target')

#insere o array de atributos no início do array de amostras
samples.insert(0, feature_names)

#variavel com os rótulos das amostras
targets = np.ndarray.tolist(dataset.target)

#coloca o rótulo de cada amostra em seu próprio array no array de amostras
for sample, target in zip(samples[1:], targets):
    sample.append(target)

#transforma o array python com as amostras em um numpy array para ser transformado em dataframe pandas, por ser melhor estruturado
samples = np.asarray(samples)

import pandas as pd

#transforma o numpy array com as amostras em dataframe pandas
samples = pd.DataFrame(samples[1:], index=samples[1:], columns=samples[0])

### 1.2- Dividindo o Conjunto de Dados

Utilizar o método _Holdout_ para dividir o Conjunto de Dados em:

- Quantidade de Amostras para Treino: 66% do Conjunto = 376 Amostras;
- Quantidade de Amostras para Teste: 34% do Conjunto = 193 Amostras.

In [108]:
#reserva os primeiros 376 dados para treino
trainX = samples[:376][feature_names[:-1]]
trainY = samples[:376][feature_names[-1]].astype(np.int)

#reserva os últimos 193 dados para teste
testX = samples[376:][feature_names[:-1]]
testY = samples[376:][feature_names[-1]].astype(np.int)

print('Quantidade de Dados para Treino: {}'.format(len(trainX)))
print('Quantidade de Dados para Teste: {}'.format(len(testX)))

Quantidade de Dados para Treino: 376
Quantidade de Dados para Teste: 193


## 2- Algoritmos de Classificação

### 2.1- Algoritmos Únicos

Utilização de modelos de Algoritmos Únicos para a Classificação de Amostras:
- _Multinomial Naive Bayes_;
- _Decision Tree_ (Árvore de Decisão).

In [109]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier

#criando os modelos únicos de classificação
modelMNB = MultinomialNB()
modelDT = DecisionTreeClassifier()

print(modelMNB)
print(modelDT)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)
DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')


### 2.2- _Ensemble Methods_ (Algoritmos de Conjunto)

_Ensemble Methods_ são algoritmos que criam várias instâncias de um único algoritmo de classificação para mediar o resultado para as amostras.

Utilização dos _Ensemble Methods_:
- _Random Forest_ (Floresta Aleatória);
- _Adaptive Boosting_ (Reforço Adaptativo).

In [110]:
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

#criando os modelos ensemble methods de classificação
modelRF = RandomForestClassifier()
modelAB = AdaBoostClassifier()

print(modelRF)
print(modelAB)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)
AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None, learning_rate=1.0,
                   n_estimators=50, random_state=None)


### 2.3- Treino e Teste dos Algoritmos

Primeiro treinar os Algoritmos com os dados de treino (_trainX_ e _trainY_)

Segundo testar os Algoritmos com os dados de teste (_testX_, não precisa dos rótulos das amostras em _testY_)

In [111]:
#treinando os modelos com as amostras de treino e seus rótulos
modelMNB.fit(trainX, trainY)
modelDT.fit(trainX, trainY)
modelRF.fit(trainX, trainY)
modelAB.fit(trainX, trainY)

#testando os modelos com os dados de teste (previsão dos dados)
previsionMNB = modelMNB.predict(testX).astype(np.int)
previsionDT = modelDT.predict(testX).astype(np.int)
previsionRF = modelRF.predict(testX).astype(np.int)
previsionAB = modelAB.predict(testX).astype(np.int)

## 3- Resultados

Diversas são as formas de comparar os resultados obtidos nas Previsões dos modelos, sendo comum a utilização da Matriz de Confusão que calcula os 4 resultados possíveis:
- Verdadeiro Negativo (VN) - `confusion_matrix[0][0]`;
- Falso Positivo (FP) - `confusion_matrix[0][1]`;
- Falso Negativo (FN) - `confusion_matrix[1][0]`;
- Verdadeiro Positivo (VP) - `confusion_matrix[1][1]`.


Os 4 resultados podem ser utilizados em diversas métricas estatísticas, das quais serão utilizadas:
- Acurácia (_Accuracy_);
- Precisão (_Precision_);
- Sensibilidade (_Recall_).

In [117]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score

metricsMNB = {} ; metricsDT = {} ; metricsRF = {} ; metricsAB = {}

metricsMNB['confusion'] = confusion_matrix(testY, previsionMNB)
metricsMNB['accuracy'] = accuracy_score(testY, previsionMNB)
metricsMNB['precision'] = precision_score(testY, previsionMNB)
metricsMNB['recall'] = recall_score(testY, previsionMNB)

metricsDT['confusion'] = confusion_matrix(testY, previsionDT)
metricsDT['accuracy'] = accuracy_score(testY, previsionDT)
metricsDT['precision'] = precision_score(testY, previsionDT)
metricsDT['recall'] = recall_score(testY, previsionDT)

metricsRF['confusion'] = confusion_matrix(testY, previsionRF)
metricsRF['accuracy'] = accuracy_score(testY, previsionRF)
metricsRF['precision'] = precision_score(testY, previsionRF)
metricsRF['recall'] = recall_score(testY, previsionRF)

metricsAB['confusion'] = confusion_matrix(testY, previsionAB)
metricsAB['accuracy'] = accuracy_score(testY, previsionAB)
metricsAB['precision'] = precision_score(testY, previsionAB)
metricsAB['recall'] = recall_score(testY, previsionAB)

print('Resultados Métricos:')

print('\nMultinomial Naive Bayes:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsMNB['confusion'][0][0], metricsMNB['confusion'][0][1], metricsMNB['confusion'][1][0], metricsMNB['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsMNB['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsMNB['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsMNB['recall']))

print('\nDecision Tree:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsDT['confusion'][0][0], metricsDT['confusion'][0][1], metricsDT['confusion'][1][0], metricsDT['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsDT['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsDT['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsDT['recall']))

print('\nFloresta Aleatória:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsRF['confusion'][0][0], metricsRF['confusion'][0][1], metricsRF['confusion'][1][0], metricsRF['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsRF['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsRF['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsRF['recall']))

print('\nAumento Adaptativo:')
print('\tMatriz de Confusão - VN:{}, FP:{}, FN:{}, VP:{}'.format(metricsAB['confusion'][0][0], metricsAB['confusion'][0][1], metricsAB['confusion'][1][0], metricsAB['confusion'][1][1]))
print('\tAcurácia - {:.4f}'.format(metricsAB['accuracy']))
print('\tPrecisão - {:.4f}'.format(metricsAB['precision']))
print('\tSensibilidade - {:.4f}'.format(metricsAB['recall']))

Resultados Métricos:

Multinomial Naive Bayes:
	Matriz de Confusão - VN:33, FP:11, FN:3, VP:146
	Acurácia - 0.9275
	Precisão - 0.9299
	Sensibilidade - 0.9799

Decision Tree:
	Matriz de Confusão - VN:43, FP:1, FN:22, VP:127
	Acurácia - 0.8808
	Precisão - 0.9922
	Sensibilidade - 0.8523

Floresta Aleatória:
	Matriz de Confusão - VN:43, FP:1, FN:3, VP:146
	Acurácia - 0.9793
	Precisão - 0.9932
	Sensibilidade - 0.9799

Aumento Adaptativo:
	Matriz de Confusão - VN:43, FP:1, FN:5, VP:144
	Acurácia - 0.9689
	Precisão - 0.9931
	Sensibilidade - 0.9664
