# Classificação de Dados com Python 3

## 0- Objetivo

Carregar Conjunto de Dados com informações de Diagnósticos de Câncer de Mama para realizar a Classificação (em Malígno ou Benígno) destes dados utilizando algoritmos de Aprendizado de Máquina Supervisionado em Python.

## 1- Conjunto de Dados (_Dataset_)

Conjunto com amostras de Diagnósticos de Câncer de Mama com duas Classificações: Malígno (M) e Benígno (B).

Informações do Conjnuto:
- Construído em 1995;
- Origem: _scikit-learn_;
- Estrutura de Dados ao Carregar: _bunch_;
- Atributos da Estrutura:
    - _target_: rótulos das amostras;
    - _target_names_: significado dos rótulos;
    - _feature_names_: nome dos atributos;
    - _DESCR_: descrição do Conjunto de Dados;
    - _filename_: localização do Conjunto de Dados em .CSV.
- Página do Conjunto de Dados: http://bit.ly/load_breast_cancer

Informações dos Dados:
- Número de Diagnósticos (Amostras): 569;
- Duas Classificações:
    - Diagnósticos Malígnos: 212;
    - Diagnósticos Benígnos: 357.
- Quantidade de Atributos: 30.


In [None]:
from sklearn.datasets import load_breast_cancer

dataset = load_breast_cancer()

print("Rótulos das amostras:\n{}\n".format(dataset.target))

print("Classificações possíveis:\n{}\n".format(dataset.target_names))

print('Atributos utilizados:\n{}\n'.format(dataset.feature_names))

print('Quantidade de Amostras com Câncer:\n{}\n'.format(len(dataset.target[dataset.target == 0])))

print('Quantidade de Amostras sem Câncer:\n{}\n'.format(len(dataset.target[dataset.target == 1])))

print('Caminho do arquivo .CSV do Conjunto:\n{}\n'.format(dataset.filename))

print('Descrição do Conjunto de Dados:\n{}\n'.format(dataset.DESCR))

### 1.1- Organizando o Conjunto de Dados

Utilizar o método _Holdout_ para dividir o Conjunto de Dados em:

- Quantidade de Amostras para Treino: 66% do Conjunto = 376 Amostras;
- Quantidade de Amostras para Teste: 34% do Conjunto = 193 Amostras.

In [None]:
import numpy as np

#transforma os numpy arrays em arrays python
samples = np.ndarray.tolist(dataset.data)
feature_names = np.ndarray.tolist(dataset.feature_names)

#insere a coluna 'target' no array de atributos
feature_names.append('target')

#insere o array de atributos no início do array de amostras
samples.insert(0, feature_names)

#variavel com os rótulos das amostras
targets = np.ndarray.tolist(dataset.target)

#coloca o rótulo de cada amostra em seu próprio array no array de amostras
for sample, target in zip(samples[1:], targets):
    sample.append(target)

#transforma o array python com as amostras em um numpy array para ser transformado em dataframe pandas, por ser melhor estruturado
samples = np.asarray(samples)

import pandas as pd

#transforma o numpy array com as amostras em dataframe pandas
samples = pd.DataFrame(samples[1:], index=samples[1:], columns=samples[0])

### 1.2- Dividindo o Conjunto de Dados

Utilizar o método _Holdout_ para dividir o Conjunto de Dados em:

- Quantidade de Amostras para Treino: 66% do Conjunto = 376 Amostras;
- Quantidade de Amostras para Teste: 34% do Conjunto = 193 Amostras.

In [None]:
#reserva os primeiros 376 dados para treino
trainX = samples[:376][feature_names[:-1]]
trainY = samples[:376][feature_names[-1]]

#reserva os últimos 193 dados para teste
testX = samples[376:][feature_names[:-1]]
testY = samples[376:][feature_names[-1]]

print('Quantidade de Dados para Treino: {}'.format(len(trainX)))
print('Quantidade de Dados para Teste: {}'.format(len(testX)))

## 2- Algoritmos de Classificação

### 2.1- Algoritmos Únicos

Utilização de modelos de Algoritmos Únicos para a Classificação de Amostras:
- _Multinomial Naive Bayes_;
- _Decision Tree_ (Árvore de Decisão).

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier

#criando os modelos únicos de classificação
modelMNB = MultinomialNB()
modelDT = DecisionTreeClassifier()

print(modelMNB)
print(modelDT)

### 2.2- _Ensemble Methods_ (Algoritmos de Conjunto)

_Ensemble Methods_ são algoritmos que criam várias instâncias de um único algoritmo de classificação para mediar o resultado para as amostras.

Utilização dos _Ensemble Methods_:
- _Random Forest_ (Floresta Aleatória);
- _Adaptive Boosting_ (Reforço Adaptativo).

In [None]:
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

#criando os modelos ensemble methods de classificação
modelRF = RandomForestClassifier()
modelAB = AdaBoostClassifier()

print(modelRF)
print(modelAB)

### 2.3- Treino e Teste dos Algoritmos

Primeiro treinar os Algoritmos com os dados de treino (_trainX_ e _trainY_)

Segundo testar os Algoritmos com os dados de teste (_testX_, não precisa dos rótulos das amostras em _testY_)

In [None]:
#treinando os modelos com as amostras de treino e seus rótulos
modelMNB.fit(trainX, trainY)
modelDT.fit(trainX, trainY)
modelRF.fit(trainX, trainY)
modelAB.fit(trainX, trainY)

#testando os modelos com os dados de teste (previsão dos dados)
previsionMNB = modelMNB.predict(testX)
previsionDT = modelDT.predict(testX)
previsionRF = modelRF.predict(testX)
previsionAB = modelAB.predict(testX)