# Data Dimensionality Reduction
Comparar os 4 métodos de redução de dimensões (PCA, SVD, NMF e Autoencoder) em relação ao modelo sem nenhum tipo de redução.  
Para tornar o exercício mais interessante, será avaliado não só os 4 algoritmos de redução de dimensão, mas também vários modelos de classificação.  
O objetivo final é termos a melhor opção entre o modelo de classificação e de redução (se for o caso).  

### Base de dados - SK-Learn Breast Cancer

Para o exercício será utilizado o dataset do sklearn **breast cancer** (UCI ML Breast Cancer) no que contém informações sobre câncer de mama e a classificação se é benigno ou maligno.  
Maiores detalhes sobre o dataset disponível em  
https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer


***Fonte original do dataset***  
The copy of UCI ML Breast Cancer Wisconsin (Diagnostic) dataset is downloaded from:  
https://goo.gl/U2Uwz2


## Importando o Dataset
O conjunto de dados utilizado contém possui em seu target uma classificação binária do câncer em 'malignant', 'benign' (maligno ou benigno).  
O objetivo, é criar um classificador que ao avaliar suas 30 features possa determinar o tipo do cancer.


In [1]:
#importando o conjunto de dados
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()

### Exibindo as Features e targets

In [2]:

print('Target:', data.target_names, '\n')
print('Features:',data.feature_names)

Target: ['malignant' 'benign'] 

Features: ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


### Importando as demais bibliotecas utilizadas

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import model_selection 
plt.style.use('ggplot')

### Separando os dados em treino e teste

Para o exemplo utilizaremos uma base de tete de 40% do conjunto de dados.

In [4]:
random_state = 42
#Carregndo novamente já seprando os dados
X, y = load_breast_cancer(return_X_y=True)
#separando em treino e teste com 40% para o teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=random_state)

### Definindo os modelos que serão utilizados 

Em princípio faremos testes com 5 tipos declassificadores

In [5]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

#import warnings
#from sklearn.exceptions import ConvergenceWarning
#warnings.filterwarnings("ignore",  category = ConvergenceWarning)

def rodar_modelo(models):
    '''Executa os modelos definidos (parametros default) e retorna o modelo com melhor performance'''
    results = []
    names = []
    scoring = 'accuracy'
    print('Resultado da avaiação')
    for name, model in models:
        kfold = model_selection.KFold(n_splits=5, random_state=random_state, shuffle=True)
        cv_results = model_selection.cross_val_score(model, X_train, y_train, cv=kfold, scoring=scoring)
        results.append(cv_results.mean())
        names.append(name)
        msg = "  %s: media %f (dp %f - max %f)" % (name, cv_results.mean(), cv_results.std(), cv_results.max())
        print(msg)
    pos_melhor_modelo = results.index(max(results))
    return models[pos_melhor_modelo]


models = []
models.append(('KNN', KNeighborsClassifier()))
models.append(('DTC', DecisionTreeClassifier()))
models.append(('GB', GaussianNB()))
models.append(('SVM', SVC()))
models.append(('RF', RandomForestClassifier()))

melhor_modelo = rodar_modelo(models)
print('')
print('Melhor modelo:', melhor_modelo[1])

Resultado da avaiação
  KNN: media 0.903112 (dp 0.029045 - max 0.942029)
  DTC: media 0.894288 (dp 0.028798 - max 0.942029)
  GB: media 0.935422 (dp 0.015174 - max 0.956522)
  SVM: media 0.888491 (dp 0.044354 - max 0.955882)
  RF: media 0.958909 (dp 0.011097 - max 0.971014)

Melhor modelo: RandomForestClassifier()


### Aprimorando o modelo selecionado 'Random Forest Classifier'

Utilizar o GridSearch para testar um conjunto de hipoteses de parametros. O objetivo é descobrir a melhor combinação entre eles e maximizar o resultado da classificação.

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import plot_confusion_matrix

gsc = GridSearchCV(
        estimator=RandomForestClassifier(),
        param_grid={
            'random_state': [None, 0, 1, 2, 3, 42],
            'max_depth': [None, 1, 2, 3, 4, 15, 20],
            'n_estimators': [5, 10, 100, 150, 200], 
            'max_features': ['auto', 'sqrt', 'log2', 1, 2, 3],
            'criterion': ['gini', 'entropy'],
            'min_samples_split': [2, 4, 6],
            'min_samples_leaf': [3,4,5]
        },
        cv=5, scoring='accuracy', verbose=0, n_jobs=-1)

grid_result = gsc.fit(X_train, y_train)
best_params = grid_result.best_params_
classifier = RandomForestClassifier(max_depth=best_params["max_depth"], random_state=best_param["random_state"],n_estimators = best_params["n_estimators"], max_features = best_param["max_features"],criterion=best_params["criterion"], min_samples_split=best_params["min_samples_split"], min_samples_leaf = best_params["min_samples_leaf"])

model = classifier.fit(X_train, y_train)
y_pred = model.predict(X_test) # avaliando o melhor estimador

print("RandomForestClassifier GIRD")
for k, v in best_params.items():
    print(' ', k, ': ',  v, '\n')

classification_report(y_test, y_pred, target_names=['Maligno', 'Benigno'])
plot_confusion_matrix(classifier, X_test, y_test, cmap="Blues", display_labels=['Maligno', 'Benigno'])  
#plt.show() 

### Avaliando as features do modelo quanto a sua importancia

In [None]:
from matplotlib.pyplot import figure
figure(figsize=(10, 8), dpi=80)

def avaliar_features(melhor_modelo):
    model = melhor_modelo[1]
    model.fit(X_train, y_train)
    importance = model.feature_importances_
    colunas = data.feature_names

    # summarize feature importance
    for i,v in enumerate(importance):
        print('%s: %.5f' % (colunas[i],v))

    # plot feature importance
    plt.bar([x for x in range(len(importance))], importance)
    plt.show()

avaliar_features(melhor_modelo)

## Aplicando os algoritmos de redução de dimensões para comparar os resultados

Com base no gráfico, utilizaremos o número de features que possuem uma relevancia acima de 40% (arbitrário) mas estas não serão escolhidas manualmente, apenas a recomendação do número de dimensões que no caso 10 features (número de features que possuem +40% de relevancia).

### PCA - Principal Component Analysis

In [None]:
#Aplicar a redução de dimensão em X e rodar o processo novamente com os melhores parametros
from sklearn.decomposition import PCA as sklearnPCA
pca = sklearnPCA(n_components=10)
X_pca = pca.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_pca, y, test_size=0.4, random_state=random_state)

#Aplicar o novo X no modelo já treinado
model = classifier.fit(X_train, y_train)
y_pred = model.predict(X_test) # avaliando o melhor estimador
classification_report(y_test, y_pred, target_names=['Maligno', 'Benigno'])
plot_confusion_matrix(classifier, X_test, y_test, cmap="Blues") 

### SVD - Single Value Decomposition

In [None]:
#Aplicar a redução de dimensão em X e rodar o processo novamente com os melhores parametros
from sklearn.decomposition import SVD as sklearnSVD
pca = sklearnPCA(n_components=10)
X_pca = pca.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_pca, y, test_size=0.4, random_state=random_state)

#Aplicar o novo X no modelo já treinado
model = classifier.fit(X_train, y_train)
y_pred = model.predict(X_test) # avaliando o melhor estimador
classification_report(y_test, y_pred, target_names=['Maligno', 'Benigno'])
plot_confusion_matrix(classifier, X_test, y_test, cmap="Blues")

### NMF - Non-negative Matrix Factorization

In [None]:
from sklearn.decomposition import NMF as sklearnNMF
pca = sklearnPCA(n_components=10)
X_pca = pca.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_pca, y, test_size=0.4, random_state=random_state)

#Aplicar o novo X no modelo já treinado
model = classifier.fit(X_train, y_train)
y_pred = model.predict(X_test) # avaliando o melhor estimador
classification_report(y_test, y_pred, target_names=['Maligno', 'Benigno'])
plot_confusion_matrix(classifier, X_test, y_test, cmap="Blues")

### Autoencoder