A seleção de variáveis é um componente muito importante no fluxo de trabalho de um cientista de dados. 

A seleção de recursos é um processo no qual você seleciona automaticamente os recursos em seus dados que mais contribuem para a variável de previsão ou saída em que você está interessado.
<br>
Os modelos tem um risco crescente de overfitting com o aumento do número de colunas, desta forma, perde-se eficácia ao tentar aplicar o modelo aos novos dados.

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math
import datetime as dt
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import mutual_info_classif, mutual_info_regression, SelectKBest, SelectPercentile

In [None]:
data = pd.read_csv('./dataset2/dataset_completo.csv')
data.head()

### Selecionando somente as variaveis numéricas para nossa análise!

In [None]:
numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
numerical = list(data.select_dtypes(include=numerics).columns)
data = data[numerical]

Para simplificar a separação dos dados de treino e teste iremos utilizar o train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data.drop(['defects'], axis=1), data['defects'],
                                                   test_size = 0.3, random_state = 0)
print('Dados de treino {}'.format(X_train.shape))
print('\n')
print('Dados de teste{}'.format(X_test.shape))

## Mutual information

#### Relação entre as variaveis e a variavel defects.

Se X e Y são independentes, então nenhuma informação sobre Y pode ser obtida conhecendo X ou vice-versa. 
Portanto sua informação mútua é 0.

<br>
Se X é uma função determinística de Y, então podemos determinar X de Y e Y de X com informação mútua 1.

<br>
Quanto menor o valor, menos a variavel descreve  a relação com o Defects!

<br>
A vantagem de usar informações mútuas sobre o F-Test é que ele se dá bem com a relação não linear entre as variáveis de recursos e de Defects.

A seguir é gerado o fator de relação entre variáveis.

In [None]:
mi = mutual_info_classif(X_train.fillna(0), y_train)
mi = pd.Series(mi)
mi.index = X_train.columns
mi = mi.sort_values(ascending = False)

In [None]:
mi.plot.bar(figsize=(22,10));

O código usando a classe SelectKBest da biblioteca feature_selection combinada com o método de máximo coeficiente de informações para selecionar recursos é a seguinte:

In [None]:
sel_ = SelectKBest(mutual_info_classif, k= 10).fit(X_train.fillna(0), y_train)
X_train.columns[sel_.get_support()]

Abaixo estão as melhores features de acordo com o método Mutual Information

In [None]:
data_mutual_info_classif = data[X_train.columns[sel_.get_support()]]
data_mutual_info_classif['defects'] = data['defects']
data_mutual_info_classif.to_csv('./dataset2/dataset_mutual_info_classif.csv', index=False)
data_mutual_info_classif.head()

### Aplicando o método de Regressao (mutual_info_regression)


In [None]:
# Selecionando somente as variaveis numericas
numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
numerical = list(data.select_dtypes(include=numerics).columns)
data = data[numerical]

In [None]:
# Separando os dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(data.drop(['defects'], axis=1), data['defects'],
                                                   test_size = 0.3, random_state = 0)

#### Encontrando o Mutual Information com Regressão!

In [None]:
mi = mutual_info_regression(X_train.fillna(0), y_train)
mi = pd.Series(mi)
mi.index = X_train.columns
mi.sort_values(ascending=False)[:10].index

In [None]:
data_mutual_info_regression = data[mi.sort_values(ascending=False)[:10].index]
data_mutual_info_regression['defects'] = data['defects']
data_mutual_info_regression.to_csv('./dataset2/data_mutual_info_regression.csv', index=False)
data_mutual_info_regression

In [None]:
mi.sort_values(ascending=False).plot.bar(figsize = (13,8));

# Regressão

In [None]:
from sklearn.feature_selection import f_classif, f_regression

# Univariada ROC-AUC ou MSE

* Primeiramente, cria-se uma árvore de decisao para cada variavel.
* Realiza a predição com a árvore de decisao mencionada.
* Ranqueia os itens de acordo com a metrica ROC-AUC ou MSE.
* Seleciona os mais altos índices das variaveis. 

In [None]:
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.metrics import roc_auc_score, mean_squared_error

In [None]:
data = pd.read_csv('./dataset2/dataset_completo.csv')
data.head()

# Selecionando somente as variaveis numericas
numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
numerical = list(data.select_dtypes(include=numerics).columns)
data = data[numerical]

In [None]:
# Separando os dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(data.drop(['defects'], axis=1), data['defects'],
                                                   test_size = 0.3, random_state = 0)

Criação do laço para preencher a variavel roc_values com as prediçoes da árvore de decisão!

In [None]:
roc_values = []
for feature in X_train.columns:
    clf = DecisionTreeClassifier()
    clf.fit(X_train[feature].fillna(0).to_frame(), y_train)
    y_scored = clf.predict_proba(X_test[feature].fillna(0).to_frame())
    roc_values.append(roc_auc_score(y_test, y_scored[:, 1]))

Ordenando as colunas em roc_values para facilitar a visualização

In [None]:
roc_values = pd.Series(roc_values)
roc_values.index = X_train.columns
roc_values.sort_values(ascending = False)[0:10]

Pode-se notar que diversas variaveis estão com o mesmo score 0.6

In [None]:
roc_values.sort_values(ascending = False).plot.bar(figsize = (17,6));

Verificando quantas variaveis estão acima do threshold de 0.6

In [None]:
roc_values[roc_values > 0.6]

### Exemplo com o caso de Regressão

#### Para o caso  de regressão, quanto menor o valor de MSE, melhor!!!
* Metodo útil quando se esta trabalhando com datasets enormes!

* Experimente valores diferentes para as diversas opções de parâmetros e assim verificar quais funcionam melhor para uma tarefa de machine learning.

* A seleção de variáveis é uma etapa crítica de um fluxo de trabalho no aprendizado de máquina. O cientista de dados precisa executar várias iterações para otimizar os dados e modelos.


In [None]:
data = pd.read_csv('./dataset2/dataset_completo.csv')

numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
numerical = list(data.select_dtypes(include=numerics).columns)
data = data[numerical]

In [None]:
# Separando os dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(data.drop(['defects'], axis=1), data['defects'],
                                                   test_size = 0.3, random_state = 0)

In [None]:
# Criacao do laco para gerar o classificador de arvore de decisao (MSE)
mse_values = []
for feature in X_train.columns:
    clf = DecisionTreeRegressor()
    clf.fit(X_train[feature].fillna(0).to_frame(), y_train)
    y_scored = clf.predict(X_test[feature].fillna(0).to_frame())
    mse_values.append(mean_squared_error(y_test, y_scored))

In [None]:
mse_values = pd.Series(mse_values)
mse_values.index = X_train.columns
mse_values.sort_values(ascending = False, inplace = True)

In [None]:
mse_values[0:10]

In [None]:
mse_values.plot.bar(figsize = (12,6));

## Arvore de decisão 

In [None]:
from sklearn import tree

In [None]:
classes = data_mutual_info_classif['defects']

In [None]:
del data_mutual_info_classif['defects']

In [None]:
clf = tree.DecisionTreeClassifier()
clf = clf.fit(data_mutual_info_classif, classes)

In [None]:
tree.plot_tree(clf.fit(data_mutual_info_classif, classes))

In [1]:
import graphviz
import os

ModuleNotFoundError: No module named 'graphviz'

In [None]:
os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'

dot_data = tree.export_graphviz(clf, out_file=None) 
graph = graphviz.Source(dot_data)
graph.render("Software Defective")

In [None]:
graph =dot_data = tree.export_graphviz(clf, out_file=None, 
                      feature_names=np.array(data.columns),  
                      class_names=np.array(['OK', 'Defeito']),  
                      filled=True, rounded=True,  
                      special_characters=True)  
dot_data
graph = graphviz.Source(dot_data)  
graph.render("arvore")