<h1>Experimento 01 - Randomização de features</h1>

<p><strong>Objetivo:</strong> Modelar um método que faça uma seleção de atributos em um <i>dataset</i> e verificar o desempenho da predição usando um classificador de Árvore de Decisão</p>

<p><strong>Premissa:</strong> A seleção de atributos pode produzir classificadores diferenciados com um poder preditivo considerável</p>

<p><strong>Método proposto:</strong>
    Dada a seguinte fórmula,<br/>
    <blockquote>
    $$
    f\left(x\right)=\frac{n!}{p!(n-p)!}\begin{cases}n & n = número~de~atributos\\p & p = x = seleção~de~atributos\end{cases}
    $$
    </blockquote>
    Então, f(x) determina o número de combinações de atributos para treinar um classificador, e, cada combinação desta pode gerar um classificador diferente.<br/>
    A combinação deste atributos forma um conjunto de atributos, matematicamente expresso, pela fórmula a seguir, <br/>
    <blockquote>
    $$
    \omega = \sum_{i=1}^{n}f(x)_{i} \rightarrow \omega = \sum_{i=1}^{n}\left(\frac{n!}{i!(n-i)!}\right)
    $$
    </blockquote>
    O conjunto de <i>omega</i> representa um conjunto de dados em que cada elemento é o número de possibiliade de combinação. Dado que estas possibilidade são obtidas variando o número de seleção de atributos de 1 até o número de total de atributos presentes no <i>dataset<i>.<br/>
    Assim, o conjunto de <i>omega</i> tem o número de combinações possíveis de atributos e disto estraimos outras fórmulas para compreensão deste conjunto.<br/>
    O número máximo de combinações neste conjunto, assumindo <i>n</i> como um valor par positivo, é dado por,<br/>
    <blockquote>
    $$
    arg~max \left(\frac{\left(\frac{n}{2}\right)!}{p!(\left(\frac{n}{2}\right)-p)!}\right)
    $$
    </blockquote>
    O número ideal de combinações neste conjunto, assumindo <i>n</i> como um valor par positivo, é dado por, <br/>
    <blockquote>
    $$
    g\left(x\right)'=\left(\frac{\left(\frac{n-2}{2}\right)!}{p!(\left(\frac{n-2}{2}\right)-p)!}\right) \\
    g\left(x\right)''=\left(\frac{\left(\frac{n-4}{2}\right)!}{p!(\left(\frac{n-4}{2}\right)-p)!}\right)
    $$
    </blockquote>
    O número mínimo de combinações neste conjunto, é dado por, <br/>
    <blockquote>
    $$
    arg~min\left(\frac{n!}{1!(n-1)!}\right) = n \rightarrow
    arg~min\left(\frac{n!}{(n-1)!}\right) = n \rightarrow
    arg~min = n
    $$
    </blockquote>
</p>

<p><strong>Questões</strong>
    <ul>
        <li>Como eu treino meu modelo antes de passar o classificador de base para a camada intermediária da abordagem proposta?</li>
        <li>A randomização de atributos e exemplos podem melhorar meu modelo?</li>
        <li>A pertubação do modelo vai torná-lo complexo, muitqa complexidade pode ser bom?</li>
    </ul>
</p>

<p><strong>Resultados esperados:</strong>
    <ol>
        <li>Diversidade de classificadores, dado que seus atributos são diferentes</li>
        <li>Redução de dimensionalidade, dado que um pequeno espaço é usado para gerar um classificador</li>
        <li>Otimização na geração de classificadores, dado que cada classificador pode chegar a folhas em níveis diferentes</li>
        <li>Possibilitar que atributos fortes e fracos possam ser nós raizes de pelo menos um classificador</li>
    </ol>
</p>

<p><strong>Elaborador do experimento</strong> Danilo R. Santos <<a href="mailto:danilo.santosrs@hotmail.com">danilo.santosrs@hotmail.com</a>></p>
<p><strong>Condutor do experimento</strong> Danilo R. Santos <<a href="mailto:danilo.santosrs@hotmail.com">danilo.santosrs@hotmail.com</a>></p>
<p><strong>Data de inicio do experimento</strong> 19/06/2019</p>
<p><strong>Observações:</strong> As alterações devem ser registrada neste arquivo</p>

<h2>Implementação da função para criar o conjunto de atributos</h2>

<p>A função <strong>arrangement_features</strong>, faz o proposto para f(x), mas invés de retornar um número de elementos ela retorna a combinação de <i>features</i> de acordo com os parâmetros. O algoritmo para esta funçõa não foi escrito ou elaborado, senão pela formulação matemática dada, porque Python já fornece uma implementação para esta finalidade</p>
<blockquote>Inicio: 19/06/2019; Término: 20/06/2019</blockquote>

In [7]:
my_features = ['sex', 'age', 'race', 'smoker']

def arrangement_features(features: list,  n_selected: int) -> list:
    from itertools import combinations
    permsList = list(combinations(my_features, r=n_selected))
    return permsList

def get_n_estimators(n_features: int, n_sample: int) -> int:
    """
        Determina o número de estimadores (arvores) usando o cálculo de arranjo 
        simples considerando o número de atributos a ser analisado
        O uso de arranjo simples se dá pelo motivo de que mos arranjos, os 
        agrupamentos dos elementos dependem da ordem e da natureza dos mesmos.
        Fórmula -> a(n,p) = (n!)/(p!(n-p)!)
        Convém registra que se n_features == n_sample então temos um caso de 
        permutação
    """
    from math import factorial
    n_features = int(n_features)
    n_sample = int(n_sample)
    n_factorial = factorial(n_features)
    p_factorial = factorial(n_sample)
    n_p_factorial = p_factorial * factorial(n_features - n_sample)
    arrangement_simple = int(n_factorial/n_p_factorial)
    
    return arrangement_simple

In [9]:
for item in range(len(my_features)):
    conj_elemento = arrangement_features(my_features, item)
    print('Qtd = ' + str(item))
    print(conj_elemento)
    print('N estimator = ' + str(get_n_estimators(len(my_features), item)))
    print('Vector result = ' + str(len(conj_elemento)))

Qtd = 0
[()]
N estimator = 1
Vector result = 1
Qtd = 1
[('sex',), ('age',), ('race',), ('smoker',)]
N estimator = 4
Vector result = 4
Qtd = 2
[('sex', 'age'), ('sex', 'race'), ('sex', 'smoker'), ('age', 'race'), ('age', 'smoker'), ('race', 'smoker')]
N estimator = 6
Vector result = 6
Qtd = 3
[('sex', 'age', 'race'), ('sex', 'age', 'smoker'), ('sex', 'race', 'smoker'), ('age', 'race', 'smoker')]
N estimator = 4
Vector result = 4


<h2>Abaixo são executados os códigos para preparação do experimento</h2>
<blockquote>Inicio: 20/06/2019; Término: XX</blockquote>
<br/>
<h4>Primeira Etapa</h4>
<p>Explicação na sequência</p>
<p>
  <ul>
      <li>Importação das bibliotecas a serem utilizadas</li>
      <li>Carrega o conjunto de dados em um <i>Dataframe</i> Pandas</li>
      <li>Verifica o tamanho do <i>dataset</i></li>
      <li>Obtém informações sobre o <i>dataset</i></li>
      <li>Cria os conjuntos de dados para treinamento e teste do modelo</li>
  </ul>
</p>
            

In [1]:
import pandas as pd

import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.ensemble import RandomForestClassifier

import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

import seaborn as sns

Matplotlib is building the font cache using fc-list. This may take a moment.


In [2]:
columns_name = ['target', 'lepton_1_pT', 'lepton_1_eta', 'lepton_1_phi', 'lepton_2_pT', 'lepton_2_eta', 
                'lepton_2_phi', 'missing_energy_magnitude', 'missing_energy_phi', 'MET_rel', 'axial_MET', 
                'M_R', 'M_TR_2', 'R', 'MT2', 'S_R', 'M_Delta_R', 'dPhi_r_b', 'cos_theta_r1']
df_susy = pd.read_csv('SUSY.csv', names=[name.lower() for name in columns_name])
df_susy.head()
#df_susy = pd.read_csv('heart.csv', engine='c')
#df_susy.head()

Unnamed: 0,target,lepton_1_pt,lepton_1_eta,lepton_1_phi,lepton_2_pt,lepton_2_eta,lepton_2_phi,missing_energy_magnitude,missing_energy_phi,met_rel,axial_met,m_r,m_tr_2,r,mt2,s_r,m_delta_r,dphi_r_b,cos_theta_r1
0,0.0,0.972861,0.653855,1.176225,1.157156,-1.739873,-0.874309,0.567765,-0.175,0.810061,-0.252552,1.921887,0.889637,0.410772,1.145621,1.932632,0.994464,1.367815,0.040714
1,1.0,1.667973,0.064191,-1.225171,0.506102,-0.338939,1.672543,3.475464,-1.219136,0.012955,3.775174,1.045977,0.568051,0.481928,0.0,0.44841,0.205356,1.321893,0.377584
2,1.0,0.44484,-0.134298,-0.709972,0.451719,-1.613871,-0.768661,1.219918,0.504026,1.831248,-0.431385,0.526283,0.941514,1.587535,2.024308,0.603498,1.562374,1.135454,0.18091
3,1.0,0.381256,-0.976145,0.693152,0.448959,0.891753,-0.677328,2.03306,1.533041,3.04626,-1.005285,0.569386,1.015211,1.582217,1.551914,0.761215,1.715464,1.492257,0.090719
4,1.0,1.309996,-0.690089,-0.676259,1.589283,-0.693326,0.622907,1.087562,-0.381742,0.589204,1.365479,1.179295,0.968218,0.728563,0.0,1.083158,0.043429,1.154854,0.094859


In [3]:
df_susy.shape

(5000000, 19)

In [20]:
df_susy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000000 entries, 0 to 4999999
Data columns (total 19 columns):
target                      float64
lepton_1_pt                 float64
lepton_1_eta                float64
lepton_1_phi                float64
lepton_2_pt                 float64
lepton_2_eta                float64
lepton_2_phi                float64
missing_energy_magnitude    float64
missing_energy_phi          float64
met_rel                     float64
axial_met                   float64
m_r                         float64
m_tr_2                      float64
r                           float64
mt2                         float64
s_r                         float64
m_delta_r                   float64
dphi_r_b                    float64
cos_theta_r1                float64
dtypes: float64(19)
memory usage: 724.8 MB


In [4]:
#X=df_susy[[name.lower() for name in columns_name[1:]]]
X=df_susy[['age', 'sex', 'cp', 'trestbps',  'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal']]
# Labels
y=df_susy['target']

# Split dataset into training set and test set
# 70% training and 30% test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, 
                                                          random_state=100,
                                                          shuffle=True,
                                                          stratify=y)
print("Pronto!")

Pronto!


In [5]:
X.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2


In [6]:
X_train.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
241,59,0,0,174,249,0,1,143,1,0.0,1,0,2
246,56,0,0,134,409,0,0,150,1,1.9,1,2,3
97,52,1,0,108,233,1,1,147,0,0.1,2,3,3
60,71,0,2,110,265,1,0,130,0,0.0,2,1,2
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3


<h4>Segunda Etapa</h4>
<p><strong>Obs.:</strong> Executa o <i>Random Forest</i> para verificar se suas medidas de desempenho são superiores ao do algoritmo proposto</p>
<p>Explicação na sequência</p>
<p>
  <ul>
      <li>Cria um classificador usando o algoritmo <i>Random Forest</i></li>
      <li>Treina o modelo com os dados do conjunto de treinamento</li>
      <li>Usa o modelo para fazer as predições com os dados de teste</li>
      <li>Verifica as medidas de desempenho</li>
  </ul>
</p>

In [15]:
model_clf = RandomForestClassifier(n_estimators = 200,
                                criterion = 'entropy',
                                max_features = None,
                                max_depth=None,
                                min_samples_split=2,
                                min_samples_leaf=1,
                                min_weight_fraction_leaf=0,
                                max_leaf_nodes=None,
                                min_impurity_decrease=0,
                                bootstrap=True,
                                oob_score = True,
                                n_jobs = -1,
                                random_state = 200,
                                verbose = 1,
                                warm_start = False,
                                class_weight=None)

In [None]:
model_clf.fit(X_train, y_train)

[Parallel(n_jobs=-1)]: Using backend ThreadingBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed: 23.1min


In [None]:
y_pred = model_clf.predict(X_test)

In [None]:
print("Confusion Matrix")
print(confusion_matrix(y_test,y_pred))  

print('Classification Report')
print(classification_report(y_test,y_pred))  

print('Accuracy Score')
print(accuracy_score(y_test, y_pred))  

<h4>Terceira Etapa</h4>
<p><strong>Obs.:</strong> Implementa o método proposto, mas somente fazendo a seleção de atributos</p>
<p><blink>Testar com <i>arg max</i> e <i>arg min</i></blink></p>
<p>Explicação na sequência</p>
<p>
  <ul>
      <li>How</li>
  </ul>
</p>

In [44]:
def getsubset(X, y, columns: list):
    from pandas import DataFrame
        
    if not isinstance(X, DataFrame):
        raise TypeError('Expected value should descend from pandas.core.frame.DataFrame')
    
    df_tmp = X.copy()
    df_tmp.insert(loc=(len(df_tmp.columns)), column='target', value=y)
    
    df_subset = (df_tmp[columns].copy(), df_tmp['target'].copy())
    
    return df_subset
    

In [45]:
X2, y2 = getsubset(X_train, y_train, ['age', 'sex', 'cp'])
X2.head()

Unnamed: 0,age,sex,cp
241,59,0,0
246,56,0,0
97,52,1,0
60,71,0,2
298,57,0,0


In [46]:
y2.head()

241    0
246    0
97     1
60     1
298    0
Name: target, dtype: int64

In [47]:
### Def functions
def arrangement_features(features: list,  n_selected: int) -> list:
    from itertools import combinations
    permsList = list(combinations(features, r=n_selected))
    return permsList

In [None]:
###
features = list(X_train.columns)
n_features = len(features)
n_selected_features = 10

n_arranj_features = arrangement_features(features, n_selected_features)

#X_subset_train, y_subset_train = get_subset(X_train, y_train, ['age', 'sex', 'cp'])
get_subset(X_train, y_train, ['age', 'sex', 'cp'])
print(X_subset_train)

In [31]:
model_trees = []

### Debug
print(features)
print(n_features)
print(len(n_arranj_features))


### Criar uma função subset para retornar o y correspondente do X selecionado
### Mais fácil fundir X com Y separar o subset e depois quebrar novamente
### max_features=n_features
### Train
for arranj_conlumns in n_arranj_features:
    subset = X[list(arranj_conlumns)]
    clf = DecisionTreeClassifier(criterion = 'entropy',
                                 splitter='best',
                                 max_depth=None,
                                 min_samples_split=2,
                                 min_samples_leaf=1,
                                 min_weight_fraction_leaf=0,
                                 max_features=None,
                                 random_state = 200,
                                 max_leaf_nodes=None,
                                 #min_impurity_decrease=0,
                                 #min_impurity_split=1e-7,
                                 class_weight=None,
                                 presort=False)
    clf.fit(X_train, y_train)
    model_trees.append(clf)
    
print(len(model_trees))

Index(['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal'],
      dtype='object')

AttributeError: 'Series' object has no attribute 'columns'