###  Seleção de variáveis mais relevantes
* Randon Forest => Gera vários inputs de dados a partir de um método randomico e cria uma árvore binaria para cada um deles, realizando assim a predição com os melhores resultados (É possível treinar esse modelo e verificar quais foram as variaveis mais importantes para ele). 
* Fisher => Calcula o escore de Fisher para selecionar as caracteristicas mais importantes de um conjunto de dados, basicamente ele realiza a divizão do "erro médio quadratico ponderado" pela "variância ponderada" (Essa implementação foca em algoritmos de classificação com classes definidas por inteiros).
* Gini => calcula o índice de impureza de Gini para cada feature (variável independente) em relação à variável dependente Y. O índice de impureza de Gini é uma medida de quão impura é a divisão das amostras em duas classes, e é usado em árvores de decisão para selecionar o melhor atributo para dividir os dados em subconjuntos mais homogêneos (Utilizado em bases de dados definidas para classificação com classes referênciadas em int).
* KruskalWallis => É um teste não-paramétrico que compara as medianas de duas ou mais amostras independentes para determinar se há diferenças estatisticamente significativas entre elas (Pega os valores em que a maior próximidade estatistica -> não implica diretamente que possa ser uma boa escolha para o modelo).
* Lasso => (Least Absolute Shrinkage and Selection Operator) é um método de regressão linear que utiliza a regularização L1 para selecionar as variáveis mais importantes em um conjunto de dados. O objetivo do Lasso é minimizar a soma dos erros quadrados (Caráter linear).
* ElasticNet => é uma extensão do algoritmo Lasso (Least Absolute Shrinkage and Selection Operator) e Ridge Regression, que combina a penalização L1 e L2 para selecionar variáveis importantes em um modelo de regressão linear. É utilizado para lidar com problemas de regressão em que há um grande número de variáveis preditoras (high-dimensional data) e muitas dessas variáveis podem não ser relevantes para a predição da variável resposta (Caráter linear).
* Chi2 ($X^2$) =>  é um teste estatístico que é usado para determinar se existe uma relação significativa entre duas variáveis categóricas. Ele é usado para avaliar se as diferenças entre as frequências observadas e as frequências esperadas são significativas o suficiente para rejeitar a hipótese nula de que não há relação entre as duas variáveis.
* F_Regression => Ele utiliza a estatística F de Fisher para avaliar a relação linear entre as variáveis e calcular o p-valor associado a cada feature.
* Mutual_Info_Regression => É uma técnica de seleção de recursos que mede a dependência mútua entre cada recurso e a variável de destino, usando a entropia da informação. Ele estima a informação mútua entre cada recurso e o destino, para ajudar na seleção de recursos que são relevantes para a predição do alvo.

In [1]:
# Import das bibliotecas utilizadas

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import ElasticNet, Lasso
from sklearn.feature_selection import SelectKBest, chi2, f_regression, mutual_info_regression
from scipy.stats import kruskal
from enum import Enum 

import pandas as pd
import numpy as np


class methods(Enum):
    # Modelos de previsão 
    RandomForest = 1               # Classificação / Regressão
    Lasso = 2                      # Classificação / Regressão
    ElasticNet = 3                 # Classificação / Regressão
    
    # Métodos estatísticos
    FsFisher = 4                   # Classificação (class em int -> int(y))
    FsGini = 5                     # Classificação (class em int -> int(y))
    KruskalWallis = 6              # Classificação / Regressão
    Chi2 = 7                       # Classificação (class em int -> int(y))
    FRegression = 8                # Regressão
    MutualRegression = 9           # Regressão

In [2]:
# Configurações globais do processo de seleção
inputDataName = "ibovespa"

usedMethods = [methods.MutualRegression, methods.RandomForest];
filterEach  = [6, 2];

# RandomForest
treesqtd = 200;

#Lasso
lassoAlpha = 0.05

#ElasticNet
elasticAlpha  = 0.5
elasticRation = 0.5

In [3]:
# Inserção dos dados para seleção de variáveis
X = pd.read_csv(f'Generated/{inputDataName}_In.csv',  sep=",") ;
Y = pd.read_csv(f'Generated/{inputDataName}_Out.csv', sep=",") ;

display(X.head(3));

Unnamed: 0,high|T-3|,low|T-3|,close|T-3|,high|T-2|,low|T-2|,close|T-2|,high|T-1|,low|T-1|,close|T-1|,high,low,close
0,96882.4724,87290.1484,95923.24,95995.8843,86491.3413,95045.43,97350.1529,87711.5239,96386.29,97198.36,87574.76,96236.0
1,95995.8843,86491.3413,95045.43,97350.1529,87711.5239,96386.29,97198.36,87574.76,96236.0,97149.6275,87530.8525,96187.75
2,97350.1529,87711.5239,96386.29,97198.36,87574.76,96236.0,97149.6275,87530.8525,96187.75,97316.8633,87681.5303,96353.33


#### Funções de seleção

In [4]:
# Funções de seleção de variáveis

# ****************************************** RandomForest ****************************************
def randomForest(X,Y,qtdF):
    model = RandomForestRegressor(n_estimators=treesqtd, random_state=42);
    model.fit(X, Y.values.ravel());
    importances = pd.DataFrame({'feature': X.columns, 'importance':model.feature_importances_});
    importances = importances.sort_values('importance', ascending=False);
    usedVars = importances.index[0:qtdF]
    return X.iloc[:,usedVars];

# ********************************************* Fisher *******************************************
def fisher(X, Y, qtdF):
    #X, Y = X.iloc[:10,:], Y.iloc[:10]
    colq = X.shape[1]
    maxY = int(np.max(Y)+1)
    minY = int(np.min(Y))
    out  = pd.DataFrame({'W': np.zeros(colq)})
    classIdx = [np.where(Y==j)[0] for j in range(minY, maxY)]
    classQtd = [len(classIdx[j])  for j in range(maxY-minY)]
    for i in range(colq):
        errMed  = 0
        varPon  = 0
        col     = X.iloc[:,i]
        colMean = np.mean(col)
        for j in range(maxY-minY):
            classMean = np.mean(col.iloc[classIdx[j]])
            classVari = np.var(col.iloc[classIdx[j]], ddof=1)
            errMed   += classQtd[j] * (classMean-colMean)**2
            varPon   += classVari * classQtd[j]
        if errMed == 0:
            out['W'][i] = 0
        elif varPon == 0:
            out['W'][i] = 100
        else:
            out['W'][i] = errMed/varPon       
    return data.iloc[:,(out['W'].sort_values(ascending=False).index)[:qtdF]]
      
# ********************************************* Gine ********************************************
def gini(X, Y, qtd):
    a, n = X.shape
    W = pd.DataFrame(np.zeros(n), columns=["W"])
    for i in range(n):
        values = np.unique(X.iloc[:,i])
        v = len(values)
        W.iloc[i] = 0.5
        for j in range(v):
            left_Y = Y[X.iloc[:,i] <= values[j]]
            right_Y = Y[X.iloc[:,i] > values[j]] 
            gini_left = 0
            gini_right = 0
            for k in range(int(np.min(Y)), int(np.max(Y)+1)):
                gini_left += (len(left_Y[left_Y == k])/len(left_Y))**2
                gini_right += (len(right_Y[right_Y == k])/len(right_Y))**2  
            gini_left  = 1 - gini_left
            gini_right = 1 - gini_right
            current_gini = (len(left_Y)*gini_left + len(right_Y)*gini_right)/len(Y)
            if current_gini < W.iloc[i,0]:
                W.iloc[i] = current_gini        
    W = W.sort_values(by="W", ascending=False).to_numpy().flatten()
    print(W)
    return X.iloc[:,W.index[:qtd]]


# ***************************************** KruskalWallis ***************************************
def kruskalWallis(X, Y, qtd):
    n = X.shape[1]
    out = pd.DataFrame(np.zeros(n), columns=["W"])
    for i in range(n):
        out['W'].iloc[i] = - np.mean(kruskal(X.iloc[:,i], Y.iloc[:])[1])
    out = out.sort_values('W', ascending=False).index
    return X.iloc[:,out[:qtd]]

# ******************************************* Lasso *********************************************
def lasso(data, Y, qtd):
    model = Lasso(alpha=lassoAlpha, random_state=0)
    model.fit(data, Y)
    rate = pd.DataFrame(abs(model.coef_), columns=["W"])
    rate = rate.sort_values('W', ascending=False).index    
    return data.iloc[:, rate[:qtd]]

# **************************************** ElasticNet *******************************************
def elasticNet(data, Y, qtd):
    model = ElasticNet(alpha=elasticAlpha, l1_ratio=elasticRation)
    model.fit(data, Y)
    rate = pd.DataFrame(abs(model.coef_), columns=["W"])
    rate = rate.sort_values('W', ascending=False).index    
    return data.iloc[:, rate[:qtd]]

# ****************************************** Chi2 (X²) *******************************************
def ftChi2(data, Y, qtd):
    selector = pd.DataFrame(chi2(data, Y.values.ravel())[0], columns=["W"])
    selector = selector.sort_values('W', ascending=False).index
    return data.iloc[:, selector[:qtd]];

# *************************************** F Regression ******************************************
def fRegression(data, Y, qtd):
    selector = pd.DataFrame(f_regression(data, Y.values.ravel())[0], columns=["W"])
    selector = selector.sort_values('W', ascending=False).index
    return data.iloc[:, selector[:qtd]];

# *********************************** Mutual Info Regression*************************************
def mutualRegression(data, Y, qtd):
    mi = mutual_info_regression(data, Y.values.ravel())
    selector = pd.DataFrame(mi, columns=["W"])
    selector = selector.sort_values('W', ascending=False).index
    return data.iloc[:, selector[:qtd]];
    
# ******************************** Geração dos dados selecionados *******************************
def generate(data, Y, option, qtd):
    if(option == methods.RandomForest):
        data = randomForest(data,Y,qtd); 
    elif(option == methods.FsFisher):
        data = fisher(data,Y,qtd); 
    elif(option == methods.FsGini):
        data = gini(data,Y,qtd); 
    elif(option == methods.KruskalWallis):
        data = kruskalWallis(data,Y,qtd);
    elif(option == methods.Lasso):
        data = lasso(data,Y,qtd);
    elif(option == methods.ElasticNet):
        data = elasticNet(data,Y,qtd);
    elif(option == methods.Chi2):
        data = ftChi2(data,Y,qtd);
    elif(option == methods.FRegression):
        data = fRegression(data,Y,qtd);
    elif(option == methods.MutualRegression):
        data = mutualRegression(data,Y,qtd);
    return data;

In [5]:
data = X;
for i in range(len(usedMethods)):
    data = generate(data,Y,usedMethods[i],filterEach[i])

display(data.head(3))

Unnamed: 0,low,close
0,87574.76,96236.0
1,87530.8525,96187.75
2,87681.5303,96353.33


In [6]:
data.to_csv(f'Selected/{inputDataName}_In.csv', index=False, sep = ',')  
Y.to_csv(f'Selected/{inputDataName}_Out.csv', index=False, sep = ',') 