###  Seleção de variáveis mais relevantes
* Randon Forest => Gera vários inputs de dados a partir de um método randomico e cria uma árvore binaria para cada um deles, realizando assim a predição com os melhores resultados (É possível treinar esse modelo e verificar quais foram as variaveis mais importantes para ele). 
* Fisher => Calcula o escore de Fisher para selecionar as caracteristicas mais importantes de um conjunto de dados, basicamente ele realiza a divizão do "erro médio quadratico ponderado" pela "variância ponderada" (Essa implementação foca em algoritmos de classificação com classes definidas por inteiros).
* Gini => calcula o índice de impureza de Gini para cada feature (variável independente) em relação à variável dependente Y. O índice de impureza de Gini é uma medida de quão impura é a divisão das amostras em duas classes, e é usado em árvores de decisão para selecionar o melhor atributo para dividir os dados em subconjuntos mais homogêneos (Utilizado em bases de dados definidas para classificação com classes referênciadas em int).
* KruskalWallis => É um teste não-paramétrico que compara as medianas de duas ou mais amostras independentes para determinar se há diferenças estatisticamente significativas entre elas (Pega os valores em que a maior próximidade estatistica -> não implica diretamente que possa ser uma boa escolha para o modelo).
* Lasso => (Least Absolute Shrinkage and Selection Operator) é um método de regressão linear que utiliza a regularização L1 para selecionar as variáveis mais importantes em um conjunto de dados. O objetivo do Lasso é minimizar a soma dos erros quadrados (Caráter linear).
* ElasticNet => é uma extensão do algoritmo Lasso (Least Absolute Shrinkage and Selection Operator) e Ridge Regression, que combina a penalização L1 e L2 para selecionar variáveis importantes em um modelo de regressão linear. É utilizado para lidar com problemas de regressão em que há um grande número de variáveis preditoras (high-dimensional data) e muitas dessas variáveis podem não ser relevantes para a predição da variável resposta (Caráter linear).
* Chi2 ($X^2$) =>  é um teste estatístico que é usado para determinar se existe uma relação significativa entre duas variáveis categóricas. Ele é usado para avaliar se as diferenças entre as frequências observadas e as frequências esperadas são significativas o suficiente para rejeitar a hipótese nula de que não há relação entre as duas variáveis.
* F_Regression => Ele utiliza a estatística F de Fisher para avaliar a relação linear entre as variáveis e calcular o p-valor associado a cada feature.
* Mutual_Info_Regression => É uma técnica de seleção de recursos que mede a dependência mútua entre cada recurso e a variável de destino, usando a entropia da informação. Ele estima a informação mútua entre cada recurso e o destino, para ajudar na seleção de recursos que são relevantes para a predição do alvo.

In [1]:
# Import das bibliotecas utilizadas

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import ElasticNet, Lasso
from sklearn.feature_selection import SelectKBest, chi2, f_regression, mutual_info_regression
from scipy.stats import kruskal
from enum import Enum 

import pandas as pd
import numpy as np


class methods(Enum):
    # Modelos de previsão 
    RandomForest = 1               # Classificação / Regressão
    Lasso = 2                      # Classificação / Regressão
    ElasticNet = 3                 # Classificação / Regressão
    
    # Métodos estatísticos
    FsFisher = 4                   # Classificação (class em int -> int(y))
    FsGini = 5                     # Classificação (class em int -> int(y))
    KruskalWallis = 6              # Classificação / Regressão
    Chi2 = 7                       # Classificação (class em int -> int(y))
    FRegression = 8                # Regressão
    MutualRegression = 9           # Regressão

In [2]:
# Configurações globais do processo de seleção
inputDataName = "WINFUT_F_0_30min"

usedMethodsD1  = [methods.FsFisher, methods.FsGini, methods.Chi2, methods.RandomForest];
usedMethodsD2  = [methods.MutualRegression, methods.Lasso, methods.ElasticNet, methods.RandomForest];

# usedMethodsD1  = [methods.Chi2];
# usedMethodsD2  = [];

# usedMethodsD1  = [methods.FsGini];
# usedMethodsD2  = [methods.FsGini];

usedMethodsDB1 =  methods.KruskalWallis;
usedMethodsDB2 =  methods.KruskalWallis;

filterEachD1   = [20, 20, 20, 20];
filterEachD2   = [20, 20, 20, 20];
dataset1_2     = [8, 8];

# RandomForest
treesqtd = 200;

#Lasso
lassoAlpha = 0.05

#ElasticNet
elasticAlpha  = 0.5
elasticRation = 0.5

In [3]:
# Inserção dos dados para seleção de variáveis
X = pd.read_csv(f'Generated/In_{inputDataName}.csv',  sep=";") ;
Y = pd.read_csv(f'Generated/Out_{inputDataName}.csv', sep=";") ;

display(X.head(3));
display(Y.head(3));
display((Y*-1).abs().head(3))

Unnamed: 0,Abertura_SMA_3,Abertura_SMA_5,Abertura_SMA_15,Abertura_SMA_30,Abertura_SMA_200,Máximo_SMA_3,Máximo_SMA_5,Máximo_SMA_15,Máximo_SMA_30,Máximo_SMA_200,...,Mínimo|T-2|,Fechamento|T-2|,Abertura|T-1|,Máximo|T-1|,Mínimo|T-1|,Fechamento|T-1|,Abertura,Máximo,Mínimo,Fechamento
0,111.101333,111.1502,111.2838,112.0359,117.63106,111.225333,111.3866,111.488067,112.302433,117.86603,...,110.959,111.076,111.025,111.178,110.806,111.091,111.183,111.264,110.948,111.02
1,111.113333,111.1024,111.279067,111.938733,117.57967,111.256,111.294,111.4704,112.183167,117.815335,...,110.806,111.091,111.183,111.264,110.948,111.02,111.132,111.326,111.03,111.178
2,111.198333,111.1432,111.276,111.8679,117.52797,111.385,111.3134,111.4694,112.1106,117.76426,...,110.948,111.02,111.132,111.326,111.03,111.178,111.28,111.565,111.101,111.132


Unnamed: 0,OutPut |T+1|,OutPut_class |T+1|
0,111.178,1
1,111.132,0
2,111.275,1


Unnamed: 0,OutPut |T+1|,OutPut_class |T+1|
0,111.178,1
1,111.132,0
2,111.275,1


#### Funções de seleção

In [4]:
# Funções de seleção de variáveis

# ****************************************** RandomForest ****************************************
def randomForest(X,Y,qtdF):
    model = RandomForestRegressor(n_estimators=treesqtd, random_state=42);
    model.fit(X, Y.values.ravel());
    importances = pd.DataFrame({'feature': X.columns, 'importance':model.feature_importances_});
    importances = importances.sort_values('importance', ascending=False);
    usedVars = importances.index[0:qtdF]
    return X.iloc[:,usedVars];

# ********************************************* Fisher *******************************************
def fisher(X, Y, qtdF):
    #X, Y = X.iloc[:10,:], Y.iloc[:10]
    colq = X.shape[1]
    maxY = int(np.max(Y)+1)
    minY = int(np.min(Y))
    out  = pd.DataFrame({'W': np.zeros(colq)})
    classIdx = [np.where(Y==j)[0] for j in range(minY, maxY)]
    classQtd = [len(classIdx[j])  for j in range(maxY-minY)]
    for i in range(colq):
        errMed  = 0
        varPon  = 0
        col     = X.iloc[:,i]
        colMean = np.mean(col)
        for j in range(maxY-minY):
            classMean = np.mean(col.iloc[classIdx[j]])
            classVari = np.var(col.iloc[classIdx[j]], ddof=1)
            errMed   += classQtd[j] * (classMean-colMean)**2
            varPon   += classVari * classQtd[j]
        if errMed == 0:
            out['W'][i] = 0
        elif varPon == 0:
            out['W'][i] = 100
        else:
            out['W'][i] = errMed/varPon       
    return X.iloc[:,(out['W'].sort_values(ascending=False).index)[:qtdF]]
      
# ********************************************* Gine ********************************************
def gini(X, Y, qtd):
    a, n = X.shape
    W = np.zeros((n, 1))

    for i in range(n):
        values = np.unique(X.iloc[:, i])
        v = len(values)
        W[i] = 0.5
        for j in range(v):
            left_Y = Y[X.iloc[:, i] <= values[j]]
            right_Y = Y[X.iloc[:, i] > values[j]]

            gini_left = 0
            gini_right = 0

            if len(left_Y) > 0:
                for k in range(np.min(Y), np.max(Y) + 1):
                    gini_left += (len(left_Y[left_Y == k]) / len(left_Y))**2
                gini_left = 1 - gini_left

            if len(right_Y) > 0:
                for k in range(np.min(Y), np.max(Y) + 1):
                    gini_right += (len(right_Y[right_Y == k]) / len(right_Y))**2
                gini_right = 1 - gini_right

            current_gini = 0
            if len(Y) > 0:
                current_gini = (len(left_Y) * gini_left + len(right_Y) * gini_right) / len(Y)

            if current_gini < W[i]:
                W[i] = current_gini
                       
    W = np.sort(W, axis=0)[::-1].flatten(), np.argsort(W, axis=0)[::-1].flatten()

    return X.iloc[:,W[1]]


# ***************************************** KruskalWallis ***************************************
def kruskalWallis(X, Y, qtd):
    n = X.shape[1]
    out = pd.DataFrame(np.zeros(n), columns=["W"])
    for i in range(n):
        out['W'].iloc[i] = - np.mean(kruskal(X.iloc[:,i], Y.iloc[:])[1])
    out = out.sort_values('W', ascending=False).index
    return X.iloc[:,out[:qtd]]

# ******************************************* Lasso *********************************************
def lasso(data, Y, qtd):
    model = Lasso(alpha=lassoAlpha, random_state=0)
    model.fit(data, Y)
    rate = pd.DataFrame(abs(model.coef_), columns=["W"])
    rate = rate.sort_values('W', ascending=False).index    
    return data.iloc[:, rate[:qtd]]

# **************************************** ElasticNet *******************************************
def elasticNet(data, Y, qtd):
    model = ElasticNet(alpha=elasticAlpha, l1_ratio=elasticRation)
    model.fit(data, Y)
    rate = pd.DataFrame(abs(model.coef_), columns=["W"])
    rate = rate.sort_values('W', ascending=False).index    
    return data.iloc[:, rate[:qtd]]

# ****************************************** Chi2 (X²) *******************************************
def ftChi2(data, Y, qtd):
    selector = pd.DataFrame(chi2(data.abs(), Y.values.ravel())[0], columns=["W"])
    selector = selector.sort_values('W', ascending=False).index
    return data.iloc[:, selector[:qtd]];

# *************************************** F Regression ******************************************
def fRegression(data, Y, qtd):
    selector = pd.DataFrame(f_regression(data, Y.values.ravel())[0], columns=["W"])
    selector = selector.sort_values('W', ascending=False).index
    return data.iloc[:, selector[:qtd]];

# *********************************** Mutual Info Regression*************************************
def mutualRegression(data, Y, qtd):
    mi = mutual_info_regression(data, Y.values.ravel())
    selector = pd.DataFrame(mi, columns=["W"])
    selector = selector.sort_values('W', ascending=False).index
    return data.iloc[:, selector[:qtd]];
    
# ************************************** seleção dos dados **************************************

def select(data, Y, qtd, option):
    if(option == methods.RandomForest):
        data = randomForest(data,Y.iloc[:,0],qtd); 
        
    elif(option == methods.FsFisher):
        data = fisher(data,Y.iloc[:,1],qtd); 
        
    elif(option == methods.FsGini):
        data = gini(data,Y.iloc[:,1],qtd); 
        
    elif(option == methods.KruskalWallis):
        data = kruskalWallis(data,Y.iloc[:,0],qtd);
        
    elif(option == methods.Lasso):
        data = lasso(data,Y.iloc[:,0],qtd);
        
    elif(option == methods.ElasticNet):
        data = elasticNet(data,Y.iloc[:,0],qtd);
        
    elif(option == methods.Chi2):
        data = ftChi2(data,Y.iloc[:,1],qtd);
        
    elif(option == methods.FRegression):
        data = fRegression(data,Y.iloc[:,0],qtd);
        
    elif(option == methods.MutualRegression):
        data = mutualRegression(data,Y.iloc[:,0],qtd);
    return data;

def generate(data, Y, opt1, qtd1, opt2, qtd2):
    
    dataset1 = pd.DataFrame({})
    dataset2 = pd.DataFrame({})
    
    for i in range(len(opt1)):
        dataset1 = dataset1.combine_first(select(data, Y, qtd1[i], opt1[i]))
        
    for i in range(len(opt2)):
        dataset2 = dataset2.combine_first(select(data, Y, qtd2[i], opt2[i]))
    
    dataset1 = select(dataset1, Y, dataset1_2[0], usedMethodsDB1)
    dataset2 = select(dataset2, Y, dataset1_2[1], usedMethodsDB2)
    
    return [dataset1, dataset2]
    

In [5]:
dataset1, dataset2 = generate(X, Y, usedMethodsD1, filterEachD1, usedMethodsD2, filterEachD2)

display(dataset1.head(3))
display(dataset2.head(3))

  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


Unnamed: 0,ADX_14,HLC_CCI_18,Máximo_MACD_12:26,K%_8,K%_14_SMA_3,K%_14,ADX_7,HLC_CCI_20
0,0.457757,-55.495126,-0.631083,-0.688103,0.008956,-0.119608,0.406779,-50.201753
1,0.438142,-33.779114,-0.601125,0.056604,0.20456,0.470356,0.382656,-34.644315
2,0.431809,1.553431,-0.551738,-1.061798,-0.024188,-0.423313,0.386063,-15.196686


Unnamed: 0,ADX_14,Fechamento_MTM_5,R%_21,R%_14,Mínimo_MTM_5,Máximo_MTM_11,Máximo_MTM_10,K%_8
0,0.457757,-0.388505,5.412935,1.119608,-0.403063,-0.73248,0.169253,-0.688103
1,0.438142,-0.301307,7.55102,0.529644,-0.238106,0.225071,0.004492,0.056604
2,0.431809,-0.214598,7.9,1.423313,0.109931,0.219186,0.01793,-1.061798


In [6]:
dataset1.to_csv(f'Selected/In_class_{inputDataName}.csv', index=False, sep = ';')  
dataset2.to_csv(f'Selected/In_regre_{inputDataName}.csv', index=False, sep = ';')

Y.to_csv(f'Selected/{inputDataName}_Out.csv', index=False, sep = ';') 