# <center> Seleção de variáveis e remoção por Correlação de _Pearson_</center>

<br/>

<div style="text-align: center;font-size: 90%;">
    Bruno Dias dos Santos<sup><a href="https://orcid.org/0000-0001-6181-2158"><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup>, Gilberto Eidi Teramoto Oliveira<sup><a href="https://orcid.org/0000-0002-0082-9498"><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup>
    <br/><br/>
    Mestrado em Sensoriamento Remoto, Instituto Nacional de Pesquisas Espaciais (INPE)
    <br/>
    Avenida dos Astronautas, 1758, Jardim da Granja, São José dos Campos, SP 12227-010, Brasil
    <br/><br/>
    Contato: <div><a href="mailto:bruno.santos@inpe.br">bruno.santos@inpe.br</a></div>
    <div><a href="mailto:gilberto.eidi@inpe.br">gilberto.terramoto@inpe.br</a></div>
    <br/><br/>
    Última atualização: 22 de Agosto de 2021
</div>
<br/>

<div style="text-align: justify;  margin-left: 25%; margin-right: 25%;">
<b>Resumo.</b> Este Notebook apresenta uma metodologia para selecionar variáveis. Dado uma tabela de atributos (.csv) contendo uma variável categorica que represente classes amostrais, os atributos serão ordenados em relação ao seu poder explicativo a partir do cálculo do R². Posteriormente, os atributos serão comparados dois a dois e caso a correlação (de Pearson) ultrapasse um valor máximo adotado, será realizada a remoção da variável com menor poder explicativo. Como saída, serão retornadas num arquivo .csv apenas as variáveis com um valor R² acima do desejado e não correlacionadas.     
</div>    

<br/>

Importação das bibliotecas <i>Pandas</i> e <i>Numpy</i>:

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import math as math
import matplotlib.pyplot as plt 

Leitura da tabela CSV e criação de um Dataframe:

In [None]:
obj = pd.read_csv("C:\\Users\\dias-bruno\\Desktop\\INPE-SER\\2PERIODO\\PDI\\cameta\\celulas_com_vizinhanca.csv")

In [None]:
obj

Definicação da variável identificadora de cada feição:

In [None]:
indice = 'DN'

Definicação da variável com as classes amostrais. Esta variável dever ser categórica (com o nome das classes amostradas) ou discreta:

In [None]:
TARGET = 'TARGET'

target = []
cont = 0

for classe in obj[TARGET].unique():
    if not pd.isnull(classe):
        target.append(classe)

target

Criando uma cópia do DataFrame e preenchendo (possíveis) valores vazios com o valor um dummy a sua escolha:

In [None]:
saida =  obj.iloc[:,:-1].fillna(0)
saida[TARGET] = obj[TARGET]
saida

Selecionando apenas as feições que possuem amostras coletadas para extrair as estatística:

In [None]:
obj = obj[obj[TARGET].isin(target)]
obj

Ajuste de possíveis valores 'Nan' nos atributos através de um valor _dummy_ a sua escolha:

In [None]:
dummy = 0 #alterar para algum outro valor a sua escolha

obj = obj.fillna(dummy)
obj

Calculo do R² da Anova de cada coluna do Dataframe em relação à coluna Target:

In [None]:
iv = {}

for coluna in obj.columns:  
    if coluna != TARGET:
        counts = obj.groupby(TARGET, sort=True)[coluna].count() #Contagem de elementos de cada classe amostral
        medias = obj.groupby(TARGET, sort=True)[coluna].mean() #Média de cada caluna por classe amostral 
        aux = 0        
        for i in range(len(counts)):
            try:
                aux = aux + counts[i]*((medias[i] - obj[coluna].mean())**2)
            except:
                aux = 0
        
        if (sum(counts))*((obj[coluna].std())**2) == 0:
            iv[coluna] = aux/0.00001
        else:                
            iv[coluna] = aux/((sum(counts))*((obj[coluna].std())**2))
        
        print("Rodou: ", coluna)

iv = sorted(iv.items(), key=lambda x: x[1], reverse=True)

In [None]:
iv

Grafico bloxpot da variável com o melhor poder explicativo em relação às classes amostrais:

In [None]:
sns.boxplot(x=TARGET , y= obj[iv[0][0]], order= obj[TARGET].sort_values().unique(), data = obj)

Grafico bloxpot da variável com o pior poder explicativo em relação às classes amostrais:

In [None]:
sns.boxplot(x=TARGET, y= obj[iv[-1][0]],  order= obj[TARGET].sort_values().unique(),  data = obj)

Removendo variáveis pouco explicativas, a partir de um limite inferior e variáveis com possíveis valores 'NaN':

In [None]:
lim_min = 0.2
aux = []

print(f'Total de variáveis antes da remoção: {len(iv)}')

for i in range(len(iv)):
    if math.isnan(iv[i][1]):
        aux.append(iv[i])
    elif iv[i][0] != indice:
        if iv[i][1] < lim_min:
            aux.append(iv[i])

for i in aux:
    iv.remove(i)

print(f'Total de variáveis depois da remoção: {len(iv)}')

Visualização das informações das variáveis mais explicativas:

In [None]:
iv

Definição do fator de correlação a ser considerado.

Dado duas variáveis [<i>i</i>,<i>j</i>], será calculado a correlação entre <i>i</i> e <i>j</i>. Caso a correlação entre as duas variáveis seja maior do que o <b>fator máximo de correlação</b>, faremos a exclusão daquela com menor poder explicativo a partir do seu R²:

In [None]:
fator = 0.75

Remoção de variáveis de alta correlação _(Pearson)_:

In [None]:
colunas = []
aux = []

for i, j in iv:
    colunas.append(i)
    aux.append(i)

for i in range(len(colunas)):
    for j in range(len(colunas)):
        if j > i and abs(saida[colunas[i]].corr(saida[colunas[j]])) > fator:
            if (colunas[j] in aux) and (colunas[j] != indice):
                aux.remove(colunas[j])

Quantidade de variáveis do Dataframe que será gerado para a saída:

In [None]:
len(aux)

Visualização das colunas que estarão no Dataframe de saída:

In [None]:
aux

Célula de conferência que mostra que as variáveis que sobraram não possuem uma correlação acima do <b>fator máximo de correlação</b> inserido - exceto para a variável de identificação:

In [None]:
corr_df = saida[aux].corr()

corr_df.style.background_gradient(cmap='Spectral')

In [None]:
aux.append(TARGET)

Salvando o CSV apenas com as colunas não correlacionadas e com um mínimo de poder explicativo:

In [None]:
saida[aux].to_csv("C:\\Users\\dias-bruno\\Desktop\\INPE-SER\\2PERIODO\\PADROES\\gui_saida.csv")

In [None]:
saida[aux]