# Seleção de Atributos

## Imports

In [None]:
from mlxtend.feature_selection import SequentialFeatureSelector as SFS

# Feature Selection com Wrapper Methods

Num sentido de averiguar de modo automático, decidimos testar métodos de *wrapper* para observar quais as *features* que seriam selecionadas.
Vamos tentar:
* *Forward selection*
* *Backward elimination*
* *Bi-directional elimination (Stepwise Selection)*

In [None]:
# Sequential Forward Selection(sfs)
sfs = SFS(LinearRegression(),
          k_features=(4,5),
          forward=True,
          floating=False,
          cv = 0)

# Sequential Backward Elimination (sbe)
sbe = SFS(LinearRegression(),
         k_features=(4,5),
         forward=False,
         floating=False,
         cv=0)

# Stepwise Selection (ss)
ss = SFS(LinearRegression(),
         k_features=(4,5),
         forward=True,
         floating=True,
         cv=0)

In [None]:
print("SFS:\n")
sfs.fit(X_train, Y_train)
print(sfs.k_feature_names_)
print("-"*50)

print("SBE:\n")
sbe.fit(X_train, Y_train)
print(sbe.k_feature_names_)
print("-"*50)

print("SS:\n")
ss.fit(X_train, Y_train)
print(ss.k_feature_names_)
print("-"*50)

# Feature Selection com Teste de Hipóteses

Como os dados não seguem uma distribuição normal, não podemos recorrer não método de heatmap de Pearson. Para verificar quais as features a manter, vamos envergar pelo método do teste de hipóteses.

* H0 (hipótese nula): as duas features estão correlacionadas
* HA (hipótese alternativa): as duas features não estão correlacionadas
* Significância = 0.05

## Temperatura
print("Temperatura:\n")
# S1_Temp and S2_Temp
print(stats.spearmanr(df['S1_Temp'], df['S2_Temp']))
# S1_Temp and S3_Temp
print(stats.spearmanr(df['S1_Temp'], df['S3_Temp']))
# S1_Temp and S4_Temp
print(stats.spearmanr(df['S1_Temp'], df['S4_Temp']))
print("-"*50)

## Luz
print("Luz:\n")
# S1_Light and S2_Light
print(stats.spearmanr(df['S1_Light'], df['S2_Light']))
# S1_Light and S3_Light
print(stats.spearmanr(df['S1_Light'], df['S3_Light']))
# S1_Light and S4_Light
print(stats.spearmanr(df['S1_Light'], df['S4_Light']))
print("-"*50)

## Som
print("Som:\n")
# S1_Sound and S2_Sound
print(stats.spearmanr(df['S1_Sound'], df['S2_Sound']))
# S1_Sound and S3_Sound
print(stats.spearmanr(df['S1_Sound'], df['S3_Sound']))
# S1_Sound and S4_Sound
print(stats.spearmanr(df['S1_Sound'], df['S4_Sound']))
print("-"*50)

## CO2
print("CO2:\n")
# S5_CO2 and S5_CO2_Slope
print(stats.spearmanr(df['S5_CO2'], df['S5_CO2_Slope']))
print("-"*50)

## Movimento
print("Movimento:\n")
## S6_PIR and S7_PIR
print(stats.spearmanr(df['S6_PIR'], df['S7_PIR']))
print("-"*50)

Então:

| **Features**          | **Correlaçao** | **P-value < Significancia (S/N)** | **Rejeitar H0 (S/N)** | **Resultado**       |
|-----------------------|----------------|-----------------------------------|-----------------------|---------------------|
|   S1_Temp & S2_Temp   |      Forte     |                Sim                |          Nao          | **Correlacionados** |
|   S1_Temp & S3_Temp   |      Forte     |                Sim                |          Nao          | **Correlacionados** |
|   S1_Temp & S4_Temp   |      Forte     |                Sim                |          Nao          | **Correlacionados** |
|  S1_Light & S2_Light  |      Forte     |                Sim                |          Nao          | **Correlacionados** |
|  S1_Light & S3_Light  |      Forte     |                Sim                |          Nao          | **Correlacionados** |
|  S1_Light & S4_Light  |      Forte     |                Sim                |          Nao          | **Correlacionados** |
|  S1_Sound & S2_Sound  |      Fraca     |                Sim                |          Nao          | **Correlacionados** |
|  S1_Sound & S3_Sound  |      Fraca     |                Sim                |          Nao          | **Correlacionados** |
|  S1_Sound & S4_Sound  |      Fraca     |                Sim                |          Nao          | **Correlacionados** |
| S5_CO2 & S5_CO2_Slope |      Fraca     |                Sim                |          Nao          | **Correlacionados** |
|    S6_PIR & S7_PIR    |      Fraca     |                Sim                |          Nao          | **Correlacionados** |

https://www.analyticsvidhya.com/blog/2021/03/multicollinearity-in-data-science/

Observações:
* As features **S1_Temp**, **S2_Temp**, **S3_Temp** e **S4_Temp** estão muito correlacionadas (>= 0.83), logo, vamos ficar apenas com a coluna **S1_Temp**;
* As features **S1_Light**, **S2_Light**, **S3_Light** e **S4_Light** estão muito correlacionadas (>= 0.93), logo, vamos ficar apenas com a coluna **S1_Light**;
* As features **S1_Sound**, **S2_Sound**, **S3_Sound** e **S4_Sound** estão fracamente correlacionadas (>= 0.035), logo, vamos ficar apenas com a coluna **S1_Sound**;
* As features **S5_CO2** e **S5_CO2_Slope** estão correlacionadas (>= 0.31), logo, vamos ficar apenas com a coluna **S5_CO2**;
* As features **S6_PIR** e **S7_PIR** estão correlacionadas (>= 0.54), logo, vamos ficar apenas com a coluna **S6_PIR**;

[1] https://www.analyticsvidhya.com/blog/2021/03/multicollinearity-in-data-science/

* As features **S1_Temp**, **S1_Light**, **S1_Sound**, **S5_CO2** e **S6_PIR** apresentam mair correlação com o target;

Das condições anteriores, resultam as colunas que devemos manter.