# Feature Engineering with Sklearn - Descrição da Tarefa


Baixe os três conjuntos de dados. Cada um deles possui características de atributos distintas. Utilizando técnicas de engenharia de atributos com sklearn (ou outra ferramenta), selecione a menor quantidade de atributos possível em cada um deles, mas sem remover atributos significativos.

## Download Datasets

In [14]:
!pip install gdown -qqq

In [15]:
!gdown https://drive.google.com/uc?id=1q_VpqJ8O8JazQez-N6SYTBb51T4QrpMz
!gdown https://drive.google.com/uc?id=1tFcc2B7UfIzy7q3P49EzVxgetdRnbxfc
!gdown https://drive.google.com/uc?id=13fGg8YT844EN3xLgl5UzW1HOsOIbqYPo

Downloading...
From: https://drive.google.com/uc?id=1q_VpqJ8O8JazQez-N6SYTBb51T4QrpMz
To: /content/ia_fe_dataset1.csv
100% 161k/161k [00:00<00:00, 68.1MB/s]
Downloading...
From: https://drive.google.com/uc?id=1tFcc2B7UfIzy7q3P49EzVxgetdRnbxfc
To: /content/ia_fe_dataset2.csv
100% 1.55M/1.55M [00:00<00:00, 90.4MB/s]
Downloading...
From: https://drive.google.com/uc?id=13fGg8YT844EN3xLgl5UzW1HOsOIbqYPo
To: /content/ia_fe_dataset3.csv
100% 3.08M/3.08M [00:00<00:00, 138MB/s]


Armazenanando os dados dos arquivos csv disponibilizados nas seguintes váriaveis:

In [16]:
import numpy as np
import pandas as pd

df1 = pd.read_csv('/content/ia_fe_dataset1.csv')
df2 = pd.read_csv('/content/ia_fe_dataset2.csv')
df3 = pd.read_csv('/content/ia_fe_dataset3.csv')

# Correlation Selection

### Explanation: https://www.w3schools.com/python/pandas/pandas_correlations.asp
### Reference Guide: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html
### Source: https://github.com/pandas-dev/pandas/blob/v2.2.2/pandas/core/frame.py#L10975-L11087


A seleção de features ajuda a identificar as informações mais relevantes em um conjunto de dados. Uma maneira de fazer isso é a remoção de features com alta correlação. Desta forma podemos calcular a correlação do dataset 1:

In [17]:
df1.corr().style.background_gradient(cmap='coolwarm')

Unnamed: 0,feature_1,feature_2,feature_3,feature_4,feature_5,target
feature_1,1.0,0.088525,0.088525,0.985768,-0.002907,-0.662452
feature_2,0.088525,1.0,1.0,0.254715,-0.01793,0.012852
feature_3,0.088525,1.0,1.0,0.254715,-0.01793,0.012852
feature_4,0.985768,0.254715,0.254715,1.0,-0.005849,-0.640958
feature_5,-0.002907,-0.01793,-0.01793,-0.005849,1.0,0.004133
target,-0.662452,0.012852,0.012852,-0.640958,0.004133,1.0


Ao analisar os valores de correlação entre as variáveis, identificamos que há uma forte correlação entre a feature 1 e a feature 4, assim como entre a feature 2 e a feature 3. Essa alta correlação indica que essas variáveis estão fornecendo informações muito semelhantes, portanto, optamos por remover uma dessas features (4 e 3) para evitar a duplicação de informações.

Além disso, ao considerar a relevância das features em relação ao objetivo (target) da análise, observamos que a feature 5 tem um impacto relativamente baixo ou insignificante no resultado final. Assim, decidimos também remover a feature 5 para simplificar o modelo e focar nas variáveis mais influentes para a predição ou análise em questão.

Embora este dataset seja pequeno, contendo apenas cinco features, na maioria dos casos lidamos com conjuntos de dados muito maiores, o que torna trabalhoso analisar cada feature individualmente. Nesse contexto, é vantajoso desenvolver um script para automatizar essa tarefa: por exemplo, remover as features que possuem um índice de correlação entre si superior a 0.9 e eliminar aquelas que apresentam uma correlação menor que 0.01 com a variável alvo target.

In [18]:
def correlationSelection(df):
  # Calcular a matriz de correlação
  corr_matrix = df.corr()

  # Identificar features com correlação maior que 0.9 entre si
  high_corr_features = set()
  for i in range(len(corr_matrix.columns)):
      for j in range(i):
          if abs(corr_matrix.iloc[i, j]) > 0.9:
              feature_name = corr_matrix.columns[i]
              high_corr_features.add(feature_name)

  #print(f'\n-> features com alta correlação entre si: {high_corr_features}')

  # Remover as features com alta correlação entre si
  df.drop(high_corr_features, axis=1, inplace=True)
  corr_matrix = df.corr()

  # Identificar features com correlação abaixo de 0.01 com target
  low_corr_with_target = []
  for col in corr_matrix.columns:
      if col != 'target' and abs(corr_matrix[col]['target']) < 0.01:
          low_corr_with_target.append(col)

  #print(f'-> features com baixa correlação com target: {low_corr_with_target}')

  # Remover as features com baixa correlação com target
  df.drop(low_corr_with_target, axis=1, inplace=True)

  print(', '.join(df.columns))

  return df


df1 = pd.read_csv('/content/ia_fe_dataset1.csv')
df2 = pd.read_csv('/content/ia_fe_dataset2.csv')
df3 = pd.read_csv('/content/ia_fe_dataset3.csv')

print('\nDF1: ')
df1_correlationSelection = correlationSelection(df1)
print('\nDF2: ')
df2_correlationSelection = correlationSelection(df2)
print('\nDF3: ')
df3_correlationSelection = correlationSelection(df3)


DF1: 
feature_1, feature_2, target

DF2: 
feature_2, feature_3, feature_4, feature_6, feature_9, feature_12, feature_13, feature_15, feature_17, feature_25, feature_29, feature_30, feature_32, feature_34, feature_39, feature_46, feature_49, target

DF3: 
feature_1, feature_2, feature_3, feature_4, feature_5, feature_6, feature_8, feature_9, feature_10, feature_11, feature_13, feature_14, feature_15, feature_16, feature_18, feature_19, feature_20, feature_21, feature_22, feature_23, feature_24, feature_25, feature_26, feature_27, feature_28, feature_31, feature_32, feature_35, feature_36, feature_38, feature_39, feature_40, feature_41, feature_43, feature_44, feature_49, feature_52, feature_54, feature_55, feature_56, feature_57, feature_60, feature_62, feature_63, feature_64, feature_65, feature_70, feature_75, feature_78, feature_80, feature_81, feature_85, feature_88, feature_89, feature_92, feature_93, feature_94, feature_98, feature_99, target


Ao eliminar features redundantes e de baixa relevância, conseguimos simplificar o conjunto de dados e concentrar a atenção nas variáveis que têm um impacto mais significativo na predição ou análise dos resultados desejados. Essa abordagem de seleção de features é fundamental para garantir a precisão e a interpretabilidade dos modelos de análise de dados em diferentes contextos.

## Select From Model
Documentation: https://scikit-learn.org/stable/modules/feature_selection.html#select-from-model
Reference guide: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html
Source: https://github.com/scikit-learn/scikit-learn/blob/872124551/sklearn/feature_selection/_from_model.py#L93


In [19]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

# documentation: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html
# source https://github.com/scikit-learn/scikit-learn/blob/872124551/sklearn/feature_selection/_from_model.py#L93


def selectFromModel(df):
  x = df.drop(columns=['target'])
  y = df['target']

  clf = RandomForestClassifier(n_estimators=100, random_state=42)
  clf.fit(x, y)

  sfm = SelectFromModel(clf, prefit=True)
  selected_features = sfm.get_support()

  selected_features = x.columns[selected_features]
  print(', '.join(selected_features))

  df = df[list(selected_features) + ['target'] ]
  return df


df1 = pd.read_csv('/content/ia_fe_dataset1.csv')

print('\nDF1: ')
df1_selectFromModel = selectFromModel(df1)
print('\nDF2: ')
df2_selectFromModel = selectFromModel(df2_correlationSelection)
print('\nDF3: ')
df3_selectFromModel = selectFromModel(df3_correlationSelection)


DF1: 
feature_1, feature_4

DF2: 
feature_3, feature_9, feature_13, feature_15, feature_17, feature_30, feature_39

DF3: 
feature_9, feature_10, feature_13, feature_14, feature_19, feature_20, feature_24, feature_27, feature_39, feature_40, feature_43, feature_49, feature_62, feature_63, feature_65, feature_85, feature_88, feature_98, feature_99


O SelectFromModel é uma técnica de seleção de atributos que utiliza um modelo de aprendizado de máquina para identificar os atributos mais importantes. Ele seleciona os atributos com base em sua importância calculada pelo modelo durante o treinamento.

No caso específico do primeiro dataset as escolhas da 'feature_1' e 'feature_4', foi provavelmente porque possuem as maiores correlação com a variável alvo (target) e também por sua correlação forte entre si. Essas características indicam para o modelo que essas features são relevantes para a predição e podem conter informações úteis para o modelo. Entretanto, as colunas escolhidas são muito parecidas entre si, indicando que possívelmente são dados redundantes.

Nos outros dois conjuntos de dados, observa-se uma redução no número de features selecionadas: foram escolhidas 7 (em comparação com as 17 do exercício anterior) e 19 em vez de 60 no terceiro conjunto. Essa redução é interessante porque pode simplificar o modelo, tornando-o mais fácil de interpretar e reduzindo a complexidade computacional.

Portanto, pode ser benéfico considerar a combinação dessas duas técnicas de seleção de features. Inicialmente, realizar uma seleção inicial usando o Correlation Selection para identificar features altamente correlacionadas com a variável alvo. Em seguida, aplicar o Select From Model para refinar a seleção com base na importância das features para o modelo.

# Recursive Feature Elimination
### Documentation: https://scikit-learn.org/stable/modules/feature_selection.html#rfe
### Reference guide: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html
### Source: https://github.com/scikit-learn/scikit-learn/blob/872124551/sklearn/feature_selection/_rfe.py#L68

In [22]:
from sklearn.feature_selection import RFE

# documentation: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html
# source: https://github.com/scikit-learn/scikit-learn/blob/872124551/sklearn/feature_selection/_rfe.py#L68

def recursiveFeatureElimination(df, n):
  x = df.drop(columns=['target'])
  y = df['target']

  clf = RandomForestClassifier(n_estimators=100, random_state=42)
  rfe = RFE(estimator=clf, n_features_to_select=n, step=1)
  rfe.fit(x, y)
  selected_features = rfe.get_support()

  selected_features = x.columns[selected_features]
  print(', '.join(selected_features))

  df = df[list(selected_features) + ['target'] ]

  return df


df1 = pd.read_csv('/content/ia_fe_dataset1.csv')

print('\nDF1: ')
df1_recursiveFeatureElimination = recursiveFeatureElimination(df1, 2)
print('\nDF2: ')
df2_recursiveFeatureElimination = recursiveFeatureElimination(df2_correlationSelection, 4)
print('\nDF3: ')
df3_recursiveFeatureElimination = recursiveFeatureElimination(df3_correlationSelection, 9)


DF1: 
feature_1, feature_4

DF2: 
feature_3, feature_13, feature_15, feature_39

DF3: 
feature_19, feature_20, feature_24, feature_27, feature_39, feature_49, feature_85, feature_88, feature_98


O Recursive Feature Elimination é geralmente considerada uma técnica robusta, pois avalia a importância das características iterativamente e elimina aquelas que contribuem menos para o desempenho do modelo. Nesse modelo é possível escolher o número de features como parâmetro, entretanto este número depende muito do seu conjunto de dados específico, da complexidade do problema que está tentando resolver e do desempenho desejado do modelo.

Como o tempo de execução desse algoritmo é bem maior em relação aos outros escolhi executar para um número menor de features (4 para o segundo e 9 para o terceiro dataset).


# Sequential Feature Selection

### documentation: https://scikit-learn.org/stable/modules/feature_selection.html#sequential-feature-selection
### reference guide: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SequentialFeatureSelector.html
### source: https://github.com/scikit-learn/scikit-learn/blob/872124551/sklearn/feature_selection/_sequential.py#L18

In [23]:
from sklearn.feature_selection import SequentialFeatureSelector as SFS

# documentation: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SequentialFeatureSelector.html
# source: https://github.com/scikit-learn/scikit-learn/blob/872124551/sklearn/feature_selection/_sequential.py#L18


df1 = pd.read_csv('/content/ia_fe_dataset1.csv')

def sequentialFeatureSelection(df, n):
  x = df.drop(columns=['target'])
  y = df['target']

  clf = RandomForestClassifier(n_estimators=100)
  sfs = SFS(clf, n_features_to_select=n)
  sfs = sfs.fit(x, y)

  selected_features = sfs.get_support()
  selected_features = x.columns[selected_features]
  print(', '.join(selected_features))

  df = df[list(selected_features) + ['target'] ]

  return df


df1 = pd.read_csv('/content/ia_fe_dataset1.csv')

print('\nDF1: ')
df1_sequentialFeatureSelection = sequentialFeatureSelection(df1, 2)
print('\nDF2: ')
df2_sequentialFeatureSelection = sequentialFeatureSelection(df2_correlationSelection, 3)
print('\nDF3: ')
df3_sequentialFeatureSelection = sequentialFeatureSelection(df3_correlationSelection, 4)


DF1: 
feature_1, feature_2

DF2: 
feature_2, feature_3, feature_39

DF3: 
feature_4, feature_20, feature_24, feature_85


O Sequential Feature Selection é um método de seleção de features que funciona de forma iterativa, adicionando ou removendo features do modelo em cada iteração com o objetivo de encontrar o conjunto ótimo de features que maximize o desempenho do modelo. A desvantagem é que ele é computacionalmente intensivo então por isso tive que escolher um número menor ainda de features: 3 e 4 para o segundo e terceiro dataset respectivamente. Ainda assim a execução foi bem lenta.