# Feature Selection

É interessante separar o que realmente influencia ou não no churn, para tanto, devido a termos uma base mixada (variaveis categoricas e numericas) utilizaremos uma abordagem baseada em ensemble.

LightGBM é extremamente eficiente para data frames grandes.
Como o Random Forest, ele também fornece importâncias de variáveis, mas é otimizado para desempenho em datasets grandes e com alto número de features.
Ele pode lidar bem com variáveis categóricas, e geralmente é mais rápido que Random Forest devido à sua implementação baseada em histogramas. Além disso, atende bem problemas desbalanceados como  o nosso,

In [None]:
import lightgbm as lgb
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Definindo o modelo LightGBM para feature selection
lgb_model = lgb.LGBMClassifier(random_state=42, n_estimators=500)

# Treinando o modelo com todas as features
lgb_model.fit(X_train, y_train)

# Extraindo as importâncias das features
feature_importances = pd.DataFrame({
    'feature': X_train.columns,
    'importance': lgb_model.feature_importances_
})

# Ordenando por importância e selecionando as principais variáveis
feature_importances = feature_importances.sort_values(by='importance', ascending=False)

# Definindo um número de features a serem mantidas
top_k = 20
top_features = feature_importances.head(top_k)['feature'].values

# Selecionando as features mais importantes no conjunto de dados
X_train_selected = X_train[top_features]
X_val_selected = X_val[top_features]
X_test_selected = X_test[top_features]

In [None]:
# Verificação das dimensões após a seleção
print("Dimensões do conjunto de treino com features selecionadas:", X_train_selected.shape)

In [None]:
print("Dimensões do conjunto de validação com features selecionadas:", X_val_selected.shape)

In [None]:
print("Dimensões do conjunto de teste com features selecionadas:", X_test_selected.shape)