# Seleção e extração de características
## Método Lasso para seleção de características
### Introdução

Bem-vindo ao nosso tutorial sobre como utilizar o método Lasso para a seleção de características em seus projetos de machine learning.

Antes de mergulhar na parte prática, vamos começar com o básico: o que é Lasso? Lasso, que significa Least Absolute Shrinkage and Selection Operator, é uma técnica de regressão que não apenas ajuda a reduzir a complexidade dos modelos, mas também realiza seleção de características de forma eficiente. Ao penalizar o valor absoluto dos coeficientes de regressão, o Lasso força alguns coeficientes a serem exatamente zero. Isso significa que as características correspondentes a esses coeficientes são efetivamente removidas do modelo, simplificando-o e, potencialmente, melhorando a sua performance.

### Importações e base de dados

Antes de aplicar o Lasso, precisamos importar as bibliotecas e preparar nossos dados.

As bibliotecas são numpy, pandas e scikit-learn, que podemos instalar via pip. Dado que você tem o Python instalado no seu computador, deve ser executada em uma célula no jupyter notebook os comandos “pip install numpy”, “pip install pandas”, “pip install scikit-learn”.


In [1]:
#!pip install numpy
#!pip install pandas
#!pip install scikit-learn

Aqui, importamos o numpy, o Pandas, e, pelo sklearn, temos o dataset e as classes SelectFromModel, Lasso e StandardScaler, assim como a função train_test_split.

In [2]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

Vamos usar o conjunto de dados California Housing como exemplo. Após a importação, carregamos os dados e os dividimos em base de treino e de teste.

In [3]:
X, y = fetch_california_housing(return_X_y=True, as_frame=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

Em seguida, padronizamos os atributos com o Standard Scaler.

In [4]:
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

### LASSO

Vamos agora ao que interessa: a aplicação prática do método Lasso usando a biblioteca Scikit-learn.

Criamos uma instância do modelo Lasso, especificamos o parâmetro alpha, que controla a força da penalidade e ajustamos o modelo aos nossos dados de treino. Um valor maior de alpha significa uma maior penalidade, levando a uma redução mais significativa de características.


In [5]:
sel = SelectFromModel(Lasso(alpha=0.1, random_state=42))
sel.fit(X_train_scaled, y_train)

Podemos ver quais foram as características escolhidas e quantas foram.

In [6]:
escolhidos = sel.get_support()
selected_feat = X_train.columns[(escolhidos)]

print(f'Total features: {X_train.shape[1]}')
print(f'Selected features: {selected_feat}')
print(f'Features with coefficients shrank to zero: {np.sum(sel.estimator_.coef_ == 0)}')

Total features: 8
Selected features: Index(['MedInc', 'HouseAge', 'Latitude'], dtype='object')
Features with coefficients shrank to zero: 5


Por fim, removemos as características irrelevantes das bases de treino e teste.

In [7]:
X_train_selected = sel.transform(X_train_scaled)
X_test_selected = sel.transform(X_test_scaled)

Observe que o Lasso já é um modelo de regressão. Assim, é possível utilizá-lo diretamente para fazer previsões.

Basicamente, temos que utilizar o sel.estimator que teremos o modelo de regressão usando apenas as características que não tiveram o coeficiente zerado. Mesmo assim, precisamos passar todas as características, pois é assim que ele foi treinado. De outro modo, o programa irá acusar um erro.

Além disso, podemos usar outros modelos de regressão, como KNN Regressor.

In [8]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error

knn = KNeighborsRegressor()
knn.fit(X_train_selected, y_train)

y_pred_knn = knn.predict(X_test_selected)

mse_knn = mean_squared_error(y_test, y_pred_knn)
print(f"MSE do KNN: {mse_knn}")


lasso_model = sel.estimator_
y_pred_lasso = lasso_model.predict(X_test_scaled)

mse_lasso = mean_squared_error(y_test, y_pred_lasso)
print(f"MSE do Lasso: {mse_lasso}")

MSE do KNN: 0.6200358606949457
MSE do Lasso: 0.6928935024227871


### Considerações finais

Você acabou de aprender como preparar seus dados e usar o método Lasso para a seleção de características com Scikit-learn. Lembre-se: ajustar o valor de alpha e experimentar com diferentes configurações pode ajudar você a encontrar o equilíbrio perfeito para o modelo específico.

Além disso, procure aprender mais sobre as outras diversas técnicas de seleção de características.

Até a próxima!

