# Engenharia de Features

A Engenharia de Features é o processo de transformar dados brutos em features (variáveis) que melhor representam o problema para modelos de machine learning. Neste material, vamos focar em três técnicas essenciais:

- **Normalização**: Transformar variáveis numéricas para uma escala comum.
- **Codificação**: Transformar variáveis categóricas em representações numéricas.
- **Seleção de Variáveis**: Escolher as features mais relevantes para o modelo.



## Normalizaçao

A normalização é usada para transformar variáveis numéricas em uma escala comum, o que é especialmente importante para algoritmos sensíveis à magnitude dos dados, como Regressão Linear.

<br/>

**Técnicas Comuns de Normalização**

**Min-Max Scaling:** Transforma os valores para um intervalo específico (geralmente [0, 1]).

**Standardization (Z-score):** Transforma os valores para ter média 0 e desvio padrão 1.

Exemplo de código:


In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import pandas as pd

# Dados de exemplo
data = {'age': [25, 45, 35, 50, 23],
        'salary': [50000, 100000, 75000, 120000, 40000]}
df = pd.DataFrame(data)

# Min-Max Scaling
scaler = MinMaxScaler()
df_minmax = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
print("Min-Max Scaling:\n", df_minmax)

# Standardization (Z-score)
scaler = StandardScaler()
df_standard = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
print("Standardization:\n", df_standard)

Min-Max Scaling:
         age  salary
0  0.074074  0.1250
1  0.814815  0.7500
2  0.444444  0.4375
3  1.000000  1.0000
4  0.000000  0.0000
Standardization:
         age    salary
0 -0.995228 -0.902007
1  0.882561  0.768376
2 -0.056334 -0.066815
3  1.352008  1.436529
4 -1.183007 -1.236083


## Codificação

Variáveis categóricas precisam ser transformadas em números para que modelos de machine learning possam processá-las. As técnicas mais comuns são:

<br/>

**Label Encoding:** Transforma cada categoria em um número inteiro.

**One-Hot Encoding:** Cria colunas binárias para cada categoria.

Exemplo de Código:


In [9]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import pandas as pd

# Dados de exemplo
data = {'color': ['red', 'blue', 'green', 'blue', 'red']}
df = pd.DataFrame(data)

# Label Encoding
label_encoder = LabelEncoder()
df['color_label'] = label_encoder.fit_transform(df['color'])
print("Label Encoding:\n", df)

# One-Hot Encoding
onehot_encoder = OneHotEncoder(sparse_output=False)
onehot_encoded = onehot_encoder.fit_transform(df[['color']])
df_onehot = pd.DataFrame(onehot_encoded, columns=onehot_encoder.get_feature_names_out(['color']))
print("One-Hot Encoding:\n", df_onehot)

Label Encoding:
    color  color_label
0    red            2
1   blue            0
2  green            1
3   blue            0
4    red            2
One-Hot Encoding:
    color_blue  color_green  color_red
0         0.0          0.0        1.0
1         1.0          0.0        0.0
2         0.0          1.0        0.0
3         1.0          0.0        0.0
4         0.0          0.0        1.0


## Seleção de Variáveis

A seleção de variáveis ajuda a escolher as features mais relevantes para o modelo, reduzindo a dimensionalidade e melhorando o desempenho.

<br/>

**Técnicas Comuns de Seleção de Variáveis**

**Correlação:** Selecionar variáveis com alta correlação com o target.

**Importância de Features:** Usar modelos como árvores de decisão para medir a importância das features.

**Seleção Recursiva de Features:** Selecionar features iterativamente com base no desempenho do modelo.

Exemplo de Código

In [18]:
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import seaborn as sns

# Dados de exemplo (Iris Dataset)
df = sns.load_dataset('iris')
X = df.drop(columns='species')
y = df['species']

# Seleção baseada em correlação (apenas para variáveis numéricas)
corr = X.corrwith(pd.Series(pd.factorize(y)[0]))
print("Correlação com o target:\n", corr)

# Seleção usando SelectKBest (teste estatístico)
selector = SelectKBest(score_func=f_classif, k=2)
X_selected = selector.fit_transform(X, y)
print("Features selecionadas (SelectKBest):\n", X.columns[selector.get_support()])

# Seleção usando importância de features (RandomForest)
model = RandomForestClassifier()
model.fit(X, y)
importance = model.feature_importances_
print("Importância das features (RandomForest):\n", pd.Series(importance, index=X.columns))

Correlação com o target:
 sepal_length    0.782561
sepal_width    -0.426658
petal_length    0.949035
petal_width     0.956547
dtype: float64
Features selecionadas (SelectKBest):
 Index(['petal_length', 'petal_width'], dtype='object')
Importância das features (RandomForest):
 sepal_length    0.096252
sepal_width     0.023092
petal_length    0.493149
petal_width     0.387507
dtype: float64


## Conclusão

A Engenharia de Features é uma etapa crucial para o sucesso de modelos de machine learning. Através da **normalização**, **codificação** e **seleção de variáveis**, podemos preparar os dados de forma que os algoritmos consigam extrair o máximo de informação possível. Com as ferramentas certas, como Pandas e Scikit-learn, esse processo se torna simples e eficiente.