
# Etapa 02 ‚Äì Engenharia de Atributos (Feature Engineering)

Nesta etapa realizamos o processo de engenharia de atributos para enriquecer o dataset com novas vari√°veis derivadas de forma l√≥gica e estat√≠stica.

## Objetivos
- Criar vari√°veis sint√©ticas que reforcem padr√µes de risco de desligamento.
- Codificar vari√°veis categ√≥ricas para uso em modelos.
- Escalonar vari√°veis num√©ricas para padroniza√ß√£o.
- Preparar os dados para treinamento e teste.

## Novas Features Criadas

| Nome | Descri√ß√£o |
|------|-----------|
| `SatisfacaoMedia` | M√©dia entre satisfa√ß√£o no trabalho, ambiente e relacionamento. |
| `FaixaEtaria` | Categoriza√ß√£o da idade em faixas: `<30`, `30-45`, `>45`. |
| `DistanteDoTrabalho` | Bin√°ria: se dist√¢ncia > 20km. |
| `ViajaMuito` | Bin√°ria: se viagem a trabalho √© frequente. |
| `FormacaoSuperiorOuMais` | Bin√°ria: escolaridade >= superior. |
| `RiscoHorasExtras` | Bin√°ria: horas extras com baixo equil√≠brio vida-trabalho. |
| `TempoSemPromocao` | Copia do tempo desde a √∫ltima promo√ß√£o. |
| `ExperienciaPorEmpresa` | Anos de experi√™ncia dividido por n¬∫ de empresas anteriores + 1. |
| `SalarioAjustado` | Sal√°rio dividido pelo n√≠vel do cargo. |
| `EstabilidadeNaEmpresa` | Anos na empresa dividido por anos de experi√™ncia. |

## Pr√©-processamento

- **Codifica√ß√£o:** Utilizamos `LabelEncoder` para colunas categ√≥ricas.
- **Escalonamento:** Utilizamos `StandardScaler` para colunas num√©ricas.
- **Split:** Separa√ß√£o entre treino e teste em 70/30, estratificado.

Essas transforma√ß√µes melhoram a capacidade dos modelos de capturar padr√µes relevantes.

In [12]:
# Feature Engineering Unificada: Gera√ß√£o de Novas Features + Pr√©-processamento
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
import sys
import os
sys.path.append(os.path.abspath("../"))
from scripts.func import gerar_base_rh_analitico

# 1. Gerar a base original
df = gerar_base_rh_analitico(qtd_amostras=100_000, semente=42)

# 2. Criar novas features com base na base original (sem escalonar ainda)
df['SatisfacaoMedia'] = df[['SatisfacaoTrabalho', 'SatisfacaoAmbiente', 'SatisfacaoRelacionamento']].mean(axis=1)
df['FaixaEtaria'] = pd.cut(df['Idade'], bins=[17, 29, 45, 66], labels=['<30', '30-45', '>45'])
df['DistanteDoTrabalho'] = (df['DistanciaCasa'] > 20).astype(int)
df['ViajaMuito'] = (df['ViagemTrabalho'] == 'Frequente').astype(int)
df['FormacaoSuperiorOuMais'] = (df['Escolaridade'] >= 4).astype(int)
df['RiscoHorasExtras'] = ((df['HorasExtras'] == 'Sim') & (df['EquilibrioVida'] <= 2)).astype(int)
df['TempoSemPromocao'] = df['AnosUltimaPromocao']
df['ExperienciaPorEmpresa'] = df['AnosExperiencia'] / (df['EmpresasAnteriores'] + 1)
df['SalarioAjustado'] = df['SalarioMensal'] / df['NivelCargo'].replace(0, 1)
df['EstabilidadeNaEmpresa'] = df['AnosEmpresa'] / df['AnosExperiencia'].replace(0, 1)

# 3. Codificar vari√°veis categ√≥ricas
df_encoded = df.copy()
label_cols = ['Genero', 'AreaFormacao', 'Setor', 'Cargo', 'ViagemTrabalho', 'HorasExtras', 'EstadoCivil', 'Desligamento', 'FaixaEtaria']
label_encoders = {}
for col in label_cols:
    le = LabelEncoder()
    df_encoded[col] = le.fit_transform(df_encoded[col])
    label_encoders[col] = le

# 4. Escalonamento de vari√°veis num√©ricas
num_cols = ['Idade', 'AnosExperiencia', 'AnosEmpresa', 'AnosCargoAtual', 'AnosUltimaPromocao', 'AnosGestorAtual',
            'EmpresasAnteriores', 'SalarioMensal', 'DistanciaCasa', 'SatisfacaoMedia',
            'ExperienciaPorEmpresa', 'SalarioAjustado', 'EstabilidadeNaEmpresa']

scaler = StandardScaler()
df_encoded[num_cols] = scaler.fit_transform(df_encoded[num_cols])

# 5. Separa√ß√£o treino e teste
X = df_encoded.drop('Desligamento', axis=1)
y = df_encoded['Desligamento']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)

# 6. Amostra
print("\nüéØ Target balance:")
print(y.value_counts(normalize=True) * 100)

print("\nüìä Shape dos conjuntos:")
print("X_train:", X_train.shape)
print("X_test :", X_test.shape)

# Exibe amostra
print(df_encoded[['SatisfacaoMedia', 'FaixaEtaria', 'DistanteDoTrabalho', 'ViajaMuito',
                         'FormacaoSuperiorOuMais', 'RiscoHorasExtras', 'TempoSemPromocao',
                         'ExperienciaPorEmpresa', 'SalarioAjustado', 'EstabilidadeNaEmpresa']].head())


üéØ Target balance:
Desligamento
0    79.367
1    20.633
Name: proportion, dtype: float64

üìä Shape dos conjuntos:
X_train: (70000, 32)
X_test : (30000, 32)
   SatisfacaoMedia  FaixaEtaria  DistanteDoTrabalho  ViajaMuito  \
0        -1.063939            0                   0           1   
1         0.197340            0                   0           0   
2         1.458618            0                   1           0   
3        -1.063939            2                   0           1   
4         1.458618            0                   0           0   

   FormacaoSuperiorOuMais  RiscoHorasExtras  TempoSemPromocao  \
0                       1                 0                 6   
1                       0                 0                 0   
2                       0                 0                 3   
3                       1                 0                 3   
4                       0                 0                 6   

   ExperienciaPorEmpresa  SalarioAjustado  Es