# 2.2 Feature Engineering

**Projeto:** Ligia Group Challenge 2026  
**Autor:** Grupo 17  
**Fase CRISP-DM:** Data Preparation  
**Objetivo:** Criar e transformar features para melhorar o desempenho dos modelos

## Importação de Bibliotecas

In [25]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from sklearn.preprocessing import LabelEncoder, StandardScaler

sns.set_theme(style="whitegrid")
pd.set_option('display.max_columns', None)

import warnings
warnings.filterwarnings('ignore')

## Carregamento dos Dados Limpos

In [26]:
data_path = Path('../data/interim/sleep_health_clean.csv')
df = pd.read_csv(data_path, sep=';')

print(f"Dataset: {df.shape[0]} linhas x {df.shape[1]} colunas")
df.head()

Dataset: 374 linhas x 14 colunas


Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,BMI Category,Heart Rate,Daily Steps,Sleep Disorder,Systolic_BP,Diastolic_BP
0,1,Male,27,Software Engineer,6.1,6,42,6,Overweight,77,4200,,126,83
1,2,Male,28,Doctor,6.2,6,60,8,Normal,75,10000,,125,80
2,3,Male,28,Doctor,6.2,6,60,8,Normal,75,10000,,125,80
3,4,Male,28,Sales Representative,5.9,4,30,8,Obese,85,3000,Sleep Apnea,140,90
4,5,Male,28,Sales Representative,5.9,4,30,8,Obese,85,3000,Sleep Apnea,140,90


## Encoding de Variáveis Categóricas

In [27]:
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()

print("Variáveis categóricas para encoding:")
for col in categorical_cols:
    print(f"  - {col}: {df[col].nunique()} valores únicos")

Variáveis categóricas para encoding:
  - Gender: 2 valores únicos
  - Occupation: 11 valores únicos
  - BMI Category: 4 valores únicos
  - Sleep Disorder: 2 valores únicos


In [28]:
df_encoded = df.copy()

# One-Hot Encoding para variáveis categóricas nominais
cols_to_encode = [col for col in categorical_cols if col != 'Sleep Disorder']

if cols_to_encode:
    df_encoded = pd.get_dummies(df_encoded, columns=cols_to_encode, prefix=cols_to_encode, dtype=int)
    
print(f"Dataset após encoding: {df_encoded.shape[0]} linhas x {df_encoded.shape[1]} colunas")

Dataset após encoding: 374 linhas x 28 colunas


In [29]:
# Label Encoding para variável alvo
if 'Sleep Disorder' in df_encoded.columns:
    le = LabelEncoder()
    df_encoded['Sleep_Disorder_Encoded'] = le.fit_transform(df_encoded['Sleep Disorder'])
    
    print("\nMapeamento Sleep Disorder:")
    for i, label in enumerate(le.classes_):
        print(f"  {label}: {i}")


Mapeamento Sleep Disorder:
  Insomnia: 0
  Sleep Apnea: 1
  nan: 2


## Criação de Novas Features

## Seleção de Features para Modelagem

## Normalização de Features Numéricas

## Visualização das Features Transformadas

## Salvamento dos Dados Processados