# Data Preparation - Dataset de Sepsis
## CRISP-DM Fase 3: Prepara√ß√£o dos Dados

**Objetivo da Fase:**
* Transformar dados brutos em formato adequado para modelagem
* Implementar estrat√©gias de limpeza e tratamento baseadas nos insights da EDA
* Criar features derivadas com relev√¢ncia cl√≠nica
* Preparar datasets finais para algoritmos de machine learning

**Baseado nos Insights da EDA:**
* 37/41 vari√°veis apresentam missing values (68.37% do dataset)
* 27 vari√°veis com >80% missing (candidatas √† remo√ß√£o)
* Dataset altamente desbalanceado: 98.2% n√£o-sepsis vs 1.8% sepsis
* Estrutura temporal importante: risco aumenta ap√≥s 100h na UTI
* Vari√°veis categ√≥ricas bem definidas: Gender, Unit1, Unit2

**Tarefas CRISP-DM a serem executadas:**
1. **Sele√ß√£o dos Dados**: Escolher vari√°veis mais relevantes
2. **Limpeza dos Dados**: Tratar inconsist√™ncias e valores ausentes  
3. **Constru√ß√£o dos Dados**: Criar features derivadas e engenharia
4. **Integra√ß√£o dos Dados**: Combinar fontes (n√£o aplic√°vel aqui)
5. **Formata√ß√£o dos Dados**: Preparar formato final para modelagem

## Configura√ß√£o do Ambiente Google Colab

Para funcionar no Google Colab, √© necess√°rio criar um atalho do diret√≥rio MDA no seu pr√≥prio Drive e ent√£o rodar os dois comandos abaixo e conceder permiss√£o ao seu drive quando rodar a c√©lula logo abaixo.

[Link](https://towardsdatascience.com/simplify-file-sharing-44bde79a8a18/) detalhando como funciona

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

In [None]:
# modificar para o diretorio que cont√©m os dados de teste e treino
%cd /content/drive/MyDrive/MDA/Train\ and\ test\ data\ -\ Proj\ DM/

!ls

## 1. Importa√ß√£o das Bibliotecas

Importa√ß√£o de todas as bibliotecas necess√°rias para prepara√ß√£o dos dados, incluindo bibliotecas espec√≠ficas para pr√©-processamento, feature engineering e balanceamento de classes.

In [None]:
# Bibliotecas essenciais para manipula√ß√£o de dados
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Bibliotecas para pr√©-processamento
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, f_classif, mutual_info_classif

# Bibliotecas para balanceamento de classes
from imblearn.over_sampling import SMOTE, RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler
from imblearn.combine import SMOTETomek

# Configura√ß√µes gerais
warnings.filterwarnings('ignore')
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("Bibliotecas importadas com sucesso")

## 2. Carregamento dos Dados e Insights da EDA

Carregamento dos datasets de treino e teste, seguido da documenta√ß√£o dos principais insights obtidos na an√°lise explorat√≥ria que guiar√£o as decis√µes de prepara√ß√£o.

### 2.1 Carregamento do Dataset

In [3]:
train_df = pd.read_csv('dataset_sepsis_train.csv')

# Separar features e target
X_train = train_df.drop('SepsisLabel', axis=1)
y_train = train_df['SepsisLabel']

# Forma final
print(f"X_train: {X_train.shape} | y_train: {y_train.shape}")

# Distribui√ß√£o das classes no treino
print(y_train.value_counts(normalize=True))

X_train: (1241768, 41) | y_train: (1241768,)
SepsisLabel
0.0    0.982015
1.0    0.017985
Name: proportion, dtype: float64


## 3. TAREFA 1: Sele√ß√£o dos Dados

**Objetivo:** Escolher as vari√°veis mais relevantes para o modelo de minera√ß√£o, removendo features com baixo potencial preditivo ou problemas graves de qualidade.

**Crit√©rios de sele√ß√£o:**
* Relev√¢ncia cl√≠nica para detec√ß√£o de sepsis
* Percentual de missing values aceit√°vel
* Separabilidade entre classes (baseada na EDA)

### 3.1 Mapeamento de Vari√°veis com Excesso de Missing Values para Remo√ß√£o

Vamos refazer a an√°lise, mais objetiva e breve, das vari√°veis com >60% missing values para decidir quais manter, tratar ou remover baseado no crit√©rio de separabilidade de classes

In [4]:

# Identificar vari√°veis com >60% missing
high_missing_vars = []
for col in X_train.select_dtypes(include=[np.number]).columns:
    missing_pct = (X_train[col].isnull().sum() / len(X_train)) * 100
    if missing_pct > 60:
        high_missing_vars.append({
            'variavel': col,
            'missing_pct': missing_pct
        })

# Calcular separabilidade para cada vari√°vel
separability_results = {
    'IMPUTAR_SIMPLES': [],     # Separabilidade > 0.3: Alta discrimina√ß√£o
    'IMPUTAR_AVANCADA': [],    # Separabilidade 0.16 - 0.3: Discrimina√ß√£o moderada  
    'DESCARTAR': []            # Separabilidade < 0.16: Baixa discrimina√ß√£o
}

for var_info in high_missing_vars:
    col = var_info['variavel']
    missing_pct = var_info['missing_pct']
    
    # Criar DataFrame tempor√°rio sem valores faltantes
    temp_df = pd.DataFrame({
        'feature': X_train[col],
        'target': y_train
    }).dropna()

    # Separar por classe
    no_sepsis_data = temp_df[temp_df['target'] == 0]['feature']
    sepsis_data = temp_df[temp_df['target'] == 1]['feature']

    # Calcular separabilidade (diferen√ßa de medianas / desvio padr√£o)
    median_diff = abs(sepsis_data.median() - no_sepsis_data.median())
    pooled_std = no_sepsis_data.std() if no_sepsis_data.std() > 0 else 1
    separability = median_diff / pooled_std
    
    # Classificar baseado na separabilidade
    var_result = {
        'variavel': col,
        'missing_pct': missing_pct,
        'separabilidade': separability,
        'n_amostras': len(temp_df)
    }
    
    if separability > 0.3:
        separability_results['IMPUTAR_SIMPLES'].append(var_result)
    elif separability >= 0.16:
        separability_results['IMPUTAR_AVANCADA'].append(var_result)
    else:
        separability_results['DESCARTAR'].append(var_result)

# Exibir resultados 

for categoria, vars_list in separability_results.items():
    print(f"\n{categoria} ({len(vars_list)} vari√°veis):")
    for var in sorted(vars_list, key=lambda x: x['separabilidade'], reverse=True):
        print(f"  ‚Ä¢ {var['variavel']}: Sep={var['separabilidade']:.3f} | Missing={var['missing_pct']:.1f}% | n={var['n_amostras']:,}")

variables_to_keep = [var['variavel'] for var in separability_results['IMPUTAR_SIMPLES']]
variables_to_treat = [var['variavel'] for var in separability_results['IMPUTAR_AVANCADA']]  
variables_to_discard = [var['variavel'] for var in separability_results['DESCARTAR']]


IMPUTAR_SIMPLES (2 vari√°veis):
  ‚Ä¢ Temp: Sep=0.393 | Missing=66.2% | n=419,945
  ‚Ä¢ BUN: Sep=0.353 | Missing=93.1% | n=85,440

IMPUTAR_AVANCADA (2 vari√°veis):
  ‚Ä¢ Platelets: Sep=0.203 | Missing=94.1% | n=73,790
  ‚Ä¢ WBC: Sep=0.194 | Missing=93.6% | n=79,613

DESCARTAR (24 vari√°veis):
  ‚Ä¢ Hgb: Sep=0.152 | Missing=92.6% | n=91,759
  ‚Ä¢ Creatinine: Sep=0.151 | Missing=93.9% | n=75,809
  ‚Ä¢ pH: Sep=0.135 | Missing=93.1% | n=86,094
  ‚Ä¢ Fibrinogen: Sep=0.134 | Missing=99.3% | n=8,203
  ‚Ä¢ Hct: Sep=0.091 | Missing=91.1% | n=109,980
  ‚Ä¢ PTT: Sep=0.085 | Missing=97.0% | n=36,690
  ‚Ä¢ Calcium: Sep=0.083 | Missing=94.1% | n=73,269
  ‚Ä¢ Bilirubin_total: Sep=0.077 | Missing=98.5% | n=18,518
  ‚Ä¢ Alkalinephos: Sep=0.071 | Missing=98.4% | n=19,954
  ‚Ä¢ Phosphate: Sep=0.070 | Missing=96.0% | n=50,011
  ‚Ä¢ Bilirubin_direct: Sep=0.062 | Missing=99.8% | n=2,393
  ‚Ä¢ Lactate: Sep=0.048 | Missing=97.3% | n=33,238
  ‚Ä¢ Glucose: Sep=0.039 | Missing=82.9% | n=212,578
  ‚Ä¢ AST: Sep=0

### 3.2 An√°lise de Separabilidade Estat√≠stica

Avalia√ß√£o da capacidade discriminativa das vari√°veis que n√£o foram selecionadas para exclus√£o, a fim de confirmar e justificar as decis√µes antes de fazer a remo√ß√£o, usando testes estat√≠sticos e m√©tricas de separa√ß√£o entre classes.

In [5]:
from scipy import stats
from sklearn.metrics import mutual_info_score

X_train_not_discard = X_train.drop(columns=variables_to_discard)
# Separar vari√°veis num√©ricas e categ√≥ricas
categorical_vars = ['Gender', 'Unit1', 'Unit2']  
# Num√©ricas s√£o todas as colunas MENOS as categ√≥ricas
numeric_vars = [col for col in X_train_not_discard.columns if col not in categorical_vars]


# An√°lise para vari√°veis num√©ricas
all_separability_results = []

print(f"\nAN√ÅLISE DE VARI√ÅVEIS NUM√âRICAS:")
print(f"{'Vari√°vel':<15} {'Missing%':<10} {'Separab.':<10} {'p-value_MW':<12} {'Mutual Info':<12} {'N_samples':<10}\n")

for var in numeric_vars:
    missing_pct = (X_train_not_discard[var].isnull().sum() / len(X_train_not_discard)) * 100
    
    # Criar DataFrame tempor√°rio sem valores faltantes
    temp_df = pd.DataFrame({
        'feature': X_train_not_discard[var],
        'target': y_train
    }).dropna()
    
    # Separar por classe
    no_sepsis_data = temp_df[temp_df['target'] == 0]['feature']
    sepsis_data = temp_df[temp_df['target'] == 1]['feature']

    # Calcular separabilidade (diferen√ßa de medianas / desvio padr√£o)
    median_diff = abs(sepsis_data.median() - no_sepsis_data.median())
    pooled_std = np.sqrt(((no_sepsis_data.std()**2 + sepsis_data.std()**2) / 2))
    separability = median_diff / pooled_std if pooled_std > 0 else 0
    
    # Teste U de Mann-Whitney (n√£o-param√©trico)
    try:
        stat, p_value = stats.mannwhitneyu(sepsis_data, no_sepsis_data, alternative='two-sided')
        mann_whitney_pval = p_value
    except:
        mann_whitney_pval = 1.0  # p-value m√°ximo para casos de erro

    # Informa√ß√£o m√∫tua
    try:
        # Discretizar para mutual info (usar quintis)
        temp_df['feature_disc'] = pd.qcut(temp_df['feature'], q=5, labels=False, duplicates='drop')
        mutual_info = mutual_info_score(temp_df['target'], temp_df['feature_disc'])
    except:
        mutual_info = 0
    
    # Armazenar resultados
    result = {
        'variavel': var,
        'missing_pct': missing_pct,
        'separabilidade': separability,
        'mann_whitney': mann_whitney_pval,
        'mutual_info': mutual_info,
        'n_amostras': len(temp_df)
    }
    all_separability_results.append(result)
    
    # Exibir resultado
    print(f"{var:<15} {missing_pct:<10.1f} {separability:<10.3f} {mann_whitney_pval:<12.5f} {mutual_info:<12.7f} {len(temp_df):<10,}")


# An√°lise para vari√°veis categ√≥ricas
print(f"\nAN√ÅLISE DE VARI√ÅVEIS CATEG√ìRICAS:")
print(f"{'Vari√°vel':<15} {'Missing%':<10} {'p-value_Chi2':<12} {'Mutual Info':<12} {'N_samples':<10}\n")

for var in categorical_vars:
    missing_pct = (X_train_not_discard[var].isnull().sum() / len(X_train_not_discard)) * 100
    
    # Criar DataFrame tempor√°rio sem valores faltantes
    temp_df = pd.DataFrame({
        'feature': X_train_not_discard[var],
        'target': y_train
    }).dropna()
    
    # Teste Qui-quadrado
    try:
        contingency_table = pd.crosstab(temp_df['feature'], temp_df['target'])
        chi2, p_value, dof, expected = stats.chi2_contingency(contingency_table)
        chi2_pval = p_value
    except:
        chi2_pval = 1.0  # p-value m√°ximo para casos de erro
    
    # Informa√ß√£o m√∫tua
    try:
        mutual_info = mutual_info_score(temp_df['target'], temp_df['feature'])
    except:
        mutual_info = 0
    
    result = {
        'variavel': var,
        'missing_pct': missing_pct,
        'chi2_sig': chi2_pval,
        'mutual_info': mutual_info,
        'n_amostras': len(temp_df),
        'tipo': 'categorical'
    }
    all_separability_results.append(result)
    
    print(f"{var:<15} {missing_pct:<10.1f} {chi2_pval:<12.5f} {mutual_info:<12.7f} {len(temp_df):<10,}")


# Ranking por separabilidade (vari√°veis num√©ricas)
numeric_results = [r for r in all_separability_results if 'separabilidade' in r]
numeric_results_sorted = sorted(numeric_results, key=lambda x: x['separabilidade'], reverse=True)

print(f"\nSeparabilidades Num√©ricas:")
separabilities = [r['separabilidade'] for r in numeric_results]
print(f"  ‚Ä¢ Vari√°veis com Sep > 0.3: {sum(1 for s in separabilities if s > 0.3)}")
print(f"  ‚Ä¢ Vari√°veis com Sep > 0.16: {sum(1 for s in separabilities if s > 0.16)}")

# An√°lise de signific√¢ncia estat√≠stica
print(f"\nSIGNIFIC√ÇNCIA ESTAT√çSTICA (Num√©ricas):")
sig_001 = sum(1 for r in numeric_results if r['mann_whitney'] < 0.001)
sig_01 = sum(1 for r in numeric_results if 0.001 <= r['mann_whitney'] < 0.01)
sig_05 = sum(1 for r in numeric_results if 0.01 <= r['mann_whitney'] < 0.05)
not_sig = sum(1 for r in numeric_results if r['mann_whitney'] >= 0.05)
print(f"  ‚Ä¢ p < 0.001 (altamente significativo): {sig_001} vari√°veis")
print(f"  ‚Ä¢ 0.001 ‚â§ p < 0.01 (muito significativo): {sig_01} vari√°veis")  
print(f"  ‚Ä¢ 0.01 ‚â§ p < 0.05 (significativo): {sig_05} vari√°veis")
print(f"  ‚Ä¢ p ‚â• 0.05 (n√£o significativo): {not_sig} vari√°veis")

# Salvar resultados para uso posterior
statistical_analysis_results = {
    'numeric_results': numeric_results_sorted,
    'all_results': all_separability_results
}


AN√ÅLISE DE VARI√ÅVEIS NUM√âRICAS:
Vari√°vel        Missing%   Separab.   p-value_MW   Mutual Info  N_samples 

Hour            0.0        0.303      0.00000      0.0038413    1,241,768 
HR              9.9        0.386      0.00000      0.0010304    1,119,123 
O2Sat           13.1       0.000      0.00079      0.0000634    1,079,708 
Temp            66.2       0.326      0.00000      0.0020082    419,945   
SBP             14.6       0.124      0.00000      0.0001972    1,060,857 
MAP             12.4       0.121      0.00000      0.0002270    1,087,236 
DBP             31.3       0.143      0.00000      0.0001955    852,691   
Resp            15.3       0.356      0.00000      0.0010005    1,051,181 
BUN             93.1       0.328      0.00000      0.0018243    85,440    
WBC             93.6       0.166      0.00000      0.0009935    79,613    
Platelets       94.1       0.189      0.00000      0.0007498    73,790    
Age             0.0        0.000      0.43679      0.0000031  

#### Altera√ß√£o Ap√≥s An√°lise 
Percebe-se que ainda √© poss√≠vel remover `Age` do escopo de features visto que n√£o h√° nenhuma m√©trica que aponte essa vari√°vel como algo relevante apesar do que diz a literatura sobre sepsis e o baixo percentual de missing values. Ela possui baixa separabilidade, um Man Whitney n√£o significativo e Mutual Info demonstra zero informa√ß√£o sobre sepse

| Vari√°vel | Missing% | Separabilidade |  p-value_MW | Mutual Info |
|----------|----------|----------------|--------------|-------------| 
| **Age** | 0.0 | 0.000 |  0.4367935 | 0.00000 |


### 3.3 Aplica√ß√£o das Decis√µes de Separabilidade

Implementa√ß√£o pr√°tica da remo√ß√£o de vari√°veis com baixa separabilidade e organiza√ß√£o das listas para tratamento adiante.

In [6]:
# Adicionar Age √†s vari√°veis a descartar 
variables_to_discard.append('Age')

# Remover vari√°veis com baixa separabilidade e alto missing do dataset principal
total_to_remove = len(variables_to_discard)
print(f"Removendo {total_to_remove} vari√°veis com baixa separabilidade...")

X_train_selected = X_train.drop(columns=variables_to_discard)

print("Vari√°veis removidas:")
for var in variables_to_discard:
    missing_pct = (X_train[var].isnull().sum() / len(X_train)) * 100
    if var == 'Age':
        print(f"  ‚Ä¢ {var}: {missing_pct:.1f}% missing (removida por baixa discrimina√ß√£o)")
    else:
        print(f"  ‚Ä¢ {var}: {missing_pct:.1f}% missing")

print(f"\nDimens√µes do dataset:")
print(f"  ‚Ä¢ Original: {X_train.shape}")
print(f"  ‚Ä¢ Ap√≥s sele√ß√£o: {X_train_selected.shape}")

# Organizar vari√°veis por estrat√©gia de tratamento
high_missing_strategy = {
    'imputacao_simples': variables_to_keep,      
    'imputacao_avancada': variables_to_treat,    
    'removidas': variables_to_discard           
}


Removendo 25 vari√°veis com baixa separabilidade...
Vari√°veis removidas:
  ‚Ä¢ EtCO2: 96.3% missing
  ‚Ä¢ BaseExcess: 94.6% missing
  ‚Ä¢ HCO3: 95.8% missing
  ‚Ä¢ FiO2: 91.7% missing
  ‚Ä¢ pH: 93.1% missing
  ‚Ä¢ PaCO2: 94.4% missing
  ‚Ä¢ SaO2: 96.6% missing
  ‚Ä¢ AST: 98.4% missing
  ‚Ä¢ Alkalinephos: 98.4% missing
  ‚Ä¢ Calcium: 94.1% missing
  ‚Ä¢ Chloride: 95.4% missing
  ‚Ä¢ Creatinine: 93.9% missing
  ‚Ä¢ Bilirubin_direct: 99.8% missing
  ‚Ä¢ Glucose: 82.9% missing
  ‚Ä¢ Lactate: 97.3% missing
  ‚Ä¢ Magnesium: 93.7% missing
  ‚Ä¢ Phosphate: 96.0% missing
  ‚Ä¢ Potassium: 90.7% missing
  ‚Ä¢ Bilirubin_total: 98.5% missing
  ‚Ä¢ TroponinI: 99.1% missing
  ‚Ä¢ Hct: 91.1% missing
  ‚Ä¢ Hgb: 92.6% missing
  ‚Ä¢ PTT: 97.0% missing
  ‚Ä¢ Fibrinogen: 99.3% missing
  ‚Ä¢ Age: 0.0% missing (removida por baixa discrimina√ß√£o)

Dimens√µes do dataset:
  ‚Ä¢ Original: (1241768, 41)
  ‚Ä¢ Ap√≥s sele√ß√£o: (1241768, 16)


### 3.4 S√≠ntese das Decis√µes de Sele√ß√£o de Vari√°veis

**Documenta√ß√£o completa das decis√µes tomadas na Tarefa 1 (Sele√ß√£o dos Dados) com respectivas justificativas:**


RESULTADOS FINAIS DA SELE√á√ÉO DE VARI√ÅVEIS

CRIT√âRIOS DE SELE√á√ÉO APLICADOS

1. **Crit√©rio de Missing Values**: Vari√°veis com >60% de valores ausentes analisadas
2. **Crit√©rio de Separabilidade**: Capacidade discriminativa entre classes (limite: 0.16)
3. **Crit√©rio Estat√≠stico**: Signific√¢ncia nos testes Mann-Whitney U e Chi-quadrado

IMPACTO FINAL DAS DECIS√ïES

**Redu√ß√£o Dimensional Efetiva:**
- **Dataset original**: 1,241,768 √ó 41 vari√°veis
- **Dataset final**: 1,241,768 √ó 16 vari√°veis  
- **Redu√ß√£o**: 61% das vari√°veis removidas (25/41)
- **Taxa de compress√£o**: 2.6:1

ESTRAT√âGIAS DE TRATAMENTO DEFINIDAS

**IMPUTA√á√ÉO Cuidadosa** (1 vari√°veis - Separabilidade > 0.3)

**Estrat√©gia**: Imputa√ß√£o com medidas robustas (mediana) + valida√ß√£o cl√≠nica

| Vari√°vel | Missing% | Separabilidade | p-value | Justificativa M√©dica |
|----------|----------|----------------|---------|---------------------|
| **Temp** | 66.2% | 0.326 | < 0.001 | Temperatura corporal: indicador direto de resposta inflamat√≥ria |

**IMPUTA√á√ÉO Espec√≠fica** (3 vari√°veis - Separabilidade 0.16-0.3 ou Separabilidade>0.3 e Missing>90%)  

**Estrat√©gia**: T√©cnicas sofisticadas (KNN, regress√£o) devido √† consider√°vel relev√¢ncia cl√≠nica 

| Vari√°vel | Missing% | Separabilidade | p-value | Justificativa M√©dica |
|----------|----------|----------------|---------|---------------------|
| **BUN** | 93.1% | 0.328 | < 0.001 | Fun√ß√£o renal: biomarcador de disfun√ß√£o org√¢nica na sepsis |
| **Platelets** | 94.1% | 0.189 | < 0.001 | Coagula√ß√£o: trombocitopenia marca disfun√ß√£o hemost√°tica |
| **WBC** | 93.6% | 0.166 | < 0.001 | Sistema imune: resposta leucocit√°ria √† infec√ß√£o |

**REMOVIDAS** (25 vari√°veis - Separabilidade < 0.16)

**Crit√©rio duplo**: Baixa discrimina√ß√£o + Alto missing (>60%)

**Destaques das remo√ß√µes:**
- **Age**: 0.0% missing, Sep: 0.000, p-value: 0.437 (√∫nica exce√ß√£o por baixa discrimina√ß√£o)
- **24 vari√°veis** com >80% missing + separabilidade < 0.16
- **Maior redu√ß√£o**: TroponinI (99.1% missing), Bilirubin_direct (99.8% missing)

VALIDA√á√ÉO ESTAT√çSTICA FINAL

**Testes Aplicados:**
- **Mann-Whitney U**: Para vari√°veis num√©ricas (n√£o-param√©trico)
- **Qui-quadrado**: Para vari√°veis categ√≥ricas
- **Informa√ß√£o M√∫tua**: Medida de depend√™ncia entre vari√°veis

**Signific√¢ncia dos Testes:**
- **Vari√°veis num√©ricas significativas**: 13/14 (p < 0.05)
- **Vari√°veis categ√≥ricas significativas**: 3/3 (p < 0.001)  
- **Taxa de signific√¢ncia geral**: 94.1% (16/17 vari√°veis)

**Estrat√©gias de Tratamento Definidas:**
- **Imputa√ß√£o cuidadosa**: 2 vari√°veis de alta relev√¢ncia
- **Imputa√ß√£o espec√≠fica**: 6 vari√°veis de relev√¢ncia moderada
- **Manuten√ß√£o**: 13 vari√°veis com baixo missing

## 4. TAREFA 2: Limpeza dos Dados

**Objetivo:** Corrigir ou remover dados inconsistentes, duplicados ou ausentes atrav√©s de estrat√©gias espec√≠ficas para cada tipo de vari√°vel.

**Estrat√©gias por tipo de missing:**
* Missing < 20%: Imputa√ß√£o simples (mediana/moda)
* Missing >= 20%: Imputa√ß√£o baseada em modelos

### 4.1 Detec√ß√£o e Remo√ß√£o de Duplicatas

Identifica√ß√£o de registros duplicados exatos e tratamento adequado considerando a natureza temporal dos dados.

In [16]:
# Verificar duplicatas no dataset selecionado
print("DETEC√á√ÉO DE DUPLICATAS:")
print(f"Dataset atual: {X_train_selected.shape}")

# Verificar duplicatas exatas (todas as colunas)
duplicatas_exatas = X_train_selected.duplicated().sum()
print(f"Duplicatas exatas encontradas: {duplicatas_exatas:,}")

print(f"Remover {duplicatas_exatas:,} duplicatas exatas")
X_train_cleaned = X_train_selected.drop_duplicates()
y_train_cleaned = y_train.loc[X_train_cleaned.index]
print(f"Dataset ap√≥s remo√ß√£o: {X_train_cleaned.shape}")

# Verificar propor√ß√£o das classes ap√≥s remo√ß√£o de duplicatas
print(f"\nPROPOR√á√ÉO DAS CLASSES AP√ìS REMO√á√ÉO:")
print("Antes da remo√ß√£o de duplicatas:")
original_counts = y_train.value_counts()
original_props = y_train.value_counts(normalize=True)
print(f"  ‚Ä¢ SepsisLabel = 0: {original_counts[0]:,} ({original_props[0]:.4f})")
print(f"  ‚Ä¢ SepsisLabel = 1: {original_counts[1]:,} ({original_props[1]:.4f})")

print("Ap√≥s remo√ß√£o de duplicatas:")
cleaned_counts = y_train_cleaned.value_counts()
cleaned_props = y_train_cleaned.value_counts(normalize=True)
print(f"  ‚Ä¢ SepsisLabel = 0: {cleaned_counts[0]:,} ({cleaned_props[0]:.4f})")
print(f"  ‚Ä¢ SepsisLabel = 1: {cleaned_counts[1]:,} ({cleaned_props[1]:.4f})")

# Calcular impacto na propor√ß√£o
prop_change_0 = cleaned_props[0] - original_props[0]
prop_change_1 = cleaned_props[1] - original_props[1]
print(f"\nIMPACTO NA PROPOR√á√ÉO:")
print(f"  ‚Ä¢ Mudan√ßa SepsisLabel = 0: {prop_change_0:+.4f}")
print(f"  ‚Ä¢ Mudan√ßa SepsisLabel = 1: {prop_change_1:+.4f}")

print(f"Dataset limpo final: {X_train_cleaned.shape}")

DETEC√á√ÉO DE DUPLICATAS:
Dataset atual: (1241768, 16)
Duplicatas exatas encontradas: 32,571
Remover 32,571 duplicatas exatas
Duplicatas exatas encontradas: 32,571
Remover 32,571 duplicatas exatas
Dataset ap√≥s remo√ß√£o: (1209197, 16)

PROPOR√á√ÉO DAS CLASSES AP√ìS REMO√á√ÉO:
Antes da remo√ß√£o de duplicatas:
  ‚Ä¢ SepsisLabel = 0: 1,219,435 (0.9820)
  ‚Ä¢ SepsisLabel = 1: 22,333 (0.0180)
Ap√≥s remo√ß√£o de duplicatas:
  ‚Ä¢ SepsisLabel = 0: 1,187,303 (0.9819)
  ‚Ä¢ SepsisLabel = 1: 21,894 (0.0181)

IMPACTO NA PROPOR√á√ÉO:
  ‚Ä¢ Mudan√ßa SepsisLabel = 0: -0.0001
  ‚Ä¢ Mudan√ßa SepsisLabel = 1: +0.0001
Dataset limpo final: (1209197, 16)
Dataset ap√≥s remo√ß√£o: (1209197, 16)

PROPOR√á√ÉO DAS CLASSES AP√ìS REMO√á√ÉO:
Antes da remo√ß√£o de duplicatas:
  ‚Ä¢ SepsisLabel = 0: 1,219,435 (0.9820)
  ‚Ä¢ SepsisLabel = 1: 22,333 (0.0180)
Ap√≥s remo√ß√£o de duplicatas:
  ‚Ä¢ SepsisLabel = 0: 1,187,303 (0.9819)
  ‚Ä¢ SepsisLabel = 1: 21,894 (0.0181)

IMPACTO NA PROPOR√á√ÉO:
  ‚Ä¢ Mudan√ßa SepsisL

### 4.2 Tratamento e An√°lise de Outliers

A ideia √© tentar preservar os outliers visto que eles se demonstraram relevantes para a identifica√ß√£o de inst√¢ncias com SepsisLabel=1 na An√°lise Explorat√≥ria.
Vamos apenas deixar algumas vari√°veis mais gen√©ricas e conhecidas mais consistentes e fazer uma an√°lise geral.

In [8]:
# Tratamento de outliers para vari√°veis num√©ricas
from scipy import stats

print("DETEC√á√ÉO E TRATAMENTO DE OUTLIERS:\n")

# Separar vari√°veis num√©ricas do dataset limpo
numeric_cols = X_train_cleaned.select_dtypes(include=[np.number]).columns.tolist()
print(f"Vari√°veis num√©ricas para an√°lise: {len(numeric_cols)}")

# Definir limites um pouco mais realistas para algumas vari√°veis 
# Considerando registros de outros casos extremos e do pr√≥prio dataset
# Prop√≥sito de deixar os dados mais consistentes
clinical_limits = {
    'HR': (20, 250),           # Batimentos card√≠acos: 20-250 bpm
    'Temp': (28, 42),          # Temperatura: 28-42¬∞C
    'Hour': (0, 336),          # Horas na UTI: 1-336h (14 dias)
    'ICULOS': (0, 336),        # Tempo UTI: 1-336h
    'HospAdmTime': (0, 24),   # Tempo hospital: 0 a 24h
}

outliers_summary = {}
X_train_outliers_treated = X_train_cleaned.copy()

for col in numeric_cols:
    data = X_train_outliers_treated[col].dropna()
        
    # Cap do Range (quando aplic√°vel)
    clinical_outliers = 0
    if col in clinical_limits:
        min_val, max_val = clinical_limits[col]
        clinical_mask = (data < min_val) | (data > max_val)
        clinical_outliers = clinical_mask.sum()
        
        # Aplicar capping
        X_train_outliers_treated.loc[X_train_outliers_treated[col] < min_val, col] = min_val
        X_train_outliers_treated.loc[X_train_outliers_treated[col] > max_val, col] = max_val
    
    # An√°lise do IQR
    Q1 = data.quantile(0.25)
    Q3 = data.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    iqr_outliers = ((data < lower_bound) | (data > upper_bound)).sum()
    
    # An√°lise do Z-score (outliers > 3 desvios padr√£o)
    z_scores = np.abs(stats.zscore(data))
    zscore_outliers = (z_scores > 3).sum()
    
    outliers_summary[col] = {
        'clinical': clinical_outliers,
        'iqr': iqr_outliers,
        'zscore': zscore_outliers,
        'total_values': len(data),
        'range_original': (data.min(), data.max()),
        'range_treated': (X_train_outliers_treated[col].min(), X_train_outliers_treated[col].max())
    }

# Exibir resumo dos outliers
print(f"\nRESUMO DE OUTLIERS DETECTADOS:")
print(f"{'Vari√°vel':<12} {'Cl√≠nicos':<9} {'IQR':<8} {'Z-score':<8} {'N_total':<8} {'Range Original':<20} {'Range Tratado':<20}")
print("-" * 100)

for col, summary in outliers_summary.items():
    clinical = summary['clinical']
    iqr = summary['iqr'] 
    zscore = summary['zscore']
    total = summary['total_values']
    range_orig = f"{summary['range_original'][0]:.2f}-{summary['range_original'][1]:.2f}"
    range_treat = f"{summary['range_treated'][0]:.2f}-{summary['range_treated'][1]:.2f}"

    print(f"{col:<12} {clinical:<9,} {iqr:<8,} {zscore:<8,} {total:<8,} {range_orig:<20} {range_treat:<20}")

# Estat√≠sticas finais
total_clinical_corrections = sum(summary['clinical'] for summary in outliers_summary.values())
print(f"\nTotal de Caps Aplicados: {total_clinical_corrections:,}")

DETEC√á√ÉO E TRATAMENTO DE OUTLIERS:

Vari√°veis num√©ricas para an√°lise: 16

RESUMO DE OUTLIERS DETECTADOS:
Vari√°vel     Cl√≠nicos  IQR      Z-score  N_total  Range Original       Range Tratado       
----------------------------------------------------------------------------------------------------
Hour         0         54,951   27,883   1,209,197 0.00-335.00          0.00-335.00         
HR           2         11,203   5,502    1,119,122 20.00-280.00         20.00-250.00        
O2Sat        0         19,905   8,912    1,079,707 20.00-100.00         20.00-100.00        
Temp         11        5,223    3,392    419,945  23.00-50.00          28.00-42.00         
SBP          0         12,748   6,046    1,060,857 20.00-300.00         20.00-300.00        
MAP          0         17,543   8,057    1,087,236 20.00-300.00         20.00-300.00        
DBP          0         13,033   6,560    852,691  20.00-300.00         20.00-300.00        
Resp         0         22,208   10,343   1,051

### 4.3 Estrat√©gias de Imputa√ß√£o

Implementa√ß√£o de diferentes t√©cnicas de imputa√ß√£o baseadas no tipo de vari√°vel e percentual de missing values.

**OBSERVA√á√ÉO:**
As se√ß√µes `4.3.1` e `4.3.2` precisam ser executadas em ordem e s√£o necess√°rias para que as demais se√ß√µes funcionem. Por√©m `4.3.3`, `4.3.4`, `4.3.5` podem ser executadas em qualquer ordem ap√≥s executar `4.3.1` e `4.3.2`

#### 4.3.1 Imputa√ß√£o para Vari√°veis com Baixo Missing (<20%)

Aplica√ß√£o de imputa√ß√£o simples usando medidas centrais apropriadas para cada tipo de vari√°vel.

In [9]:
# Imputa√ß√£o simples para vari√°veis com baixo missing (<20%)
from sklearn.impute import SimpleImputer


X_train_simple_imputed = X_train_outliers_treated.copy()

# Identificar vari√°veis com baixo missing (<20%)
low_missing_vars = []
missing_info = {}

for col in X_train_simple_imputed.columns:
    missing_pct = (X_train_simple_imputed[col].isnull().sum() / len(X_train_simple_imputed)) * 100
    missing_info[col] = missing_pct
    
    if missing_pct < 20 and missing_pct > 0:
        low_missing_vars.append(col)


print(f"\nVari√°veis para imputa√ß√£o simples:")
for var in low_missing_vars:
    missing_count = X_train_simple_imputed[var].isnull().sum()
    missing_pct = missing_info[var]
    print(f"  ‚Ä¢ {var}: {missing_count:,} valores ({missing_pct:.1f}%)")


numeric_imputer = SimpleImputer(strategy='median')
X_train_simple_imputed[low_missing_vars] = numeric_imputer.fit_transform(
    X_train_simple_imputed[low_missing_vars]
)


# Verificar se imputa√ß√£o foi bem-sucedida
print(f"\nVERIFICA√á√ÉO P√ìS-IMPUTA√á√ÉO:")
for var in low_missing_vars:
    remaining_missing = X_train_simple_imputed[var].isnull().sum()
    print(f"  ‚Ä¢ {var}: {remaining_missing} valores missing restantes")

total_imputed = sum(missing_info[var] * len(X_train_simple_imputed) / 100 for var in low_missing_vars)
print(f"\nTotal de valores imputados (simples): {total_imputed:,.0f}")

# Resumo do missing restante
remaining_missing = X_train_simple_imputed.isnull().sum().sum()
total_values = X_train_simple_imputed.size
missing_pct_remaining = (remaining_missing / total_values) * 100

print(f"Missing values restantes: {remaining_missing:,} ({missing_pct_remaining:.2f}%)")



Vari√°veis para imputa√ß√£o simples:
  ‚Ä¢ HR: 90,075 valores (7.4%)
  ‚Ä¢ O2Sat: 129,490 valores (10.7%)
  ‚Ä¢ SBP: 148,340 valores (12.3%)
  ‚Ä¢ MAP: 121,961 valores (10.1%)
  ‚Ä¢ Resp: 158,019 valores (13.1%)
  ‚Ä¢ HospAdmTime: 6 valores (0.0%)

VERIFICA√á√ÉO P√ìS-IMPUTA√á√ÉO:
  ‚Ä¢ HR: 0 valores missing restantes
  ‚Ä¢ O2Sat: 0 valores missing restantes
  ‚Ä¢ SBP: 0 valores missing restantes
  ‚Ä¢ MAP: 0 valores missing restantes
  ‚Ä¢ Resp: 0 valores missing restantes
  ‚Ä¢ HospAdmTime: 0 valores missing restantes

Total de valores imputados (simples): 647,891
Missing values restantes: 5,478,673 (28.32%)


#### 4.3.2 Separando as Demais Vari√°veis para Imputa√ß√£o Avan√ßada 

Para uso de t√©cnicas mais sofisticadas como KNN Imputer ou imputa√ß√£o baseada em modelos para vari√°veis clinicamente importantes, vamos antes definir as vari√°veis que ainda possuem valores faltantes

In [10]:

X_train_advanced_imputed = X_train_simple_imputed.copy()

# ESTRAT√âGIA DIN√ÇMICA BASEADA EM MISSING ATUAL
print(f"\nAN√ÅLISE DIN√ÇMICA DE MISSING VALUES:")
print(f"="*50)

# Identificar todas as vari√°veis com missing
vars_with_missing = []
for col in X_train_advanced_imputed.columns:
    missing_count = X_train_advanced_imputed[col].isnull().sum()
    missing_pct = (missing_count / len(X_train_advanced_imputed)) * 100
    
    if missing_count > 0:
        vars_with_missing.append({
            'variavel': col,
            'missing_count': missing_count,
            'missing_pct': missing_pct,
            'tipo': 'categorical' if X_train_advanced_imputed[col].dtype in ['object', 'category'] else 'numeric'
        })

# Separar por estrat√©gia baseada em 40% de missing e tipo de vari√°vel
logistic_regression_vars = []  # Unit1, Unit2: Regress√£o Log√≠stica (categ√≥ricas)
linear_regression_vars = []    # < 40% missing: Regress√£o Linear simples (num√©ricas)
hybrid_strategy_vars = []      # >= 40% missing: Estrat√©gia H√≠brida KNN + Regress√£o

print(f"\nCLASSIFICA√á√ÉO POR ESTRAT√âGIA DE IMPUTA√á√ÉO:")
print(f"Crit√©rio: Unit1/Unit2 = Regress√£o Log√≠stica | <40% = Regress√£o Linear | ‚â•40% = H√≠brida")
print(f"-" * 85)

for var_info in sorted(vars_with_missing, key=lambda x: x['missing_pct']):
    var = var_info['variavel']
    missing_pct = var_info['missing_pct']
    missing_count = var_info['missing_count']
    
    print(f"{var:<15} {missing_pct:<8.1f}% ({missing_count:>8,} valores)")
    
    # Separar Unit1 e Unit2 para regress√£o log√≠stica
    if var in ['Unit1', 'Unit2']:
        logistic_regression_vars.append(var)
    elif missing_pct < 40:
        linear_regression_vars.append(var)
    else:
        hybrid_strategy_vars.append(var)

print(f"\nRESUMO DAS ESTRAT√âGIAS:")
print(f"  ‚Ä¢ Regress√£o Log√≠stica (categ√≥ricas Unit1/Unit2): {len(logistic_regression_vars)} vari√°veis")
print(f"  ‚Ä¢ Regress√£o Linear Simples (<40% missing num√©ricas): {len(linear_regression_vars)} vari√°veis")
print(f"  ‚Ä¢ Estrat√©gia H√≠brida (‚â•40% missing num√©ricas): {len(hybrid_strategy_vars)} vari√°veis")

print(f"\nVari√°veis para Regress√£o Log√≠stica: {logistic_regression_vars}")
print(f"Vari√°veis para Regress√£o Linear: {linear_regression_vars}")
print(f"Vari√°veis para Estrat√©gia H√≠brida: {hybrid_strategy_vars}")

# Selecionar vari√°veis preditoras (sem missing ou baixo missing)
all_vars_to_impute = logistic_regression_vars + linear_regression_vars + hybrid_strategy_vars
predictor_vars = []
for col in X_train_advanced_imputed.select_dtypes(include=[np.number]).columns:
    missing_pct = (X_train_advanced_imputed[col].isnull().sum() / len(X_train_advanced_imputed)) * 100
    if missing_pct == 0 or (missing_pct < 20 and col not in all_vars_to_impute):
        predictor_vars.append(col)

print(f"\nVari√°veis preditoras selecionadas: {predictor_vars}")




AN√ÅLISE DIN√ÇMICA DE MISSING VALUES:

CLASSIFICA√á√ÉO POR ESTRAT√âGIA DE IMPUTA√á√ÉO:
Crit√©rio: Unit1/Unit2 = Regress√£o Log√≠stica | <40% = Regress√£o Linear | ‚â•40% = H√≠brida
-------------------------------------------------------------------------------------
DBP             29.5    % ( 356,506 valores)
Unit1           39.0    % ( 472,083 valores)
Unit2           39.0    % ( 472,083 valores)
Temp            65.3    % ( 789,252 valores)
BUN             92.9    % (1,123,758 valores)
WBC             93.4    % (1,129,584 valores)
Platelets       93.9    % (1,135,407 valores)

RESUMO DAS ESTRAT√âGIAS:
  ‚Ä¢ Regress√£o Log√≠stica (categ√≥ricas Unit1/Unit2): 2 vari√°veis
  ‚Ä¢ Regress√£o Linear Simples (<40% missing num√©ricas): 1 vari√°veis
  ‚Ä¢ Estrat√©gia H√≠brida (‚â•40% missing num√©ricas): 4 vari√°veis

Vari√°veis para Regress√£o Log√≠stica: ['Unit1', 'Unit2']
Vari√°veis para Regress√£o Linear: ['DBP']
Vari√°veis para Estrat√©gia H√≠brida: ['Temp', 'BUN', 'WBC', 'Platelets']

V

#### 4.3.3 Regress√£o Log√≠stica para Categ√≥ricas

Aqui aplicaremos o modelo de regress√£o logistica para imputa√ß√£o de Unit1 e Unit2. Mantendo a coer√™ncia do Dataset onde √© mandat√≥rio que Unit1 + Unit2 = 1 para todas as inst√¢ncias (Paciente s√≥ pode ir para um dos tipos de UTI) 

In [11]:
# =============================================================================
# ETAPA 1: REGRESS√ÉO LOG√çSTICA PARA VARI√ÅVEIS CATEG√ìRICAS (Unit1, Unit2)
# =============================================================================

from sklearn.linear_model import LogisticRegression

# Identificar valores missing
unit1_missing_mask = X_train_advanced_imputed['Unit1'].isnull()
unit2_missing_mask = X_train_advanced_imputed['Unit2'].isnull()
both_missing_mask = unit1_missing_mask & unit2_missing_mask

unit1_missing_count = unit1_missing_mask.sum()
unit2_missing_count = unit2_missing_mask.sum()
both_missing_count = both_missing_mask.sum()

print(f"Unit1 missing: {unit1_missing_count:,} valores")
print(f"Unit2 missing: {unit2_missing_count:,} valores") 
print(f"Ambas missing: {both_missing_count:,} valores")

print(f"\nETAPA 1: Regress√£o Log√≠stica para Unit1")

# Preparar dados para treino (onde Unit1 n√£o √© missing)
complete_mask = ~X_train_advanced_imputed['Unit1'].isnull()
training_size = min(100000, complete_mask.sum())

training_indices = np.random.choice(
    X_train_advanced_imputed[complete_mask].index,
    size=training_size,
    replace=False
)

# Features num√©ricas para predi√ß√£o (excluir Unit1/Unit2)
numeric_predictors = [col for col in predictor_vars if col not in logistic_regression_vars]

# Treinar modelo log√≠stico para Unit1
X_features = X_train_advanced_imputed.loc[training_indices, numeric_predictors]
y_target = X_train_advanced_imputed.loc[training_indices, 'Unit1']

logistic_model = LogisticRegression(random_state=42, max_iter=1000)
logistic_model.fit(X_features, y_target)

# Prever Unit1 para registros missing
X_missing_features = X_train_advanced_imputed.loc[both_missing_mask, numeric_predictors]
predicted_unit1_proba = logistic_model.predict_proba(X_missing_features)[:, 1]
predicted_unit1 = (predicted_unit1_proba > 0.5).astype(int)

print(f"ETAPA 2: Unit2 como complemento de Unit1")
# Unit2 como complemento l√≥gico de Unit1
predicted_unit2 = 1 - predicted_unit1

# Aplicar imputa√ß√µes
X_train_advanced_imputed.loc[both_missing_mask, 'Unit1'] = predicted_unit1
X_train_advanced_imputed.loc[both_missing_mask, 'Unit2'] = predicted_unit2

print(f"Unit1 imputado: {both_missing_count:,} valores")
print(f"Unit2 imputado: {both_missing_count:,} valores (complemento)")

# Estat√≠sticas da imputa√ß√£o
unit1_0_count = (predicted_unit1 == 0).sum()
unit1_1_count = (predicted_unit1 == 1).sum()
print(f"Distribui√ß√£o Unit1 imputada: 0={unit1_0_count:,} | 1={unit1_1_count:,}")
print(f"Distribui√ß√£o Unit2 imputada: 0={unit1_1_count:,} | 1={unit1_0_count:,}")

# Verificar rela√ß√£o complementar
unit1_final = X_train_advanced_imputed.loc[both_missing_mask, 'Unit1']
unit2_final = X_train_advanced_imputed.loc[both_missing_mask, 'Unit2']
sum_check = (unit1_final + unit2_final == 1).all()
print(f"Verifica√ß√£o Unit1 + Unit2 = 1: {'‚úì V√ÅLIDA' if sum_check else '‚úó INV√ÅLIDA'}")
    
# Verifica√ß√£o p√≥s-imputa√ß√£o log√≠stica
print(f"\nVERIFICA√á√ÉO P√ìS-IMPUTA√á√ÉO LOG√çSTICA:")
for var in logistic_regression_vars:
    if var in X_train_advanced_imputed.columns:
        remaining_missing = X_train_advanced_imputed[var].isnull().sum()
        print(f"  ‚Ä¢ {var}: {remaining_missing} valores missing restantes")
        
        # Distribui√ß√£o final
        if remaining_missing == 0:
            value_counts = X_train_advanced_imputed[var].value_counts().sort_index()
            print(f"    Distribui√ß√£o final: {dict(value_counts)}")

Unit1 missing: 472,083 valores
Unit2 missing: 472,083 valores
Ambas missing: 472,083 valores

ETAPA 1: Regress√£o Log√≠stica para Unit1
ETAPA 2: Unit2 como complemento de Unit1
Unit1 imputado: 472,083 valores
Unit2 imputado: 472,083 valores (complemento)
Distribui√ß√£o Unit1 imputada: 0=171,657 | 1=300,426
Distribui√ß√£o Unit2 imputada: 0=300,426 | 1=171,657
Verifica√ß√£o Unit1 + Unit2 = 1: ‚úì V√ÅLIDA

VERIFICA√á√ÉO P√ìS-IMPUTA√á√ÉO LOG√çSTICA:
  ‚Ä¢ Unit1: 0 valores missing restantes
    Distribui√ß√£o final: {0.0: np.int64(546415), 1.0: np.int64(662782)}
  ‚Ä¢ Unit2: 0 valores missing restantes
    Distribui√ß√£o final: {0.0: np.int64(662782), 1.0: np.int64(546415)}


#### 4.3.4 Regress√£o Linear para <40% de Missing
Aplicar regress√£o linear para vari√°veis num√©ricas com <40% de missing (DBP)

In [12]:
# =============================================================================
# ETAPA 2: REGRESS√ÉO LINEAR SIMPLES (< 40% missing)
# =============================================================================

from sklearn.linear_model import LinearRegression

print(f"ETAPA 2: REGRESS√ÉO LINEAR SIMPLES (< 40% missing)\n")

for target_var in linear_regression_vars:
    print(f"\n---------- IMPUTANDO {target_var} (Regress√£o Simples) ----------")
    
    # Identificar valores missing
    missing_mask = X_train_advanced_imputed[target_var].isnull()
    total_missing = missing_mask.sum()
    missing_pct = (total_missing / len(X_train_advanced_imputed)) * 100
    print(f"Missing: {total_missing:,} valores ({missing_pct:.1f}%)")

    # Preparar dados para regress√£o
    complete_mask = ~X_train_advanced_imputed[target_var].isnull()
    training_size = min(100000, complete_mask.sum())  # At√© 100k para treino
    
    training_indices = np.random.choice(
        X_train_advanced_imputed[complete_mask].index,
        size=training_size,
        replace=False
    )
    
    # Features e target para treino
    X_features = X_train_advanced_imputed.loc[training_indices, predictor_vars]
    y_target = X_train_advanced_imputed.loc[training_indices, target_var]
    
    # Treinar modelo de regress√£o
    reg_model = LinearRegression()
    reg_model.fit(X_features, y_target)
    
    # Prever todos os valores missing
    X_missing_features = X_train_advanced_imputed.loc[missing_mask, predictor_vars]
    predicted_values = reg_model.predict(X_missing_features)
    
    # Aplicar imputa√ß√£o
    X_train_advanced_imputed.loc[missing_mask, target_var] = predicted_values
    
    # Verificar resultado
    final_missing = X_train_advanced_imputed[target_var].isnull().sum()
    print(f"Regress√£o aplicada: {total_missing:,} valores imputados")
    print(f"Valores restantes missing: {final_missing}")
    print(f"Range imputado: [{predicted_values.min():.2f}, {predicted_values.max():.2f}]")


ETAPA 2: REGRESS√ÉO LINEAR SIMPLES (< 40% missing)


---------- IMPUTANDO DBP (Regress√£o Simples) ----------
Missing: 356,506 valores (29.5%)
Regress√£o aplicada: 356,506 valores imputados
Valores restantes missing: 0
Range imputado: [2.68, 260.61]


#### 4.3.5 KNNImputer + Regress√£o Linear para >=40% de Missing
Aplica√ß√£o do KNNImputer com 3 vizinhos para amostra de ~5% dos valores da coluna e Regress√£o Linear para os outros ~95%.

Esse c√≥digo abaixo demora em torno de 5-6min para executar. Tomar ci√™ncia disso antes rodar a c√©lula de c√≥digo abaixo 

In [13]:
# =============================================================================
# ETAPA 3: ESTRAT√âGIA H√çBRIDA (‚â• 40% missing)  
# =============================================================================

# Imputa√ß√£o avan√ßada h√≠brida: KNN + Regress√£o Linear
from sklearn.impute import KNNImputer

# Implementar estrat√©gia h√≠brida para cada vari√°vel
for target_var in hybrid_strategy_vars:
    print(f"\n========== IMPUTANDO {target_var} ==========")
    
    # Identificar valores missing
    missing_mask = X_train_advanced_imputed[target_var].isnull()
    total_missing = missing_mask.sum()
    print(f"Total de valores missing: {total_missing:,}")
    
    # ETAPA 1: Imputa√ß√£o com KNN (5% dos missing values - otimizado)
    knn_sample_size = min(50000, int(total_missing * 0.05))  # M√°ximo 50k valores
    print(f"\nETAPA 1 - KNN Imputer ({knn_sample_size:,} valores - 5%)")
    
    # Selecionar amostra aleat√≥ria dos √≠ndices missing para KNN
    missing_indices = X_train_advanced_imputed[missing_mask].index
    knn_indices = np.random.choice(missing_indices, size=knn_sample_size, replace=False)
    
    # Preparar subset para KNN (incluir valores n√£o-missing para treino)
    mask_not_missing = ~X_train_advanced_imputed[target_var].isnull()
    knn_training_size = min(10000, mask_not_missing.sum())  # Reduzir para 10k treino
    training_indices = np.random.choice(
        X_train_advanced_imputed[mask_not_missing].index, 
        size=knn_training_size, 
        replace=False
    )
    
    # Combinar √≠ndices para KNN: treino + amostra para imputa√ß√£o
    knn_all_indices = np.concatenate([training_indices, knn_indices])
    knn_subset = X_train_advanced_imputed.loc[knn_all_indices, predictor_vars + [target_var]].copy()
    
    # Aplicar KNN apenas no subset
    knn_imputer = KNNImputer(n_neighbors=3, weights='uniform')
    knn_imputed = knn_imputer.fit_transform(knn_subset)
    
    # Extrair valores imputados para a vari√°vel alvo
    target_col_idx = list(knn_subset.columns).index(target_var)
    knn_imputed_values = knn_imputed[-knn_sample_size:, target_col_idx]
    
    # Atualizar valores no dataset
    X_train_advanced_imputed.loc[knn_indices, target_var] = knn_imputed_values
    print(f"  KNN aplicado com sucesso: {knn_sample_size:,} valores")
    
    # ETAPA 2: Imputa√ß√£o com Regress√£o Linear (95% restante)
    remaining_missing_mask = X_train_advanced_imputed[target_var].isnull()
    remaining_missing_count = remaining_missing_mask.sum()
    print(f"\nETAPA 2 - Regress√£o Linear ({remaining_missing_count:,} valores - 95%)")
    
    # Preparar dados para regress√£o (usar todos os dados completos)
    complete_mask = ~X_train_advanced_imputed[target_var].isnull()
    reg_training_size = min(50000, complete_mask.sum())
    
    reg_training_indices = np.random.choice(
        X_train_advanced_imputed[complete_mask].index,
        size=reg_training_size,
        replace=False
    )
    
    # Features e target para treino
    X_features = X_train_advanced_imputed.loc[reg_training_indices, predictor_vars]
    y_target = X_train_advanced_imputed.loc[reg_training_indices, target_var]
    
    # Treinar modelo de regress√£o
    reg_model = LinearRegression()
    reg_model.fit(X_features, y_target)
    
    # Prever valores restantes
    X_missing_features = X_train_advanced_imputed.loc[remaining_missing_mask, predictor_vars]
    predicted_values = reg_model.predict(X_missing_features)
    
    X_train_advanced_imputed.loc[remaining_missing_mask, target_var] = predicted_values
    print(f"  Regress√£o aplicada com sucesso: {remaining_missing_count:,} valores")
            
    
    # Verificar se imputa√ß√£o foi completa
    final_missing = X_train_advanced_imputed[target_var].isnull().sum()
    print(f"  Valores missing restantes: {final_missing}")
    print(f"  Imputa√ß√£o h√≠brida completa para {target_var}!")

print("Imputa√ß√£o Conclu√≠da!")


Total de valores missing: 789,252

ETAPA 1 - KNN Imputer (39,462 valores - 5%)
  KNN aplicado com sucesso: 39,462 valores

ETAPA 2 - Regress√£o Linear (749,790 valores - 95%)
  Regress√£o aplicada com sucesso: 749,790 valores
  Valores missing restantes: 0
  Imputa√ß√£o h√≠brida completa para Temp!

Total de valores missing: 1,123,758

ETAPA 1 - KNN Imputer (50,000 valores - 5%)
  KNN aplicado com sucesso: 50,000 valores

ETAPA 2 - Regress√£o Linear (1,073,758 valores - 95%)
  Regress√£o aplicada com sucesso: 1,073,758 valores
  Valores missing restantes: 0
  Imputa√ß√£o h√≠brida completa para BUN!

Total de valores missing: 1,129,584

ETAPA 1 - KNN Imputer (50,000 valores - 5%)
  KNN aplicado com sucesso: 50,000 valores

ETAPA 2 - Regress√£o Linear (1,085,407 valores - 95%)
  Regress√£o aplicada com sucesso: 1,085,407 valores
  Valores missing restantes: 0
  Imputa√ß√£o h√≠brida completa para Platelets!
Imputa√ß√£o Conclu√≠da!


#### 4.3.6 Aplicando os Limites P√≥s-Imputa√ß√£o com 2 modelos

Definimos o range de valores segundo a an√°lise feita na se√ß√£o 4.2 para n√£o permitir que nenhum outlier imputado ultrapasse o intervalo observado

In [18]:
# =============================================================================
# APLICA√á√ÉO DE CAPS
# =============================================================================

print(f"\n" + "="*60)
print(f"APLICA√á√ÉO DE CAPS P√ìS-IMPUTA√á√ÉO")
print(f"="*60)

# Definir ranges tratados do outliers_summary (Se√ß√£o 4.2)
caps_ranges = {
    'Temp': {'min': 28.00, 'max': 42.00},
    'BUN': {'min': 1.00, 'max': 268.00},
    'WBC': {'min': 0.10, 'max': 440.00},
    'Platelets': {'min': 2.00, 'max': 2322.00},
    'DBP': {'min': 20.00, 'max': 300.00}
}

# Aplicar caps nas vari√°veis imputadas
total_caps_applied = 0

for var in caps_ranges.keys():
    if var in X_train_advanced_imputed.columns:
        min_cap = caps_ranges[var]['min']
        max_cap = caps_ranges[var]['max']
        
        # Contabilizar valores fora dos limites antes da corre√ß√£o
        below_min = (X_train_advanced_imputed[var] < min_cap).sum()
        above_max = (X_train_advanced_imputed[var] > max_cap).sum()
        total_corrections = below_min + above_max
        
        if total_corrections > 0:
            print(f"  ‚Ä¢ {var}: {below_min:,} valores < {min_cap}, {above_max:,} valores > {max_cap}")
            
            # Aplicar caps
            X_train_advanced_imputed[var] = X_train_advanced_imputed[var].clip(
                lower=min_cap, 
                upper=max_cap
            )
            
            total_caps_applied += total_corrections
        else:
            print(f"  ‚Ä¢ {var}: Nenhuma corre√ß√£o necess√°ria")

print(f"\nTotal de caps aplicados: {total_caps_applied:,}")

# Verificar ranges ap√≥s caps
print(f"\nRANGES AP√ìS APLICA√á√ÉO DE CAPS:")
for var in caps_ranges.keys():
    if var in X_train_advanced_imputed.columns:
        min_val = X_train_advanced_imputed[var].min()
        max_val = X_train_advanced_imputed[var].max()
        print(f"  ‚Ä¢ {var}: {min_val:.2f} - {max_val:.2f}")


APLICA√á√ÉO DE CAPS P√ìS-IMPUTA√á√ÉO
  ‚Ä¢ Temp: Nenhuma corre√ß√£o necess√°ria
  ‚Ä¢ BUN: Nenhuma corre√ß√£o necess√°ria
  ‚Ä¢ WBC: Nenhuma corre√ß√£o necess√°ria
  ‚Ä¢ Platelets: Nenhuma corre√ß√£o necess√°ria
  ‚Ä¢ DBP: Nenhuma corre√ß√£o necess√°ria

Total de caps aplicados: 0

RANGES AP√ìS APLICA√á√ÉO DE CAPS:
  ‚Ä¢ Temp: 28.00 - 42.00
  ‚Ä¢ BUN: 1.00 - 268.00
  ‚Ä¢ WBC: 0.10 - 440.00
  ‚Ä¢ Platelets: 2.00 - 2322.00
  ‚Ä¢ DBP: 20.00 - 300.00


#### 4.3.7 Verifica√ß√£o Final P√≥s-Imputa√ß√£o

In [19]:
# =============================================================================
# VERIFICA√á√ÉO FINAL P√ìS-IMPUTA√á√ÉO
# =============================================================================

print(f"\n" + "="*60)
print(f"VERIFICA√á√ÉO FINAL P√ìS-IMPUTA√á√ÉO")
print(f"="*60)

# Verificar todas as vari√°veis processadas
all_processed_vars = linear_regression_vars + hybrid_strategy_vars + logistic_regression_vars

print(f"\nVALIDA√á√ÉO DE RANGES P√ìS-IMPUTA√á√ÉO:")

# Vari√°veis processadas
numeric_processed = linear_regression_vars + hybrid_strategy_vars + logistic_regression_vars
for var in numeric_processed:
    if var in X_train_advanced_imputed.columns:
        min_val = X_train_advanced_imputed[var].min()
        max_val = X_train_advanced_imputed[var].max()
        mean_val = X_train_advanced_imputed[var].mean()
        print(f"  ‚Ä¢ {var}: min={min_val:.2f}, max={max_val:.2f}, mean={mean_val:.2f}")


# Verificar se ainda h√° vari√°veis com missing
print(f"\nVERIFICA√á√ÉO GERAL DE MISSING:")
total_vars_with_missing = 0
for col in X_train_advanced_imputed.columns:
    missing_count = X_train_advanced_imputed[col].isnull().sum()
    if missing_count > 0:
        missing_pct = (missing_count / len(X_train_advanced_imputed)) * 100
        print(f"  ‚Ä¢ {col}: {missing_count:,} valores ({missing_pct:.1f}%)")
        total_vars_with_missing += 1

if total_vars_with_missing == 0:
    print("NENHUMA VARI√ÅVEL COM MISSING RESTANTE!")


print(f"\nDataset ap√≥s imputa√ß√µes: {X_train_advanced_imputed.shape}")

# Status final do missing
final_missing = X_train_advanced_imputed.isnull().sum().sum()
total_values = X_train_advanced_imputed.size
final_missing_pct = (final_missing / total_values) * 100

print(f"Missing values finais: {final_missing:,} ({final_missing_pct:.3f}%)")


VERIFICA√á√ÉO FINAL P√ìS-IMPUTA√á√ÉO

VALIDA√á√ÉO DE RANGES P√ìS-IMPUTA√á√ÉO:
  ‚Ä¢ DBP: min=20.00, max=300.00, mean=62.67
  ‚Ä¢ Temp: min=28.00, max=42.00, mean=36.96
  ‚Ä¢ BUN: min=1.00, max=268.00, mean=24.07
  ‚Ä¢ WBC: min=0.10, max=440.00, mean=11.35
  ‚Ä¢ Platelets: min=2.00, max=2322.00, mean=196.31
  ‚Ä¢ Unit1: min=0.00, max=1.00, mean=0.55
  ‚Ä¢ Unit2: min=0.00, max=1.00, mean=0.45

VERIFICA√á√ÉO GERAL DE MISSING:
NENHUMA VARI√ÅVEL COM MISSING RESTANTE!

Dataset ap√≥s imputa√ß√µes: (1209197, 16)
Missing values finais: 0 (0.000%)


### 4.4 Valida√ß√£o da Qualidade P√≥s-Limpeza

Aplica√ß√£o de regress√£o log√≠stica para imputa√ß√£o de vari√°veis categ√≥ricas Unit1 e Unit2, mantendo a rela√ß√£o complementar Unit1 + Unit2 = 1.

In [23]:
# Valida√ß√£o da qualidade dos dados ap√≥s todas as etapas de limpeza

print("VALIDA√á√ÉO DA QUALIDADE P√ìS-LIMPEZA:")

X_train_final_cleaned = X_train_advanced_imputed.copy()
y_train_final_cleaned = y_train_cleaned.copy()

# 1. Verifica√ß√£o de Completude
print("1. VERIFICA√á√ÉO DE COMPLETUDE:")
total_missing = X_train_final_cleaned.isnull().sum().sum()
total_values = X_train_final_cleaned.size
missing_pct = (total_missing / total_values) * 100

print(f"   ‚Ä¢ Total de valores missing: {total_missing:,}")
print(f"   ‚Ä¢ Percentual de missing: {missing_pct:.4f}%")
print(f"   ‚Ä¢ Completude do dataset: {100-missing_pct:.4f}%")

if total_missing > 0:
    print("   ‚Ä¢ Vari√°veis com missing restante:")
    for col in X_train_final_cleaned.columns:
        missing_count = X_train_final_cleaned[col].isnull().sum()
        if missing_count > 0:
            missing_pct_col = (missing_count / len(X_train_final_cleaned)) * 100
            print(f"     - {col}: {missing_count:,} ({missing_pct_col:.2f}%)")


# 3. Verifica√ß√£o de Distribui√ß√µes
print(f"\n3. VERIFICA√á√ÉO DE DISTRIBUI√á√ïES:")

# An√°lise estat√≠stica b√°sica para vari√°veis num√©ricas
numeric_cols = X_train_final_cleaned.select_dtypes(include=[np.number]).columns.tolist()

print(f"   ‚Ä¢ Vari√°veis num√©ricas analisadas: {len(numeric_cols)}")

distributions_summary = {}
for col in numeric_cols[:5]:  # Primeiras 5 vari√°veis para exemplo
    data = X_train_final_cleaned[col].dropna()
    if len(data) > 0:
        distributions_summary[col] = {
            'mean': data.mean(),
            'median': data.median(),  
            'std': data.std(),
            'min': data.min(),
            'max': data.max(),
            'skewness': data.skew()
        }

print(f"   ‚Ä¢ Estat√≠sticas das principais vari√°veis:")
print(f"     {'Vari√°vel':<12} {'Mean':<8} {'Median':<8} {'Std':<8} {'Min':<8} {'Max':<8} {'Skew':<6}")
print("     " + "-"*60)

for var, stats in distributions_summary.items():
    print(f"     {var:<12} {stats['mean']:<8.1f} {stats['median']:<8.1f} {stats['std']:<8.1f} {stats['min']:<8.1f} {stats['max']:<8.1f} {stats['skewness']:<6.2f}")

# 4. Verifica√ß√£o de Integridade Referencial
print(f"\n4. VERIFICA√á√ÉO DE INTEGRIDADE:")
print(f"   ‚Ä¢ Shape do X_train: {X_train_final_cleaned.shape}")
print(f"   ‚Ä¢ Shape do y_train: {y_train_final_cleaned.shape}")
print(f"   ‚Ä¢ √çndices alinhados: {X_train_final_cleaned.index.equals(y_train_final_cleaned.index)}")

VALIDA√á√ÉO DA QUALIDADE P√ìS-LIMPEZA:
1. VERIFICA√á√ÉO DE COMPLETUDE:
   ‚Ä¢ Total de valores missing: 0
   ‚Ä¢ Percentual de missing: 0.0000%
   ‚Ä¢ Completude do dataset: 100.0000%

3. VERIFICA√á√ÉO DE DISTRIBUI√á√ïES:
   ‚Ä¢ Vari√°veis num√©ricas analisadas: 16
   ‚Ä¢ Estat√≠sticas das principais vari√°veis:
     Vari√°vel     Mean     Median   Std      Min      Max      Skew  
     ------------------------------------------------------------
     Hour         25.8     20.0     29.1     0.0      335.0    4.08  
     HR           84.5     83.5     16.7     20.0     250.0    0.46  
     O2Sat        97.3     98.0     2.8      20.0     100.0    -4.34 
     Temp         37.0     36.9     0.5      28.0     42.0     -0.26 
     SBP          123.4    121.0    21.8     20.0     300.0    0.64  

4. VERIFICA√á√ÉO DE INTEGRIDADE:
   ‚Ä¢ Shape do X_train: (1209197, 16)
   ‚Ä¢ Shape do y_train: (1209197,)
   ‚Ä¢ √çndices alinhados: True
   ‚Ä¢ Estat√≠sticas das principais vari√°veis:
     Vari√

### 4.5 S√≠ntese da Tarefa 2: Limpeza dos Dados

**Resumo completo de todas as decis√µes e transforma√ß√µes aplicadas na limpeza dos dados:**

**1. DETEC√á√ÉO E REMO√á√ÉO DE DUPLICATAS**

**Estrat√©gia Aplicada:**
- Remo√ß√£o de duplicatas exatas baseada em todas as vari√°veis de features
- M√©todo: `drop_duplicates()` padr√£o (manter primeira ocorr√™ncia)

**Resultados:**
- **Duplicatas removidas**: 32,571 registros (2.6% do dataset)
- **Dataset reduzido**: 1,241,768 ‚Üí 1,209,197 registros
- **Propor√ß√£o de classes**: Mantida praticamente inalterada ap√≥s remo√ß√£o

**Justificativa:**
- Duplicatas exatas em dados temporais de UTI s√£o artefatos de coleta/processamento
- N√£o agregam informa√ß√£o preditiva e podem causar data leakage
- Preserva√ß√£o das propor√ß√µes das classes confirma remo√ß√£o adequada


**2. TRATAMENTO DE OUTLIERS**

**Estrat√©gia Aplicada:**
- **Capping cl√≠nico** baseado em ranges m√©dicos estabelecidos
- **Preserva√ß√£o de outliers relevantes** para detec√ß√£o de sepsis
- Aplicado apenas em vari√°veis com limites fisiol√≥gicos claros

**Vari√°veis Tratadas:**
- **HR**: 20-250 bpm (batimentos card√≠acos)
- **Temp**: 28-42¬∞C (temperatura corporal)
- **Hour/ICULOS**: 0-336h (14 dias m√°ximo na UTI)
- **HospAdmTime**: 0-24h (tempo de admiss√£o hospitalar)

**Justificativa:**
- Outliers em sepsis s√£o muitas vezes **informativos** (sinais de deteriora√ß√£o)
- Limite para vari√°veis cl√≠nicas 
    - Foi estipulado por uma pesquisa de casos extremos considerando poss√≠vel imprecis√µes na coleta e medi√ß√£o
    - Ainda mant√©m variabilidade apesar da redu√ß√£o
- Quanto as vari√°veis de tempo
    - O limite inferior foi estipulado para 0, visto que n√£o faz sentido ter valores negativos para essas vari√°veis
    - Limite superior foi mantido o mesmo do dataset original



**3. ESTRAT√âGIAS DE IMPUTA√á√ÉO**

**3.1 Imputa√ß√£o Simples (Missing <20%)**
- **M√©todo**: Mediana para vari√°veis num√©ricas
- **Vari√°veis**: 6 vari√°veis com baixo percentual de missing
- **Total imputado**: ~647,891 valores
- **Justificativa**: Missing baixo permite imputa√ß√£o simples sem perda significativa de informa√ß√£o

**3.2 Imputa√ß√£o por Regress√£o Log√≠stica (Categ√≥ricas)**
- **Vari√°veis**: Unit1 e Unit2 (tipos de UTI)  
- **M√©todo**: Modelo log√≠stico com features num√©ricas como preditores
- **Restri√ß√£o**: Manter Unit1 + Unit2 = 1 (paciente em apenas um tipo de UTI)
- **Justificativa**: Rela√ß√£o complementar deve ser preservada por coer√™ncia l√≥gica

**3.3 Imputa√ß√£o por Regress√£o Linear (<40% Missing)**
- **Vari√°veis**: DBP (press√£o diast√≥lica)
- **M√©todo**: Regress√£o linear com amostragem de 100k registros para treino
- **Justificativa**: Sinal vital com padr√µes previs√≠veis baseados em outras vari√°veis

**3.4 Estrat√©gia H√≠brida (‚â•40% Missing)**
- **Vari√°veis**: Temp, BUN, WBC, Platelets (alta relev√¢ncia cl√≠nica)
- **M√©todo**: KNN (5% dos missing) + Regress√£o Linear (95% restante)
- **Justificativa**: Vari√°veis cr√≠ticas para sepsis que requerem imputa√ß√£o sofisticada
- **Otimiza√ß√£o**: Sampling para viabilizar processamento em grande escala



**4. CONTROLE DE QUALIDADE P√ìS-IMPUTA√á√ÉO**

**Aplica√ß√£o de Caps:**
- Limites baseados nos ranges observados p√≥s-tratamento de outliers
- Evita valores imputados fora da realidade cl√≠nica
- Vari√°veis: Temp, BUN, WBC, Platelets, DBP

**Valida√ß√£o Final:**
- **Completude**: 100% (zero missing values restantes)
- **Consist√™ncia l√≥gica**: Verifica√ß√£o de ranges fisiol√≥gicos
- **Integridade referencial**: Alinhamento entre X_train e y_train
- **Distribui√ß√µes**: Preserva√ß√£o de caracter√≠sticas estat√≠sticas essenciais



**5. JUSTIFICATIVAS GERAIS DAS DECIS√ïES**

**Orienta√ß√£o Cl√≠nica:**
- Todas as decis√µes baseadas em **conhecimento m√©dico** sobre sepsis
- Preserva√ß√£o de **vari√°veis cr√≠ticas** mesmo com alto missing
- Manuten√ß√£o de **patterns cl√≠nicos** relevantes para diagn√≥stico

**Orienta√ß√£o T√©cnica:**
- **Escalabilidade**: Sampling para viabilizar imputa√ß√£o em dataset de 1.2M registros
- **Efici√™ncia**: Estrat√©gias diferenciadas por grau de complexidade necess√°ria
- **Robustez**: M√∫ltiplas valida√ß√µes de qualidade e integridade

**Orienta√ß√£o para Modelagem:**
- **Balanceamento**: Preserva√ß√£o cuidadosa das propor√ß√µes das classes
- **Qualidade**: Dataset final sem missing e com consist√™ncia l√≥gica
- **Prepara√ß√£o**: Dados prontos para feature engineering e normaliza√ß√£o


**RESULTADO FINAL:**
- **Dataset limpo**: 1,209,197 √ó 16 vari√°veis (100% completo)
- **Qualidade**: Dados consistentes e clinicamente v√°lidos
- **Pronto para**: Feature Engineering (Tarefa 3) e Modelagem (Fase 4)

## 5. TAREFA 3: Constru√ß√£o dos Dados (Feature Engineering)

**Objetivo:** Criar novas vari√°veis ou atributos derivados dos dados existentes que possam melhorar o poder preditivo do modelo.

**Estrat√©gias de constru√ß√£o:**
* Ratios cl√≠nicos baseados em literatura m√©dica
* Features temporais derivadas de Hour/ICULOS
* Intera√ß√µes entre vari√°veis relacionadas
* Transforma√ß√µes para normalizar distribui√ß√µes

### 5.1 Cria√ß√£o de Ratios Cl√≠nicos

Desenvolvimento de √≠ndices e ratios clinicamente estabelecidos para detec√ß√£o de sepsis (ex: raz√£o neutr√≥filos/linf√≥citos, √≠ndices de choque).

In [None]:
# PLACEHOLDER: SE√á√ÉO REMOVIDA PARA SIMPLIFICA√á√ÉO
# Feature engineering focado apenas em features temporais (Se√ß√£o 5.2)
print("Se√ß√£o 5.1 removida - focando apenas em features temporais de alta qualidade")

# Dataset base para feature engineering
X_train_fe = X_train_final_cleaned.copy()
y_train_fe = y_train_final_cleaned.copy()

print(f"Dataset base para Feature Engineering: {X_train_fe.shape}")

INICIANDO CRIA√á√ÉO DE RATIOS CL√çNICOS...
Dataset base para Feature Engineering: (1209197, 16)

1. RATIOS DE PRESS√ÉO ARTERIAL:
  ‚Ä¢ Shock_Index (HR/SBP) criado: Range [0.142, 6.741]
  ‚Ä¢ Pulse_Pressure (SBP-DBP) criado: Range [-235.6, 237.5]
  ‚Ä¢ MAP_DBP_Ratio criado: Range [0.216, 8.739]

2. RATIOS RESPIRAT√ìRIOS:
  ‚Ä¢ Resp_O2Sat_Ratio criado: Range [0.0100, 1.7391]

3. RATIOS METAB√ìLICOS:

4. RATIOS HEMATOL√ìGICOS:
  ‚Ä¢ WBC_Platelets_Ratio criado: Range [0.0003, 22.0000]

5. RATIOS DE ELETR√ìLITOS:

VALIDA√á√ÉO DOS RATIOS CRIADOS:
Total de ratios cl√≠nicos criados: 5
  ‚úì Shock_Index: Sem valores NaN
  ‚úì Pulse_Pressure: Sem valores NaN
  ‚úì MAP_DBP_Ratio: Sem valores NaN
  ‚úì Resp_O2Sat_Ratio: Sem valores NaN
  ‚úì WBC_Platelets_Ratio: Sem valores NaN

Dataset ap√≥s ratios cl√≠nicos: (1209197, 21)
Novas features criadas: 5


### 5.2 Features Temporais

Cria√ß√£o de vari√°veis derivadas das informa√ß√µes temporais para capturar padr√µes de risco ao longo do tempo.

In [None]:
# CRIA√á√ÉO DE FEATURES TEMPORAIS COM VALIDA√á√ÉO POR M√âTRICAS
print("\nINICIANDO CRIA√á√ÉO DE FEATURES TEMPORAIS COM VALIDA√á√ÉO...")

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.model_selection import StratifiedKFold

# =============================================================================
# 1. FUN√á√ÉO DE VALIDA√á√ÉO POR M√âTRICAS
# =============================================================================

def validate_feature(X_original, X_with_new_feature, y, feature_name, cv_folds=3):
    """
    Valida se uma nova feature melhora as m√©tricas do modelo
    """
    print(f"\nVALIDANDO FEATURE: {feature_name}")
    
    # Modelo simples para valida√ß√£o r√°pida
    rf = RandomForestClassifier(n_estimators=50, random_state=42, n_jobs=-1)
    cv = StratifiedKFold(n_splits=cv_folds, shuffle=True, random_state=42)
    
    # M√©tricas com dataset original
    precision_orig = cross_val_score(rf, X_original, y, cv=cv, scoring='precision', n_jobs=-1)
    recall_orig = cross_val_score(rf, X_original, y, cv=cv, scoring='recall', n_jobs=-1)
    f1_orig = cross_val_score(rf, X_original, y, cv=cv, scoring='f1', n_jobs=-1)
    
    # M√©tricas com nova feature
    precision_new = cross_val_score(rf, X_with_new_feature, y, cv=cv, scoring='precision', n_jobs=-1)
    recall_new = cross_val_score(rf, X_with_new_feature, y, cv=cv, scoring='recall', n_jobs=-1)
    f1_new = cross_val_score(rf, X_with_new_feature, y, cv=cv, scoring='f1', n_jobs=-1)
    
    # Calcular melhorias
    precision_improvement = precision_new.mean() - precision_orig.mean()
    recall_improvement = recall_new.mean() - recall_orig.mean()
    f1_improvement = f1_new.mean() - f1_orig.mean()
    
    print(f"  Precision: {precision_orig.mean():.4f} ‚Üí {precision_new.mean():.4f} ({precision_improvement:+.4f})")
    print(f"  Recall:    {recall_orig.mean():.4f} ‚Üí {recall_new.mean():.4f} ({recall_improvement:+.4f})")
    print(f"  F1-Score:  {f1_orig.mean():.4f} ‚Üí {f1_new.mean():.4f} ({f1_improvement:+.4f})")
    
    # Crit√©rio de aceita√ß√£o: melhoria em pelo menos 1 m√©trica sem deteriorar outras significativamente
    improvements = [precision_improvement, recall_improvement, f1_improvement]
    positive_improvements = sum(1 for imp in improvements if imp > 0.001)  # Melhoria m√≠nima de 0.1%
    negative_improvements = sum(1 for imp in improvements if imp < -0.005)  # Deteriora√ß√£o m√°xima de 0.5%
    
    is_good = positive_improvements >= 1 and negative_improvements == 0
    
    print(f"  DECIS√ÉO: {'‚úÖ ACEITAR' if is_good else '‚ùå REJEITAR'}")
    
    return is_good, {
        'precision_improvement': precision_improvement,
        'recall_improvement': recall_improvement,
        'f1_improvement': f1_improvement
    }

# =============================================================================
# 2. REDU√á√ÉO DE REDUND√ÇNCIA: FUS√ÉO ICULOS + HOUR
# =============================================================================

print("\n2. REDU√á√ÉO DE REDUND√ÇNCIA TEMPORAL:")

if 'Hour' in X_train_fe.columns and 'ICULOS' in X_train_fe.columns:
    # Verificar correla√ß√£o
    corr_hour_iculos = X_train_fe['Hour'].corr(X_train_fe['ICULOS'])
    print(f"Correla√ß√£o Hour vs ICULOS: {corr_hour_iculos:.4f}")
    
    # Criar feature fusionada (m√©dia ponderada)
    X_train_fe['Time_ICU_Unified'] = (X_train_fe['Hour'] + X_train_fe['ICULOS']) / 2
    
    # Validar se a fus√£o mant√©m performance
    X_test_unified = X_train_fe.drop(columns=['Hour', 'ICULOS'])
    is_good, metrics = validate_feature(
        X_train_fe[['Hour', 'ICULOS']], 
        X_train_fe[['Time_ICU_Unified']], 
        y_train_fe, 
        'Time_ICU_Unified (fus√£o Hour+ICULOS)'
    )
    
    if is_good:
        print("  ‚úÖ Fus√£o aceita - removendo Hour e ICULOS originais")
        X_train_fe.drop(columns=['Hour', 'ICULOS'], inplace=True)
    else:
        print("  ‚ùå Fus√£o rejeitada - mantendo vari√°veis originais")
        X_train_fe.drop(columns=['Time_ICU_Unified'], inplace=True)

# =============================================================================
# 3. REDU√á√ÉO DE REDUND√ÇNCIA: FUS√ÉO SBP + MAP  
# =============================================================================

print("\n3. REDU√á√ÉO DE REDUND√ÇNCIA PRESS√ÉO:")

if 'SBP' in X_train_fe.columns and 'MAP' in X_train_fe.columns:
    # Verificar correla√ß√£o
    corr_sbp_map = X_train_fe['SBP'].corr(X_train_fe['MAP'])
    print(f"Correla√ß√£o SBP vs MAP: {corr_sbp_map:.4f}")
    
    # Criar feature fusionada (MAP √© mais diretamente relevante clinicamente)
    # Usar MAP como base e ajustar com informa√ß√£o de SBP
    X_train_fe['Pressure_Unified'] = 0.7 * X_train_fe['MAP'] + 0.3 * X_train_fe['SBP']
    
    # Validar fus√£o
    is_good, metrics = validate_feature(
        X_train_fe[['SBP', 'MAP']], 
        X_train_fe[['Pressure_Unified']], 
        y_train_fe, 
        'Pressure_Unified (fus√£o SBP+MAP)'
    )
    
    if is_good:
        print("  ‚úÖ Fus√£o aceita - removendo SBP e MAP originais")
        X_train_fe.drop(columns=['SBP', 'MAP'], inplace=True)
    else:
        print("  ‚ùå Fus√£o rejeitada - mantendo vari√°veis originais")
        X_train_fe.drop(columns=['Pressure_Unified'], inplace=True)

# =============================================================================
# 4. FEATURES TEMPORAIS DE ALTA QUALIDADE
# =============================================================================

print("\n4. CRIA√á√ÉO E VALIDA√á√ÉO DE FEATURES TEMPORAIS:")

# Dataset base atual para compara√ß√£o
X_base = X_train_fe.copy()
accepted_features = []
rejected_features = []

# Feature 1: Janela de Risco Cr√≠tico (>100h baseado na EDA)
if 'Time_ICU_Unified' in X_train_fe.columns:
    time_col = 'Time_ICU_Unified'
elif 'Hour' in X_train_fe.columns:
    time_col = 'Hour'
else:
    time_col = None

if time_col:
    X_test = X_base.copy()
    X_test['Critical_Risk_Window'] = (X_test[time_col] > 100).astype(int)
    
    is_good, metrics = validate_feature(X_base, X_test, y_train_fe, 'Critical_Risk_Window')
    
    if is_good:
        X_train_fe['Critical_Risk_Window'] = X_test['Critical_Risk_Window']
        accepted_features.append('Critical_Risk_Window')
    else:
        rejected_features.append('Critical_Risk_Window')

# Feature 2: Categoriza√ß√£o de Urg√™ncia por Tempo
if time_col:
    X_test = X_base.copy() 
    # Criar categorias mais simples: Early, Medium, High Risk
    X_test['Time_Category'] = pd.cut(
        X_test[time_col],
        bins=[-1, 24, 100, float('inf')], 
        labels=[0, 1, 2],  # Early, Medium, High
        include_lowest=True
    ).astype(int)
    
    is_good, metrics = validate_feature(X_base, X_test, y_train_fe, 'Time_Category')
    
    if is_good:
        X_train_fe['Time_Category'] = X_test['Time_Category']
        accepted_features.append('Time_Category')
    else:
        rejected_features.append('Time_Category')

# Feature 3: Logaritmo do Tempo (para normalizar distribui√ß√£o)
if time_col:
    X_test = X_base.copy()
    X_test['Log_Time_ICU'] = np.log1p(X_test[time_col])
    
    is_good, metrics = validate_feature(X_base, X_test, y_train_fe, 'Log_Time_ICU')
    
    if is_good:
        X_train_fe['Log_Time_ICU'] = X_test['Log_Time_ICU']
        accepted_features.append('Log_Time_ICU')
    else:
        rejected_features.append('Log_Time_ICU')

# Feature 4: Admiss√£o Direta UTI
if 'HospAdmTime' in X_train_fe.columns:
    X_test = X_base.copy()
    X_test['Direct_ICU_Admission'] = (X_test['HospAdmTime'] <= 0).astype(int)
    
    is_good, metrics = validate_feature(X_base, X_test, y_train_fe, 'Direct_ICU_Admission')
    
    if is_good:
        X_train_fe['Direct_ICU_Admission'] = X_test['Direct_ICU_Admission']
        accepted_features.append('Direct_ICU_Admission')
    else:
        rejected_features.append('Direct_ICU_Admission')

# =============================================================================
# 5. RELAT√ìRIO FINAL
# =============================================================================

print(f"\n{'='*60}")
print("RELAT√ìRIO FINAL - FEATURES TEMPORAIS")
print(f"{'='*60}")

print(f"\n‚úÖ FEATURES ACEITAS ({len(accepted_features)}):")
for feature in accepted_features:
    print(f"  ‚Ä¢ {feature}")

print(f"\n‚ùå FEATURES REJEITADAS ({len(rejected_features)}):")
for feature in rejected_features:
    print(f"  ‚Ä¢ {feature}")

print(f"\nDATASET FINAL:")
print(f"  ‚Ä¢ Shape original: {X_train_final_cleaned.shape}")
print(f"  ‚Ä¢ Shape atual: {X_train_fe.shape}")
print(f"  ‚Ä¢ Features √∫teis adicionadas: {len(accepted_features)}")
print(f"  ‚Ä¢ Redu√ß√£o de redund√¢ncia: Hour+ICULOS e SBP+MAP processadas")

print(f"\nüìä PR√ìXIMO PASSO: Valida√ß√£o final com modelo completo")

### 5.3 Intera√ß√µes entre Vari√°veis

Cria√ß√£o de features que capturam intera√ß√µes sin√©rgicas entre vari√°veis cl√≠nicas relacionadas.

In [None]:
# PLACEHOLDER: SE√á√ÉO 5.3 REMOVIDA
# Intera√ß√µes entre vari√°veis removidas para evitar ru√≠do e redund√¢ncia
print("Se√ß√£o 5.3 (Intera√ß√µes) removida - focando apenas em features validadas por m√©tricas")

### 5.4 Transforma√ß√µes de Distribui√ß√£o

Aplica√ß√£o de transforma√ß√µes matem√°ticas para normalizar distribui√ß√µes assim√©tricas identificadas na EDA.

In [25]:
# PLACEHOLDER: SE√á√ÉO 5.4 REMOVIDA  
# Transforma√ß√µes de distribui√ß√£o removidas para evitar complexidade desnecess√°ria
print("Se√ß√£o 5.4 (Transforma√ß√µes) removida - focando apenas em features com impacto comprovado")


INICIANDO TRANSFORMA√á√ïES DE DISTRIBUI√á√ÉO...

1. AN√ÅLISE DE ASSIMETRIA DAS VARI√ÅVEIS:
Vari√°veis com assimetria |skew| > 1.0: 10
  ‚Ä¢ O2Sat: skew=-4.341, min=20.00
  ‚Ä¢ MAP: skew=1.131, min=20.00
  ‚Ä¢ DBP: skew=1.141, min=20.00
  ‚Ä¢ Resp: skew=1.096, min=1.00
  ‚Ä¢ BUN: skew=5.448, min=1.00
  ‚Ä¢ WBC: skew=36.228, min=0.10
  ‚Ä¢ Platelets: skew=4.806, min=2.00
  ‚Ä¢ HospAdmTime: skew=47.317, min=0.00
  ‚Ä¢ ICULOS: skew=4.093, min=1.00
  ‚Ä¢ Hour: skew=4.076, min=0.00

2. TRANSFORMA√á√ïES LOGAR√çTMICAS:
  ‚Ä¢ BUN_Log: skew 5.448 ‚Üí -1.095
  ‚Ä¢ WBC_Log: skew 36.228 ‚Üí -1.080
  ‚Ä¢ Platelets_Log: skew 4.806 ‚Üí -3.662
  ‚Ä¢ Hour_Log1p: skew 4.076 ‚Üí -0.564
Vari√°veis com assimetria |skew| > 1.0: 10
  ‚Ä¢ O2Sat: skew=-4.341, min=20.00
  ‚Ä¢ MAP: skew=1.131, min=20.00
  ‚Ä¢ DBP: skew=1.141, min=20.00
  ‚Ä¢ Resp: skew=1.096, min=1.00
  ‚Ä¢ BUN: skew=5.448, min=1.00
  ‚Ä¢ WBC: skew=36.228, min=0.10
  ‚Ä¢ Platelets: skew=4.806, min=2.00
  ‚Ä¢ HospAdmTime: skew=47.317, min=0.00
  

### 5.5 Valida√ß√£o e Resumo do Feature Engineering

**S√≠ntese completa de todas as features criadas na Tarefa 3 - Constru√ß√£o dos Dados:**

In [None]:
# VALIDA√á√ÉO FINAL E RESUMO DO FEATURE ENGINEERING SIMPLIFICADO
print("="*70)
print("RESUMO FINAL DO FEATURE ENGINEERING - ABORDAGEM FOCADA")
print("="*70)

# =============================================================================
# 1. AN√ÅLISE QUANTITATIVA DAS FEATURES CRIADAS
# =============================================================================

print("\n1. AN√ÅLISE QUANTITATIVA:")
original_features = X_train_final_cleaned.shape[1]
final_features = X_train_fe.shape[1]
new_features = final_features - original_features

print(f"Features originais (ap√≥s limpeza): {original_features}")
print(f"Features finais (ap√≥s engineering): {final_features}")
print(f"Novas features criadas: {new_features}")
print(f"Expans√£o percentual: {(new_features/original_features)*100:.1f}%")

# =============================================================================
# 2. LISTA DAS FEATURES VALIDADAS
# =============================================================================

print("\n2. FEATURES CRIADAS E VALIDADAS:")

all_new_features = []
for col in X_train_fe.columns:
    if col not in X_train_final_cleaned.columns:
        all_new_features.append(col)

if all_new_features:
    print("Features aceitas por valida√ß√£o de m√©tricas:")
    for i, feature in enumerate(all_new_features, 1):
        print(f"  {i:2d}. {feature}")
else:
    print("Nenhuma feature adicional foi validada como ben√©fica")

# =============================================================================
# 3. AN√ÅLISE DE CORRELA√á√ÉO COM TARGET
# =============================================================================

print("\n3. AN√ÅLISE DE CORRELA√á√ÉO COM TARGET:")

# Calcular correla√ß√£o das novas features com SepsisLabel
correlations = []
for col in all_new_features:
    if col in X_train_fe.columns:
        try:
            corr = X_train_fe[col].corr(y_train_fe)
            if not np.isnan(corr):
                correlations.append((col, abs(corr)))
        except:
            pass

if correlations:
    # Ordenar por correla√ß√£o absoluta
    correlations.sort(key=lambda x: x[1], reverse=True)
    
    print(f"Correla√ß√µes das novas features com SepsisLabel:")
    for i, (feature, corr) in enumerate(correlations):
        print(f"  {i+1:2d}. {feature}: {corr:.4f}")
else:
    print("Nenhuma nova feature para an√°lise de correla√ß√£o")

# =============================================================================
# 4. VALIDA√á√ÉO FINAL DE QUALIDADE
# =============================================================================

print("\n4. VALIDA√á√ÉO FINAL DE QUALIDADE:")

# Verificar se h√° problemas no dataset final
total_missing = X_train_fe.isnull().sum().sum()
infinite_values = np.isinf(X_train_fe.select_dtypes(include=[np.number])).sum().sum()

print(f"  ‚Ä¢ Total de valores missing: {total_missing:,}")
print(f"  ‚Ä¢ Total de valores infinitos: {infinite_values:,}")
print(f"  ‚Ä¢ Alinhamento com target: {X_train_fe.index.equals(y_train_fe.index)}")

# Distribui√ß√£o do target
target_dist = y_train_fe.value_counts()
print(f"  ‚Ä¢ Distribui√ß√£o target: 0={target_dist[0]:,}, 1={target_dist[1]:,}")

# =============================================================================
# 5. PR√ìXIMOS PASSOS E DATASETS FINAIS
# =============================================================================

print("\n5. DATASETS FINAIS PREPARADOS:")

# Salvar refer√™ncias para pr√≥ximas etapas
X_train_engineered = X_train_fe.copy()
y_train_engineered = y_train_fe.copy()

print(f"  ‚Ä¢ X_train_engineered: {X_train_engineered.shape}")
print(f"  ‚Ä¢ y_train_engineered: {y_train_engineered.shape}")
print(f"  ‚Ä¢ Qualidade: 100% completo, sem infinitos")

# =============================================================================
# 6. RESUMO DA ABORDAGEM APLICADA
# =============================================================================

print("\n" + "="*70)
print("METODOLOGIA APLICADA - FEATURE ENGINEERING FOCADO")
print("="*70)

methodology = {
    "Crit√©rio 1": "Evitar redund√¢ncia - Fus√£o de ICULOS+Hour e SBP+MAP",
    "Crit√©rio 2": "Evitar ru√≠do - Apenas features com valida√ß√£o por m√©tricas",
    "Crit√©rio 3": "Valida√ß√£o rigorosa - Precision, Recall, F1-Score para cada feature",
    "Resultado": "Dataset otimizado com features de alta qualidade comprovada"
}

for criterion, description in methodology.items():
    print(f"‚úì {criterion}: {description}")

print(f"\nüéØ RESULTADO FINAL:")
print(f"   ‚Ä¢ Abordagem conservadora e validada")
print(f"   ‚Ä¢ Redu√ß√£o de redund√¢ncia aplicada")
print(f"   ‚Ä¢ Apenas features com impacto positivo comprovado")
print(f"   ‚Ä¢ Dataset pronto para Formata√ß√£o dos Dados (Tarefa 5)")

print(f"\nüìä PRONTO PARA MODELAGEM OTIMIZADA!")

## 6. TAREFA 4: Integra√ß√£o dos Dados

**Objetivo:** Combinar dados de diferentes fontes em um √∫nico conjunto de dados consistente.

**Observa√ß√£o:** Esta tarefa n√£o se aplica ao dataset atual, pois trabalhamos com uma √∫nica fonte (PhysioNet 2019 Challenge). Esta se√ß√£o documenta a estrutura para futuras expans√µes do projeto.

### 6.1 Documenta√ß√£o da Fonte √önica

Registro da origem e caracter√≠sticas do dataset √∫nico utilizado no projeto.

In [None]:
# Documentar caracter√≠sticas da fonte √∫nica
dataset_info = {
    'source': 'PhysioNet 2019 Challenge',
    'description': 'Early Detection of Sepsis from Clinical Data',
    'patients': 'Multiple ICU patients with temporal observations',
    'timeframe': 'Variable length ICU stays',
    'completeness': 'Single comprehensive source'
}

print("INFORMA√á√ïES DA FONTE DE DADOS:")
for key, value in dataset_info.items():
    print(f"  ‚Ä¢ {key}: {value}")

### 6.2 Prepara√ß√£o para Futuras Integra√ß√µes

Estrutura preparat√≥ria para poss√≠vel integra√ß√£o com outras fontes de dados em vers√µes futuras do projeto.

In [None]:
# Placeholder para estrutura de integra√ß√£o futura
# Definir schemas, chaves de jun√ß√£o, protocolos de merge
pass

## 7. TAREFA 5: Formata√ß√£o dos Dados

**Objetivo:** Preparar os dados no formato necess√°rio para os algoritmos de modelagem, incluindo normaliza√ß√£o, encoding e divis√£o final dos conjuntos.

**Atividades principais:**
* Normaliza√ß√£o/padroniza√ß√£o de vari√°veis num√©ricas
* Encoding de vari√°veis categ√≥ricas  
* Balanceamento de classes
* Cria√ß√£o dos datasets finais para modelagem

### 7.1 Normaliza√ß√£o e Padroniza√ß√£o

Aplica√ß√£o de transforma√ß√µes de escala para garantir que todas as vari√°veis num√©ricas tenham contribui√ß√µes equilibradas nos algoritmos.

In [None]:
# Placeholder para normaliza√ß√£o
# StandardScaler, MinMaxScaler baseado na distribui√ß√£o das vari√°veis
pass

### 7.2 Encoding de Vari√°veis Categ√≥ricas

Convers√£o de vari√°veis categ√≥ricas para formato num√©rico apropriado para algoritmos de machine learning.

In [None]:
# Placeholder para encoding categ√≥rico
# One-hot encoding, label encoding baseado na cardinalidade
pass

### 7.3 Balanceamento de Classes

Implementa√ß√£o de t√©cnicas para lidar com o severo desbalanceamento entre classes (98.2% vs 1.8%).

#### 7.3.1 An√°lise de Estrat√©gias de Balanceamento

Compara√ß√£o de diferentes abordagens: oversampling, undersampling e m√©todos combinados.

In [None]:
# Placeholder para compara√ß√£o de estrat√©gias
# SMOTE, Random Over/Under Sampling, SMOTETomek
pass

#### 7.3.2 Implementa√ß√£o da Estrat√©gia Escolhida

Aplica√ß√£o da t√©cnica de balanceamento selecionada com base na an√°lise comparativa.

In [None]:
# Placeholder para implementa√ß√£o do balanceamento
# Aplicar t√©cnica escolhida e validar resultados
pass

### 7.4 Cria√ß√£o dos Datasets Finais

Montagem dos conjuntos de dados finais prontos para a fase de modelagem, incluindo valida√ß√£o da integridade.

In [None]:
# Placeholder para datasets finais
# Criar X_train_final, X_test_final, y_train_final, y_test_final
pass

### 7.5 Valida√ß√£o Final e Export

Verifica√ß√£o final da qualidade e consist√™ncia dos dados preparados, seguida do salvamento dos datasets processados.

In [None]:
# Placeholder para valida√ß√£o final
# Verificar shapes, tipos, ranges, consist√™ncia l√≥gica
pass

## 8. Resumo da Prepara√ß√£o

**S√≠ntese das transforma√ß√µes aplicadas:** Documenta√ß√£o completa de todas as modifica√ß√µes realizadas nos dados durante o processo de prepara√ß√£o.

**Datasets resultantes:** Caracter√≠sticas finais dos conjuntos de dados prontos para modelagem.

**Pr√≥ximos passos:** Direcionamento para a fase de modelagem do CRISP-DM.

In [None]:
# Placeholder para resumo final
# Documentar todas as transforma√ß√µes e caracter√≠sticas finais
pass

---

**Pr√≥xima Fase:** Modeling (3-modeling.ipynb)

**Entreg√°veis desta fase:**
- Datasets limpos e preparados
- Features engineered com relev√¢ncia cl√≠nica  
- Classes balanceadas adequadamente
- Documenta√ß√£o completa das transforma√ß√µes
- Valida√ß√£o da qualidade dos dados processados