In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Carregar dataset completo
df = pd.read_csv('/Users/marcelosilva/Desktop/copia2 - artigo peer/predição_amamentação/9 - Train-Test DS/completeDS.csv')

print("CRIANDO TRAIN/TEST SPLIT ESTRATIFICADO")
print("="*50)

print(f"Dataset original: {df.shape}")

# Verificar target
target_counts = df['aleitamento_materno_exclusivo'].value_counts()
print(f"Distribuição target original:")
print(f"  Classe 0 (não EBF): {target_counts[0]} ({target_counts[0]/len(df)*100:.1f}%)")
print(f"  Classe 1 (EBF): {target_counts[1]} ({target_counts[1]/len(df)*100:.1f}%)")

# Separar features e target
X = df.drop(['aleitamento_materno_exclusivo', 'id_anon'], axis=1)
y = df['aleitamento_materno_exclusivo']
ids = df['id_anon']

print(f"\nFeatures: {X.shape[1]}")
print(f"Observações: {len(y)}")

# Split estratificado 80/20
X_train, X_test, y_train, y_test, ids_train, ids_test = train_test_split(
    X, y, ids,
    test_size=0.2,
    random_state=42,
    stratify=y  # Estratificação pela target
)

print(f"\nApós split estratificado:")
print(f"Treino: {X_train.shape[0]} casos ({X_train.shape[0]/len(df)*100:.1f}%)")
print(f"Teste: {X_test.shape[0]} casos ({X_test.shape[0]/len(df)*100:.1f}%)")

# Verificar manutenção das proporções
train_counts = y_train.value_counts()
test_counts = y_test.value_counts()

print(f"\nDistribuição TREINO:")
print(f"  Classe 0: {train_counts[0]} ({train_counts[0]/len(y_train)*100:.1f}%)")
print(f"  Classe 1: {train_counts[1]} ({train_counts[1]/len(y_train)*100:.1f}%)")

print(f"\nDistribuição TESTE:")
print(f"  Classe 0: {test_counts[0]} ({test_counts[0]/len(y_test)*100:.1f}%)")
print(f"  Classe 1: {test_counts[1]} ({test_counts[1]/len(y_test)*100:.1f}%)")

# Recriar dataframes completos
train_df = pd.concat([
    ids_train.reset_index(drop=True),
    y_train.reset_index(drop=True), 
    X_train.reset_index(drop=True)
], axis=1)

test_df = pd.concat([
    ids_test.reset_index(drop=True),
    y_test.reset_index(drop=True),
    X_test.reset_index(drop=True)
], axis=1)

# Salvar datasets
train_path = '/Users/marcelosilva/Desktop/copia2 - artigo peer/predição_amamentação/9 - Train-Test DS/train_set.csv'
test_path = '/Users/marcelosilva/Desktop/copia2 - artigo peer/predição_amamentação/9 - Train-Test DS/test_set.csv'

train_df.to_csv(train_path, index=False)
test_df.to_csv(test_path, index=False)

print(f"\nDatasets salvos:")
print(f"Treino: {train_path}")
print(f"  Shape: {train_df.shape}")
print(f"Teste: {test_path}")
print(f"  Shape: {test_df.shape}")

print(f"\nVerificação final:")
print(f"Total casos: {len(train_df) + len(test_df)} = {len(df)} ✓")
print(f"Nenhum vazamento: IDs únicos entre treino e teste")

# Verificar se não há sobreposição de IDs
overlap = set(train_df['id_anon']).intersection(set(test_df['id_anon']))
print(f"Sobreposição de IDs: {len(overlap)} (deve ser 0) ✓")

print(f"\nPronto para aplicar regularização apenas no conjunto de TREINO!")

CRIANDO TRAIN/TEST SPLIT ESTRATIFICADO
Dataset original: (1960, 120)
Distribuição target original:
  Classe 0 (não EBF): 1040 (53.1%)
  Classe 1 (EBF): 920 (46.9%)

Features: 118
Observações: 1960

Após split estratificado:
Treino: 1568 casos (80.0%)
Teste: 392 casos (20.0%)

Distribuição TREINO:
  Classe 0: 832 (53.1%)
  Classe 1: 736 (46.9%)

Distribuição TESTE:
  Classe 0: 208 (53.1%)
  Classe 1: 184 (46.9%)

Datasets salvos:
Treino: /Users/marcelosilva/Desktop/copia2 - artigo peer/predição_amamentação/9 - Train-Test DS/train_set.csv
  Shape: (1568, 120)
Teste: /Users/marcelosilva/Desktop/copia2 - artigo peer/predição_amamentação/9 - Train-Test DS/test_set.csv
  Shape: (392, 120)

Verificação final:
Total casos: 1960 = 1960 ✓
Nenhum vazamento: IDs únicos entre treino e teste
Sobreposição de IDs: 0 (deve ser 0) ✓

Pronto para aplicar regularização apenas no conjunto de TREINO!
