# SEMANA 1 - FUNDA√á√ÉO DA REPRODUTIBILIDADE

**Dataset:** Titanic (train_final.csv)  
**Objetivo:** Preparar terreno confi√°vel antes de treinar

Este notebook estabelece a funda√ß√£o do projeto:
- ‚úÖ Fixar seeds para reprodutibilidade
- ‚úÖ Criar estrutura de pastas
- ‚úÖ Realizar split estratificado 80/20
- ‚úÖ Salvar √≠ndices para reuso futuro
- ‚úÖ Gerar documenta√ß√£o do projeto

## üì¶ Importar Bibliotecas

Importa√ß√£o de todas as bibliotecas necess√°rias para setup do projeto.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import os
import json
import random

## üé≤ 1. Fixar Seeds (Reprodutibilidade)

**Por que isso √© crucial?**
- Redes neurais usam inicializa√ß√£o aleat√≥ria de pesos
- Train/test split √© aleat√≥rio
- Dropout √© aleat√≥rio durante treino

Fixando a seed = **mesmos resultados em m√∫ltiplas execu√ß√µes**!

In [2]:
SEED = 42

np.random.seed(SEED)
random.seed(SEED)

print("‚úÖ Seeds fixadas! SEED =", SEED)

‚úÖ Seeds fixadas! SEED = 42


## üìÅ 2. Criar Estrutura de Pastas

Organiza√ß√£o padronizada do projeto para facilitar manuten√ß√£o e reprodutibilidade.

In [9]:
pastas = [
    '../data/raw',
    '../data/processed', 
    '../splits',
    '../artifacts',
    '../reports',
    '../reports/figures',
    '../src',
    '.'  # notebooks (pasta atual)
]

for pasta in pastas:
    os.makedirs(pasta, exist_ok=True)
    
print("‚úÖ Estrutura de pastas criada!")

‚úÖ Estrutura de pastas criada!


## üìä 3. Carregar Dataset

Carregamos o `train_final.csv` que j√° foi preprocessado com o script `normalize.py`.

In [4]:
# Carrega o dataset preprocessado
df = pd.read_csv('../data/train_final.csv')

print(f"\nüìä Dataset carregado:")
print(f"   - Total de amostras: {len(df)}")
print(f"   - Features: {df.shape[1] - 1}")  # -1 por causa do target 'Survived'

# Mostrar primeiras linhas
df.head()


üìä Dataset carregado:
   - Total de amostras: 891
   - Features: 15


Unnamed: 0,Survived,Sex,Age,Fare,HasCabin,Pclass_1,Pclass_2,Pclass_3,Embarked_C,Embarked_Q,Embarked_S,FamilySize_1,FamilySize_2,FamilySize_3,FamilySize_4,FamilySize_5plus
0,0,0,0.22,0.000142,0,0,0,1,0,0,1,0,1,0,0,0
1,1,1,0.38,0.139136,1,1,0,0,1,0,0,0,1,0,0,0
2,1,1,0.26,0.001547,0,0,0,1,0,0,1,1,0,0,0,0
3,1,1,0.35,0.000104,1,1,0,0,0,0,1,0,1,0,0,0
4,0,0,0.35,0.000157,1,0,0,1,0,0,1,1,0,0,0,0


## üéØ 4. Separar Features (X) e Target (y)

Separamos as features da vari√°vel target (`Survived`) e analisamos a distribui√ß√£o das classes.

In [5]:
# Separar features (X) e target (y)
X = df.drop('Survived', axis=1)
y = df['Survived']

print(f"\nüéØ Distribui√ß√£o das classes:")
print(f"   - Morreu (0): {(y==0).sum()} ({(y==0).sum()/len(y)*100:.1f}%)")
print(f"   - Sobreviveu (1): {(y==1).sum()} ({(y==1).sum()/len(y)*100:.1f}%)")


üéØ Distribui√ß√£o das classes:
   - Morreu (0): 549 (61.6%)
   - Sobreviveu (1): 342 (38.4%)


## ‚úÇÔ∏è 5. Split Estratificado (80/20)

**Por que estratificado?**
- Dataset desbalanceado (~62% morreu, ~38% sobreviveu)
- Estratifica√ß√£o mant√©m a **mesma propor√ß√£o** de classes no treino e valida√ß√£o
- Evita que valida√ß√£o tenha distribui√ß√£o diferente do treino

In [6]:
X_train, X_val, y_train, y_val = train_test_split(
    X, y, 
    test_size=0.20,           # 20% para valida√ß√£o
    stratify=y,               # ESTRATIFICADO! Mant√©m propor√ß√£o das classes
    random_state=SEED         # Seed para reprodutibilidade
)

print(f"\n‚úÇÔ∏è Split estratificado realizado (80/20):")
print(f"   TREINO: {len(X_train)} amostras")
print(f"   VAL:    {len(X_val)} amostras")


‚úÇÔ∏è Split estratificado realizado (80/20):
   TREINO: 712 amostras
   VAL:    179 amostras


## ‚úÖ 6. Verificar Estratifica√ß√£o

Confirmamos que as propor√ß√µes de classes s√£o mantidas em ambos os conjuntos.

In [7]:
print(f"\n‚úÖ Verificando estratifica√ß√£o:")
print(f"   TREINO - Morreu: {(y_train==0).sum()/len(y_train)*100:.1f}%, Sobreviveu: {(y_train==1).sum()/len(y_train)*100:.1f}%")
print(f"   VAL    - Morreu: {(y_val==0).sum()/len(y_val)*100:.1f}%, Sobreviveu: {(y_val==1).sum()/len(y_val)*100:.1f}%")


‚úÖ Verificando estratifica√ß√£o:
   TREINO - Morreu: 61.7%, Sobreviveu: 38.3%
   VAL    - Morreu: 61.5%, Sobreviveu: 38.5%


## üíæ 7. Salvar √çndices dos Splits

**CR√çTICO PARA REPRODUTIBILIDADE!**

Salvamos os √≠ndices exatos do split para que todas as semanas usem **exatamente os mesmos dados** de treino e valida√ß√£o. Isso garante que possamos comparar diferentes arquiteturas de forma justa.

In [10]:
# Salvar √≠ndices do split para usar nas pr√≥ximas semanas
train_indices = X_train.index.tolist()
val_indices = X_val.index.tolist()

splits_info = {
    'seed': SEED,
    'train_size': len(train_indices),
    'val_size': len(val_indices),
    'train_indices': train_indices,
    'val_indices': val_indices,
    'train_class_distribution': {
        'class_0': int((y_train==0).sum()),
        'class_1': int((y_train==1).sum())
    },
    'val_class_distribution': {
        'class_0': int((y_val==0).sum()),
        'class_1': int((y_val==1).sum())
    }
}

# Salvar em JSON
with open('../splits/split_indices.json', 'w') as f:
    json.dump(splits_info, f, indent=4)

print(f"\nüíæ √çndices salvos em: splits/split_indices.json")


üíæ √çndices salvos em: splits/split_indices.json


## üíæ 8. Salvar Datasets Separados

Salvamos os datasets j√° separados para facilitar o carregamento nas pr√≥ximas semanas.

In [11]:
# Salvar os datasets j√° separados
X_train.to_csv('../data/processed/X_train.csv', index=False)
X_val.to_csv('../data/processed/X_val.csv', index=False)
y_train.to_csv('../data/processed/y_train.csv', index=False)
y_val.to_csv('../data/processed/y_val.csv', index=False)

print(f"üíæ Datasets separados salvos em: data/processed/")
print(f"   - X_train.csv: {X_train.shape}")
print(f"   - X_val.csv: {X_val.shape}")
print(f"   - y_train.csv: {y_train.shape}")
print(f"   - y_val.csv: {y_val.shape}")

üíæ Datasets separados salvos em: data/processed/
   - X_train.csv: (712, 15)
   - X_val.csv: (179, 15)
   - y_train.csv: (712,)
   - y_val.csv: (179,)


## üìù 9. Criar Documenta√ß√£o do Projeto

Geramos README.md e requirements.txt para documentar o projeto.

In [13]:
readme_content = """# Projeto Titanic - Machine Learning

## Objetivo
Treinar redes neurais (MLPs e Ensembles) para prever sobreviv√™ncia no Titanic.

## Dataset
- **Fonte:** train_final.csv (preprocessado)
- **Amostras:** 891
- **Features:** 15 (j√° normalizadas 0-1)
- **Target:** Survived (0=morreu, 1=sobreviveu)

## Distribui√ß√£o das Classes
- Morreu (0): ~62%
- Sobreviveu (1): ~38%

## Reprodutibilidade
- **SEED:** 42 (fixada em todos os scripts)
- **Split:** 80% treino / 20% valida√ß√£o (estratificado)
- **√çndices salvos em:** `splits/split_indices.json`

## Como Reproduzir

### 1. Preparar ambiente (Semana 1)
```bash
jupyter notebook notebooks/semana1_setup.ipynb
```

Isso cria:
- Estrutura de pastas
- Split estratificado (80/20)
- Salva √≠ndices para reuso
- Datasets separados em `data/processed/`

### 2. Verificar splits
Os mesmos √≠ndices ser√£o usados em TODAS as semanas para garantir comparabilidade!

## Estrutura de Pastas
```
.
‚îú‚îÄ‚îÄ data/
‚îÇ   ‚îú‚îÄ‚îÄ raw/              # Dados originais
‚îÇ   ‚îî‚îÄ‚îÄ processed/        # X_train, X_val, y_train, y_val
‚îú‚îÄ‚îÄ splits/               # √çndices dos splits
‚îú‚îÄ‚îÄ artifacts/            # Modelos treinados, pipelines
‚îú‚îÄ‚îÄ reports/              # Resultados, m√©tricas
‚îÇ   ‚îî‚îÄ‚îÄ figures/          # Gr√°ficos
‚îú‚îÄ‚îÄ src/                  # Scripts Python
‚îî‚îÄ‚îÄ notebooks/            # Jupyter notebooks
```

## Pr√≥ximos Passos
- **Semana 2:** Planejar hiperpar√¢metros
- **Semana 3:** Treinar MLP 1
- **Semana 4:** An√°lise de m√©tricas
- **Semana 5:** K-fold validation

## Arquiteturas Propostas
Ver documento: `docs/4_propostas_arquiteturas_titanic.md`
"""

with open('../projeto_README.md', 'w', encoding='utf-8') as f:
    f.write(readme_content)

print(f"üìù projeto_README.md criado!")

üìù projeto_README.md criado!


In [14]:
requirements = """numpy==1.24.3
pandas==2.0.3
scikit-learn==1.3.0
matplotlib==3.7.2
seaborn==0.12.2
tensorflow==2.13.0
keras==2.13.1
"""

with open('../projeto_requirements.txt', 'w', encoding='utf-8') as f:
    f.write(requirements)

print(f"üìù projeto_requirements.txt criado!")

üìù projeto_requirements.txt criado!


## üéâ RESUMO FINAL

Tudo pronto para come√ßar o treinamento das redes neurais!

In [15]:
print("\n" + "="*70)
print("üéâ SEMANA 1 COMPLETA - FUNDA√á√ÉO DA REPRODUTIBILIDADE")
print("="*70)
print(f"""
‚úÖ Seeds fixadas (SEED={SEED})
‚úÖ Estrutura de pastas criada
‚úÖ Split estratificado 80/20
‚úÖ √çndices salvos (splits/split_indices.json)
‚úÖ Datasets separados (data/processed/)
‚úÖ projeto_README.md criado
‚úÖ projeto_requirements.txt criado

üéØ PR√ìXIMO PASSO: Semana 2 - Planejar hiperpar√¢metros da MLP 1

üìä Estat√≠sticas do Split:
   - Treino: {len(X_train)} amostras
   - Valida√ß√£o: {len(X_val)} amostras
   - Features: {X_train.shape[1]}
   
üìÅ Arquivos Gerados:
   - splits/split_indices.json
   - data/processed/X_train.csv
   - data/processed/X_val.csv
   - data/processed/y_train.csv
   - data/processed/y_val.csv
   - projeto_README.md
   - projeto_requirements.txt
""")
print("="*70)


üéâ SEMANA 1 COMPLETA - FUNDA√á√ÉO DA REPRODUTIBILIDADE

‚úÖ Seeds fixadas (SEED=42)
‚úÖ Estrutura de pastas criada
‚úÖ Split estratificado 80/20
‚úÖ √çndices salvos (splits/split_indices.json)
‚úÖ Datasets separados (data/processed/)
‚úÖ projeto_README.md criado
‚úÖ projeto_requirements.txt criado

üéØ PR√ìXIMO PASSO: Semana 2 - Planejar hiperpar√¢metros da MLP 1

üìä Estat√≠sticas do Split:
   - Treino: 712 amostras
   - Valida√ß√£o: 179 amostras
   - Features: 15

üìÅ Arquivos Gerados:
   - splits/split_indices.json
   - data/processed/X_train.csv
   - data/processed/X_val.csv
   - data/processed/y_train.csv
   - data/processed/y_val.csv
   - projeto_README.md
   - projeto_requirements.txt

