# WESAD PyTorch Training - Google Colab

Este notebook treina modelos PyTorch para classifica√ß√£o bin√°ria de stress usando o dataset WESAD.

## Caracter√≠sticas:
- ‚úÖ Modelo CNN-LSTM otimizado para dados fisiol√≥gicos
- ‚úÖ Treinamento baseline e com Differential Privacy (DP)
- ‚úÖ Compara√ß√£o de resultados entre t√©cnicas
- ‚úÖ Progress bar com ETA durante treinamento
- ‚úÖ Resultados reproduz√≠veis com seeds fixos
- ‚úÖ M√©tricas espec√≠ficas para classifica√ß√£o bin√°ria

## Requisitos:
- Google Colab com GPU habilitada
- Dados no Google Drive: `mydrive/mhealth-data/data/processed/wesad/`


## 1. Configura√ß√£o Inicial


In [None]:
# Instalar depend√™ncias necess√°rias
!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
!pip install numpy pandas scikit-learn matplotlib seaborn
!pip install opacus  # Para Differential Privacy

# Clonar o reposit√≥rio
!git clone https://github.com/vasco-fernandes21/mhealth-data-privacy.git
import sys
sys.path.append('/content/mhealth-data-privacy')

print("‚úÖ Depend√™ncias instaladas e reposit√≥rio clonado")


In [None]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Verificar se os dados existem
import os
data_path = '/content/drive/MyDrive/mhealth-data/data/processed/wesad'

if os.path.exists(data_path):
    print(f"‚úÖ Dados encontrados em: {data_path}")

    # Listar arquivos
    files = os.listdir(data_path)
    print(f"üìÅ Arquivos dispon√≠veis: {files}")

    # Verificar tamanhos
    for file in ['X_train.npy', 'y_train.npy', 'X_val.npy', 'y_val.npy', 'X_test.npy', 'y_test.npy']:
        if file in files:
            size = os.path.getsize(os.path.join(data_path, file))
            print(f"  {file}: {size / (1024*1024):.1f} MB")
        else:
            print(f"  ‚ùå {file} n√£o encontrado")
else:
    print(f"‚ùå Dados n√£o encontrados em: {data_path}")
    print("üí° Certifique-se de que os dados est√£o no caminho correto no Google Drive")


## 2. Treinamento dos Modelos


In [None]:
# Executar treinamento baseline WESAD
import os, shutil

repo_data_dir = '/content/mhealth-data-privacy/data/processed/wesad'
drive_data_dir = '/content/drive/MyDrive/mhealth-data/data/processed/wesad'
baseline_models_dir = '/content/mhealth-data-privacy/models/wesad/baseline'
baseline_results_dir = '/content/mhealth-data-privacy/results/wesad/baseline'
dp_models_dir = '/content/mhealth-data-privacy/models/wesad/differential_privacy'
dp_results_dir = '/content/mhealth-data-privacy/results/wesad/differential_privacy'

# Garantir diret√≥rios de sa√≠da
os.makedirs(baseline_models_dir, exist_ok=True)
os.makedirs(baseline_results_dir, exist_ok=True)
os.makedirs(dp_models_dir, exist_ok=True)
os.makedirs(dp_results_dir, exist_ok=True)

# Criar liga√ß√£o simb√≥lica dos dados
os.makedirs('/content/mhealth-data-privacy/data/processed', exist_ok=True)
if os.path.islink(repo_data_dir) or os.path.exists(repo_data_dir):
    try:
        if os.path.islink(repo_data_dir):
            os.unlink(repo_data_dir)
        else:
            shutil.rmtree(repo_data_dir)
    except Exception as e:
        print(f"Aviso ao remover destino antigo: {e}")

# Criar symlink
!ln -sf "$drive_data_dir" "$repo_data_dir"
print(f"‚úÖ Dados referenciados via symlink: {repo_data_dir} -> {drive_data_dir}")

print(f"üöÄ Iniciando treinamento com dados de: {drive_data_dir}")
print("=" * 80)

# 1. Treinar Baseline
print("üéØ TREINANDO BASELINE WESAD...")
print("-" * 50)
!python /content/mhealth-data-privacy/src/train/wesad/train_baseline.py

print("\n" + "=" * 80)
print("üéØ TREINANDO WESAD COM DIFFERENTIAL PRIVACY...")
print("-" * 50)
!python /content/mhealth-data-privacy/src/train/wesad/differential_privacy/train_dp.py

print("‚úÖ Treinamentos conclu√≠dos!")


## 3. An√°lise Comparativa dos Resultados


In [None]:
# Carregar e comparar os resultados
import json
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

# Carregar resultados
baseline_results_path = '/content/mhealth-data-privacy/models/wesad/baseline/results_wesad.json'
dp_results_path = '/content/mhealth-data-privacy/models/wesad/differential_privacy/results_wesad_dp.json'

baseline_results = None
dp_results = None

if os.path.exists(baseline_results_path):
    with open(baseline_results_path, 'r') as f:
        baseline_results = json.load(f)
    print("‚úÖ Resultados baseline carregados")
else:
    print(f"‚ùå Resultados baseline n√£o encontrados em: {baseline_results_path}")

if os.path.exists(dp_results_path):
    with open(dp_results_path, 'r') as f:
        dp_results = json.load(f)
    print("‚úÖ Resultados DP carregados")
else:
    print(f"‚ùå Resultados DP n√£o encontrados em: {dp_results_path}")

if baseline_results and dp_results:
    print("\nüìä COMPARA√á√ÉO DE RESULTADOS:")
    print("=" * 70)
    
    # Tabela comparativa
    comparison_data = {
        'M√©trica': ['Accuracy', 'Precision', 'Recall', 'F1-Score'],
        'Baseline': [
            f"{baseline_results['accuracy']:.4f}",
            f"{baseline_results['precision']:.4f}",
            f"{baseline_results['recall']:.4f}",
            f"{baseline_results['f1_score']:.4f}"
        ],
        'Com DP': [
            f"{dp_results['accuracy']:.4f}",
            f"{dp_results['precision']:.4f}",
            f"{dp_results['recall']:.4f}",
            f"{dp_results['f1_score']:.4f}"
        ],
        'Diferen√ßa': [
            f"{dp_results['accuracy'] - baseline_results['accuracy']:+.4f}",
            f"{dp_results['precision'] - baseline_results['precision']:+.4f}",
            f"{dp_results['recall'] - baseline_results['recall']:+.4f}",
            f"{dp_results['f1_score'] - baseline_results['f1_score']:+.4f}"
        ]
    }
    
    df = pd.DataFrame(comparison_data)
    print(df.to_string(index=False))
    
    # Privacy budget
    if 'dp_params' in dp_results:
        print(f"\nüîí PRIVACY BUDGET (DP): Œµ = {dp_results['dp_params']['epsilon']:.2f}")
    
    # Matrizes de confus√£o lado a lado
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
    
    # Baseline confusion matrix
    cm_baseline = np.array(baseline_results['confusion_matrix'])
    sns.heatmap(cm_baseline, annot=True, fmt='d', cmap='Blues', 
                xticklabels=baseline_results['class_names'], 
                yticklabels=baseline_results['class_names'], ax=ax1)
    ax1.set_title(f'Baseline - Accuracy: {baseline_results["accuracy"]:.3f}')
    ax1.set_xlabel('Predito')
    ax1.set_ylabel('Real')
    
    # DP confusion matrix
    cm_dp = np.array(dp_results['confusion_matrix'])
    sns.heatmap(cm_dp, annot=True, fmt='d', cmap='Reds', 
                xticklabels=dp_results['class_names'], 
                yticklabels=dp_results['class_names'], ax=ax2)
    ax2.set_title(f'Com DP - Accuracy: {dp_results["accuracy"]:.3f}')
    ax2.set_xlabel('Predito')
    ax2.set_ylabel('Real')
    
    plt.tight_layout()
    plt.show()
    
    # Bar plot comparison
    metrics = ['Accuracy', 'Precision', 'Recall', 'F1-Score']
    baseline_scores = [baseline_results['accuracy'], baseline_results['precision'], 
                      baseline_results['recall'], baseline_results['f1_score']]
    dp_scores = [dp_results['accuracy'], dp_results['precision'], 
                dp_results['recall'], dp_results['f1_score']]
    
    x = np.arange(len(metrics))
    width = 0.35
    
    fig, ax = plt.subplots(figsize=(10, 6))
    ax.bar(x - width/2, baseline_scores, width, label='Baseline', color='skyblue')
    ax.bar(x + width/2, dp_scores, width, label='Com DP', color='salmon')
    
    ax.set_xlabel('M√©tricas')
    ax.set_ylabel('Score')
    ax.set_title('Compara√ß√£o Baseline vs Differential Privacy')
    ax.set_xticks(x)
    ax.set_xticklabels(metrics)
    ax.legend()
    ax.set_ylim(0, 1)
    
    # Add value labels on bars
    for i, v in enumerate(baseline_scores):
        ax.text(i - width/2, v + 0.01, f'{v:.3f}', ha='center', va='bottom')
    for i, v in enumerate(dp_scores):
        ax.text(i + width/2, v + 0.01, f'{v:.3f}', ha='center', va='bottom')
    
    plt.show()
    
else:
    print("üí° Execute primeiro a c√©lula de treinamento para gerar os resultados")


## üí° Dicas e Troubleshooting

### Problemas Comuns:

1. **Dados n√£o encontrados:**
   - Verifique se o caminho `mydrive/mhealth-data/data/processed/wesad/` est√° correto
   - Certifique-se de que todos os arquivos `.npy` est√£o presentes

2. **GPU n√£o dispon√≠vel:**
   - V√° em Runtime ‚Üí Change runtime type ‚Üí Hardware accelerator ‚Üí GPU
   - Os modelos funcionar√£o na CPU, mas ser√£o mais lentos

3. **Mem√≥ria insuficiente:**
   - O dataset WESAD √© menor que o Sleep-EDF (~200MB)
   - Geralmente n√£o h√° problemas de mem√≥ria no Colab

4. **Differential Privacy n√£o converge:**
   - √â normal que modelos DP tenham performance inferior
   - O importante √© o trade-off privacidade vs utilidade
   - Ajuste hiperpar√¢metros DP se necess√°rio

### Caracter√≠sticas do WESAD:
- **Classes**: 2 (non-stress, stress) - classifica√ß√£o bin√°ria
- **Dados fisiol√≥gicos**: ECG, EDA, EMG, RESP, TEMP, ACC
- **Janelas temporais**: 1920 samples por janela
- **Distribui√ß√£o**: ~70% non-stress, ~30% stress

### Compara√ß√£o com Sleep-EDF:
- **Sleep-EDF**: 5 classes (est√°gios de sono), dados mais complexos
- **WESAD**: 2 classes (stress bin√°rio), dados fisiol√≥gicos em tempo real
- **Baseline WESAD**: ~97% accuracy (muito alto devido √† distribui√ß√£o)
- **Baseline Sleep-EDF**: ~85% accuracy (mais desafiador)

### Interpreta√ß√£o dos Resultados DP:
- **Privacy Budget (Œµ)**: Valores menores = mais privacidade
- **Trade-off**: Menos privacidade = melhor accuracy
- **Configura√ß√£o atual**: Œµ ‚âà 20-30 (privacidade moderada)

---

**Notebook criado para o projeto Mestrado SIDM - MHealth Data Privacy** üöÄ
