# Sleep-EDF PyTorch Training - Google Colab

Este notebook treina um modelo PyTorch otimizado para classifica√ß√£o de est√°gios de sono usando o dataset Sleep-EDF.

## Caracter√≠sticas:
- ‚úÖ Modelo LSTM bidirecional com aten√ß√£o
- ‚úÖ Data loading eficiente para datasets grandes
- ‚úÖ Progress bar com ETA durante treinamento
- ‚úÖ Resultados reproduz√≠veis com seeds fixos
- ‚úÖ Otimiza√ß√µes para mem√≥ria e velocidade

## Requisitos:
- Google Colab com GPU habilitada
- Dados no Google Drive: `mydrive/mhealth-data/data/processed/sleep-edf/`


## 1. Configura√ß√£o Inicial


In [None]:
# Instalar depend√™ncias necess√°rias
!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
!pip install numpy pandas scikit-learn matplotlib seaborn
!pip install pyedflib mne

# Clonar o reposit√≥rio
!git clone https://github.com/vasco-fernandes21/mhealth-data-privacy.git
import sys
sys.path.append('/content/mhealth-data-privacy')

print("‚úÖ Depend√™ncias instaladas e reposit√≥rio clonado")


Looking in indexes: https://download.pytorch.org/whl/cu118
Collecting pyedflib
  Downloading pyedflib-0.1.42-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.2 kB)
Collecting mne
  Downloading mne-1.10.2-py3-none-any.whl.metadata (21 kB)
Downloading pyedflib-0.1.42-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.8 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.8/2.8 MB[0m [31m49.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading mne-1.10.2-py3-none-any.whl (7.4 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m7.4/7.4 MB[0m [31m149.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Verificar se os dados existem
import os
data_path = '/content/drive/MyDrive/mhealth-data/data/processed/sleep-edf'

if os.path.exists(data_path):
    print(f"‚úÖ Dados encontrados em: {data_path}")

    # Listar arquivos
    files = os.listdir(data_path)
    print(f"üìÅ Arquivos dispon√≠veis: {files}")

    # Verificar tamanhos
    for file in ['X_train.npy', 'y_train.npy', 'X_val.npy', 'y_val.npy', 'X_test.npy', 'y_test.npy']:
        if file in files:
            size = os.path.getsize(os.path.join(data_path, file))
            print(f"  {file}: {size / (1024*1024):.1f} MB")
        else:
            print(f"  ‚ùå {file} n√£o encontrado")
else:
    print(f"‚ùå Dados n√£o encontrados em: {data_path}")
    print("üí° Certifique-se de que os dados est√£o no caminho correto no Google Drive")


In [None]:
# Executar o treinamento usando o script do reposit√≥rio (preserva __file__)
import os, shutil

repo_data_dir = '/content/mhealth-data-privacy/data/processed/sleep-edf'
drive_data_dir = '/content/drive/MyDrive/mhealth-data/data/processed/sleep-edf'
models_dir = '/content/mhealth-data-privacy/models/sleep-edf/baseline_torch'
results_dir = '/content/mhealth-data-privacy/results/sleep-edf/baseline'

# Garantir diret√≥rios de sa√≠da (evita erro no torch.save)
os.makedirs(models_dir, exist_ok=True)
os.makedirs(results_dir, exist_ok=True)

# Criar liga√ß√£o simb√≥lica dos dados do Drive para o path esperado pelo script
os.makedirs('/content/mhealth-data-privacy/data/processed', exist_ok=True)
if os.path.islink(repo_data_dir) or os.path.exists(repo_data_dir):
    try:
        if os.path.islink(repo_data_dir):
            os.unlink(repo_data_dir)
        else:
            shutil.rmtree(repo_data_dir)
    except Exception as e:
        print(f"Aviso ao remover destino antigo: {e}")

# Criar symlink
!ln -sf "$drive_data_dir" "$repo_data_dir"
print(f"‚úÖ Dados referenciados via symlink: {repo_data_dir} -> {drive_data_dir}")

print(f"üöÄ Iniciando treinamento com dados de: {drive_data_dir}")
print("=" * 80)

# Executar o script (agora __file__ est√° definido corretamente)
!python /content/mhealth-data-privacy/src/train/sleep-edf/train_baseline_torch.py

print("‚úÖ Treinamento conclu√≠do!")

## 3. An√°lise dos Resultados


In [None]:
# Carregar e analisar os resultados
import json
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Carregar resultados
results_path = '/content/mhealth-data-privacy/models/sleep-edf/baseline_torch/results_sleep_edf.json'

if os.path.exists(results_path):
    with open(results_path, 'r') as f:
        results = json.load(f)

    print("üìä RESULTADOS FINAIS:")
    print("=" * 50)
    print(f"Accuracy:  {results['accuracy']:.4f}")
    print(f"Precision: {results['precision']:.4f}")
    print(f"Recall:    {results['recall']:.4f}")
    print(f"F1-Score:  {results['f1_score']:.4f}")

    # Matriz de confus√£o
    print("\nüìã MATRIZ DE CONFUS√ÉO:")
    cm = np.array(results['confusion_matrix'])
    class_names = results['class_names']

    print(f"{'':8s}", end="")
    for name in class_names:
        print(f"{name:8s}", end="")
    print("\n{'Real ‚Üì':8s}", end="")

    for i, row in enumerate(cm):
        print(f"{class_names[i]:8s}", end="")
        for val in row:
            print(f"{val:8d}", end="")
        print()

    # Plot da matriz de confus√£o
    plt.figure(figsize=(10, 8))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                xticklabels=class_names, yticklabels=class_names)
    plt.title('Matriz de Confus√£o - Sleep-EDF PyTorch')
    plt.xlabel('Predito')
    plt.ylabel('Real')
    plt.show()

else:
    print(f"‚ùå Resultados n√£o encontrados em: {results_path}")
    print("üí° Execute primeiro a c√©lula de treinamento")


## üí° Dicas e Troubleshooting

### Problemas Comuns:

1. **Dados n√£o encontrados:**
   - Verifique se o caminho `mydrive/mhealth-data/data/processed/sleep-edf/` est√° correto
   - Certifique-se de que todos os arquivos `.npy` est√£o presentes

2. **GPU n√£o dispon√≠vel:**
   - V√° em Runtime ‚Üí Change runtime type ‚Üí Hardware accelerator ‚Üí GPU
   - O modelo funcionar√° na CPU, mas ser√° mais lento

3. **Mem√≥ria insuficiente:**
   - O dataset Sleep-EDF √© grande (58MB para treino)
   - Considere usar batch_size menor se necess√°rio

4. **Tempo de treinamento longo:**
   - O ETA mostrado durante o treinamento √© preciso
   - Para datasets grandes, considere interromper e retomar treinamento

### Recursos Utilizados:
- **GPU**: Recomendada para treinamento r√°pido
- **RAM**: ~4GB para dataset + modelo
- **Disco**: ~200MB para c√≥digo + resultados

### Pr√≥ximos Passos:
1. Experimentar diferentes hiperpar√¢metros
2. Implementar t√©cnicas de privacidade (DP-SGD)
3. Testar com outros datasets fisiol√≥gicos

---

**Notebook criado para o projeto Mestrado SIDM - MHealth Data Privacy** üöÄ
