# 01. Project Setup and Data Audit

**Project:** EEG Analysis for ASD Identification
| **Author:** Bruno Oswando
| **Date:** 2026

## üéØ Objective
This notebook initiates the research pipeline by:
1.  Configuring the computational environment (libraries and paths).
2.  Loading metadata and verifying raw data integrity.
3.  **Auditing Events:** Scanning all `.edf` files to ensure they contain the necessary markers ('FACE', 'BASAL') before processing.

## ‚öôÔ∏è Requirements
* Raw data must be located in `../data/raw/`.

In [None]:
# 1. SETUP AMBIENTE
import os
import sys
import numpy as np
import pandas as pd
import mne
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configura√ß√£o Visual
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
sns.set_theme(style='whitegrid', context='paper', font_scale=1.2)

# Silenciar avisos desnecess√°rios do MNE para limpar o output
mne.set_log_level('WARNING')
warnings.filterwarnings('ignore')

# 2. DEFINI√á√ÉO DE CONSTANTES
# Seed para garantir reprodutibilidade (resultados iguais)
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

# Caminhos Relativos
DATA_RAW_PATH = '../data/raw/'
RESULTS_PATH = '../results/'

# Cria pasta de resultados se n√£o existir
if not os.path.exists(RESULTS_PATH):
    os.makedirs(RESULTS_PATH)

print(f"Ambiente Configurado!")
print(f"MNE Version: {mne.__version__}")
print(f"Random Seed: {RANDOM_SEED}")

Ambiente Configurado!
MNE Version: 1.6.0
Random Seed: 42


In [None]:
# 3. AUDITORIA DE EVENTOS (DATA INTEGRITY CHECK)

print(f" Iniciando auditoria em: {os.path.abspath(DATA_RAW_PATH)}")

# Lista arquivos .edf
edf_files = sorted([f for f in os.listdir(DATA_RAW_PATH) if f.lower().endswith('.edf')])
print(f" Total de arquivos encontrados: {len(edf_files)}")

audit_log = []

for filename in edf_files:
    filepath = os.path.join(DATA_RAW_PATH, filename)
    
    try:
        # L√™ apenas o cabe√ßalho
        raw = mne.io.read_raw_edf(filepath, preload=False, encoding='latin1', verbose=False)
        
        # Extrai anota√ß√µes
        events, event_id = mne.events_from_annotations(raw, verbose=False)
        
        # Checagem dos marcadores
        has_face = any('FACE' in k.upper() or 'FF' in k or 'FN' in k or 'FR' in k for k in event_id.keys())
        has_basal = any('BASAL' in k.upper() for k in event_id.keys())
        
        audit_log.append({
            'Arquivo': filename,
            'Status': 'OK',
            'N_Eventos': len(events),
            'Tem_Faces': has_face,
            'Tem_Basal': has_basal,
            'Tipos_Encontrados': list(event_id.keys())
        })
        
    except Exception as e:
        audit_log.append({
            'Arquivo': filename,
            'Status': 'FALHA',
            'N_Eventos': 0,
            'Tem_Faces': False,
            'Tem_Basal': False,
            'Tipos_Encontrados': str(e)
        })

# Cria DataFrame e Mostra
df_audit = pd.DataFrame(audit_log)

# Salva o relat√≥rio
df_audit.to_csv(os.path.join(RESULTS_PATH, 'relatorio_auditoria_inicial.csv'), index=False)

print("\n Resumo da Auditoria:")
display(df_audit.head())

# Verifica√ß√£o r√°pida de sucesso
if df_audit['Status'].eq('OK').all():
    print("\n‚úÖ Sucesso! Todos os arquivos est√£o √≠ntegros.")
else:
    print(f"\n‚ö†Ô∏è Aten√ß√£o: {len(df_audit[df_audit['Status'] != 'OK'])} arquivos com problemas.") 

 Iniciando auditoria em: /workspaces/eeg-asd-classification/data/raw
 Total de arquivos encontrados: 44

 Resumo da Auditoria:


Unnamed: 0,Arquivo,Status,N_Eventos,Tem_Faces,Tem_Basal,Tipos_Encontrados
0,TEA_G_26.edf,OK,489,True,True,"[+0.000000, +1.170000, +108.350000, +1102.2750..."
1,TEA_G_28.edf,OK,402,True,True,"[+0.000000, +1.130000, +1042.865000, +1062.105..."
2,TEA_G_30.edf,OK,421,True,True,"[+0.000000, +1.170000, +1033.950000, +1050.870..."
3,TEA_G_40.edf,OK,353,True,True,"[+0.000000, +1.160000, +1030.200000, +1070.645..."
4,TEA_L_16.edf,OK,423,True,True,"[+0.000000, +1.140000, +1012.980000, +1104.900..."



‚úÖ Sucesso! Todos os arquivos est√£o √≠ntegros.
