# ü©∫ Classifica√ß√£o de Anomalias em ECG
## Fibrila√ß√£o Atrial vs. Ritmo Sinusal Normal

**Projeto:** Detec√ß√£o Autom√°tica de Arritmias Card√≠acas  
**Bases de Dados:** PhysioNet MIT-BIH

---

### üìä Objetivos do Projeto
1. Extrair caracter√≠sticas avan√ßadas de sinais ECG
2. Comparar ritmo normal vs. fibrila√ß√£o atrial
3. Construir modelo de classifica√ß√£o robusto
4. Avaliar poder discriminativo das features

---

## ü´Ä Fundamentos: O que s√£o Anomalias Card√≠acas?

### Ritmo Sinusal Normal (NSR)
- Batimentos regulares e coordenados
- Ondas P bem definidas
- Intervalos R-R consistentes

### Fibrila√ß√£o Atrial (AFib)
- **Aus√™ncia de ondas P**: Contra√ß√£o atrial descoordenada
- **Intervalos R-R irregulares**: Atividade el√©trica ca√≥tica
- **Alta variabilidade**: Padr√£o imprevis√≠vel entre batimentos

![image.png](attachment:image.png)

### üí° Hip√≥tese Cient√≠fica
A **Variabilidade da Frequ√™ncia Card√≠aca (HRV)** deve ser significativamente maior em pacientes com AFib devido √† irregularidade caracter√≠stica dos intervalos R-R.

In [None]:
# üì¶ Importa√ß√£o de Bibliotecas
import wfdb
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from ecg_processor_V2 import process_records_in_windows, extract_comprehensive_features

# Bibliotecas para Machine Learning
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve
from sklearn.preprocessing import StandardScaler
import xgboost as xgb

# Configura√ß√£o visual
sns.set_style("whitegrid")
plt.rcParams['figure.dpi'] = 100

---

## üì• 1. Extra√ß√£o de Dados

### Bases de Dados Utilizadas
- **MIT-BIH Normal Sinus Rhythm Database (nsrdb)**: 5 pacientes saud√°veis
- **MIT-BIH Atrial Fibrillation Database (afdb)**: 5 pacientes com AFib

### Metodologia de Processamento
- **Janelas de 30 segundos**: Segmenta√ß√£o n√£o-sobreposta
- **Lead I**: Deriva√ß√£o √∫nica para consist√™ncia
- **M√∫ltiplas amostras por paciente**: Cada janela = 1 amostra

In [None]:
# Configura√ß√£o de diret√≥rios
output_dir = 'data'
basic_csv_path = os.path.join(output_dir, 'ecg_basic_features_ECG2.csv')
comprehensive_csv_path = os.path.join(output_dir, 'ecg_comprehensive_features_ECG2.csv')

# Criar diret√≥rio se n√£o existir
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

---

## üî¨ 2. Pipeline de Processamento de Sinais

### Etapas do Processamento

#### 1Ô∏è‚É£ **Filtragem Passa-Banda**
- Remove deriva da linha de base (0.5 Hz)
- Elimina ru√≠do de alta frequ√™ncia (40 Hz)
- Filtro Butterworth com fase zero

![image.png](attachment:image.png)

#### 2Ô∏è‚É£ **Detec√ß√£o de Picos R**
- Identifica complexos QRS
- Base para segmenta√ß√£o de batimentos

![image-2.png](attachment:image-2.png)

#### 3Ô∏è‚É£ **Features de HRV (Dom√≠nio do Tempo)**
- `mean_rr`: Intervalo R-R m√©dio
- `sdnn`: Desvio padr√£o dos intervalos NN
- `rmssd`: Raiz quadrada da m√©dia das diferen√ßas sucessivas

#### 4Ô∏è‚É£ **PCA - An√°lise de Componentes Principais**
- Captura varia√ß√µes morfol√≥gicas dos batimentos
- Redu√ß√£o de dimensionalidade
- Identifica√ß√£o de padr√µes dominantes

![image-3.png](attachment:image-3.png)

#### 5Ô∏è‚É£ **ICA - An√°lise de Componentes Independentes**
- Separa√ß√£o cega de fontes
- Isola artefatos e sinais fisiol√≥gicos
- **Potencial para detectar ondas fibrilat√≥rias**

#### 6Ô∏è‚É£ **An√°lise Espectral**
- Dom√≠nio da frequ√™ncia (LF/HF)
- Balan√ßo auton√¥mico
- ‚ö†Ô∏è **Limita√ß√£o**: Janelas de 30s s√£o curtas para an√°lise espectral completa

In [None]:
print("üîÑ Pipeline de Extra√ß√£o de Features ECG")
print("=" * 60)

reprocess = False  # Definir como True para reprocessar

if reprocess or not os.path.exists(basic_csv_path) or not os.path.exists(comprehensive_csv_path):
    # Lista de registros do PhysioNet
    nsr_records = ['16265', '16272', '16420', '16483', '16539']
    afib_records = ['04015', '04043', '04126', '04746', '04908']

    # 1. Extrair Features B√°sicas de HRV
    print("üìä Extraindo features b√°sicas de HRV...")
    nsr_basic = process_records_in_windows(nsr_records, 'nsrdb/1.0.0/', 'Normal', use_comprehensive=False)
    afib_basic = process_records_in_windows(afib_records, 'afdb/1.0.0/', 'AFib', use_comprehensive=False)

    df_basic = pd.DataFrame(nsr_basic + afib_basic)
    df_basic.to_csv(basic_csv_path, index=False)
    print(f"‚úì Features b√°sicas: {len(df_basic)} janelas, {len(df_basic.columns)-3} features")

    # 2. Extrair Features Avan√ßadas (PCA, ICA, Espectral)
    print(f"\nüß† Extraindo features avan√ßadas (PCA, ICA, Espectral)...")

    nsr_comprehensive = process_records_in_windows(nsr_records, 'nsrdb/1.0.0/', 'Normal', use_comprehensive=True)
    afib_comprehensive = process_records_in_windows(afib_records, 'afdb/1.0.0/', 'AFib', use_comprehensive=True)

    df_comprehensive = pd.DataFrame(nsr_comprehensive + afib_comprehensive)
    df_comprehensive.to_csv(comprehensive_csv_path, index=False)
    print(f"‚úì Features avan√ßadas: {len(df_comprehensive)} janelas, {len(df_comprehensive.columns)-3} features")

    # Resumo
    print(f"\nüìà RESUMO FINAL DE FEATURES")
    print("=" * 60)
    print(f"Features B√°sicas HRV: {len([col for col in df_basic.columns if col not in ['record', 'window_id', 'label']])}")
    print(f"Features Avan√ßadas: {len([col for col in df_comprehensive.columns if col not in ['record', 'window_id', 'label']])}")
    print(f"Fator de Aumento: {len(df_comprehensive.columns) / len(df_basic.columns):.1f}x mais features")

    print(f"\n‚úÖ Pronto para an√°lise!")
else:
    print('‚úì Arquivos CSV j√° existem!')
    print(f"‚úÖ Pronto para an√°lise!")

---

## üß† 3. Por que PCA, ICA e An√°lise Espectral?

### üéØ PCA (An√°lise de Componentes Principais)
**Objetivo:** Redu√ß√£o de dimensionalidade e extra√ß√£o de padr√µes morfol√≥gicos

- ‚úÖ **Captura varia√ß√µes importantes** na morfologia dos batimentos
- ‚úÖ **Redu√ß√£o de ru√≠do**: Foca nas dire√ß√µes de maior vari√¢ncia
- ‚úÖ **Reconhecimento de padr√µes**: Diferentes condi√ß√µes card√≠acas = padr√µes morfol√≥gicos distintos
- ‚úÖ **Compress√£o de dados**: Representa formas complexas com menos dimens√µes

### üéØ ICA (An√°lise de Componentes Independentes)
**Objetivo:** Separa√ß√£o cega de fontes e remo√ß√£o de artefatos

- ‚úÖ **Separa√ß√£o de fontes mistas**: Isola sinais fisiol√≥gicos sobrepostos
- ‚úÖ **Remo√ß√£o de artefatos**: Separa ru√≠do muscular, deriva de linha de base
- ‚úÖ **An√°lise multi-processo**: Revela atividades card√≠acas sobrepostas
- ‚úÖ **Detec√ß√£o de arritmias**: Diferentes arritmias = padr√µes independentes √∫nicos

### üéØ An√°lise Espectral
**Objetivo:** An√°lise no dom√≠nio da frequ√™ncia

- ‚úÖ **Dom√≠nio da frequ√™ncia**: Analisa HRV em diferentes bandas
- ‚úÖ **Fun√ß√£o auton√¥mica**: Raz√£o LF/HF indica balan√ßo simp√°tico vs. parassimp√°tico
- ‚úÖ **Relev√¢ncia cl√≠nica**: Marcadores estabelecidos para avalia√ß√£o da sa√∫de card√≠aca

‚ö†Ô∏è **Nota sobre Limita√ß√µes**: A raz√£o LF/HF requer janelas de 5 minutos (padr√£o). Janelas de 30s s√£o insuficientes para an√°lise espectral robusta das bandas de baixa frequ√™ncia.

In [None]:
# Carregar dados processados
nsr_records = ['16265', '16272', '16420', '16483', '16539']
afib_records = ['04015', '04043', '04126', '04746', '04908']

df_basic = pd.read_csv(basic_csv_path)
df_comprehensive = pd.read_csv(comprehensive_csv_path)

print("‚úÖ Dados carregados com sucesso!")
print(f"üìä Shape do dataset: {df_comprehensive.shape}")

---

## üìä 4. An√°lise Explorat√≥ria do Dataset

### Vis√£o Geral dos Dados

In [None]:
# An√°lise do Dataset
print("üìä AN√ÅLISE ABRANGENTE DO DATASET")
print("=" * 60)

# Informa√ß√µes b√°sicas
print(f"Dimens√µes do Dataset: {df_comprehensive.shape}")
print(f"Janelas Normais: {len(df_comprehensive[df_comprehensive['label'] == 'Normal'])}")
print(f"Janelas AFib: {len(df_comprehensive[df_comprehensive['label'] == 'AFib'])}")

# Categorias de features
feature_categories = {
    'HRV (Dom√≠nio do Tempo)': [col for col in df_comprehensive.columns if any(hrv in col for hrv in ['mean_rr', 'sdnn', 'rmssd', 'pnn50', 'hr_mean'])],
    'PCA (Morfol√≥gicas)': [col for col in df_comprehensive.columns if 'pca_' in col],
    'ICA (Fontes Independentes)': [col for col in df_comprehensive.columns if 'ica_' in col],
    'Espectral (Dom√≠nio da Frequ√™ncia)': [col for col in df_comprehensive.columns if 'spectral_' in col],
    'Qualidade do Sinal': [col for col in df_comprehensive.columns if any(qual in col for qual in ['signal_quality', 'num_heartbeats', 'beat_detection'])]
}

print(f"\nüìÇ Categorias de Features:")
for category, features in feature_categories.items():
    print(f"  ‚Ä¢ {category}: {len(features)} features")
    if len(features) > 0:
        example_features = features[:3] if len(features) >= 3 else features
        print(f"    Exemplos: {', '.join(example_features)}")

# Verificar valores faltantes
missing_counts = df_comprehensive.isnull().sum()
features_with_missing = missing_counts[missing_counts > 0]

if len(features_with_missing) > 0:
    print(f"\n‚ö†Ô∏è Features com valores faltantes:")
    for feature, count in features_with_missing.items():
        print(f"  ‚Ä¢ {feature}: {count} faltantes ({count/len(df_comprehensive)*100:.1f}%)")
else:
    print(f"\n‚úÖ Nenhum valor faltante detectado!")

# Estat√≠sticas b√°sicas
print(f"\nüìà Estat√≠sticas do Dataset:")
print(f"  ‚Ä¢ Total de features extra√≠das: {len(df_comprehensive.columns) - 3}")
print(f"  ‚Ä¢ Total de janelas v√°lidas: {len(df_comprehensive)}")
print(f"  ‚Ä¢ Taxa de sucesso: {len(df_comprehensive) / (len(nsr_records + afib_records) * 2 * 60):.1f}%")

print(f"\n‚úÖ Dataset pronto para visualiza√ß√£o e an√°lise!")

---

## üìà 5. Visualiza√ß√£o de Features Avan√ßadas

### Compara√ß√£o: Normal vs. AFib

In [None]:
# Visualiza√ß√£o Abrangente de Features
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('An√°lise de Features ECG: Normal vs AFib', fontsize=16, fontweight='bold')

# 1. HRV Tradicional - RMSSD
sns.boxplot(data=df_comprehensive, x='label', y='rmssd', hue='label', ax=axes[0,0], palette='viridis', legend=False)
axes[0,0].set_title('RMSSD (HRV Tradicional)', fontweight='bold')
axes[0,0].set_ylabel('RMSSD (ms)')
axes[0,0].set_xlabel('Tipo de Ritmo')

# 2. Vari√¢ncia Explicada pelo PCA
pca_var_cols = [col for col in df_comprehensive.columns if 'pca_var_ratio_1' in col]
if pca_var_cols:
    sns.boxplot(data=df_comprehensive, x='label', y=pca_var_cols[0], hue='label', ax=axes[0,1], palette='plasma', legend=False)
    axes[0,1].set_title('Vari√¢ncia do 1¬∫ Componente PCA', fontweight='bold')
    axes[0,1].set_ylabel('Raz√£o de Vari√¢ncia Explicada')
    axes[0,1].set_xlabel('Tipo de Ritmo')

# 3. Energia ICA
ica_energy_cols = [col for col in df_comprehensive.columns if 'ica_ic1_energy' in col]
if ica_energy_cols:
    sns.boxplot(data=df_comprehensive, x='label', y=ica_energy_cols[0], hue='label', ax=axes[0,2], palette='coolwarm', legend=False)
    axes[0,2].set_title('Energia do 1¬∫ Componente ICA', fontweight='bold')
    axes[0,2].set_ylabel('Energia')
    axes[0,2].set_xlabel('Tipo de Ritmo')
    axes[0,2].set_yscale('log')

# 4. Raz√£o LF/HF Espectral
spectral_ratio_cols = [col for col in df_comprehensive.columns if 'spectral_lf_hf_ratio' in col]
if spectral_ratio_cols:
    sns.violinplot(data=df_comprehensive, x='label', y=spectral_ratio_cols[0], hue='label', ax=axes[1,0], palette='Set2', legend=False)
    axes[1,0].set_title('Raz√£o LF/HF (Balan√ßo Auton√¥mico)', fontweight='bold')
    axes[1,0].set_ylabel('Raz√£o LF/HF')
    axes[1,0].set_xlabel('Tipo de Ritmo')

# 5. Scatter PCA vs ICA
pca_mean_cols = [col for col in df_comprehensive.columns if 'pca_pc1_mean' in col]
ica_mean_cols = [col for col in df_comprehensive.columns if 'ica_ic1_mean' in col]
if pca_mean_cols and ica_mean_cols:
    sns.scatterplot(data=df_comprehensive, x=pca_mean_cols[0], y=ica_mean_cols[0], 
                   hue='label', ax=axes[1,1], alpha=0.7, palette='Set1')
    axes[1,1].set_title('Features PCA vs ICA', fontweight='bold')
    axes[1,1].set_xlabel('M√©dia PC1 (PCA)')
    axes[1,1].set_ylabel('M√©dia IC1 (ICA)')
    axes[1,1].legend(title='Tipo de Ritmo')

# 6. Qualidade do Sinal (SNR)
signal_quality_cols = [col for col in df_comprehensive.columns if 'signal_quality_snr' in col]
if signal_quality_cols:
    sns.histplot(data=df_comprehensive, x=signal_quality_cols[0], hue='label', 
                ax=axes[1,2], alpha=0.7, bins=30)
    axes[1,2].set_title('Qualidade do Sinal (SNR)', fontweight='bold')
    axes[1,2].set_xlabel('Raz√£o Sinal-Ru√≠do')
    axes[1,2].set_ylabel('Contagem')

plt.tight_layout()
plt.show()

print("‚úÖ Visualiza√ß√µes geradas com sucesso!")

---

## üìä 6. An√°lise Estat√≠stica: Poder Discriminativo

### Teste de Mann-Whitney U
- **Objetivo**: Identificar features mais discriminativas
- **M√©todo**: Teste n√£o-param√©trico (n√£o assume normalidade)
- **Interpreta√ß√£o**: 
  - `p < 0.05`: Diferen√ßa estatisticamente significativa
  - `d` (Cohen's d): Tamanho do efeito (0.2=pequeno, 0.5=m√©dio, 0.8+=grande)

In [None]:
# An√°lise Estat√≠stica de Features
from scipy import stats

print("üìä AN√ÅLISE ESTAT√çSTICA DE FEATURES")
print("=" * 60)
print("Usando teste Mann-Whitney U para identificar features mais discriminativas")
print("p < 0.05 indica diferen√ßa significativa entre Normal e AFib")

# Separar dados Normal e AFib
normal_data = df_comprehensive[df_comprehensive['label'] == 'Normal']
afib_data = df_comprehensive[df_comprehensive['label'] == 'AFib']

# Analisar grupos de features
results = []
for category, features in feature_categories.items():
    print(f"\n{category}:")
    print("-" * (len(category) + 4))
    
    significant_features = 0
    for feature in features:
        if feature in df_comprehensive.columns:
            normal_values = normal_data[feature].dropna()
            afib_values = afib_data[feature].dropna()
            
            if len(normal_values) > 0 and len(afib_values) > 0:
                # Teste Mann-Whitney U (n√£o-param√©trico)
                statistic, p_value = stats.mannwhitneyu(normal_values, afib_values, alternative='two-sided')
                    
                # Tamanho do efeito (Cohen's d)
                pooled_std = np.sqrt((normal_values.var() + afib_values.var()) / 2)
                cohens_d = abs(normal_values.mean() - afib_values.mean()) / pooled_std if pooled_std > 0 else 0
                    
                significance = "***" if p_value < 0.001 else "**" if p_value < 0.01 else "*" if p_value < 0.05 else ""
                    
                print(f"  {feature:<30} p={p_value:.2e} d={cohens_d:.3f} {significance}")
                    
                if p_value < 0.05:
                    significant_features += 1
                    
                results.append({
                    'category': category,
                    'feature': feature,
                    'p_value': p_value,
                    'effect_size': cohens_d,
                    'significant': p_value < 0.05
                })
    
    print(f"  ‚Üí {significant_features}/{len([f for f in features if f in df_comprehensive.columns])} features significativamente diferentes")

# Resumo dos resultados
df_results = pd.DataFrame(results)
if len(df_results) > 0:
    print(f"\nüìà RESUMO ESTAT√çSTICO")
    print("=" * 60)
    
    # Estat√≠sticas por grupo
    group_stats = df_results.groupby('category').agg({
        'significant': ['count', 'sum'],
        'effect_size': ['mean', 'max']
    }).round(3)
    
    print("Desempenho por Categoria:")
    for category in group_stats.index:
        total = group_stats.loc[category, ('significant', 'count')]
        significant = group_stats.loc[category, ('significant', 'sum')]
        mean_effect = group_stats.loc[category, ('effect_size', 'mean')]
        max_effect = group_stats.loc[category, ('effect_size', 'max')]
        
        print(f"  {category:<30}: {significant:2d}/{total:2d} significativas, d m√©dio={mean_effect:.3f}, d m√°x={max_effect:.3f}")
    
    # Top features
    top_features = df_results.nlargest(10, 'effect_size')
    print(f"\nüèÜ Top 10 Features Mais Discriminativas:")
    for i, (_, row) in enumerate(top_features.iterrows(), 1):
        status = "‚úì" if row['significant'] else "‚úó"
        print(f"  {i:2d}. {row['feature']:<30} d={row['effect_size']:.3f} {status}")
    
    print(f"\n‚úÖ Total: {df_results['significant'].sum()}/{len(df_results)} features mostram diferen√ßas significativas")
    best_feature = df_results.loc[df_results['effect_size'].idxmax()]
    print(f"ü•á Melhor feature: {best_feature['feature']} (d={best_feature['effect_size']:.3f})")
else:
    print("‚ùå Nenhum resultado para analisar.")

---

## üöÄ 7. Classifica√ß√£o com XGBoost

### Por que XGBoost?

‚úÖ **Vantagens para Dados M√©dicos**:
- Lida bem com features mistas (HRV + morfol√≥gicas)
- Regulariza√ß√£o integrada (previne overfitting)
- Interpretabilidade via import√¢ncia de features
- Excelente desempenho em dados tabulares

### Features Selecionadas
- **RMSSD**: Medida tradicional de HRV
- **Vari√¢ncia PCA**: Captura varia√ß√µes morfol√≥gicas
- **Energia ICA**: Poss√≠vel assinatura de ondas fibrilat√≥rias
- **Outras features discriminativas**

In [None]:
# Preparar dados para XGBoost
print("üöÄ PREPARANDO DADOS PARA CLASSIFICA√á√ÉO XGBOOST")
print("=" * 60)

print(f"Dimens√µes do dataset: {df_comprehensive.shape}")

# Features-chave para classifica√ß√£o
key_features = []

# 1. RMSSD (HRV)
if 'rmssd' in df_comprehensive.columns:
    key_features.append('rmssd')
    print(f"‚úì Feature RMSSD encontrada")

# 2. Vari√¢ncia do 1¬∫ Componente PCA
pca_var_cols = [col for col in df_comprehensive.columns if 'pca_var_ratio_1' in col]
if pca_var_cols:
    key_features.append(pca_var_cols[0])
    print(f"‚úì Vari√¢ncia PCA encontrada: {pca_var_cols[0]}")

# Features discriminativas adicionais
additional_features = []
for feature in ['sdnn', 'mean_rr', 'pca_pc1_mean', 'spectral_lf_hf_ratio', 'ica_ic3_energy']:
    if feature in df_comprehensive.columns:
        additional_features.append(feature)

print(f"\nüìä Features prim√°rias: {key_features}")
print(f"üìä Features adicionais: {additional_features}")

# Combinar features
all_features = key_features + additional_features
print(f"\n‚úÖ Total de features para classifica√ß√£o: {len(all_features)}")
print(f"üìã Lista de features: {all_features}")

In [None]:
# Implementa√ß√£o da Classifica√ß√£o XGBoost
print("ü§ñ CLASSIFICA√á√ÉO DE ANOMALIAS ECG COM XGBOOST")
print("=" * 60)

# Preparar dataset
X = df_comprehensive[all_features].copy()
y = df_comprehensive['label'].copy()

# Codificar labels (XGBoost precisa de labels num√©ricos)
label_mapping = {'Normal': 0, 'AFib': 1}
y_encoded = y.map(label_mapping)

print(f"Dimens√µes: {X.shape}")
print(f"Distribui√ß√£o de classes:")
print(y.value_counts())

# Tratar valores faltantes
missing_count = X.isnull().sum().sum()
if missing_count > 0:
    print(f"\n‚ö†Ô∏è Tratando {missing_count} valores faltantes...")
    X = X.fillna(X.median())
else:
    print("\n‚úÖ Nenhum valor faltante detectado!")

# Dividir dados
X_train, X_test, y_train, y_test = train_test_split(
    X, y_encoded, test_size=0.2, random_state=42, stratify=y_encoded
)

print(f"\nüìä Conjunto de treino: {X_train.shape[0]} amostras")
print(f"üìä Conjunto de teste: {X_test.shape[0]} amostras")
print(f"   Treino - Normal: {np.sum(y_train==0)}, AFib: {np.sum(y_train==1)}")
print(f"   Teste  - Normal: {np.sum(y_test==0)}, AFib: {np.sum(y_test==1)}")

# Normaliza√ß√£o
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Inicializar XGBoost com par√¢metros otimizados para dados m√©dicos
xgb_classifier = xgb.XGBClassifier(
    objective='binary:logistic',
    eval_metric='auc',
    max_depth=4,
    learning_rate=0.1,
    n_estimators=100,
    subsample=0.8,
    colsample_bytree=0.8,
    random_state=42,
    reg_alpha=0.1,
    reg_lambda=0.1
)

print(f"\n‚úÖ Modelo XGBoost inicializado com par√¢metros otimizados para dados m√©dicos")

---

## üìä 8. Treinamento e Avalia√ß√£o do Modelo

In [None]:
# Treinar e Avaliar Modelo
print("üéì TREINANDO MODELO XGBOOST")
print("=" * 60)

# Treinar modelo
print("Treinando classificador XGBoost...")
xgb_classifier.fit(X_train_scaled, y_train)
print("‚úÖ Treinamento conclu√≠do!")

# Fazer predi√ß√µes
y_pred = xgb_classifier.predict(X_test_scaled)
y_pred_proba = xgb_classifier.predict_proba(X_test_scaled)[:, 1]

# Calcular m√©tricas
accuracy = (y_pred == y_test).mean()
auc_score = roc_auc_score(y_test, y_pred_proba)

print(f"\nüìä M√âTRICAS DE DESEMPENHO DO MODELO")
print("=" * 40)
print(f"üéØ Acur√°cia: {accuracy:.3f} ({accuracy*100:.1f}%)")
print(f"üìà AUC Score: {auc_score:.3f}")

# Relat√≥rio de classifica√ß√£o detalhado
print(f"\nüìã Relat√≥rio de Classifica√ß√£o Detalhado:")
target_names = ['Normal', 'AFib']
print(classification_report(y_test, y_pred, target_names=target_names))

# Matriz de Confus√£o
cm = confusion_matrix(y_test, y_pred)
print(f"\nüî¢ Matriz de Confus√£o:")
print(f"                Predito")
print(f"                Normal  AFib")
print(f"Real Normal     {cm[0,0]:6d} {cm[0,1]:5d}")
print(f"     AFib       {cm[1,0]:6d} {cm[1,1]:5d}")

# Valida√ß√£o cruzada
print(f"\nüîÑ RESULTADOS DA VALIDA√á√ÉO CRUZADA")
print("=" * 40)
cv_scores = cross_val_score(xgb_classifier, X_train_scaled, y_train, cv=5, scoring='roc_auc')
print(f"5-Fold CV AUC: {cv_scores.mean():.3f} ¬± {cv_scores.std():.3f}")
print(f"Folds individuais: {[f'{score:.3f}' for score in cv_scores]}")

print(f"\n‚úÖ Classifica√ß√£o XGBoost conclu√≠da com sucesso!")

---

## üìà 9. An√°lise de Import√¢ncia de Features

### Interpreta√ß√£o do Modelo

In [None]:
# An√°lise de Import√¢ncia de Features
print("üîç AN√ÅLISE DE IMPORT√ÇNCIA DE FEATURES")
print("=" * 60)

# Obter import√¢ncia do XGBoost
feature_importance = xgb_classifier.feature_importances_
feature_names = all_features

# Criar dataframe de import√¢ncia
importance_df = pd.DataFrame({
    'feature': feature_names,
    'importance': feature_importance
}).sort_values('importance', ascending=False).reset_index(drop=True)

print("üèÜ Top 10 Features Mais Importantes:")
print("-" * 40)
for i, (_, row) in enumerate(importance_df.head(10).iterrows(), 1):
    print(f"{i:2d}. {row['feature']:<25} {row['importance']:.4f}")

# Visualiza√ß√µes
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('Resultados da Classifica√ß√£o XGBoost - ECG', fontsize=16, fontweight='bold')

# 1. Import√¢ncia de Features
top_features = importance_df.head(10)
sns.barplot(data=top_features, y='feature', x='importance', ax=axes[0,0], palette='viridis')
axes[0,0].set_title('Top 10 Features Mais Importantes', fontweight='bold')
axes[0,0].set_xlabel('Score de Import√¢ncia')

# 2. Curva ROC
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
axes[0,1].plot(fpr, tpr, color='darkorange', lw=2, label=f'Curva ROC (AUC = {auc_score:.3f})')
axes[0,1].plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Classificador Aleat√≥rio')
axes[0,1].set_xlim([0.0, 1.0])
axes[0,1].set_ylim([0.0, 1.05])
axes[0,1].set_xlabel('Taxa de Falsos Positivos')
axes[0,1].set_ylabel('Taxa de Verdadeiros Positivos')
axes[0,1].set_title('Curva ROC', fontweight='bold')
axes[0,1].legend(loc="lower right")
axes[0,1].grid(True, alpha=0.3)

# 3. Heatmap da Matriz de Confus√£o
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[1,0],
            xticklabels=['Normal', 'AFib'], yticklabels=['Normal', 'AFib'])
axes[1,0].set_title('Matriz de Confus√£o', fontweight='bold')
axes[1,0].set_xlabel('Label Predito')
axes[1,0].set_ylabel('Label Verdadeiro')

# 4. Distribui√ß√£o de Probabilidades de Predi√ß√£o
prob_df = pd.DataFrame({
    'probability': y_pred_proba,
    'true_label': ['Normal' if x == 0 else 'AFib' for x in y_test]
})
sns.histplot(data=prob_df, x='probability', hue='true_label', ax=axes[1,1], alpha=0.7, bins=20)
axes[1,1].set_title('Distribui√ß√£o de Probabilidades de Predi√ß√£o', fontweight='bold')
axes[1,1].set_xlabel('Probabilidade AFib')
axes[1,1].set_ylabel('Contagem')
axes[1,1].axvline(x=0.5, color='red', linestyle='--', alpha=0.7, label='Limiar de Decis√£o')
axes[1,1].legend()

plt.tight_layout()
plt.show()

# An√°lise de features-chave
print(f"\nüîë AN√ÅLISE DE FEATURES-CHAVE")
print("=" * 40)
rmssd_importance = importance_df[importance_df['feature'] == 'rmssd']['importance'].values
pca_var_importance = importance_df[importance_df['feature'].str.contains('pca_var_ratio_1', na=False)]['importance'].values

if len(rmssd_importance) > 0:
    print(f"RMSSD import√¢ncia: {rmssd_importance[0]:.4f} (Rank: {importance_df[importance_df['feature'] == 'rmssd'].index[0] + 1})")
if len(pca_var_importance) > 0:
    pca_feature_name = importance_df[importance_df['feature'].str.contains('pca_var_ratio_1', na=False)]['feature'].iloc[0]
    print(f"Vari√¢ncia PCA import√¢ncia: {pca_var_importance[0]:.4f} (Rank: {importance_df[importance_df['feature'] == pca_feature_name].index[0] + 1})")

print(f"\n‚úÖ Modelo classifica anomalias ECG com {accuracy:.1%} de acur√°cia!")
print(f"‚úÖ Poder discriminativo forte (AUC: {auc_score:.3f})")

---

## üí° 10. Insights Cl√≠nicos

### Interpreta√ß√£o dos Resultados

In [None]:
# Interpreta√ß√£o do Modelo e Insights Cl√≠nicos
print("üî¨ INTERPRETA√á√ÉO DO MODELO & INSIGHTS CL√çNICOS")
print("=" * 60)

# Analisar desempenho espec√≠fico de RMSSD
if 'rmssd' in all_features:
    normal_rmssd = df_comprehensive[df_comprehensive['label'] == 'Normal']['rmssd']
    afib_rmssd = df_comprehensive[df_comprehensive['label'] == 'AFib']['rmssd']
    
    print(f"üìä An√°lise RMSSD:")
    print(f"  Ritmo Normal - M√©dia: {normal_rmssd.mean():.2f} ms, Desvio: {normal_rmssd.std():.2f} ms")
    print(f"  Ritmo AFib   - M√©dia: {afib_rmssd.mean():.2f} ms, Desvio: {afib_rmssd.std():.2f} ms")
    print(f"  Diferen√ßa: {abs(afib_rmssd.mean() - normal_rmssd.mean()):.2f} ms")
    print(f"  üí° Insight cl√≠nico: {'AFib mostra maior variabilidade' if afib_rmssd.mean() > normal_rmssd.mean() else 'Normal mostra maior variabilidade'}")

# Encontrar feature PCA
pca_var_cols = [col for col in all_features if 'pca_var_ratio_1' in col]
if pca_var_cols:
    pca_feature = pca_var_cols[0]
    normal_pca = df_comprehensive[df_comprehensive['label'] == 'Normal'][pca_feature]
    afib_pca = df_comprehensive[df_comprehensive['label'] == 'AFib'][pca_feature]
    
    print(f"\nüìä An√°lise Vari√¢ncia 1¬∫ Componente PCA:")
    print(f"  Ritmo Normal - M√©dia: {normal_pca.mean():.4f}, Desvio: {normal_pca.std():.4f}")
    print(f"  Ritmo AFib   - M√©dia: {afib_pca.mean():.4f}, Desvio: {afib_pca.std():.4f}")
    print(f"  Diferen√ßa: {abs(afib_pca.mean() - normal_pca.mean()):.4f}")
    print(f"  üí° Insight cl√≠nico: {'AFib mostra mais varia√ß√£o morfol√≥gica' if afib_pca.mean() > normal_pca.mean() else 'Normal mostra mais varia√ß√£o morfol√≥gica'}")

# An√°lise de confian√ßa das predi√ß√µes
high_confidence_correct = np.sum((y_pred_proba > 0.8) & (y_pred == y_test)) + np.sum((y_pred_proba < 0.2) & (y_pred == y_test))
high_confidence_total = np.sum((y_pred_proba > 0.8) | (y_pred_proba < 0.2))
medium_confidence_total = np.sum((y_pred_proba >= 0.4) & (y_pred_proba <= 0.6))

print(f"\nüìà AN√ÅLISE DE CONFIAN√áA DAS PREDI√á√ïES")
print("=" * 40)
print(f"Predi√ß√µes de alta confian√ßa (>80% ou <20%): {high_confidence_total}/{len(y_test)} ({high_confidence_total/len(y_test)*100:.1f}%)")
print(f"Acur√°cia em alta confian√ßa: {high_confidence_correct/high_confidence_total*100 if high_confidence_total > 0 else 0:.1f}%")
print(f"Predi√ß√µes incertas (40-60%): {medium_confidence_total}/{len(y_test)} ({medium_confidence_total/len(y_test)*100:.1f}%)")

# Resumo para suporte √† decis√£o cl√≠nica
print(f"\nüè• RESUMO PARA SUPORTE √Ä DECIS√ÉO CL√çNICA")
print("=" * 50)
quality = 'Excelente' if accuracy > 0.9 else 'Bom' if accuracy > 0.8 else 'Moderado'
auc_quality = 'Excelente' if auc_score > 0.9 else 'Bom' if auc_score > 0.8 else 'Moderado'
print(f"‚úÖ Acur√°cia do Modelo: {accuracy:.1%} - {quality}")
print(f"‚úÖ AUC Score: {auc_score:.3f} - Poder discriminativo {auc_quality}")
print(f"‚úÖ Utilidade Cl√≠nica: Pode auxiliar em triagem automatizada de AFib a partir de dados ECG")

# Prontid√£o para deploy
print(f"\nüöÄ PRONTID√ÉO PARA IMPLANTA√á√ÉO")
print("=" * 40)
print(f"‚úÖ Dataset balanceado: Normal ({np.sum(y_encoded == 0)}) vs AFib ({np.sum(y_encoded == 1)}) amostras")
print(f"‚úÖ Valida√ß√£o cruzada: {cv_scores.mean():.3f} ¬± {cv_scores.std():.3f} (desempenho consistente)")
print(f"‚úÖ Estabilidade de features: {len(all_features)} features robustas extra√≠das")

---

## üéØ 11. Conclus√µes Principais

### üèÜ Resultados Alcan√ßados

#### Desempenho do Modelo
- ‚úÖ **Acur√°cia elevada**: Classifica√ß√£o precisa entre Normal e AFib
- ‚úÖ **AUC excelente**: Forte poder discriminativo
- ‚úÖ **Valida√ß√£o cruzada consistente**: Modelo robusto e generaliza bem

#### Features Mais Importantes

**1. ü•á ICA IC3 Energy - A Estrela do Projeto**
- **Cohen's d astron√¥mico**: Separa√ß√£o quase perfeita entre classes
- **Explica√ß√£o prov√°vel**: O 3¬∫ componente independente isolou as **ondas fibrilat√≥rias** ('ondas f')
- **Analogia**: Como um engenheiro de som que consegue isolar o ru√≠do de fundo em uma grava√ß√£o

**2. ü•à Vari√¢ncias PCA (Componentes 3, 4 e 5)**
- Capturam varia√ß√µes morfol√≥gicas significativas
- AFib apresenta maior variabilidade na forma dos batimentos

**3. ü•â Features HRV Tradicionais**
- RMSSD, SDNN, Mean RR: Todas significativas
- Confirmam a hip√≥tese: AFib tem maior irregularidade

#### Por que ICA IC3 Energy Funcionou T√£o Bem?

**Analogia Musical üé∂**

**Ritmo Normal**: Banda tocando limpo
- ü•Å Bateria (QRS) - forte e dominante
- üé∏ Baixo (onda T) - r√≠tmico

**Ritmo AFib**: Mesma banda + pandeiro ca√≥tico ao fundo
- ü•Å Bateria (QRS)
- üé∏ Baixo (onda T)  
- ü™ò **Pandeiro ca√≥tico (ondas fibrilat√≥rias)** ‚Üê ICA isolou isto!

**ICA separou as "faixas de √°udio":**
- IC1: Provavelmente isolou o QRS (bateria)
- IC2: Talvez a onda T (baixo)
- **IC3: ISOLOU O PANDEIRO CA√ìTICO** (ondas fibrilat√≥rias)

A energia do IC3 mede o "volume" desse pandeiro:
- **Normal**: Quase sil√™ncio (energia baixa)
- **AFib**: Barulho constante (energia alta)

---

## ‚ö†Ô∏è 12. Limita√ß√µes e Trabalhos Futuros

### Limita√ß√µes Identificadas

#### 1. Tamanho da Amostra
- **Atual**: 10 pacientes (5 Normal + 5 AFib)
- **Recomenda√ß√£o**: Utilizar todos os registros dispon√≠veis
  - nsrdb: 18 pacientes
  - afdb: 23 pacientes
- **Benef√≠cio**: Maior diversidade e melhor generaliza√ß√£o

#### 2. Janelas de 30 Segundos
- ‚úÖ **Vantagens**: Computacionalmente eficiente, adequado para HRV e morfologia
- ‚ö†Ô∏è **Limita√ß√µes**: Insuficiente para an√°lise espectral completa
  - N√£o resolve bem a banda VLF (< 0.04 Hz)
  - LF/HF ratio n√£o √© confi√°vel
- **Recomenda√ß√£o**: Janelas de 5 minutos para an√°lise espectral robusta

#### 3. Valida√ß√£o Cruzada
- **Aten√ß√£o**: Risco de data leakage
- **Problema**: M√∫ltiplas janelas do mesmo paciente em treino e teste
- **Solu√ß√£o**: Implementar valida√ß√£o cruzada a n√≠vel de paciente

### Trabalhos Futuros

1. **Expandir Dataset**: Incluir todos os registros dispon√≠veis
2. **Valida√ß√£o por Paciente**: Implementar Leave-One-Patient-Out CV
3. **An√°lise de Janelas Maiores**: Testar com 5 minutos para an√°lise espectral
4. **Explorar IC3 Detalhadamente**: Visualizar e entender o que foi isolado
5. **Testar Outros Classificadores**: Random Forest, SVM, Redes Neurais
6. **Detec√ß√£o em Tempo Real**: Adaptar para streaming de ECG

---

## üìö 13. Refer√™ncias

### Bases de Dados
- **MIT-BIH Normal Sinus Rhythm Database**: Goldberger et al., PhysioNet
- **MIT-BIH Atrial Fibrillation Database**: Moody & Mark, PhysioNet

### M√©todos
- **An√°lise HRV**: Task Force Guidelines (1996)
- **PCA em ECG**: Transforma√ß√µes lineares para an√°lise morfol√≥gica
- **ICA em ECG**: Separa√ß√£o cega de fontes para remo√ß√£o de artefatos
- **XGBoost**: Chen & Guestrin (2016)

### Ferramentas
- **WFDB Python**: Biblioteca para processamento de sinais fisiol√≥gicos
- **scikit-learn**: Ferramentas de machine learning
- **XGBoost**: Gradient boosting otimizado

---

## üôè Agradecimentos

Obrigado pela aten√ß√£o!

**Contato**: [Seu email/informa√ß√µes]  
**C√≥digo**: [Link do GitHub]

---

### üíª Ambiente T√©cnico
- Python 3.x
- Principais bibliotecas: wfdb, scikit-learn, xgboost, pandas, numpy, matplotlib, seaborn
- Processamento de sinais: scipy

In [None]:
# C√©lula final para gerar um resumo executivo
print("=" * 70)
print(" " * 15 + "RESUMO EXECUTIVO DO PROJETO")
print("=" * 70)
print(f"\nüìä DADOS")
print(f"   ‚Ä¢ Pacientes: 10 (5 Normal + 5 AFib)")
print(f"   ‚Ä¢ Amostras totais: {len(df_comprehensive)}")
print(f"   ‚Ä¢ Features extra√≠das: {len(all_features)}")
print(f"\nüéØ MODELO")
print(f"   ‚Ä¢ Algoritmo: XGBoost")
print(f"   ‚Ä¢ Acur√°cia: {accuracy:.1%}")
print(f"   ‚Ä¢ AUC Score: {auc_score:.3f}")
print(f"   ‚Ä¢ Valida√ß√£o Cruzada: {cv_scores.mean():.3f} ¬± {cv_scores.std():.3f}")
print(f"\nüèÜ TOP 3 FEATURES")
for i, (_, row) in enumerate(importance_df.head(3).iterrows(), 1):
    print(f"   {i}. {row['feature']}: {row['importance']:.4f}")
print(f"\n‚úÖ CONCLUS√ÉO")
print(f"   O modelo demonstra excelente capacidade de distinguir entre")
print(f"   ritmo sinusal normal e fibrila√ß√£o atrial usando features")
print(f"   avan√ßadas de processamento de sinais ECG.")
print("=" * 70)