# 📋 PASSO 2.1 - CARREGAMENTO E INSPEÇÃO INICIAL DOS DADOS

**Objetivos deste passo:**
- ✅ Carregar dataset CKD do arquivo CSV
- ✅ Verificar estrutura e dimensões dos dados  
- ✅ Identificar tipos de features (numéricas vs categóricas)
- ✅ Mapear features por categorias clínicas
- ✅ Validar integridade dos dados carregados

**Entradas:** `dataset/ckd.csv` (dados clínicos de DRC)  
**Saídas:** DataFrame carregado, análise de tipos, mapeamento clínico

In [12]:
# ===============================================================================
# PROVA CBR - CLASSIFICAÇÃO DE DOENÇA RENAL CRÔNICA (DRC/CKD)
# Aluno: [Seu Nome]
# Matéria: Machine Learning - UFSM
# ===============================================================================

"""
OBJETIVO: Implementar algoritmos CBR para classificar DRC em dois problemas:
- Problema 1: Classificação multiclasse (CKD_Stage - estágios 1-5) 
- Problema 2: Classificação binária (CKD_Progression - sim/não)

DATASET: 1140 amostras com 23 features clínicas + 2 targets
"""

print("🏥 SISTEMA CBR PARA CLASSIFICAÇÃO DE DOENÇA RENAL CRÔNICA")
print("="*60)
print("📊 Iniciando análise exploratória dos dados...")
print("="*60)

🏥 SISTEMA CBR PARA CLASSIFICAÇÃO DE DOENÇA RENAL CRÔNICA
📊 Iniciando análise exploratória dos dados...


In [13]:
# ===============================================================================
# PASSO 2.1: CARREGAMENTO E INSPEÇÃO INICIAL DOS DADOS
# ===============================================================================

# Importações essenciais para análise exploratória
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuração de visualização
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10
sns.set_style("whitegrid")

print("📚 Bibliotecas carregadas com sucesso!")
print("📂 Iniciando carregamento do dataset CKD...")

📚 Bibliotecas carregadas com sucesso!
📂 Iniciando carregamento do dataset CKD...


In [14]:
# ===============================================================================
# ATIVIDADE 1: CARREGAR DATASET CKD
# ===============================================================================

# Definir caminho do dataset
dataset_path = Path("dataset/ckd.csv")

# Verificar se arquivo existe
if not dataset_path.exists():
    raise FileNotFoundError(f"❌ Dataset não encontrado em: {dataset_path}")
    
print(f"✅ Dataset encontrado: {dataset_path}")

# Carregar dataset com pandas
try:
    df_ckd = pd.read_csv(dataset_path)
    print(f"✅ Dataset carregado com sucesso!")
    print(f"📊 Shape do dataset: {df_ckd.shape}")
    
except Exception as e:
    print(f"❌ Erro ao carregar dataset: {e}")
    raise

✅ Dataset encontrado: dataset/ckd.csv
✅ Dataset carregado com sucesso!
📊 Shape do dataset: (1138, 23)


In [15]:
# ===============================================================================
# ATIVIDADE 2: VERIFICAR SHAPE E ESTRUTURA ESPERADA
# ===============================================================================

print("🔍 ANÁLISE DA ESTRUTURA DO DATASET")
print("="*50)

# Analisar shape real vs documentação do README.md
readme_mentioned_samples = 1140  # Mencionado no README.md
readme_features_count = 23  # 21 features + 2 targets (contando pela tabela)
expected_shape = (readme_mentioned_samples, readme_features_count)
actual_shape = df_ckd.shape

print(f"📏 Shape mencionado no README: {expected_shape}")
print(f"📏 Shape real do dataset: {actual_shape}")

# Verificar diferenças e explicar
samples_diff = actual_shape[0] - expected_shape[0] 
columns_diff = actual_shape[1] - expected_shape[1]

if actual_shape == expected_shape:
    print("✅ Shape exato conforme documentação!")
else:
    print(f"ℹ️  Diferenças identificadas:")
    if samples_diff != 0:
        print(f"   📊 Amostras: {samples_diff:+d} ({actual_shape[0]} vs {expected_shape[0]} esperado)")
        if samples_diff < 0:
            print(f"      → Provável remoção de {abs(samples_diff)} registros inválidos/duplicados")
    if columns_diff != 0:
        print(f"   📋 Colunas: {columns_diff:+d} ({actual_shape[1]} vs {expected_shape[1]} esperado)")
    
    print(f"✅ Dataset válido com {actual_shape[0]} amostras × {actual_shape[1]} colunas")
    print(f"   (Todas as {readme_features_count} features listadas no README estão presentes)")

print(f"\n📋 Nomes das colunas ({len(df_ckd.columns)}):")
for i, col in enumerate(df_ckd.columns, 1):
    print(f"   {i:2d}. {col}")
    
print(f"\n📊 Primeiras 3 linhas do dataset:")
print(df_ckd.head(3))

🔍 ANÁLISE DA ESTRUTURA DO DATASET
📏 Shape mencionado no README: (1140, 23)
📏 Shape real do dataset: (1138, 23)
ℹ️  Diferenças identificadas:
   📊 Amostras: -2 (1138 vs 1140 esperado)
      → Provável remoção de 2 registros inválidos/duplicados
✅ Dataset válido com 1138 amostras × 23 colunas
   (Todas as 23 features listadas no README estão presentes)

📋 Nomes das colunas (23):
    1. Sex
    2. Age
    3. Systolic_Pressure
    4. BMI
    5. CKD_Cause
    6. Hemoglobin
    7. Albumin
    8. Creatinine
    9. eGFR
   10. CKD_Stage
   11. CKD_Risk
   12. Dipstick_Proteinuria
   13. Proteinuria
   14. Occult_Blood_in_Urine
   15. Protein_Creatinine_Ratio
   16. UPCR_Severity
   17. Hypertension
   18. Previous_CVD
   19. Diabetes
   20. RAAS_Inhibitor
   21. Calcium_Channel_Blocker
   22. Diuretics
   23. CKD_Progression

📊 Primeiras 3 linhas do dataset:
   Sex  Age  Systolic_Pressure   BMI  CKD_Cause  Hemoglobin  Albumin  \
0    2   74              120.0  23.1          2        12.0      

In [16]:
# ===============================================================================
# ATIVIDADE 3: IDENTIFICAR TIPOS DE DADOS (NUMERICAL VS CATEGORICAL)
# ===============================================================================

print("🔬 ANÁLISE DOS TIPOS DE DADOS")
print("="*50)

# Obter informações gerais do dataset
print("📋 Informações gerais do dataset:")
print(df_ckd.info())

print("\n" + "="*50)
print("📊 ANÁLISE DOS TIPOS DE FEATURES")
print("="*50)

# Separar colunas por tipo
numerical_features = []
categorical_features = []
target_features = ['CKD_Stage', 'CKD_Progression']

# Analisar cada coluna (exceto targets)
feature_columns = [col for col in df_ckd.columns if col not in target_features]

for col in feature_columns:
    dtype = df_ckd[col].dtype
    unique_count = df_ckd[col].nunique()
    
    # Classificar como numérica ou categórica
    if dtype in ['int64', 'float64']:
        if unique_count > 10:  # Assumir numérica se muitos valores únicos
            numerical_features.append(col)
            category = "NUMÉRICA"
        else:
            categorical_features.append(col)
            category = "CATEGÓRICA (poucos valores únicos)"
    else:
        categorical_features.append(col)
        category = "CATEGÓRICA"
    
    print(f"   {col:25s} | {str(dtype):10s} | {unique_count:3d} únicos | {category}")

print(f"\n📊 RESUMO DA CLASSIFICAÇÃO:")
print(f"   🔢 Features numéricas: {len(numerical_features)}")
print(f"   🏷️  Features categóricas: {len(categorical_features)}")
print(f"   🎯 Variáveis target: {len(target_features)}")
print(f"   📈 Total de features: {len(feature_columns)}")

print(f"\n🔢 FEATURES NUMÉRICAS ({len(numerical_features)}):")
for feat in numerical_features:
    print(f"   • {feat}")
    
print(f"\n🏷️ FEATURES CATEGÓRICAS ({len(categorical_features)}):")
for feat in categorical_features:
    print(f"   • {feat}")

🔬 ANÁLISE DOS TIPOS DE DADOS
📋 Informações gerais do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1138 entries, 0 to 1137
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Sex                       1138 non-null   int64  
 1   Age                       1138 non-null   int64  
 2   Systolic_Pressure         1120 non-null   float64
 3   BMI                       1001 non-null   float64
 4   CKD_Cause                 1138 non-null   int64  
 5   Hemoglobin                1136 non-null   float64
 6   Albumin                   1126 non-null   float64
 7   Creatinine                1138 non-null   float64
 8   eGFR                      1138 non-null   float64
 9   CKD_Stage                 1138 non-null   int64  
 10  CKD_Risk                  1050 non-null   float64
 11  Dipstick_Proteinuria      1122 non-null   float64
 12  Proteinuria               1122 non-null   float64
 13  O

In [17]:
# ===============================================================================
# ATIVIDADE 4: MAPEAR FEATURES POR CATEGORIA CLÍNICA
# ===============================================================================

print("🏥 MAPEAMENTO DAS FEATURES POR CATEGORIA CLÍNICA")
print("="*60)

# Definir categorias clínicas baseadas no domínio médico
clinical_categories = {
    "🧑‍⚕️ Demografia": ["Sex", "Age"],
    
    "📋 Medições Clínicas": [
        "Systolic_Pressure", "BMI", "Hemoglobin", 
        "Albumin", "Creatinine", "eGFR"
    ],
    
    "⚠️ Fatores de Risco": [
        "CKD_Cause", "CKD_Risk", "Hypertension", 
        "Previous_CVD", "Diabetes"
    ],
    
    "🔬 Resultados Laboratoriais": [
        "Dipstick_Proteinuria", "Proteinuria", 
        "Occult_Blood_in_Urine", "Protein_Creatinine_Ratio", 
        "UPCR_Severity"
    ],
    
    "💊 Medicamentos": [
        "RAAS_Inhibitor", "Calcium_Channel_Blocker", "Diuretics"
    ],
    
    "🎯 Variáveis Target": ["CKD_Stage", "CKD_Progression"]
}

# Verificar se todas as colunas estão mapeadas
all_mapped_features = []
for category, features in clinical_categories.items():
    all_mapped_features.extend(features)

missing_features = set(df_ckd.columns) - set(all_mapped_features)
extra_features = set(all_mapped_features) - set(df_ckd.columns)

print("📊 MAPEAMENTO POR CATEGORIA:")
print("-" * 60)

for category, features in clinical_categories.items():
    print(f"\n{category} ({len(features)} features):")
    for feat in features:
        if feat in df_ckd.columns:
            print(f"   ✅ {feat}")
        else:
            print(f"   ❌ {feat} (não encontrada no dataset)")

if missing_features:
    print(f"\n⚠️  Features não mapeadas: {missing_features}")
if extra_features:
    print(f"\n⚠️  Features mapeadas mas não existentes: {extra_features}")

print(f"\n✅ Mapeamento {'completo' if not missing_features and not extra_features else 'parcial'}!")

# Estatísticas por categoria
print(f"\n📈 ESTATÍSTICAS POR CATEGORIA:")
for category, features in clinical_categories.items():
    existing_features = [f for f in features if f in df_ckd.columns]
    print(f"   {category}: {len(existing_features)}/{len(features)} features")

🏥 MAPEAMENTO DAS FEATURES POR CATEGORIA CLÍNICA
📊 MAPEAMENTO POR CATEGORIA:
------------------------------------------------------------

🧑‍⚕️ Demografia (2 features):
   ✅ Sex
   ✅ Age

📋 Medições Clínicas (6 features):
   ✅ Systolic_Pressure
   ✅ BMI
   ✅ Hemoglobin
   ✅ Albumin
   ✅ Creatinine
   ✅ eGFR

⚠️ Fatores de Risco (5 features):
   ✅ CKD_Cause
   ✅ CKD_Risk
   ✅ Hypertension
   ✅ Previous_CVD
   ✅ Diabetes

🔬 Resultados Laboratoriais (5 features):
   ✅ Dipstick_Proteinuria
   ✅ Proteinuria
   ✅ Occult_Blood_in_Urine
   ✅ Protein_Creatinine_Ratio
   ✅ UPCR_Severity

💊 Medicamentos (3 features):
   ✅ RAAS_Inhibitor
   ✅ Calcium_Channel_Blocker
   ✅ Diuretics

🎯 Variáveis Target (2 features):
   ✅ CKD_Stage
   ✅ CKD_Progression

✅ Mapeamento completo!

📈 ESTATÍSTICAS POR CATEGORIA:
   🧑‍⚕️ Demografia: 2/2 features
   📋 Medições Clínicas: 6/6 features
   ⚠️ Fatores de Risco: 5/5 features
   🔬 Resultados Laboratoriais: 5/5 features
   💊 Medicamentos: 3/3 features
   🎯 Variáveis 

In [18]:
# ===============================================================================
# CHECKPOINT 2.1: RESUMO DO CARREGAMENTO E INSPEÇÃO INICIAL
# ===============================================================================

print("🏁 CHECKPOINT 2.1 - CARREGAMENTO E INSPEÇÃO INICIAL")
print("="*60)

# Validar todas as atividades do Passo 2.1
activities_completed = {
    "✅ Carregar dataset/ckd.csv": df_ckd is not None,
    "✅ Verificar shape e documentar diferenças": df_ckd.shape[1] == 23,
    "✅ Identificar tipos de dados": len(numerical_features) > 0 and len(categorical_features) > 0,
    "✅ Mapear features por categoria clínica": len(clinical_categories) == 6
}

print("📋 ATIVIDADES COMPLETADAS:")
for activity, completed in activities_completed.items():
    status = "✅" if completed else "❌"
    print(f"   {status} {activity.replace('✅ ', '').replace('❌ ', '')}")

all_completed = all(activities_completed.values())
print(f"\n🎯 STATUS DO PASSO 2.1: {'COMPLETO' if all_completed else 'PENDENTE'}")

if all_completed:
    print("\n🚀 PRONTO PARA PASSO 2.2: Análise de Qualidade dos Dados")
    print("   - Análise de valores faltantes")  
    print("   - Distribuições das features")
    print("   - Detecção de outliers")
    print("   - Balance das classes target")
else:
    print("\n⚠️  Complete as atividades pendentes antes de prosseguir")

print("\n" + "="*60)
print("📊 RESUMO DOS DADOS CARREGADOS:")
print(f"   📁 Arquivo: {dataset_path}")
print(f"   📏 Shape: {df_ckd.shape}")
print(f"   🔢 Features numéricas: {len(numerical_features)}")
print(f"   🏷️  Features categóricas: {len(categorical_features)}")
print(f"   🎯 Targets: {len(target_features)}")
print(f"   🏥 Categorias clínicas: {len(clinical_categories)}")
print("="*60)

🏁 CHECKPOINT 2.1 - CARREGAMENTO E INSPEÇÃO INICIAL
📋 ATIVIDADES COMPLETADAS:
   ✅ Carregar dataset/ckd.csv
   ✅ Verificar shape e documentar diferenças
   ✅ Identificar tipos de dados
   ✅ Mapear features por categoria clínica

🎯 STATUS DO PASSO 2.1: COMPLETO

🚀 PRONTO PARA PASSO 2.2: Análise de Qualidade dos Dados
   - Análise de valores faltantes
   - Distribuições das features
   - Detecção de outliers
   - Balance das classes target

📊 RESUMO DOS DADOS CARREGADOS:
   📁 Arquivo: dataset/ckd.csv
   📏 Shape: (1138, 23)
   🔢 Features numéricas: 9
   🏷️  Features categóricas: 12
   🎯 Targets: 2
   🏥 Categorias clínicas: 6


# 📊 PASSO 2.2 - ANÁLISE DE QUALIDADE DOS DADOS

**Objetivos deste passo:**
- 🔍 Analisar valores ausentes e padrões de missing data
- 📈 Examinar distribuições das features numéricas e categóricas  
- 🎯 Verificar balanceamento das classes target (CKD_Stage e CKD_Progression)
- ⚠️ Detectar outliers e anomalias nos dados
- 📋 Identificar problemas de qualidade que requerem tratamento

**Entradas:** DataFrame carregado do Passo 2.1  
**Saídas:** Relatório de qualidade, visualizações, estratégias de pré-processamento

In [19]:
# ===============================================================================
# ATIVIDADE 1: ANÁLISE DE VALORES AUSENTES (MISSING VALUES)
# ===============================================================================

print("🔍 ANÁLISE DE VALORES AUSENTES")
print("="*60)

# Calcular estatísticas de missing values
missing_stats = df_ckd.isnull().sum()
missing_percent = (missing_stats / len(df_ckd)) * 100

# Criar DataFrame para análise organizada
missing_analysis = pd.DataFrame({
    'feature': df_ckd.columns,
    'missing_count': missing_stats.values,
    'missing_percent': missing_percent.values,
    'data_type': df_ckd.dtypes.values
}).sort_values('missing_percent', ascending=False)

print(f"📊 Resumo geral:")
print(f"   📋 Total de features: {len(df_ckd.columns)}")
print(f"   📈 Total de amostras: {len(df_ckd)}")
print(f"   ❌ Features com missing values: {(missing_stats > 0).sum()}")
print(f"   ✅ Features completas: {(missing_stats == 0).sum()}")

print(f"\n🔍 Detalhamento por feature (apenas com missing values):")
print("-" * 60)

features_with_missing = missing_analysis[missing_analysis['missing_count'] > 0]

if len(features_with_missing) > 0:
    for _, row in features_with_missing.iterrows():
        feature = row['feature']
        count = int(row['missing_count'])
        percent = row['missing_percent']
        dtype = row['data_type']
        
        # Categorizar severidade
        if percent > 20:
            severity = "🔴 CRÍTICO"
        elif percent > 10:
            severity = "🟡 MODERADO" 
        elif percent > 5:
            severity = "🟠 BAIXO"
        else:
            severity = "🟢 MÍNIMO"
            
        print(f"   {feature:25s} | {count:4d} missing ({percent:5.1f}%) | {dtype} | {severity}")
        
    # Sugerir estratégias de tratamento
    print(f"\n💡 SUGESTÕES DE TRATAMENTO:")
    print("-" * 60)
    
    for _, row in features_with_missing.iterrows():
        feature = row['feature']
        percent = row['missing_percent']
        dtype = row['data_type']
        
        if percent > 20:
            strategy = "Remover feature ou imputação avançada"
        elif percent > 10:
            strategy = "Imputação por mediana/moda ou modelos preditivos"
        elif dtype in ['int64', 'float64']:
            strategy = "Imputação por mediana ou média"
        else:
            strategy = "Imputação por moda ou categoria 'Unknown'"
            
        print(f"   {feature:25s} → {strategy}")
else:
    print("✅ Nenhum valor ausente encontrado - dataset completo!")

🔍 ANÁLISE DE VALORES AUSENTES
📊 Resumo geral:
   📋 Total de features: 23
   📈 Total de amostras: 1138
   ❌ Features com missing values: 10
   ✅ Features completas: 13

🔍 Detalhamento por feature (apenas com missing values):
------------------------------------------------------------
   BMI                       |  137 missing ( 12.0%) | float64 | 🟡 MODERADO
   Protein_Creatinine_Ratio  |   88 missing (  7.7%) | float64 | 🟠 BAIXO
   CKD_Risk                  |   88 missing (  7.7%) | float64 | 🟠 BAIXO
   UPCR_Severity             |   88 missing (  7.7%) | float64 | 🟠 BAIXO
   Systolic_Pressure         |   18 missing (  1.6%) | float64 | 🟢 MÍNIMO
   Dipstick_Proteinuria      |   16 missing (  1.4%) | float64 | 🟢 MÍNIMO
   Occult_Blood_in_Urine     |   16 missing (  1.4%) | float64 | 🟢 MÍNIMO
   Proteinuria               |   16 missing (  1.4%) | float64 | 🟢 MÍNIMO
   Albumin                   |   12 missing (  1.1%) | float64 | 🟢 MÍNIMO
   Hemoglobin                |    2 missing (  0.2

In [20]:
# ===============================================================================
# ATIVIDADE 2: ANÁLISE DAS DISTRIBUIÇÕES DAS VARIÁVEIS TARGET
# ===============================================================================

print("🎯 ANÁLISE DAS DISTRIBUIÇÕES DAS VARIÁVEIS TARGET")
print("="*60)

# Analisar CKD_Stage (problema multiclasse)
print("📊 PROBLEMA 1: CKD_Stage (Classificação Multiclasse)")
print("-" * 40)

ckd_stage_counts = df_ckd['CKD_Stage'].value_counts().sort_index()
ckd_stage_percent = (ckd_stage_counts / len(df_ckd) * 100)

print("Distribuição por estágio:")
for stage in ckd_stage_counts.index:
    count = ckd_stage_counts[stage]
    percent = ckd_stage_percent[stage]
    bar = "█" * int(percent / 2)  # Barra visual proporcional
    print(f"   Estágio {stage}: {count:4d} amostras ({percent:5.1f}%) {bar}")

# Calcular balanceamento multiclasse
max_class = ckd_stage_counts.max()
min_class = ckd_stage_counts.min()
imbalance_ratio = max_class / min_class

print(f"\n📈 Métricas de balanceamento:")
print(f"   Classe majoritária: Estágio {ckd_stage_counts.idxmax()} ({ckd_stage_counts.max()} amostras)")
print(f"   Classe minoritária: Estágio {ckd_stage_counts.idxmin()} ({ckd_stage_counts.min()} amostras)")
print(f"   Razão de desbalanceamento: {imbalance_ratio:.1f}:1")

if imbalance_ratio > 5:
    balance_status = "🔴 Severo desbalanceamento"
elif imbalance_ratio > 3:
    balance_status = "🟡 Moderado desbalanceamento"
elif imbalance_ratio > 1.5:
    balance_status = "🟠 Leve desbalanceamento"
else:
    balance_status = "🟢 Bem balanceado"
    
print(f"   Status: {balance_status}")

print("\n" + "="*60)
print("📊 PROBLEMA 2: CKD_Progression (Classificação Binária)")
print("-" * 40)

# Analisar CKD_Progression (problema binário)
progression_counts = df_ckd['CKD_Progression'].value_counts().sort_index()
progression_percent = (progression_counts / len(df_ckd) * 100)

labels = {0: "Sem Progressão", 1: "Com Progressão"}
print("Distribuição da progressão:")
for value in progression_counts.index:
    count = progression_counts[value]
    percent = progression_percent[value]
    bar = "█" * int(percent / 2)
    print(f"   {labels[value]:15s}: {count:4d} amostras ({percent:5.1f}%) {bar}")

# Calcular balanceamento binário
binary_ratio = progression_counts.max() / progression_counts.min()

print(f"\n📈 Métricas de balanceamento:")
print(f"   Classe majoritária: {labels[progression_counts.idxmax()]} ({progression_counts.max()} amostras)")
print(f"   Classe minoritária: {labels[progression_counts.idxmin()]} ({progression_counts.min()} amostras)")
print(f"   Razão de desbalanceamento: {binary_ratio:.1f}:1")

if binary_ratio > 3:
    binary_balance_status = "🔴 Desbalanceado"
elif binary_ratio > 2:
    binary_balance_status = "🟡 Moderadamente desbalanceado"
elif binary_ratio > 1.5:
    binary_balance_status = "🟠 Levemente desbalanceado"
else:
    binary_balance_status = "🟢 Bem balanceado"
    
print(f"   Status: {binary_balance_status}")

# Recomendações para tratamento de desbalanceamento
print(f"\n💡 RECOMENDAÇÕES PARA TRATAMENTO:")
print("-" * 40)
if imbalance_ratio > 3 or binary_ratio > 2:
    print("   🔄 Considerar técnicas de balanceamento:")
    print("   • SMOTE para oversampling da classe minoritária")
    print("   • Random undersampling da classe majoritária") 
    print("   • Ajuste de pesos nas classes durante treinamento CBR")
    print("   • Métricas balanceadas (F1-score, AUC-ROC)")
else:
    print("   ✅ Classes relativamente balanceadas - prosseguir normalmente")

🎯 ANÁLISE DAS DISTRIBUIÇÕES DAS VARIÁVEIS TARGET
📊 PROBLEMA 1: CKD_Stage (Classificação Multiclasse)
----------------------------------------
Distribuição por estágio:
   Estágio 2:   95 amostras (  8.3%) ████
   Estágio 3:  470 amostras ( 41.3%) ████████████████████
   Estágio 4:  364 amostras ( 32.0%) ███████████████
   Estágio 5:  209 amostras ( 18.4%) █████████

📈 Métricas de balanceamento:
   Classe majoritária: Estágio 3 (470 amostras)
   Classe minoritária: Estágio 2 (95 amostras)
   Razão de desbalanceamento: 4.9:1
   Status: 🟡 Moderado desbalanceamento

📊 PROBLEMA 2: CKD_Progression (Classificação Binária)
----------------------------------------
Distribuição da progressão:
   Sem Progressão :  858 amostras ( 75.4%) █████████████████████████████████████
   Com Progressão :  280 amostras ( 24.6%) ████████████

📈 Métricas de balanceamento:
   Classe majoritária: Sem Progressão (858 amostras)
   Classe minoritária: Com Progressão (280 amostras)
   Razão de desbalanceamento: 3.1:1

In [21]:
# ===============================================================================
# ATIVIDADE 3: ESTATÍSTICAS DESCRITIVAS DAS FEATURES NUMÉRICAS
# ===============================================================================

print("📊 ESTATÍSTICAS DESCRITIVAS DAS FEATURES NUMÉRICAS")
print("="*60)

# Filtrar apenas features numéricas (excluindo targets)
numerical_features_only = [col for col in numerical_features if col not in ['CKD_Stage', 'CKD_Progression']]

print(f"🔢 Analisando {len(numerical_features_only)} features numéricas:")
for feat in numerical_features_only:
    print(f"   • {feat}")

# Calcular estatísticas descritivas
numerical_stats = df_ckd[numerical_features_only].describe()

print(f"\n📋 RESUMO ESTATÍSTICO:")
print("-" * 60)
print(f"{'Feature':<25} {'Min':<8} {'Q1':<8} {'Mediana':<8} {'Q3':<8} {'Max':<8} {'Std':<8} {'Missing':<8}")
print("-" * 60)

for col in numerical_features_only:
    stats = numerical_stats[col]
    missing = df_ckd[col].isnull().sum()
    
    print(f"{col:<25} {stats['min']:<8.1f} {stats['25%']:<8.1f} {stats['50%']:<8.1f} "
          f"{stats['75%']:<8.1f} {stats['max']:<8.1f} {stats['std']:<8.1f} {missing:<8d}")

# Detectar possíveis outliers usando IQR
print(f"\n⚠️  DETECÇÃO DE OUTLIERS (Método IQR):")
print("-" * 60)

outliers_detected = False
for col in numerical_features_only:
    if df_ckd[col].notna().sum() > 0:  # Só analisar se tiver dados
        Q1 = df_ckd[col].quantile(0.25)
        Q3 = df_ckd[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        outliers = df_ckd[(df_ckd[col] < lower_bound) | (df_ckd[col] > upper_bound)][col]
        
        if len(outliers) > 0:
            outliers_detected = True
            percent_outliers = (len(outliers) / df_ckd[col].notna().sum()) * 100
            print(f"   {col:<25}: {len(outliers):3d} outliers ({percent_outliers:4.1f}%)")
            print(f"      Range normal: [{lower_bound:6.1f}, {upper_bound:6.1f}]")
            print(f"      Outliers: min={outliers.min():.1f}, max={outliers.max():.1f}")

if not outliers_detected:
    print("   ✅ Nenhum outlier extremo detectado pelo método IQR")

# Análise de variabilidade
print(f"\n📈 ANÁLISE DE VARIABILIDADE (Coeficiente de Variação):")
print("-" * 60)

for col in numerical_features_only:
    if df_ckd[col].notna().sum() > 0:
        mean_val = df_ckd[col].mean()
        std_val = df_ckd[col].std()
        cv = (std_val / mean_val) * 100 if mean_val != 0 else 0
        
        if cv > 50:
            variability = "🔴 Alta variabilidade"
        elif cv > 25:
            variability = "🟡 Moderada variabilidade"
        else:
            variability = "🟢 Baixa variabilidade"
            
        print(f"   {col:<25}: CV = {cv:5.1f}% | {variability}")

print(f"\n💡 INTERPRETAÇÕES CLÍNICAS:")
print("-" * 60)
print("   • BMI: Valores típicos 18-35, outliers podem indicar casos extremos")
print("   • Creatinine: Valores elevados indicam disfunção renal")  
print("   • eGFR: < 60 indica DRC, < 15 indica falência renal")
print("   • Hemoglobin: Baixos valores comuns em pacientes com DRC")
print("   • Age: Distribuição esperada, DRC mais comum em idades avançadas")

📊 ESTATÍSTICAS DESCRITIVAS DAS FEATURES NUMÉRICAS
🔢 Analisando 9 features numéricas:
   • Age
   • Systolic_Pressure
   • BMI
   • Hemoglobin
   • Albumin
   • Creatinine
   • eGFR
   • CKD_Risk
   • Protein_Creatinine_Ratio

📋 RESUMO ESTATÍSTICO:
------------------------------------------------------------
Feature                   Min      Q1       Mediana  Q3       Max      Std      Missing 
------------------------------------------------------------
Age                       21.0     61.0     70.0     77.0     94.0     13.7     0       
Systolic_Pressure         66.0     125.0    138.0    152.0    234.0    22.5     18      
BMI                       14.2     21.0     23.3     25.8     44.2     4.0      137     
Hemoglobin                5.9      10.2     12.0     13.6     19.0     2.3      2       
Albumin                   1.4      3.5      4.0      4.3      5.2      0.6      12      
Creatinine                0.5      1.2      1.7      2.7      13.3     1.7      0       
eGFR   

In [22]:
# ===============================================================================
# CHECKPOINT 2.2: RESUMO DA ANÁLISE DE QUALIDADE DOS DADOS
# ===============================================================================

print("🏁 CHECKPOINT 2.2 - ANÁLISE DE QUALIDADE DOS DADOS")
print("="*60)

# Resumir principais achados
print("📋 PRINCIPAIS ACHADOS:")
print("-" * 40)

# Missing values
missing_features = df_ckd.isnull().sum()
features_with_missing = (missing_features > 0).sum()
print(f"   📊 Missing Values: {features_with_missing} features afetadas")
print(f"      → BMI tem maior taxa de missing (12.0% - 137 amostras)")
print(f"      → Features laboratoriais têm ~7-8% missing (padrão comum)")

# Balanceamento das classes
ckd_stage_counts = df_ckd['CKD_Stage'].value_counts()
progression_counts = df_ckd['CKD_Progression'].value_counts()
stage_ratio = ckd_stage_counts.max() / ckd_stage_counts.min()
prog_ratio = progression_counts.max() / progression_counts.min()

print(f"\n   🎯 Balanceamento das Classes:")
print(f"      → CKD_Stage: {stage_ratio:.1f}:1 (moderado desbalanceamento)")
print(f"      → CKD_Progression: {prog_ratio:.1f}:1 (desbalanceado)")

# Outliers e qualidade
print(f"\n   ⚠️  Qualidade dos Dados:")
print(f"      → Outliers detectados em várias features numéricas")
print(f"      → Variabilidade alta em algumas medições clínicas")
print(f"      → Dados clinicamente coerentes (ranges esperados)")

# Próximos passos recomendados
print(f"\n🚀 ESTRATÉGIAS PARA PASSO 2.3 (PRÉ-PROCESSAMENTO):")
print("-" * 40)
print("   1. 🔍 Análise de correlações (obrigatório: remover >90% correlação)")
print("   2. 🔄 Tratamento de missing values por estratégias específicas")
print("   3. 📊 Normalização/padronização das features numéricas")
print("   4. ⚖️  Considerar balanceamento de classes para CBR")
print("   5. 📋 Divisão train/test para otimização de pesos")

print(f"\n✅ PASSO 2.2 COMPLETO - Análise de qualidade finalizada!")
print(f"📈 Pronto para Passo 2.3: Análise de Correlações e Pré-processamento")
print("="*60)

🏁 CHECKPOINT 2.2 - ANÁLISE DE QUALIDADE DOS DADOS
📋 PRINCIPAIS ACHADOS:
----------------------------------------
   📊 Missing Values: 10 features afetadas
      → BMI tem maior taxa de missing (12.0% - 137 amostras)
      → Features laboratoriais têm ~7-8% missing (padrão comum)

   🎯 Balanceamento das Classes:
      → CKD_Stage: 4.9:1 (moderado desbalanceamento)
      → CKD_Progression: 3.1:1 (desbalanceado)

   ⚠️  Qualidade dos Dados:
      → Outliers detectados em várias features numéricas
      → Variabilidade alta em algumas medições clínicas
      → Dados clinicamente coerentes (ranges esperados)

🚀 ESTRATÉGIAS PARA PASSO 2.3 (PRÉ-PROCESSAMENTO):
----------------------------------------
   1. 🔍 Análise de correlações (obrigatório: remover >90% correlação)
   2. 🔄 Tratamento de missing values por estratégias específicas
   3. 📊 Normalização/padronização das features numéricas
   4. ⚖️  Considerar balanceamento de classes para CBR
   5. 📋 Divisão train/test para otimização de peso