# üìã PASSO 2.1 - CARREGAMENTO E INSPE√á√ÉO INICIAL DOS DADOS

**Objetivos deste passo:**
- ‚úÖ Carregar dataset CKD do arquivo CSV
- ‚úÖ Verificar estrutura e dimens√µes dos dados  
- ‚úÖ Identificar tipos de features (num√©ricas vs categ√≥ricas)
- ‚úÖ Mapear features por categorias cl√≠nicas
- ‚úÖ Validar integridade dos dados carregados

**Entradas:** `dataset/ckd.csv` (dados cl√≠nicos de DRC)  
**Sa√≠das:** DataFrame carregado, an√°lise de tipos, mapeamento cl√≠nico

In [12]:
# ===============================================================================
# PROVA CBR - CLASSIFICA√á√ÉO DE DOEN√áA RENAL CR√îNICA (DRC/CKD)
# Aluno: [Seu Nome]
# Mat√©ria: Machine Learning - UFSM
# ===============================================================================

"""
OBJETIVO: Implementar algoritmos CBR para classificar DRC em dois problemas:
- Problema 1: Classifica√ß√£o multiclasse (CKD_Stage - est√°gios 1-5) 
- Problema 2: Classifica√ß√£o bin√°ria (CKD_Progression - sim/n√£o)

DATASET: 1140 amostras com 23 features cl√≠nicas + 2 targets
"""

print("üè• SISTEMA CBR PARA CLASSIFICA√á√ÉO DE DOEN√áA RENAL CR√îNICA")
print("="*60)
print("üìä Iniciando an√°lise explorat√≥ria dos dados...")
print("="*60)

üè• SISTEMA CBR PARA CLASSIFICA√á√ÉO DE DOEN√áA RENAL CR√îNICA
üìä Iniciando an√°lise explorat√≥ria dos dados...


In [13]:
# ===============================================================================
# PASSO 2.1: CARREGAMENTO E INSPE√á√ÉO INICIAL DOS DADOS
# ===============================================================================

# Importa√ß√µes essenciais para an√°lise explorat√≥ria
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configura√ß√£o de visualiza√ß√£o
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10
sns.set_style("whitegrid")

print("üìö Bibliotecas carregadas com sucesso!")
print("üìÇ Iniciando carregamento do dataset CKD...")

üìö Bibliotecas carregadas com sucesso!
üìÇ Iniciando carregamento do dataset CKD...


In [14]:
# ===============================================================================
# ATIVIDADE 1: CARREGAR DATASET CKD
# ===============================================================================

# Definir caminho do dataset
dataset_path = Path("dataset/ckd.csv")

# Verificar se arquivo existe
if not dataset_path.exists():
    raise FileNotFoundError(f"‚ùå Dataset n√£o encontrado em: {dataset_path}")
    
print(f"‚úÖ Dataset encontrado: {dataset_path}")

# Carregar dataset com pandas
try:
    df_ckd = pd.read_csv(dataset_path)
    print(f"‚úÖ Dataset carregado com sucesso!")
    print(f"üìä Shape do dataset: {df_ckd.shape}")
    
except Exception as e:
    print(f"‚ùå Erro ao carregar dataset: {e}")
    raise

‚úÖ Dataset encontrado: dataset/ckd.csv
‚úÖ Dataset carregado com sucesso!
üìä Shape do dataset: (1138, 23)


In [15]:
# ===============================================================================
# ATIVIDADE 2: VERIFICAR SHAPE E ESTRUTURA ESPERADA
# ===============================================================================

print("üîç AN√ÅLISE DA ESTRUTURA DO DATASET")
print("="*50)

# Analisar shape real vs documenta√ß√£o do README.md
readme_mentioned_samples = 1140  # Mencionado no README.md
readme_features_count = 23  # 21 features + 2 targets (contando pela tabela)
expected_shape = (readme_mentioned_samples, readme_features_count)
actual_shape = df_ckd.shape

print(f"üìè Shape mencionado no README: {expected_shape}")
print(f"üìè Shape real do dataset: {actual_shape}")

# Verificar diferen√ßas e explicar
samples_diff = actual_shape[0] - expected_shape[0] 
columns_diff = actual_shape[1] - expected_shape[1]

if actual_shape == expected_shape:
    print("‚úÖ Shape exato conforme documenta√ß√£o!")
else:
    print(f"‚ÑπÔ∏è  Diferen√ßas identificadas:")
    if samples_diff != 0:
        print(f"   üìä Amostras: {samples_diff:+d} ({actual_shape[0]} vs {expected_shape[0]} esperado)")
        if samples_diff < 0:
            print(f"      ‚Üí Prov√°vel remo√ß√£o de {abs(samples_diff)} registros inv√°lidos/duplicados")
    if columns_diff != 0:
        print(f"   üìã Colunas: {columns_diff:+d} ({actual_shape[1]} vs {expected_shape[1]} esperado)")
    
    print(f"‚úÖ Dataset v√°lido com {actual_shape[0]} amostras √ó {actual_shape[1]} colunas")
    print(f"   (Todas as {readme_features_count} features listadas no README est√£o presentes)")

print(f"\nüìã Nomes das colunas ({len(df_ckd.columns)}):")
for i, col in enumerate(df_ckd.columns, 1):
    print(f"   {i:2d}. {col}")
    
print(f"\nüìä Primeiras 3 linhas do dataset:")
print(df_ckd.head(3))

üîç AN√ÅLISE DA ESTRUTURA DO DATASET
üìè Shape mencionado no README: (1140, 23)
üìè Shape real do dataset: (1138, 23)
‚ÑπÔ∏è  Diferen√ßas identificadas:
   üìä Amostras: -2 (1138 vs 1140 esperado)
      ‚Üí Prov√°vel remo√ß√£o de 2 registros inv√°lidos/duplicados
‚úÖ Dataset v√°lido com 1138 amostras √ó 23 colunas
   (Todas as 23 features listadas no README est√£o presentes)

üìã Nomes das colunas (23):
    1. Sex
    2. Age
    3. Systolic_Pressure
    4. BMI
    5. CKD_Cause
    6. Hemoglobin
    7. Albumin
    8. Creatinine
    9. eGFR
   10. CKD_Stage
   11. CKD_Risk
   12. Dipstick_Proteinuria
   13. Proteinuria
   14. Occult_Blood_in_Urine
   15. Protein_Creatinine_Ratio
   16. UPCR_Severity
   17. Hypertension
   18. Previous_CVD
   19. Diabetes
   20. RAAS_Inhibitor
   21. Calcium_Channel_Blocker
   22. Diuretics
   23. CKD_Progression

üìä Primeiras 3 linhas do dataset:
   Sex  Age  Systolic_Pressure   BMI  CKD_Cause  Hemoglobin  Albumin  \
0    2   74              120.0

In [16]:
# ===============================================================================
# ATIVIDADE 3: IDENTIFICAR TIPOS DE DADOS (NUMERICAL VS CATEGORICAL)
# ===============================================================================

print("üî¨ AN√ÅLISE DOS TIPOS DE DADOS")
print("="*50)

# Obter informa√ß√µes gerais do dataset
print("üìã Informa√ß√µes gerais do dataset:")
print(df_ckd.info())

print("\n" + "="*50)
print("üìä AN√ÅLISE DOS TIPOS DE FEATURES")
print("="*50)

# Separar colunas por tipo
numerical_features = []
categorical_features = []
target_features = ['CKD_Stage', 'CKD_Progression']

# Analisar cada coluna (exceto targets)
feature_columns = [col for col in df_ckd.columns if col not in target_features]

for col in feature_columns:
    dtype = df_ckd[col].dtype
    unique_count = df_ckd[col].nunique()
    
    # Classificar como num√©rica ou categ√≥rica
    if dtype in ['int64', 'float64']:
        if unique_count > 10:  # Assumir num√©rica se muitos valores √∫nicos
            numerical_features.append(col)
            category = "NUM√âRICA"
        else:
            categorical_features.append(col)
            category = "CATEG√ìRICA (poucos valores √∫nicos)"
    else:
        categorical_features.append(col)
        category = "CATEG√ìRICA"
    
    print(f"   {col:25s} | {str(dtype):10s} | {unique_count:3d} √∫nicos | {category}")

print(f"\nüìä RESUMO DA CLASSIFICA√á√ÉO:")
print(f"   üî¢ Features num√©ricas: {len(numerical_features)}")
print(f"   üè∑Ô∏è  Features categ√≥ricas: {len(categorical_features)}")
print(f"   üéØ Vari√°veis target: {len(target_features)}")
print(f"   üìà Total de features: {len(feature_columns)}")

print(f"\nüî¢ FEATURES NUM√âRICAS ({len(numerical_features)}):")
for feat in numerical_features:
    print(f"   ‚Ä¢ {feat}")
    
print(f"\nüè∑Ô∏è FEATURES CATEG√ìRICAS ({len(categorical_features)}):")
for feat in categorical_features:
    print(f"   ‚Ä¢ {feat}")

üî¨ AN√ÅLISE DOS TIPOS DE DADOS
üìã Informa√ß√µes gerais do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1138 entries, 0 to 1137
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Sex                       1138 non-null   int64  
 1   Age                       1138 non-null   int64  
 2   Systolic_Pressure         1120 non-null   float64
 3   BMI                       1001 non-null   float64
 4   CKD_Cause                 1138 non-null   int64  
 5   Hemoglobin                1136 non-null   float64
 6   Albumin                   1126 non-null   float64
 7   Creatinine                1138 non-null   float64
 8   eGFR                      1138 non-null   float64
 9   CKD_Stage                 1138 non-null   int64  
 10  CKD_Risk                  1050 non-null   float64
 11  Dipstick_Proteinuria      1122 non-null   float64
 12  Proteinuria               1122 non-null   float

In [17]:
# ===============================================================================
# ATIVIDADE 4: MAPEAR FEATURES POR CATEGORIA CL√çNICA
# ===============================================================================

print("üè• MAPEAMENTO DAS FEATURES POR CATEGORIA CL√çNICA")
print("="*60)

# Definir categorias cl√≠nicas baseadas no dom√≠nio m√©dico
clinical_categories = {
    "üßë‚Äç‚öïÔ∏è Demografia": ["Sex", "Age"],
    
    "üìã Medi√ß√µes Cl√≠nicas": [
        "Systolic_Pressure", "BMI", "Hemoglobin", 
        "Albumin", "Creatinine", "eGFR"
    ],
    
    "‚ö†Ô∏è Fatores de Risco": [
        "CKD_Cause", "CKD_Risk", "Hypertension", 
        "Previous_CVD", "Diabetes"
    ],
    
    "üî¨ Resultados Laboratoriais": [
        "Dipstick_Proteinuria", "Proteinuria", 
        "Occult_Blood_in_Urine", "Protein_Creatinine_Ratio", 
        "UPCR_Severity"
    ],
    
    "üíä Medicamentos": [
        "RAAS_Inhibitor", "Calcium_Channel_Blocker", "Diuretics"
    ],
    
    "üéØ Vari√°veis Target": ["CKD_Stage", "CKD_Progression"]
}

# Verificar se todas as colunas est√£o mapeadas
all_mapped_features = []
for category, features in clinical_categories.items():
    all_mapped_features.extend(features)

missing_features = set(df_ckd.columns) - set(all_mapped_features)
extra_features = set(all_mapped_features) - set(df_ckd.columns)

print("üìä MAPEAMENTO POR CATEGORIA:")
print("-" * 60)

for category, features in clinical_categories.items():
    print(f"\n{category} ({len(features)} features):")
    for feat in features:
        if feat in df_ckd.columns:
            print(f"   ‚úÖ {feat}")
        else:
            print(f"   ‚ùå {feat} (n√£o encontrada no dataset)")

if missing_features:
    print(f"\n‚ö†Ô∏è  Features n√£o mapeadas: {missing_features}")
if extra_features:
    print(f"\n‚ö†Ô∏è  Features mapeadas mas n√£o existentes: {extra_features}")

print(f"\n‚úÖ Mapeamento {'completo' if not missing_features and not extra_features else 'parcial'}!")

# Estat√≠sticas por categoria
print(f"\nüìà ESTAT√çSTICAS POR CATEGORIA:")
for category, features in clinical_categories.items():
    existing_features = [f for f in features if f in df_ckd.columns]
    print(f"   {category}: {len(existing_features)}/{len(features)} features")

üè• MAPEAMENTO DAS FEATURES POR CATEGORIA CL√çNICA
üìä MAPEAMENTO POR CATEGORIA:
------------------------------------------------------------

üßë‚Äç‚öïÔ∏è Demografia (2 features):
   ‚úÖ Sex
   ‚úÖ Age

üìã Medi√ß√µes Cl√≠nicas (6 features):
   ‚úÖ Systolic_Pressure
   ‚úÖ BMI
   ‚úÖ Hemoglobin
   ‚úÖ Albumin
   ‚úÖ Creatinine
   ‚úÖ eGFR

‚ö†Ô∏è Fatores de Risco (5 features):
   ‚úÖ CKD_Cause
   ‚úÖ CKD_Risk
   ‚úÖ Hypertension
   ‚úÖ Previous_CVD
   ‚úÖ Diabetes

üî¨ Resultados Laboratoriais (5 features):
   ‚úÖ Dipstick_Proteinuria
   ‚úÖ Proteinuria
   ‚úÖ Occult_Blood_in_Urine
   ‚úÖ Protein_Creatinine_Ratio
   ‚úÖ UPCR_Severity

üíä Medicamentos (3 features):
   ‚úÖ RAAS_Inhibitor
   ‚úÖ Calcium_Channel_Blocker
   ‚úÖ Diuretics

üéØ Vari√°veis Target (2 features):
   ‚úÖ CKD_Stage
   ‚úÖ CKD_Progression

‚úÖ Mapeamento completo!

üìà ESTAT√çSTICAS POR CATEGORIA:
   üßë‚Äç‚öïÔ∏è Demografia: 2/2 features
   üìã Medi√ß√µes Cl√≠nicas: 6/6 features
   ‚ö†Ô∏è Fatores de Risc

In [18]:
# ===============================================================================
# CHECKPOINT 2.1: RESUMO DO CARREGAMENTO E INSPE√á√ÉO INICIAL
# ===============================================================================

print("üèÅ CHECKPOINT 2.1 - CARREGAMENTO E INSPE√á√ÉO INICIAL")
print("="*60)

# Validar todas as atividades do Passo 2.1
activities_completed = {
    "‚úÖ Carregar dataset/ckd.csv": df_ckd is not None,
    "‚úÖ Verificar shape e documentar diferen√ßas": df_ckd.shape[1] == 23,
    "‚úÖ Identificar tipos de dados": len(numerical_features) > 0 and len(categorical_features) > 0,
    "‚úÖ Mapear features por categoria cl√≠nica": len(clinical_categories) == 6
}

print("üìã ATIVIDADES COMPLETADAS:")
for activity, completed in activities_completed.items():
    status = "‚úÖ" if completed else "‚ùå"
    print(f"   {status} {activity.replace('‚úÖ ', '').replace('‚ùå ', '')}")

all_completed = all(activities_completed.values())
print(f"\nüéØ STATUS DO PASSO 2.1: {'COMPLETO' if all_completed else 'PENDENTE'}")

if all_completed:
    print("\nüöÄ PRONTO PARA PASSO 2.2: An√°lise de Qualidade dos Dados")
    print("   - An√°lise de valores faltantes")  
    print("   - Distribui√ß√µes das features")
    print("   - Detec√ß√£o de outliers")
    print("   - Balance das classes target")
else:
    print("\n‚ö†Ô∏è  Complete as atividades pendentes antes de prosseguir")

print("\n" + "="*60)
print("üìä RESUMO DOS DADOS CARREGADOS:")
print(f"   üìÅ Arquivo: {dataset_path}")
print(f"   üìè Shape: {df_ckd.shape}")
print(f"   üî¢ Features num√©ricas: {len(numerical_features)}")
print(f"   üè∑Ô∏è  Features categ√≥ricas: {len(categorical_features)}")
print(f"   üéØ Targets: {len(target_features)}")
print(f"   üè• Categorias cl√≠nicas: {len(clinical_categories)}")
print("="*60)

üèÅ CHECKPOINT 2.1 - CARREGAMENTO E INSPE√á√ÉO INICIAL
üìã ATIVIDADES COMPLETADAS:
   ‚úÖ Carregar dataset/ckd.csv
   ‚úÖ Verificar shape e documentar diferen√ßas
   ‚úÖ Identificar tipos de dados
   ‚úÖ Mapear features por categoria cl√≠nica

üéØ STATUS DO PASSO 2.1: COMPLETO

üöÄ PRONTO PARA PASSO 2.2: An√°lise de Qualidade dos Dados
   - An√°lise de valores faltantes
   - Distribui√ß√µes das features
   - Detec√ß√£o de outliers
   - Balance das classes target

üìä RESUMO DOS DADOS CARREGADOS:
   üìÅ Arquivo: dataset/ckd.csv
   üìè Shape: (1138, 23)
   üî¢ Features num√©ricas: 9
   üè∑Ô∏è  Features categ√≥ricas: 12
   üéØ Targets: 2
   üè• Categorias cl√≠nicas: 6


# üìä PASSO 2.2 - AN√ÅLISE DE QUALIDADE DOS DADOS

**Objetivos deste passo:**
- üîç Analisar valores ausentes e padr√µes de missing data
- üìà Examinar distribui√ß√µes das features num√©ricas e categ√≥ricas  
- üéØ Verificar balanceamento das classes target (CKD_Stage e CKD_Progression)
- ‚ö†Ô∏è Detectar outliers e anomalias nos dados
- üìã Identificar problemas de qualidade que requerem tratamento

**Entradas:** DataFrame carregado do Passo 2.1  
**Sa√≠das:** Relat√≥rio de qualidade, visualiza√ß√µes, estrat√©gias de pr√©-processamento

In [19]:
# ===============================================================================
# ATIVIDADE 1: AN√ÅLISE DE VALORES AUSENTES (MISSING VALUES)
# ===============================================================================

print("üîç AN√ÅLISE DE VALORES AUSENTES")
print("="*60)

# Calcular estat√≠sticas de missing values
missing_stats = df_ckd.isnull().sum()
missing_percent = (missing_stats / len(df_ckd)) * 100

# Criar DataFrame para an√°lise organizada
missing_analysis = pd.DataFrame({
    'feature': df_ckd.columns,
    'missing_count': missing_stats.values,
    'missing_percent': missing_percent.values,
    'data_type': df_ckd.dtypes.values
}).sort_values('missing_percent', ascending=False)

print(f"üìä Resumo geral:")
print(f"   üìã Total de features: {len(df_ckd.columns)}")
print(f"   üìà Total de amostras: {len(df_ckd)}")
print(f"   ‚ùå Features com missing values: {(missing_stats > 0).sum()}")
print(f"   ‚úÖ Features completas: {(missing_stats == 0).sum()}")

print(f"\nüîç Detalhamento por feature (apenas com missing values):")
print("-" * 60)

features_with_missing = missing_analysis[missing_analysis['missing_count'] > 0]

if len(features_with_missing) > 0:
    for _, row in features_with_missing.iterrows():
        feature = row['feature']
        count = int(row['missing_count'])
        percent = row['missing_percent']
        dtype = row['data_type']
        
        # Categorizar severidade
        if percent > 20:
            severity = "üî¥ CR√çTICO"
        elif percent > 10:
            severity = "üü° MODERADO" 
        elif percent > 5:
            severity = "üü† BAIXO"
        else:
            severity = "üü¢ M√çNIMO"
            
        print(f"   {feature:25s} | {count:4d} missing ({percent:5.1f}%) | {dtype} | {severity}")
        
    # Sugerir estrat√©gias de tratamento
    print(f"\nüí° SUGEST√ïES DE TRATAMENTO:")
    print("-" * 60)
    
    for _, row in features_with_missing.iterrows():
        feature = row['feature']
        percent = row['missing_percent']
        dtype = row['data_type']
        
        if percent > 20:
            strategy = "Remover feature ou imputa√ß√£o avan√ßada"
        elif percent > 10:
            strategy = "Imputa√ß√£o por mediana/moda ou modelos preditivos"
        elif dtype in ['int64', 'float64']:
            strategy = "Imputa√ß√£o por mediana ou m√©dia"
        else:
            strategy = "Imputa√ß√£o por moda ou categoria 'Unknown'"
            
        print(f"   {feature:25s} ‚Üí {strategy}")
else:
    print("‚úÖ Nenhum valor ausente encontrado - dataset completo!")

üîç AN√ÅLISE DE VALORES AUSENTES
üìä Resumo geral:
   üìã Total de features: 23
   üìà Total de amostras: 1138
   ‚ùå Features com missing values: 10
   ‚úÖ Features completas: 13

üîç Detalhamento por feature (apenas com missing values):
------------------------------------------------------------
   BMI                       |  137 missing ( 12.0%) | float64 | üü° MODERADO
   Protein_Creatinine_Ratio  |   88 missing (  7.7%) | float64 | üü† BAIXO
   CKD_Risk                  |   88 missing (  7.7%) | float64 | üü† BAIXO
   UPCR_Severity             |   88 missing (  7.7%) | float64 | üü† BAIXO
   Systolic_Pressure         |   18 missing (  1.6%) | float64 | üü¢ M√çNIMO
   Dipstick_Proteinuria      |   16 missing (  1.4%) | float64 | üü¢ M√çNIMO
   Occult_Blood_in_Urine     |   16 missing (  1.4%) | float64 | üü¢ M√çNIMO
   Proteinuria               |   16 missing (  1.4%) | float64 | üü¢ M√çNIMO
   Albumin                   |   12 missing (  1.1%) | float64 | üü¢ M√çNIM

In [20]:
# ===============================================================================
# ATIVIDADE 2: AN√ÅLISE DAS DISTRIBUI√á√ïES DAS VARI√ÅVEIS TARGET
# ===============================================================================

print("üéØ AN√ÅLISE DAS DISTRIBUI√á√ïES DAS VARI√ÅVEIS TARGET")
print("="*60)

# Analisar CKD_Stage (problema multiclasse)
print("üìä PROBLEMA 1: CKD_Stage (Classifica√ß√£o Multiclasse)")
print("-" * 40)

ckd_stage_counts = df_ckd['CKD_Stage'].value_counts().sort_index()
ckd_stage_percent = (ckd_stage_counts / len(df_ckd) * 100)

print("Distribui√ß√£o por est√°gio:")
for stage in ckd_stage_counts.index:
    count = ckd_stage_counts[stage]
    percent = ckd_stage_percent[stage]
    bar = "‚ñà" * int(percent / 2)  # Barra visual proporcional
    print(f"   Est√°gio {stage}: {count:4d} amostras ({percent:5.1f}%) {bar}")

# Calcular balanceamento multiclasse
max_class = ckd_stage_counts.max()
min_class = ckd_stage_counts.min()
imbalance_ratio = max_class / min_class

print(f"\nüìà M√©tricas de balanceamento:")
print(f"   Classe majorit√°ria: Est√°gio {ckd_stage_counts.idxmax()} ({ckd_stage_counts.max()} amostras)")
print(f"   Classe minorit√°ria: Est√°gio {ckd_stage_counts.idxmin()} ({ckd_stage_counts.min()} amostras)")
print(f"   Raz√£o de desbalanceamento: {imbalance_ratio:.1f}:1")

if imbalance_ratio > 5:
    balance_status = "üî¥ Severo desbalanceamento"
elif imbalance_ratio > 3:
    balance_status = "üü° Moderado desbalanceamento"
elif imbalance_ratio > 1.5:
    balance_status = "üü† Leve desbalanceamento"
else:
    balance_status = "üü¢ Bem balanceado"
    
print(f"   Status: {balance_status}")

print("\n" + "="*60)
print("üìä PROBLEMA 2: CKD_Progression (Classifica√ß√£o Bin√°ria)")
print("-" * 40)

# Analisar CKD_Progression (problema bin√°rio)
progression_counts = df_ckd['CKD_Progression'].value_counts().sort_index()
progression_percent = (progression_counts / len(df_ckd) * 100)

labels = {0: "Sem Progress√£o", 1: "Com Progress√£o"}
print("Distribui√ß√£o da progress√£o:")
for value in progression_counts.index:
    count = progression_counts[value]
    percent = progression_percent[value]
    bar = "‚ñà" * int(percent / 2)
    print(f"   {labels[value]:15s}: {count:4d} amostras ({percent:5.1f}%) {bar}")

# Calcular balanceamento bin√°rio
binary_ratio = progression_counts.max() / progression_counts.min()

print(f"\nüìà M√©tricas de balanceamento:")
print(f"   Classe majorit√°ria: {labels[progression_counts.idxmax()]} ({progression_counts.max()} amostras)")
print(f"   Classe minorit√°ria: {labels[progression_counts.idxmin()]} ({progression_counts.min()} amostras)")
print(f"   Raz√£o de desbalanceamento: {binary_ratio:.1f}:1")

if binary_ratio > 3:
    binary_balance_status = "üî¥ Desbalanceado"
elif binary_ratio > 2:
    binary_balance_status = "üü° Moderadamente desbalanceado"
elif binary_ratio > 1.5:
    binary_balance_status = "üü† Levemente desbalanceado"
else:
    binary_balance_status = "üü¢ Bem balanceado"
    
print(f"   Status: {binary_balance_status}")

# Recomenda√ß√µes para tratamento de desbalanceamento
print(f"\nüí° RECOMENDA√á√ïES PARA TRATAMENTO:")
print("-" * 40)
if imbalance_ratio > 3 or binary_ratio > 2:
    print("   üîÑ Considerar t√©cnicas de balanceamento:")
    print("   ‚Ä¢ SMOTE para oversampling da classe minorit√°ria")
    print("   ‚Ä¢ Random undersampling da classe majorit√°ria") 
    print("   ‚Ä¢ Ajuste de pesos nas classes durante treinamento CBR")
    print("   ‚Ä¢ M√©tricas balanceadas (F1-score, AUC-ROC)")
else:
    print("   ‚úÖ Classes relativamente balanceadas - prosseguir normalmente")

üéØ AN√ÅLISE DAS DISTRIBUI√á√ïES DAS VARI√ÅVEIS TARGET
üìä PROBLEMA 1: CKD_Stage (Classifica√ß√£o Multiclasse)
----------------------------------------
Distribui√ß√£o por est√°gio:
   Est√°gio 2:   95 amostras (  8.3%) ‚ñà‚ñà‚ñà‚ñà
   Est√°gio 3:  470 amostras ( 41.3%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   Est√°gio 4:  364 amostras ( 32.0%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   Est√°gio 5:  209 amostras ( 18.4%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà

üìà M√©tricas de balanceamento:
   Classe majorit√°ria: Est√°gio 3 (470 amostras)
   Classe minorit√°ria: Est√°gio 2 (95 amostras)
   Raz√£o de desbalanceamento: 4.9:1
   Status: üü° Moderado desbalanceamento

üìä PROBLEMA 2: CKD_Progression (Classifica√ß√£o Bin√°ria)
----------------------------------------
Distribui√ß√£o da progress√£o:
   Sem Progress√£o :  858 amostras ( 75.4%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   Com Progress√

In [21]:
# ===============================================================================
# ATIVIDADE 3: ESTAT√çSTICAS DESCRITIVAS DAS FEATURES NUM√âRICAS
# ===============================================================================

print("üìä ESTAT√çSTICAS DESCRITIVAS DAS FEATURES NUM√âRICAS")
print("="*60)

# Filtrar apenas features num√©ricas (excluindo targets)
numerical_features_only = [col for col in numerical_features if col not in ['CKD_Stage', 'CKD_Progression']]

print(f"üî¢ Analisando {len(numerical_features_only)} features num√©ricas:")
for feat in numerical_features_only:
    print(f"   ‚Ä¢ {feat}")

# Calcular estat√≠sticas descritivas
numerical_stats = df_ckd[numerical_features_only].describe()

print(f"\nüìã RESUMO ESTAT√çSTICO:")
print("-" * 60)
print(f"{'Feature':<25} {'Min':<8} {'Q1':<8} {'Mediana':<8} {'Q3':<8} {'Max':<8} {'Std':<8} {'Missing':<8}")
print("-" * 60)

for col in numerical_features_only:
    stats = numerical_stats[col]
    missing = df_ckd[col].isnull().sum()
    
    print(f"{col:<25} {stats['min']:<8.1f} {stats['25%']:<8.1f} {stats['50%']:<8.1f} "
          f"{stats['75%']:<8.1f} {stats['max']:<8.1f} {stats['std']:<8.1f} {missing:<8d}")

# Detectar poss√≠veis outliers usando IQR
print(f"\n‚ö†Ô∏è  DETEC√á√ÉO DE OUTLIERS (M√©todo IQR):")
print("-" * 60)

outliers_detected = False
for col in numerical_features_only:
    if df_ckd[col].notna().sum() > 0:  # S√≥ analisar se tiver dados
        Q1 = df_ckd[col].quantile(0.25)
        Q3 = df_ckd[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        outliers = df_ckd[(df_ckd[col] < lower_bound) | (df_ckd[col] > upper_bound)][col]
        
        if len(outliers) > 0:
            outliers_detected = True
            percent_outliers = (len(outliers) / df_ckd[col].notna().sum()) * 100
            print(f"   {col:<25}: {len(outliers):3d} outliers ({percent_outliers:4.1f}%)")
            print(f"      Range normal: [{lower_bound:6.1f}, {upper_bound:6.1f}]")
            print(f"      Outliers: min={outliers.min():.1f}, max={outliers.max():.1f}")

if not outliers_detected:
    print("   ‚úÖ Nenhum outlier extremo detectado pelo m√©todo IQR")

# An√°lise de variabilidade
print(f"\nüìà AN√ÅLISE DE VARIABILIDADE (Coeficiente de Varia√ß√£o):")
print("-" * 60)

for col in numerical_features_only:
    if df_ckd[col].notna().sum() > 0:
        mean_val = df_ckd[col].mean()
        std_val = df_ckd[col].std()
        cv = (std_val / mean_val) * 100 if mean_val != 0 else 0
        
        if cv > 50:
            variability = "üî¥ Alta variabilidade"
        elif cv > 25:
            variability = "üü° Moderada variabilidade"
        else:
            variability = "üü¢ Baixa variabilidade"
            
        print(f"   {col:<25}: CV = {cv:5.1f}% | {variability}")

print(f"\nüí° INTERPRETA√á√ïES CL√çNICAS:")
print("-" * 60)
print("   ‚Ä¢ BMI: Valores t√≠picos 18-35, outliers podem indicar casos extremos")
print("   ‚Ä¢ Creatinine: Valores elevados indicam disfun√ß√£o renal")  
print("   ‚Ä¢ eGFR: < 60 indica DRC, < 15 indica fal√™ncia renal")
print("   ‚Ä¢ Hemoglobin: Baixos valores comuns em pacientes com DRC")
print("   ‚Ä¢ Age: Distribui√ß√£o esperada, DRC mais comum em idades avan√ßadas")

üìä ESTAT√çSTICAS DESCRITIVAS DAS FEATURES NUM√âRICAS
üî¢ Analisando 9 features num√©ricas:
   ‚Ä¢ Age
   ‚Ä¢ Systolic_Pressure
   ‚Ä¢ BMI
   ‚Ä¢ Hemoglobin
   ‚Ä¢ Albumin
   ‚Ä¢ Creatinine
   ‚Ä¢ eGFR
   ‚Ä¢ CKD_Risk
   ‚Ä¢ Protein_Creatinine_Ratio

üìã RESUMO ESTAT√çSTICO:
------------------------------------------------------------
Feature                   Min      Q1       Mediana  Q3       Max      Std      Missing 
------------------------------------------------------------
Age                       21.0     61.0     70.0     77.0     94.0     13.7     0       
Systolic_Pressure         66.0     125.0    138.0    152.0    234.0    22.5     18      
BMI                       14.2     21.0     23.3     25.8     44.2     4.0      137     
Hemoglobin                5.9      10.2     12.0     13.6     19.0     2.3      2       
Albumin                   1.4      3.5      4.0      4.3      5.2      0.6      12      
Creatinine                0.5      1.2      1.7      2.7      13.

In [22]:
# ===============================================================================
# CHECKPOINT 2.2: RESUMO DA AN√ÅLISE DE QUALIDADE DOS DADOS
# ===============================================================================

print("üèÅ CHECKPOINT 2.2 - AN√ÅLISE DE QUALIDADE DOS DADOS")
print("="*60)

# Resumir principais achados
print("üìã PRINCIPAIS ACHADOS:")
print("-" * 40)

# Missing values
missing_features = df_ckd.isnull().sum()
features_with_missing = (missing_features > 0).sum()
print(f"   üìä Missing Values: {features_with_missing} features afetadas")
print(f"      ‚Üí BMI tem maior taxa de missing (12.0% - 137 amostras)")
print(f"      ‚Üí Features laboratoriais t√™m ~7-8% missing (padr√£o comum)")

# Balanceamento das classes
ckd_stage_counts = df_ckd['CKD_Stage'].value_counts()
progression_counts = df_ckd['CKD_Progression'].value_counts()
stage_ratio = ckd_stage_counts.max() / ckd_stage_counts.min()
prog_ratio = progression_counts.max() / progression_counts.min()

print(f"\n   üéØ Balanceamento das Classes:")
print(f"      ‚Üí CKD_Stage: {stage_ratio:.1f}:1 (moderado desbalanceamento)")
print(f"      ‚Üí CKD_Progression: {prog_ratio:.1f}:1 (desbalanceado)")

# Outliers e qualidade
print(f"\n   ‚ö†Ô∏è  Qualidade dos Dados:")
print(f"      ‚Üí Outliers detectados em v√°rias features num√©ricas")
print(f"      ‚Üí Variabilidade alta em algumas medi√ß√µes cl√≠nicas")
print(f"      ‚Üí Dados clinicamente coerentes (ranges esperados)")

# Pr√≥ximos passos recomendados
print(f"\nüöÄ ESTRAT√âGIAS PARA PASSO 2.3 (PR√â-PROCESSAMENTO):")
print("-" * 40)
print("   1. üîç An√°lise de correla√ß√µes (obrigat√≥rio: remover >90% correla√ß√£o)")
print("   2. üîÑ Tratamento de missing values por estrat√©gias espec√≠ficas")
print("   3. üìä Normaliza√ß√£o/padroniza√ß√£o das features num√©ricas")
print("   4. ‚öñÔ∏è  Considerar balanceamento de classes para CBR")
print("   5. üìã Divis√£o train/test para otimiza√ß√£o de pesos")

print(f"\n‚úÖ PASSO 2.2 COMPLETO - An√°lise de qualidade finalizada!")
print(f"üìà Pronto para Passo 2.3: An√°lise de Correla√ß√µes e Pr√©-processamento")
print("="*60)

üèÅ CHECKPOINT 2.2 - AN√ÅLISE DE QUALIDADE DOS DADOS
üìã PRINCIPAIS ACHADOS:
----------------------------------------
   üìä Missing Values: 10 features afetadas
      ‚Üí BMI tem maior taxa de missing (12.0% - 137 amostras)
      ‚Üí Features laboratoriais t√™m ~7-8% missing (padr√£o comum)

   üéØ Balanceamento das Classes:
      ‚Üí CKD_Stage: 4.9:1 (moderado desbalanceamento)
      ‚Üí CKD_Progression: 3.1:1 (desbalanceado)

   ‚ö†Ô∏è  Qualidade dos Dados:
      ‚Üí Outliers detectados em v√°rias features num√©ricas
      ‚Üí Variabilidade alta em algumas medi√ß√µes cl√≠nicas
      ‚Üí Dados clinicamente coerentes (ranges esperados)

üöÄ ESTRAT√âGIAS PARA PASSO 2.3 (PR√â-PROCESSAMENTO):
----------------------------------------
   1. üîç An√°lise de correla√ß√µes (obrigat√≥rio: remover >90% correla√ß√£o)
   2. üîÑ Tratamento de missing values por estrat√©gias espec√≠ficas
   3. üìä Normaliza√ß√£o/padroniza√ß√£o das features num√©ricas
   4. ‚öñÔ∏è  Considerar balanceamento d