In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, KFold, LeaveOneOut
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import (accuracy_score, precision_score, recall_score, 
                             f1_score, cohen_kappa_score)
import warnings
warnings.filterwarnings('ignore')

# ==================== CONFIGURAÇÕES ====================
ARQUIVO_TRAIN = 'cvd/train.csv'
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

In [2]:
def calcular_metricas(y_true, y_pred):
    """Calcula todas as métricas de avaliação"""
    return {
        'Acurácia': accuracy_score(y_true, y_pred),
        'Precisão': precision_score(y_true, y_pred, zero_division=0),
        'Recall': recall_score(y_true, y_pred, zero_division=0),
        'F1-Score': f1_score(y_true, y_pred, zero_division=0),
        'Kappa': cohen_kappa_score(y_true, y_pred)
    }

In [3]:
def imprimir_resultados(nome_metodo, metricas_lista):
    """Imprime resultados formatados com média e desvio padrão"""
    print(f"\n{'='*60}")
    print(f"RESULTADOS: {nome_metodo}")
    print(f"{'='*60}")
    
    # Converter lista de dicionários em DataFrame para facilitar cálculos
    df_metricas = pd.DataFrame(metricas_lista)
    
    print(f"\n{'Métrica':<15} {'Média':<12} {'Desvio Padrão':<15}")
    print(f"{'-'*42}")
    
    for metrica in df_metricas.columns:
        media = df_metricas[metrica].mean()
        std = df_metricas[metrica].std()
        print(f"{metrica:<15} {media:.4f}       {std:.4f}")
    
    print(f"\nNúmero de execuções: {len(metricas_lista)}")

In [4]:
def encontrar_melhor_k(X_train, y_train, X_val, y_val, k_range=range(1, 31)):
    """Encontra o melhor valor de K usando conjunto de validação"""
    melhores_scores = []
    
    for k in k_range:
        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_val)
        score = f1_score(y_val, y_pred, zero_division=0)
        melhores_scores.append((k, score))
    
    melhor_k = max(melhores_scores, key=lambda x: x[1])[0]
    return melhor_k

In [5]:
def preprocessar_dados(df):
    """Preprocessa o dataset: trata datas, valores ausentes e codifica variáveis"""
    df_proc = df.copy()
    
    # Remover colunas não necessárias
    colunas_remover = ['id', 'location', 'sym_on', 'hosp_vis']
    df_proc = df_proc.drop(columns=[col for col in colunas_remover if col in df_proc.columns])
    
    # Codificar variáveis categóricas
    le_country = LabelEncoder()
    le_gender = LabelEncoder()
    
    if 'country' in df_proc.columns:
        df_proc['country'] = le_country.fit_transform(df_proc['country'].astype(str))
    
    if 'gender' in df_proc.columns:
        df_proc['gender'] = le_gender.fit_transform(df_proc['gender'].astype(str))
    
    # Codificar colunas de sintomas (symptom1, symptom2, etc.)
    symptom_cols = [col for col in df_proc.columns if col.startswith('symptom')]
    for col in symptom_cols:
        if col in df_proc.columns:
            # Converter sintomas em variáveis categóricas numéricas
            le_symptom = LabelEncoder()
            # Substituir NA por string antes de codificar
            df_proc[col] = df_proc[col].fillna('no_symptom')
            df_proc[col] = le_symptom.fit_transform(df_proc[col].astype(str))
    
    # Tratar valores ausentes
    # Para colunas numéricas, preencher com a mediana
    numeric_cols = df_proc.select_dtypes(include=[np.number]).columns
    for col in numeric_cols:
        df_proc[col] = df_proc[col].fillna(df_proc[col].median())
    
    # Para colunas categóricas, preencher com a moda e depois codificar
    categorical_cols = df_proc.select_dtypes(include=['object']).columns
    for col in categorical_cols:
        df_proc[col] = df_proc[col].fillna(df_proc[col].mode()[0] if len(df_proc[col].mode()) > 0 else 'unknown')
        # Codificar se ainda houver colunas categóricas
        if df_proc[col].dtype == 'object':
            le = LabelEncoder()
            df_proc[col] = le.fit_transform(df_proc[col].astype(str))
    
    return df_proc


In [6]:
print("="*60)
print("CLASSIFICAÇÃO KNN - COVID-19 DATASET")
print("="*60)

print("\nCarregando dataset de treino...")
df = pd.read_csv(ARQUIVO_TRAIN)

print(f"Dataset carregado: {df.shape[0]} amostras, {df.shape[1]} features")

# Criar coluna 'result' baseada em 'death' e 'recov'
# result = 1 se morte (death=1), result = 0 se recuperado ou sem informação
if 'death' in df.columns:
    df['result'] = df['death'].apply(lambda x: 1 if x == 1 else 0)
    print(f"\nDistribuição da classe alvo (result - morreu ou não):")
    print(f"  Recuperados (0): {(df['result'] == 0).sum()}")
    print(f"  Falecidos (1): {(df['result'] == 1).sum()}")
else:
    print("\nERRO: Coluna 'death' não encontrada no dataset!")
    exit()

# Remover linhas onde não há informação de death
if 'death' in df.columns:
    df = df[df['death'].notna()].copy()
if 'recov' in df.columns:
    df = df[df['recov'].notna() | df['death'].notna()].copy()

# Remover colunas 'death' e 'recov' das features
colunas_remover_target = []
if 'death' in df.columns:
    colunas_remover_target.append('death')
if 'recov' in df.columns:
    colunas_remover_target.append('recov')

if colunas_remover_target:
    df = df.drop(colunas_remover_target, axis=1)

# Preprocessar dados
df_processado = preprocessar_dados(df)

# Separar features e target
X = df_processado.drop('result', axis=1)
y = df_processado['result']

print(f"\nDataset após preprocessamento:")
print(f"  Amostras: {X.shape[0]}")
print(f"  Features: {X.shape[1]}")
print(f"  Features utilizadas: {list(X.columns)}")

# Verificar se há dados suficientes
if len(X) < 10:
    print("\nERRO: Dataset muito pequeno para análise!")
    exit()

print(f"\n{'='*60}")
print("ETAPA 1: ENCONTRANDO MELHOR VALOR DE K (usando validação)")
print(f"{'='*60}")

# Dividir em treino+validação (80%) e teste (20%)
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, random_state=RANDOM_STATE, stratify=y
)

# Dividir treino+validação em treino (70% do total) e validação (10% do total)
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.125, random_state=RANDOM_STATE, stratify=y_temp
)

print(f"\nTamanho dos conjuntos:")
print(f"  - Treino: {len(X_train)} amostras ({len(X_train)/len(X)*100:.1f}%)")
print(f"  - Validação: {len(X_val)} amostras ({len(X_val)/len(X)*100:.1f}%)")
print(f"  - Teste: {len(X_test)} amostras ({len(X_test)/len(X)*100:.1f}%)")

# Normalizar dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

# Encontrar melhor K
melhor_k = encontrar_melhor_k(X_train_scaled, y_train, X_val_scaled, y_val)
print(f"\n>>> MELHOR VALOR DE K ENCONTRADO: {melhor_k}")

# ==================== MÉTODO 1: HOLD-OUT (70/30) ====================

print(f"\n\n{'='*60}")
print("MÉTODO 1: HOLD-OUT (70/30)")
print(f"{'='*60}")

# Repetir hold-out 30 vezes para calcular desvio padrão
metricas_holdout = []

for i in range(30):
    # Nova divisão a cada iteração
    X_train_ho, X_test_ho, y_train_ho, y_test_ho = train_test_split(
        X, y, test_size=0.3, random_state=i, stratify=y
    )
    
    scaler_ho = StandardScaler()
    X_train_ho_scaled = scaler_ho.fit_transform(X_train_ho)
    X_test_ho_scaled = scaler_ho.transform(X_test_ho)
    
    # Treinar KNN
    knn = KNeighborsClassifier(n_neighbors=melhor_k)
    knn.fit(X_train_ho_scaled, y_train_ho)
    y_pred = knn.predict(X_test_ho_scaled)
    
    # Calcular métricas
    metricas = calcular_metricas(y_test_ho, y_pred)
    metricas_holdout.append(metricas)

imprimir_resultados("Hold-Out (70/30)", metricas_holdout)

# ==================== MÉTODO 2: K-FOLD (K=5) ====================

print(f"\n\n{'='*60}")
print("MÉTODO 2: K-FOLD CROSS-VALIDATION (K=5)")
print(f"{'='*60}")

kfold = KFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)
metricas_kfold = []

# Normalizar todo o dataset
scaler_full = StandardScaler()
X_scaled_full = scaler_full.fit_transform(X)

fold_num = 1
for train_idx, test_idx in kfold.split(X_scaled_full, y):
    X_train_kf = X_scaled_full[train_idx]
    X_test_kf = X_scaled_full[test_idx]
    y_train_kf = y.iloc[train_idx]
    y_test_kf = y.iloc[test_idx]
    
    # Treinar KNN
    knn = KNeighborsClassifier(n_neighbors=melhor_k)
    knn.fit(X_train_kf, y_train_kf)
    y_pred = knn.predict(X_test_kf)
    
    # Calcular métricas
    metricas = calcular_metricas(y_test_kf, y_pred)
    metricas_kfold.append(metricas)
    
    print(f"Fold {fold_num}/5 concluído")
    fold_num += 1

imprimir_resultados("K-Fold (K=5)", metricas_kfold)

# ==================== MÉTODO 3: LEAVE-ONE-OUT ====================

print(f"\n\n{'='*60}")
print("MÉTODO 3: LEAVE-ONE-OUT CROSS-VALIDATION")
print(f"{'='*60}")

loo = LeaveOneOut()
metricas_loo = []

# Para LOO, vamos fazer por batches para calcular métricas
y_true_total = []
y_pred_total = []

print(f"Processando {len(X)} iterações...")

iteracao = 0
for train_idx, test_idx in loo.split(X_scaled_full):
    X_train_loo = X_scaled_full[train_idx]
    X_test_loo = X_scaled_full[test_idx]
    y_train_loo = y.iloc[train_idx]
    y_test_loo = y.iloc[test_idx]
    
    # Treinar KNN
    knn = KNeighborsClassifier(n_neighbors=melhor_k)
    knn.fit(X_train_loo, y_train_loo)
    y_pred = knn.predict(X_test_loo)
    
    y_true_total.extend(y_test_loo)
    y_pred_total.extend(y_pred)
    
    iteracao += 1
    if iteracao % 50 == 0:
        print(f"  Progresso: {iteracao}/{len(X)}")

# Calcular métricas globais do LOO
metricas_loo_global = calcular_metricas(y_true_total, y_pred_total)
metricas_loo.append(metricas_loo_global)

# Para LOO, o desvio padrão é 0 pois é uma única execução completa
print(f"\n{'='*60}")
print(f"RESULTADOS: Leave-One-Out")
print(f"{'='*60}")

print(f"\n{'Métrica':<15} {'Valor':<12} {'Desvio Padrão':<15}")
print(f"{'-'*42}")

for metrica, valor in metricas_loo_global.items():
    print(f"{metrica:<15} {valor:.4f}       0.0000")

print(f"\nNúmero de execuções: {len(X)} (uma por amostra)")

# ==================== RESUMO FINAL ====================

print(f"\n\n{'#'*60}")
print("RESUMO COMPARATIVO DOS MÉTODOS")
print(f"{'#'*60}")

print(f"\nValor de K utilizado: {melhor_k}")
print(f"Dataset: {len(X)} amostras, {X.shape[1]} features")
print(f"\nMétodo           Acurácia(μ±σ)    F1-Score(μ±σ)    Precisão(μ±σ)")
print(f"{'-'*70}")

# Hold-out
df_ho = pd.DataFrame(metricas_holdout)
print(f"Hold-Out         {df_ho['Acurácia'].mean():.4f}±{df_ho['Acurácia'].std():.4f}   "
      f"{df_ho['F1-Score'].mean():.4f}±{df_ho['F1-Score'].std():.4f}   "
      f"{df_ho['Precisão'].mean():.4f}±{df_ho['Precisão'].std():.4f}")

# K-Fold
df_kf = pd.DataFrame(metricas_kfold)
print(f"K-Fold (5)       {df_kf['Acurácia'].mean():.4f}±{df_kf['Acurácia'].std():.4f}   "
      f"{df_kf['F1-Score'].mean():.4f}±{df_kf['F1-Score'].std():.4f}   "
      f"{df_kf['Precisão'].mean():.4f}±{df_kf['Precisão'].std():.4f}")

# LOO
print(f"Leave-One-Out    {metricas_loo_global['Acurácia']:.4f}±0.0000   "
      f"{metricas_loo_global['F1-Score']:.4f}±0.0000   "
      f"{metricas_loo_global['Precisão']:.4f}±0.0000")

print(f"\n{'Métrica':<15} {'Hold-Out':<12} {'K-Fold':<12} {'LOO':<12}")
print(f"{'-'*55}")
print(f"{'Recall':<15} {df_ho['Recall'].mean():.4f}±{df_ho['Recall'].std():.4f}   "
      f"{df_kf['Recall'].mean():.4f}±{df_kf['Recall'].std():.4f}   "
      f"{metricas_loo_global['Recall']:.4f}±0.0000")
print(f"{'Kappa':<15} {df_ho['Kappa'].mean():.4f}±{df_ho['Kappa'].std():.4f}   "
      f"{df_kf['Kappa'].mean():.4f}±{df_kf['Kappa'].std():.4f}   "
      f"{metricas_loo_global['Kappa']:.4f}±0.0000")

print(f"\n{'#'*60}")
print("ANÁLISE CONCLUÍDA")
print(f"{'#'*60}")

CLASSIFICAÇÃO KNN - COVID-19 DATASET

Carregando dataset de treino...
Dataset carregado: 222 amostras, 16 features

Distribuição da classe alvo (result - morreu ou não):
  Recuperados (0): 159
  Falecidos (1): 63

Dataset após preprocessamento:
  Amostras: 222
  Features: 11
  Features utilizadas: ['country', 'gender', 'age', 'vis_wuhan', 'from_wuhan', 'symptom1', 'symptom2', 'symptom3', 'symptom4', 'symptom5', 'symptom6']

ETAPA 1: ENCONTRANDO MELHOR VALOR DE K (usando validação)

Tamanho dos conjuntos:
  - Treino: 154 amostras (69.4%)
  - Validação: 23 amostras (10.4%)
  - Teste: 45 amostras (20.3%)

>>> MELHOR VALOR DE K ENCONTRADO: 2


MÉTODO 1: HOLD-OUT (70/30)

RESULTADOS: Hold-Out (70/30)

Métrica         Média        Desvio Padrão  
------------------------------------------
Acurácia        0.8866       0.0334
Precisão        0.9103       0.0704
Recall          0.6702       0.1114
F1-Score        0.7657       0.0826
Kappa           0.6943       0.0990

Número de execuções: 30

