# Script de limpeza

- parâmetros dinâmicos (qual pasta limpar)
- opções para manter ou remover apenas certos tipos de arquivo
- logs mais claros e coloridos
- proteção contra exclusões acidentais

In [1]:
# Etapa 1: Configurar a API do Kaggle
# 1. Montar o Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Limpando a pasta models

In [7]:
# =========================================================
# 🧹 UNIVERSAL CLEANUP UTILITY — HEART FAIRNESS PROJECT
# =========================================================
# Permite limpar qualquer subpasta (results, models, data/splits, etc.)
# mantendo logs, filtros e pastas definidas dinamicamente.
# =========================================================

import os
import shutil

def clean_directory(
    base_path: str,
    subfolder: str,
    keep_folders: list = None,
    keep_extensions: list = None,
    confirm: bool = True
):
    """
    Limpa arquivos e subpastas de um diretório, com exceções configuráveis.

    Parâmetros:
    -----------
    base_path : str
        Caminho raiz do projeto.
    subfolder : str
        Nome da subpasta a ser limpa (ex: 'results', 'models/xgboost/rounds').
    keep_folders : list[str]
        Lista de subpastas a manter (ex: ['eda_summary']).
    keep_extensions : list[str]
        Lista de extensões a manter (ex: ['.csv', '.json']).
    confirm : bool
        Se True, pede confirmação antes da exclusão.
    """

    target_path = os.path.join(base_path, subfolder)
    if not os.path.exists(target_path):
        print(f"❌ Diretório não encontrado: {target_path}")
        return

    keep_folders = keep_folders or []
    keep_extensions = keep_extensions or []

    print("=" * 80)
    print(f"🧹 LIMPEZA DE DIRETÓRIO — {subfolder.upper()}")
    print("=" * 80)
    print(f"📁 Caminho alvo: {target_path}")
    print(f"🟢 Pastas preservadas: {keep_folders}")
    print(f"🟡 Extensões preservadas: {keep_extensions}\n")

    # Confirmação de segurança
    if confirm:
        resp = input("⚠️ Confirmar limpeza? (y/n): ").strip().lower()
        if resp != "y":
            print("🚫 Operação cancelada pelo usuário.")
            return

    # Loop pelos itens do diretório
    for item in os.listdir(target_path):
        item_path = os.path.join(target_path, item)

        # Pastas a manter
        if item in keep_folders:
            print(f"🟡 Mantendo pasta: {item}/")
            continue

        # Arquivos com extensões preservadas
        if os.path.isfile(item_path):
            _, ext = os.path.splitext(item)
            if ext in keep_extensions:
                print(f"🟡 Mantendo arquivo: {item}")
                continue
            os.remove(item_path)
            print(f"🧾 Removido arquivo: {item}")

        # Pastas a remover
        elif os.path.isdir(item_path):
            shutil.rmtree(item_path)
            print(f"📂 Removida pasta: {item}/")

    print("\n✅ Limpeza concluída com sucesso.")
    print(f"📂 Estrutura preservada: {keep_folders if keep_folders else 'Nenhuma'}")
    print(f"📄 Extensões preservadas: {keep_extensions if keep_extensions else 'Nenhuma'}")
    print("=" * 80)


# =========================================================
# 💡 EXEMPLOS DE USO
# =========================================================

base_path = "/content/drive/MyDrive/AI-HealthCare/EHR/heart-disease-fairness/models"

# 🔹 Exemplo 1 — limpar apenas /results (mantendo EDA)
# clean_directory(
#     base_path=base_path,
#     subfolder="round_01",
# #    keep_folders=["eda_summary"],
#     confirm=False
# )

#🔹 Exemplo 2 — limpar /models/xgboost/rounds inteiro
clean_directory(
    base_path=base_path,
    subfolder="xgboost/rounds",
    confirm=True
)

# 🔹 Exemplo 3 — limpar /data/splits mas manter os .csv
# clean_directory(
#     base_path=base_path,
#     subfolder="data/splits",
#     keep_extensions=[".csv"],
#     confirm=True
# )


🧹 LIMPEZA DE DIRETÓRIO — XGBOOST/ROUNDS
📁 Caminho alvo: /content/drive/MyDrive/AI-HealthCare/EHR/heart-disease-fairness/models/xgboost/rounds
🟢 Pastas preservadas: []
🟡 Extensões preservadas: []

⚠️ Confirmar limpeza? (y/n): y
📂 Removida pasta: round_01/

✅ Limpeza concluída com sucesso.
📂 Estrutura preservada: Nenhuma
📄 Extensões preservadas: Nenhuma


### Limpando eda_sumary

In [6]:
# =========================================================
# 🧹 UNIVERSAL CLEANUP UTILITY — HEART FAIRNESS PROJECT
# =========================================================
# Permite limpar qualquer subpasta (results, models, data/splits, etc.)
# mantendo logs, filtros e pastas definidas dinamicamente.
# =========================================================

import os
import shutil

def clean_directory(
    base_path: str,
    subfolder: str,
    keep_folders: list = None,
    keep_extensions: list = None,
    confirm: bool = True
):
    """
    Limpa arquivos e subpastas de um diretório, com exceções configuráveis.

    Parâmetros:
    -----------
    base_path : str
        Caminho raiz do projeto.
    subfolder : str
        Nome da subpasta a ser limpa (ex: 'results', 'models/xgboost/rounds').
    keep_folders : list[str]
        Lista de subpastas a manter (ex: ['eda_summary']).
    keep_extensions : list[str]
        Lista de extensões a manter (ex: ['.csv', '.json']).
    confirm : bool
        Se True, pede confirmação antes da exclusão.
    """

    target_path = os.path.join(base_path, subfolder)
    if not os.path.exists(target_path):
        print(f"❌ Diretório não encontrado: {target_path}")
        return

    keep_folders = keep_folders or []
    keep_extensions = keep_extensions or []

    print("=" * 80)
    print(f"🧹 LIMPEZA DE DIRETÓRIO — {subfolder.upper()}")
    print("=" * 80)
    print(f"📁 Caminho alvo: {target_path}")
    print(f"🟢 Pastas preservadas: {keep_folders}")
    print(f"🟡 Extensões preservadas: {keep_extensions}\n")

    # Confirmação de segurança
    if confirm:
        resp = input("⚠️ Confirmar limpeza? (y/n): ").strip().lower()
        if resp != "y":
            print("🚫 Operação cancelada pelo usuário.")
            return

    # Loop pelos itens do diretório
    for item in os.listdir(target_path):
        item_path = os.path.join(target_path, item)

        # Pastas a manter
        if item in keep_folders:
            print(f"🟡 Mantendo pasta: {item}/")
            continue

        # Arquivos com extensões preservadas
        if os.path.isfile(item_path):
            _, ext = os.path.splitext(item)
            if ext in keep_extensions:
                print(f"🟡 Mantendo arquivo: {item}")
                continue
            os.remove(item_path)
            print(f"🧾 Removido arquivo: {item}")

        # Pastas a remover
        elif os.path.isdir(item_path):
            shutil.rmtree(item_path)
            print(f"📂 Removida pasta: {item}/")

    print("\n✅ Limpeza concluída com sucesso.")
    print(f"📂 Estrutura preservada: {keep_folders if keep_folders else 'Nenhuma'}")
    print(f"📄 Extensões preservadas: {keep_extensions if keep_extensions else 'Nenhuma'}")
    print("=" * 80)


# =========================================================
# 💡 EXEMPLOS DE USO
# =========================================================

base_path = "/content/drive/MyDrive/AI-HealthCare/EHR/heart-disease-fairness/results"

# 🔹 Exemplo 1 — limpar apenas /results (mantendo EDA)
clean_directory(
    base_path=base_path,
    subfolder="",
    keep_folders=["eda_summary"],
    confirm=False
)


🧹 LIMPEZA DE DIRETÓRIO — 
📁 Caminho alvo: /content/drive/MyDrive/AI-HealthCare/EHR/heart-disease-fairness/results/
🟢 Pastas preservadas: ['eda_summary']
🟡 Extensões preservadas: []

🧾 Removido arquivo: COMP_table_20251026_201442.csv
🧾 Removido arquivo: COMP_shap_top10_20251026_201442.png
🧾 Removido arquivo: COMP_deltas_20251026_201442.txt
🧾 Removido arquivo: COMP_heatmap_20251026_201442.png
🧾 Removido arquivo: COMP_metrics_20251026_201442.png
🧾 Removido arquivo: COMP_shap_top10_20251026_201442.csv
🟡 Mantendo pasta: eda_summary/
🧾 Removido arquivo: results.txt
🧾 Removido arquivo: for_disparity_volume_sex_20251026_202741.png
🧾 Removido arquivo: fairness_disparity_age_group_for_disparity_20251026_202741.png
🧾 Removido arquivo: fairness_disparity_sex_for_disparity_20251026_202741.png
🧾 Removido arquivo: fairness_report_20251026_202742.html
🧾 Removido arquivo: for_disparity_volume_age_group_20251026_202741.png

✅ Limpeza concluída com sucesso.
📂 Estrutura preservada: ['eda_summary']
📄 Exten

## Elimina arquivos duplicados na pasta

In [8]:
# Eimina arquivos duplicados em uma pasta
#
# =========================================================
# 🧹 UNIVERSAL CLEANUP UTILITY — HEART FAIRNESS PROJECT
# =========================================================
# Permite limpar qualquer subpasta (results, models, data/splits, etc.)
# mantendo logs, filtros e pastas definidas dinamicamente.
# =========================================================

import os
import shutil
import hashlib
import re
from datetime import datetime

def get_file_hash(file_path: str) -> str:
    """
    Calcula o hash MD5 de um arquivo.

    Parâmetros:
    -----------
    file_path : str
        Caminho completo do arquivo.

    Retorna:
    --------
    str
        Hash MD5 do arquivo.
    """
    hash_md5 = hashlib.md5()
    try:
        with open(file_path, "rb") as f:
            for chunk in iter(lambda: f.read(4096), b""):
                hash_md5.update(chunk)
        return hash_md5.hexdigest()
    except Exception as e:
        print(f"❌ Erro ao calcular hash de {file_path}: {e}")
        return None

def extract_timestamp(filename: str) -> datetime:
    """
    Extrai timestamp do nome do arquivo no formato YYYYMMDD_HHMMSS.

    Parâmetros:
    -----------
    filename : str
        Nome do arquivo.

    Retorna:
    --------
    datetime
        Objeto datetime com o timestamp extraído.
    """
    # Procura por padrão _YYYYMMDD_HHMMSS no nome do arquivo
    timestamp_pattern = r'_(\d{8}_\d{6})'
    match = re.search(timestamp_pattern, filename)

    if match:
        timestamp_str = match.group(1)
        try:
            return datetime.strptime(timestamp_str, '%Y%m%d_%H%M%S')
        except ValueError:
            pass

    # Se não encontrar timestamp, retorna datetime mínimo
    return datetime.min

def group_similar_files(file_list: list) -> dict:
    """
    Agrupa arquivos similares baseado no prefixo (antes do timestamp).

    Parâmetros:
    -----------
    file_list : list
        Lista de caminhos de arquivos.

    Retorna:
    --------
    dict
        Dicionário com {prefixo: [lista_de_arquivos]}
    """
    # Padrão para identificar o prefixo (tudo antes do timestamp)
    pattern = r'(.+?)_\d{8}_\d{6}(\..+)?$'

    groups = {}

    for file_path in file_list:
        filename = os.path.basename(file_path)
        match = re.match(pattern, filename)

        if match:
            prefix = match.group(1)
            if prefix not in groups:
                groups[prefix] = []
            groups[prefix].append(file_path)
        else:
            # Arquivos sem timestamp vão para grupo próprio
            name_only = os.path.splitext(filename)[0]
            if name_only not in groups:
                groups[name_only] = []
            groups[name_only].append(file_path)

    return groups

def remove_duplicate_files_keep_newest(directory: str, confirm: bool = True):
    """
    Remove arquivos duplicados mantendo APENAS o mais recente (maior timestamp).

    Parâmetros:
    -----------
    directory : str
        Diretório onde procurar duplicados.
    confirm : bool
        Se True, pede confirmação antes da exclusão.
    """
    print(f"🔍 Procurando duplicados em: {directory}")
    print("📅 Estratégia: Manter arquivo com timestamp MAIS RECENTE")

    if not os.path.exists(directory):
        print(f"❌ Diretório não encontrado: {directory}")
        return

    # Coletar todos os arquivos
    all_files = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            file_path = os.path.join(root, file)
            all_files.append(file_path)

    # Agrupar arquivos similares
    file_groups = group_similar_files(all_files)

    files_to_remove = []
    files_to_keep = []

    # Para cada grupo, encontrar o arquivo mais recente
    for prefix, file_list in file_groups.items():
        if len(file_list) > 1:
            print(f"\n📂 Grupo: {prefix}")
            print(f"   📊 Encontrados {len(file_list)} arquivos similares:")

            # Ordenar por timestamp (mais recente primeiro)
            file_list_sorted = sorted(
                file_list,
                key=lambda x: extract_timestamp(os.path.basename(x)),
                reverse=True
            )

            # Manter o mais recente
            newest_file = file_list_sorted[0]
            files_to_keep.append(newest_file)

            print(f"   ✅ Manter (mais recente): {os.path.basename(newest_file)}")

            # Marcar os demais para remoção
            for old_file in file_list_sorted[1:]:
                files_to_remove.append(old_file)
                print(f"   🗑️  Remover: {os.path.basename(old_file)}")

        else:
            # Grupo com apenas um arquivo - manter
            files_to_keep.append(file_list[0])

    if not files_to_remove:
        print("\n✅ Nenhum arquivo duplicado encontrado para remoção.")
        return

    print(f"\n📊 RESUMO:")
    print(f"   • Total de arquivos únicos a manter: {len(files_to_keep)}")
    print(f"   • Arquivos duplicados a remover: {len(files_to_remove)}")

    if confirm:
        resp = input("\n⚠️ Confirmar remoção dos arquivos listados acima? (y/n): ").strip().lower()
        if resp != "y":
            print("🚫 Operação cancelada pelo usuário.")
            return

    # Remover arquivos duplicados
    removed_count = 0
    for file_path in files_to_remove:
        try:
            os.remove(file_path)
            removed_count += 1
            print(f"🧹 Removido: {os.path.basename(file_path)}")
        except Exception as e:
            print(f"❌ Erro ao remover {file_path}: {e}")

    print(f"\n✅ Concluído! Removidos {removed_count} arquivos duplicados.")
    print(f"📁 Mantidos {len(files_to_keep)} arquivos únicos (mais recentes).")

def clean_directory(
    base_path: str,
    subfolder: str,
    keep_folders: list = None,
    keep_extensions: list = None,
    remove_duplicates: bool = True,
    keep_newest: bool = True,
    confirm: bool = True
):
    """
    Limpa arquivos e subpastas de um diretório, com exceções configuráveis.
    Opcionalmente remove arquivos duplicados mantendo o mais recente.

    Parâmetros:
    -----------
    base_path : str
        Caminho raiz do projeto.
    subfolder : str
        Nome da subpasta a ser limpa (ex: 'results', 'models/xgboost/rounds').
    keep_folders : list[str]
        Lista de subpastas a manter (ex: ['eda_summary']).
    keep_extensions : list[str]
        Lista de extensões a manter (ex: ['.csv', '.json']).
    remove_duplicates : bool
        Se True, remove arquivos duplicados.
    keep_newest : bool
        Se True, mantém o arquivo com timestamp mais recente.
    confirm : bool
        Se True, pede confirmação antes da exclusão.
    """

    target_path = os.path.join(base_path, subfolder)
    if not os.path.exists(target_path):
        print(f"❌ Diretório não encontrado: {target_path}")
        return

    # Primeiro remover duplicados se solicitado
    if remove_duplicates and keep_newest:
        remove_duplicate_files_keep_newest(target_path, confirm=False)

    # Depois fazer limpeza normal (se necessário)
    keep_folders = keep_folders or []
    keep_extensions = keep_extensions or []

    print("\n" + "=" * 80)
    print(f"🧹 LIMPEZA DE DIRETÓRIO — {subfolder.upper()}")
    print("=" * 80)

    # Confirmação de segurança para limpeza adicional
    if confirm:
        resp = input("⚠️ Continuar com limpeza adicional? (y/n): ").strip().lower()
        if resp != "y":
            print("🚫 Operação cancelada pelo usuário.")
            return

    items_processed = 0
    items_removed = 0

    for item in os.listdir(target_path):
        item_path = os.path.join(target_path, item)
        items_processed += 1

        # Pastas a manter
        if item in keep_folders:
            print(f"🟡 Mantendo pasta: {item}/")
            continue

        # Processar arquivos
        if os.path.isfile(item_path):
            _, ext = os.path.splitext(item)

            # Verificar se extensão deve ser mantida
            if ext in keep_extensions:
                print(f"🟡 Mantendo arquivo: {item}")
                continue

            # Remover arquivo
            os.remove(item_path)
            items_removed += 1
            print(f"🧾 Removido arquivo: {item}")

        # Pastas a remover
        elif os.path.isdir(item_path):
            shutil.rmtree(item_path)
            items_removed += 1
            print(f"📂 Removida pasta: {item}/")

    print(f"\n✅ Limpeza concluída com sucesso.")
    print(f"📊 Estatísticas:")
    print(f"   • Itens processados: {items_processed}")
    print(f"   • Itens removidos: {items_removed}")
    print(f"📂 Estrutura preservada: {keep_folders if keep_folders else 'Nenhuma'}")
    print(f"📄 Extensões preservadas: {keep_extensions if keep_extensions else 'Nenhuma'}")
    print("=" * 80)


# =========================================================
# 💡 EXEMPLOS DE USO
# =========================================================

if __name__ == "__main__":
    base_path = "/content/drive/MyDrive/AI-HealthCare/EHR/heart-disease-fairness/models/xgboost/rounds"
    # 🎯 **OPÇÃO RECOMENDADA** - Remove duplicados mantendo o MAIS RECENTE
    remove_duplicate_files_keep_newest(
        directory=os.path.join(base_path, "round_01"),
        confirm=True
    )

    # 🔹 Alternativa: Limpeza completa com remoção de duplicados
    # clean_directory(
    #     base_path=base_path,
    #     subfolder="round_01",
    #     keep_folders=[],
    #     keep_extensions=[],
    #     remove_duplicates=True,
    #     keep_newest=True,
    #     confirm=True
    # )

🔍 Procurando duplicados em: /content/drive/MyDrive/AI-HealthCare/EHR/heart-disease-fairness/models/xgboost/rounds/round_01
📅 Estratégia: Manter arquivo com timestamp MAIS RECENTE

📂 Grupo: r1_shap_global_log
   📊 Encontrados 3 arquivos similares:
   ✅ Manter (mais recente): r1_shap_global_log_20251026_191043.txt
   🗑️  Remover: r1_shap_global_log_20251026_182413.txt
   🗑️  Remover: r1_shap_global_log_20251026_101333.txt

📂 Grupo: r1_confusion_matrix
   📊 Encontrados 6 arquivos similares:
   ✅ Manter (mais recente): r1_confusion_matrix_20251026_191043.png
   🗑️  Remover: r1_confusion_matrix_20251026_191043.txt
   🗑️  Remover: r1_confusion_matrix_20251026_182413.png
   🗑️  Remover: r1_confusion_matrix_20251026_182413.txt
   🗑️  Remover: r1_confusion_matrix_20251026_101333.png
   🗑️  Remover: r1_confusion_matrix_20251026_101333.txt

📂 Grupo: r1_shap_fp_top_features
   📊 Encontrados 3 arquivos similares:
   ✅ Manter (mais recente): r1_shap_fp_top_features_20251026_191043.txt
   🗑️  Remover