# Pré-processamento de Dados
Este notebook realiza o pré-processamento dos dados, incluindo a leitura do arquivo Excel e a criação de um dicionário de classes.

In [1]:
import os 
import pandas as pd

In [4]:
def criar_excel_limpo(frames_path, excel_path, output_excel="OSATS_clean_multiclasses.xlsx"):
    """
    Cria um arquivo Excel limpo contendo os vídeos e as colunas associadas (OSATS_*).
    
    Args:
        frames_path (str): Caminho para a pasta contendo as subpastas dos frames.
        excel_path (str): Caminho para o arquivo OSATS.xlsx.
        output_excel (str): Nome do arquivo Excel de saída.
    """
    # Verificar se os caminhos existem
    if not os.path.exists(frames_path):
        raise FileNotFoundError(f"Pasta de frames não encontrada: {frames_path}")
    if not os.path.exists(excel_path):
        raise FileNotFoundError(f"Arquivo Excel não encontrado: {excel_path}")
    
    # Carregar o arquivo Excel original
    df = pd.read_excel(excel_path)
    
    # Listar todas as subpastas na pasta de frames
    videos = [folder for folder in os.listdir(frames_path) if os.path.isdir(os.path.join(frames_path, folder))]
    
    # Filtrar o DataFrame para conter apenas os vídeos presentes nas subpastas
    df_filtered = df[df['VIDEO'].isin(videos)]
    
    # Selecionar as colunas relevantes
    columns_to_keep = ['VIDEO', 'OSATS_RESPECT', 'OSATS_MOTION', 'OSATS_INSTRUMENT', 
                       'OSATS_SUTURE', 'OSATS_FLOW', 'OSATS_KNOWLEDGE', 
                       'OSATS_PERFORMANCE', 'OSATS_FINAL_QUALITY']
    df_clean = df_filtered[columns_to_keep]
    
    # Verificar se o arquivo de saída já existe
    if os.path.exists(output_excel):
        # Carregar o conteúdo existente
        existing_df = pd.read_excel(output_excel)
        
        # Concatenar os novos dados com os existentes, evitando duplicatas
        combined_df = pd.concat([existing_df, df_clean]).drop_duplicates(subset=['VIDEO']).reset_index(drop=True)
    else:
        # Caso o arquivo não exista, usar apenas os novos dados
        combined_df = df_clean
    
    # Salvar o arquivo atualizado
    combined_df.to_excel(output_excel, index=False)
    print(f"Arquivo '{output_excel}' atualizado com sucesso!")

In [5]:
# Exemplo de uso
FRAMES_PATH = "frames"  # 
EXCEL_PATH = "data/OSATS.xlsx"  # Arquivo Excel original
criar_excel_limpo(FRAMES_PATH, EXCEL_PATH)
clean_excel_file = pd.read_excel("OSATS_clean_multiclasses.xlsx")
clean_excel_file

Arquivo 'OSATS_clean_multiclasses.xlsx' atualizado com sucesso!


Unnamed: 0,VIDEO,OSATS_RESPECT,OSATS_MOTION,OSATS_INSTRUMENT,OSATS_SUTURE,OSATS_FLOW,OSATS_KNOWLEDGE,OSATS_PERFORMANCE,OSATS_FINAL_QUALITY
0,D44W,1,1,1,1,1,1,1,1
1,D44W,1,1,1,1,2,1,1,1
2,D44W,1,1,1,1,1,1,1,1
3,A61V,4,2,3,3,2,3,3,4
4,A61V,4,3,4,3,3,4,3,4
...,...,...,...,...,...,...,...,...,...
127,E39Z,1,3,4,2,3,4,3,1
128,E39Z,4,4,4,4,5,5,4,4
129,D94Z,1,2,1,1,2,1,1,1
130,D94Z,1,1,2,1,1,1,1,1
