In [6]:
import pandas as pd
import json
import sys
import os
import datetime

# Verificar que se ha pasado un argumento
if len(sys.argv) < 2:
    print("Error: No se ha proporcionado la ruta del archivo .xlsx")
    sys.exit(1)

# Ruta del archivo Excel
file_path = sys.argv[1]

if not os.path.exists(file_path):
    print(f"Error: El archivo {file_path} no existe")
    sys.exit(1)

# Cargar el manual
with open('../data/Manual.json', 'r') as f:
    Manual = json.load(f)

# Cargar el Excel
df = pd.read_excel(file_path)

# Procesamiento de datos
df['Categoria_Completa'] = df['Categoría'].ffill()
df['ID'] = (df['Categoría'].notna()).cumsum()

df_ordenado = df[['ID', 'Categoria_Completa', 'Descriptores', 'Inicio', 'Fin', 'Click', 'Duración']]

# Función para encontrar primera coincidencia
def encontrar_elemento(texto, lista):
    if pd.isnull(texto):
        return None
    for elemento in lista:
        if elemento.lower() in texto.lower():
            return elemento
    return None

# Función para marcar con 1 o 0
def marcar_categorizadores(texto, lista):
    texto = texto.lower() if pd.notnull(texto) else ""
    return {cat: int(cat.lower() in texto) for cat in lista}

# Traemos las listas del diccionario json
categorias = Manual['CATEGORY']
players = Manual['PLAYERS']
outcomes = Manual['OUTCOME']
zonas_golpeo = Manual['ZONA GOLPEO']
tiempos = Manual['TIEMPO']
categorizadores = Manual['CATEGORIZADORES']

# Crear lista de filas
filas_nuevas = []

for idx, grupo in df_ordenado.groupby('ID'):
    descriptores = " ".join(grupo['Descriptores'].dropna())

    fila = {
        'ID': idx,
        'CATEGORY': encontrar_elemento(grupo['Categoria_Completa'].iloc[0], categorias),
        'PLAYERS': encontrar_elemento(descriptores, players),
        'OUTCOME': encontrar_elemento(descriptores, outcomes),
        'ZONA_GOLPEO': encontrar_elemento(descriptores, zonas_golpeo),
        'TIEMPO': encontrar_elemento(descriptores, tiempos)
    }

    # Añadir categorizadores con 1/0
    fila.update(marcar_categorizadores(descriptores, categorizadores))

    filas_nuevas.append(fila)

# Crear nuevo DataFrame
df_eventos = pd.DataFrame(filas_nuevas)

# Extraer el nombre del archivo original sin extensión
file_name = os.path.splitext(os.path.basename(file_path))[0]

# Crear un timestamp
timestamp = datetime.datetime.now().strftime("%Y%m%d%H%M%S")

# Carpeta donde se guardarán los archivos limpios
cleaned_folder = os.path.join(os.path.dirname(__file__), '..', 'data_cleaned')
os.makedirs(cleaned_folder, exist_ok=True)

# Nuevo nombre del archivo limpio
output_file_name = f"{file_name}_cleaned_{timestamp}.csv"
output_path = os.path.join(cleaned_folder, output_file_name)

# Extraer nombre base del archivo para PARTIDO_ID (antes del primer paréntesis)
import re
match = re.match(r"^(.*?)\(", file_name)
partido_id = match.group(1) if match else file_name

# Añadir columna PARTIDO_ID
df_eventos['PARTIDO_ID'] = partido_id

# Guardar el DataFrame limpio
df_eventos.to_csv(output_path, index=False)
print(f"Guardando archivo limpio como: {output_file_name}")
print(f"Ruta completa del archivo limpio: {output_path}")


Error: El archivo -f no existe


SystemExit: 1