Limpieza para datos generales de 2025 2'24 y ultimas 52 semanas

In [1]:
import pandas as pd
import os

# Ruta de entrada y salida
carpeta_entrada = 'Estadisticas_2024'
carpeta_salida = 'Estadisticas_2024_limpio_2'

# Crear carpeta de salida si no existe
os.makedirs(carpeta_salida, exist_ok=True)

# Lista de columnas que deseas eliminar (puedes modificarla)
columnas_a_eliminar = ['Player_dup', 'M_dup', 'M W-L', 'Aces', 'DFs', 'Pts/SG', 'PtsL/SG', 'Pts/RG','PtsW/RG','MdOppRk','MnOppRk', 'BPConv', 'BPSaved', 'BPvs', 'DR', 'Points', 'TB W-L', 'TBs', 'TB/S', 'Sets', 'Set W-L', 'Gms', 'Game W-L', 'Time/Mt', 'Min/Set', 'Sec/Pt']
# 68-34= 34 columnas
# Procesar cada archivo CSV
# Procesar cada archivo CSV
for archivo in os.listdir(carpeta_entrada):
    if archivo.endswith('.csv'):
        ruta_entrada = os.path.join(carpeta_entrada, archivo)
        ruta_salida = os.path.join(carpeta_salida, archivo)

        # Leer CSV
        df = pd.read_csv(ruta_entrada)

        # Eliminar columnas duplicadas por nombre (quedarse con la primera)
        df = df.loc[:, ~df.columns.duplicated()]

        # Eliminar columnas con sufijos .1, .2, etc. (que vienen de duplicados)
        df = df.loc[:, ~df.columns.str.contains(r'\.\d+$')]

        # Limpieza de columnas y espacios
        df.columns = df.columns.str.strip()
        df = df.apply(lambda col: col.map(lambda x: x.strip() if isinstance(x, str) else x))

        # Reemplazar símbolos
        df = df.replace({'%': '', ',': '.'}, regex=True)

        # Convertir columnas a numérico donde sea posible
        for col in df.columns:
            try:
                df[col] = pd.to_numeric(df[col])
            except Exception:
                pass  # No se puede convertir, se deja como está
        

        # Eliminar columnas no deseadas si existen
        df = df.drop(columns=[col for col in columnas_a_eliminar if col in df.columns])

        # Limpiar la columna 'Player' quitando la nacionalidad entre corchetes
        if 'Player' in df.columns:
            df['Player'] = df['Player'].str.replace(r'\s*\[.*?\]', '', regex=True).str.strip()


        # Guardar el CSV limpio
        df.to_csv(ruta_salida, index=False)
        print(f'Archivo limpio guardado: {ruta_salida}')


Archivo limpio guardado: Estadisticas_2024_limpio_2\estadisticas_generales_2024.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_best_of_3.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_Clay.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_cuartos.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_final.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_GrandSlams.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_Grass.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_Hard.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_Masters.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_r128.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_r16.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_r32.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_r64.csv
Archivo limpio guardado: Estadisticas_2024_limpio_2\stats_semis.csv
Archivo limpio guardado: Est