In [None]:
# Este código consiste en identificar filas duplicadas en múltiples archivos de formato Excel.
# Este código ha sido de mi autoría, espero te ayude con tu trabajo empresarial, recuerda que es para un buen uso.
import os
import pandas as pd
from openpyxl import load_workbook
from openpyxl.styles import PatternFill

# Establezco el directorio donde están los archivos que necesito revisar.
ruta_directorio = '/content/validacion'

# Preparo una lista de colores para usar en el resaltado de duplicados. Cada color representa un grupo diferente.
colores = [
    "FF9999", "99CCFF", "99FF99", "FFFF99", "FF99FF",
    "CCCCFF", "FFCC99", "FF6666", "66FFCC", "CC99FF"
]

def resaltar_filas_duplicadas(archivo):
    # Primero, cargo el archivo Excel en un DataFrame para poder trabajar con sus datos.
    df = pd.read_excel(archivo, engine='openpyxl')
    # Encuentro todas las filas que están duplicadas en el archivo.
    duplicadas = df[df.duplicated(keep=False)]
    
    # Abro el archivo con openpyxl para poder editar directamente el Excel.
    wb = load_workbook(archivo)
    ws = wb.active  # Trabajo con la primera hoja, asumiendo que ahí se encuentran los datos.

    # Aplico un color de fondo a cada grupo de filas duplicadas para diferenciarlos visualmente.
    color_index = 0
    for _, group in duplicadas.groupby(list(df.columns)):
        fill = PatternFill(start_color=colores[color_index], end_color=colores[color_index], fill_type='solid')
        for index in group.index:
            for cell in ws[f"{index + 2}:{index + 2}"]:
                cell.fill = fill
        # Roto los colores para que cada grupo tenga un color distinto.
        color_index = (color_index + 1) % len(colores)  # Rotar la paleta de colores

    # Guardo los cambios realizados en el archivo.
    wb.save(archivo)

    # Devuelvo si había duplicados y cuántos eran, para poder informar adecuadamente.
    return df.duplicated().any(), len(duplicadas)

# Recorro cada archivo en el directorio especificado y aplico la función para resaltar duplicados.
for archivo in os.listdir(ruta_directorio):
    ruta_completa = os.path.join(ruta_directorio, archivo)
    if archivo.endswith('.xlsx'):
        tiene_duplicados, cantidad_duplicadas = resaltar_filas_duplicadas(ruta_completa)

        # Mirando en los resultados, imprimo un mensaje adecuado para cada archivo.
        if tiene_duplicados:
            print(f'El archivo {archivo} tiene {cantidad_duplicadas} filas duplicadas resaltadas con colores únicos.')
        else:
            print(f'El archivo {archivo} no tiene filas duplicadas.')



