In [18]:
import os
import re

def leer_archivo_html(ruta_archivo):
    """
    Lee un archivo HTML y extrae solo el contenido de las etiquetas <script>
    """
    try:
        with open(ruta_archivo, 'r', encoding='utf-8') as archivo:
            contenido_completo = archivo.read()
            
        # Extraer solo el contenido entre etiquetas <script>
        import re
        script_matches = re.findall(r'<script[^>]*>(.*?)</script>', contenido_completo, re.DOTALL)
        # script_matches = re.findall(r'<style[^>]*>(.*?)</style>', contenido_completo, re.DOTALL)

        # Combinar todo el contenido de script en un solo string
        contenido_script = '\n'.join(script_matches)
        
        return contenido_script
        
    except Exception as e:
        print(f"Error leyendo archivo {ruta_archivo}: {e}")
        return ""

# VERSI√ìN FINAL - EXACTAMENTE COMO PIDI√ì EL USUARIO
def detector_copias_final(carpeta_calculadoras, umbral_lineas=100):
    """
    Detecta trabajos copiados seg√∫n especificaciones exactas:
    - Compara cada archivo con los dem√°s
    - Si comparten m√°s de 'umbral_lineas' l√≠neas, marca como copiados
    - El umbral de l√≠neas es configurable mediante el par√°metro 'umbral_lineas' (por defecto 100)
    - Ignora espacios en blanco y may√∫sculas
    - Una l√≠nea por archivo original con lista de legajos copiados
    """
    
    # Obtener todos los archivos
    archivos = []
    for archivo in os.listdir(carpeta_calculadoras):
        if archivo.endswith('.html'):
            legajo = archivo.replace('.html', '')
            ruta_completa = os.path.join(carpeta_calculadoras, archivo)
            archivos.append((legajo, ruta_completa))
    
    archivos.sort(key=lambda x: int(x[0]))
    
    # Leer y normalizar contenidos
    contenidos_normalizados = {}
    for legajo, ruta in archivos:
        contenido = leer_archivo_html(ruta)
        # Normalizar: quitar espacios y convertir a min√∫sculas
        lineas_normalizadas = []
        for linea in contenido.split('\n'):
            linea_norm = re.sub(r'\s+', '', linea.lower())
            if linea_norm:  # Solo l√≠neas no vac√≠as
                lineas_normalizadas.append(linea_norm)
        contenidos_normalizados[legajo] = lineas_normalizadas
    
    # Detectar grupos de copia
    grupos_copia = []
    procesados = set()
    
    for legajo1 in contenidos_normalizados:
        if legajo1 in procesados:
            continue
            
        grupo = [legajo1]
        lineas1 = set(contenidos_normalizados[legajo1])
        
        for legajo2 in contenidos_normalizados:
            if legajo1 != legajo2 and legajo2 not in procesados:
                lineas2 = set(contenidos_normalizados[legajo2])
                
                # Contar l√≠neas comunes
                lineas_comunes = len(lineas1.intersection(lineas2))
                
                if lineas_comunes >= umbral_lineas:
                    grupo.append(legajo2)
        
        # Si hay copias, marcar todos como procesados
        if len(grupo) > 1:
            for legajo in grupo:
                procesados.add(legajo)
            grupos_copia.append(grupo)
        else:
            procesados.add(legajo1)
    
    return grupos_copia

def mostrar_reporte_final(grupos_copia, umbral_lineas):
    """
    Muestra el reporte final en el formato solicitado
    """
    print("=== REPORTE DE TRABAJOS COPIADOS ===")
    print(f"Umbral: {umbral_lineas}+ l√≠neas comunes")
    print("Formato: [Original] : [Lista de copiados]\n")
    
    if not grupos_copia:
        print("‚úÖ No se detectaron trabajos copiados")
        return
    
    # Ordenar grupos por tama√±o (m√°s copias primero)
    grupos_copia.sort(key=len, reverse=True)
    
    for i, grupo in enumerate(grupos_copia, 1):
        original = min(grupo, key=int)  # El legajo m√°s bajo es el "original"
        copiados = [legajo for legajo in grupo if legajo != original]
        copiados.sort(key=int)
        
        copiados_str = ", ".join(copiados)
        print(f"{original}: {copiados_str}")
    
    print(f"\n=== ESTAD√çSTICAS ===")
    total_grupos = len(grupos_copia)
    total_copias = sum(len(grupo) - 1 for grupo in grupos_copia)  # -1 porque excluimos el original
    total_archivos_involucrados = sum(len(grupo) for grupo in grupos_copia)
    
    print(f"Grupos de copia detectados: {total_grupos}")
    print(f"Total de copias: {total_copias}")
    print(f"Archivos involucrados en copias: {total_archivos_involucrados}")

# EJECUTAR DETECCI√ìN FINAL
umbral_lineas = 50  # Reducido para detectar similitudes en JavaScript
carpeta_calculadoras = '.'  # Carpeta actual donde est√°n los archivos HTML
print("üîç Ejecutando detecci√≥n final de trabajos copiados...")
print(f"üìã Criterio: Archivos que comparten {umbral_lineas}+ l√≠neas id√©nticas")
print("‚öôÔ∏è  Normalizaci√≥n: Sin espacios, tabs, ni may√∫sculas\n")

grupos = detector_copias_final(carpeta_calculadoras, umbral_lineas)
mostrar_reporte_final(grupos, umbral_lineas)

üîç Ejecutando detecci√≥n final de trabajos copiados...
üìã Criterio: Archivos que comparten 50+ l√≠neas id√©nticas
‚öôÔ∏è  Normalizaci√≥n: Sin espacios, tabs, ni may√∫sculas

=== REPORTE DE TRABAJOS COPIADOS ===
Umbral: 50+ l√≠neas comunes
Formato: [Original] : [Lista de copiados]

61060: 61671, 62136
61478: 61667
61535: 61680
61627: 61794

=== ESTAD√çSTICAS ===
Grupos de copia detectados: 4
Total de copias: 5
Archivos involucrados en copias: 9


In [19]:
# RESUMEN EJECUTIVO - SOLO CASOS M√ÅS IMPORTANTES
def resumen_ejecutivo(grupos_copia, min_grupo_size=5):
    """
    Muestra solo los casos m√°s cr√≠ticos para revisi√≥n manual
    """
    print("\n" + "="*60)
    print("üö® RESUMEN EJECUTIVO - CASOS CR√çTICOS üö®")
    print("="*60)
    
    if not grupos_copia:
        print("‚úÖ No se detectaron trabajos copiados")
        return
    
    # Filtrar solo grupos grandes
    casos_criticos = [grupo for grupo in grupos_copia if len(grupo) >= min_grupo_size]
    
    if not casos_criticos:
        print(f"‚ÑπÔ∏è  No hay grupos con {min_grupo_size}+ copias")
        print(f"üìä Grupo m√°s grande encontrado: {max(len(g) for g in grupos_copia)} trabajos")
        return
    
    print(f"üìã Mostrando grupos con {min_grupo_size}+ trabajos involucrados:\n")
    
    for i, grupo in enumerate(casos_criticos, 1):
        original = min(grupo, key=int)
        copiados = [legajo for legajo in grupo if legajo != original]
        copiados.sort(key=int)
        
        print(f"üî• CASO CR√çTICO #{i}")
        print(f"   üìÑ Original: Legajo {original}")
        print(f"   üìã Copias ({len(copiados)}): {', '.join(copiados)}")
        print()
    
    # Estad√≠sticas generales
    print("üìä ESTAD√çSTICAS GENERALES:")
    print(f"   ‚Ä¢ Total de grupos de copia: {len(grupos_copia)}")
    print(f"   ‚Ä¢ Casos cr√≠ticos ({min_grupo_size}+ copias): {len(casos_criticos)}")
    print(f"   ‚Ä¢ Grupo m√°s grande: {max(len(g) for g in grupos_copia)} trabajos")
    print(f"   ‚Ä¢ Total de estudiantes involucrados: {sum(len(g) for g in grupos_copia)}")

# Ejecutar resumen ejecutivo
resumen_ejecutivo(grupos, min_grupo_size=3)

# Tambi√©n mostrar algunos grupos peque√±os para contexto
print("\n" + "="*40)
print("üìù MUESTRA DE GRUPOS PEQUE√ëOS (2-4 copias)")
print("="*40)

grupos_pequenos = [g for g in grupos if 2 <= len(g) <= 4][:10]  # Solo primeros 10
for i, grupo in enumerate(grupos_pequenos, 1):
    original = min(grupo, key=int)
    copiados = [legajo for legajo in grupo if legajo != original]
    print(f"{i:2d}. {original}: {', '.join(sorted(copiados, key=int))}")

if len(grupos_pequenos) < len([g for g in grupos if 2 <= len(g) <= 4]):
    total_pequenos = len([g for g in grupos if 2 <= len(g) <= 4])
    print(f"    ... y {total_pequenos - 10} grupos m√°s")


üö® RESUMEN EJECUTIVO - CASOS CR√çTICOS üö®
üìã Mostrando grupos con 3+ trabajos involucrados:

üî• CASO CR√çTICO #1
   üìÑ Original: Legajo 61060
   üìã Copias (2): 61671, 62136

üìä ESTAD√çSTICAS GENERALES:
   ‚Ä¢ Total de grupos de copia: 4
   ‚Ä¢ Casos cr√≠ticos (3+ copias): 1
   ‚Ä¢ Grupo m√°s grande: 3 trabajos
   ‚Ä¢ Total de estudiantes involucrados: 9

üìù MUESTRA DE GRUPOS PEQUE√ëOS (2-4 copias)
 1. 61060: 61671, 62136
 2. 61478: 61667
 3. 61535: 61680
 4. 61627: 61794
