In [5]:
RUTA_TRAIN_JUDG = './datasets/train/train_judg.jsonl'
RUTA_TRAIN_SUMM = './datasets/train/train_ref_summ.jsonl'

In [8]:
import json
def mostrar_articulo_y_resumen(archivo_articulos, archivo_resumenes, id_articulo):
    # Cargar artículos
    articulos = {}
    with open(archivo_articulos, 'r', encoding='utf-8') as f:
        for linea in f:
            dato = json.loads(linea)
            articulos[dato['ID']] = dato

    # Cargar resúmenes
    resumenes = {}
    with open(archivo_resumenes, 'r', encoding='utf-8') as f:
        for linea in f:
            dato = json.loads(linea)
            resumenes[dato['ID']] = dato

    # Mostrar solo el artículo seleccionado
    if id_articulo in articulos:
        print(f"ID: {id_articulo}")
        print("Artículo:")
        print(articulos[id_articulo].get('Judgment', 'No disponible'))
        print("Resumen:")
        print(resumenes.get(id_articulo, {}).get('Summary', 'No disponible'))
        print("-" * 80)
    else:
        print(f"El artículo con ID {id_articulo} no se encontró.")

In [None]:
mostrar_articulo_y_resumen(RUTA_TRAIN_JUDG, RUTA_TRAIN_SUMM, 'id_299')

ID: id_299
Artículo:
Present:
WPA 811 of 2024
Kalighat Bahumukhi Seva Samiti
Versus
The State of West Bengal and others
For the petitioner
Mr. Tarunjyoti Tewari
For the State
Mr. Amitesh Banerjee
Mr. Rudrajit Sarkar
Mr. Suddhadev Adak
For the KMC
Mr. Alak Kumar Ghose
Mr. Arijit Dey
Heard on
17.01.2024
Judgment on
17.01.2024
This is an application praying for a direction upon the
respondent Authorities for allowing the petitioner to organi
ze the
live telecast of inauguration of Shri Ram Mandir
and
to perform
puja by constructing a temporary stage at a place in South
Kolkata on 22
nd
January, 2024 from 9 am to 9 pm.
Affidavit of service filed in Court is taken on record.
Learned counsel repre
senting the petitioner submits as
follows. The petitioner prayed before the police authorities for
granting permission for holding the ceremony
for visual display
of the inauguration ceremony of Shri Ram Mandir on giant
screen and to hold
Puja Archana
Sankirtan
and
Arati
then
Bhog Prasad bitaran
on

In [None]:
def extraer_ejemplos_para_chat(archivo_articulos, archivo_resumenes, ids_especificos):
    """
    Extrae ejemplos específicos formateados para análisis manual en chat - VERSIÓN RÁPIDA
    """
    print("📋 EXTRAYENDO EJEMPLOS PARA ANÁLISIS MANUAL")
    print("="*70)
    
    # Cargar solo los documentos que necesitamos
    articulos = {}
    resumenes = {}
    
    # Buscar solo los IDs específicos
    print(f"🔍 Buscando IDs: {ids_especificos}")
    
    with open(archivo_articulos, 'r', encoding='utf-8') as f:
        for linea in f:
            dato = json.loads(linea)
            if dato['ID'] in ids_especificos:
                articulos[dato['ID']] = dato
                if len(articulos) == len(ids_especificos):
                    break  # Ya encontramos todos

    with open(archivo_resumenes, 'r', encoding='utf-8') as f:
        for linea in f:
            dato = json.loads(linea)
            if dato['ID'] in ids_especificos:
                resumenes[dato['ID']] = dato
                if len(resumenes) == len(ids_especificos):
                    break  # Ya encontramos todos
    
    print(f"✅ Encontrados {len(articulos)} artículos y {len(resumenes)} resúmenes")
    
    # Formatear para el chat
    ejemplos_formateados = []
    
    for id_doc in ids_especificos:
        if id_doc in articulos and id_doc in resumenes:
            judgment = articulos[id_doc]['Judgment']
            summary = resumenes[id_doc]['Summary']
            
            # Estadísticas básicas
            palabras_judgment = len(judgment.split())
            palabras_summary = len(summary.split())
            ratio_compresion = (palabras_summary / palabras_judgment) * 100
            
            ejemplo_formateado = f"""
=== EJEMPLO {id_doc} ===
ESTADÍSTICAS:
- Judgment: {palabras_judgment} palabras
- Summary: {palabras_summary} palabras  
- Ratio compresión: {ratio_compresion:.1f}%

JUDGMENT:
{judgment}

SUMMARY:
{summary}

============================================
"""
            ejemplos_formateados.append(ejemplo_formateado)
            print(f"✅ Ejemplo {id_doc} extraído")
        else:
            print(f"❌ Ejemplo {id_doc} no encontrado")
    
    return ejemplos_formateados

def mostrar_para_copiar_al_chat(ejemplos, num_mostrar=3):
    """
    Muestra ejemplos formateados para copiar al chat
    """
    print("\n🎯 EJEMPLOS LISTOS PARA COPIAR AL CHAT:")
    print("="*70)
    print("📋 COPIA EL SIGUIENTE BLOQUE COMPLETO:")
    print("\n" + "="*70)
    
    for i, ejemplo in enumerate(ejemplos[:num_mostrar]):
        print(ejemplo)
    
    print("="*70)
    print(f"\n💡 INSTRUCCIONES:")
    print("1. ✅ COPIA todo el texto de arriba (desde === EJEMPLO hasta ===)")
    print("2. ✅ PÉGALO en el chat")
    print("3. ✅ Yo analizaré:")
    print("   - 🔤 Tratamiento de siglas")
    print("   - 📝 Extracción literal vs paráfrasis") 
    print("   - 👤 Entidades nombradas")
    print("   - 🎯 Optimización para ROUGE-2/BLEU")

# Usar los IDs que ya seleccionamos
if 'ids_diversos' in locals():
    ejemplos = extraer_ejemplos_para_chat(RUTA_TRAIN_JUDG, RUTA_TRAIN_SUMM, ids_diversos)
    mostrar_para_copiar_al_chat(ejemplos, len(ids_diversos))
else:
    print("❌ Primero ejecuta la celda anterior para seleccionar IDs")

📋 EXTRAYENDO EJEMPLOS PARA ANÁLISIS MANUAL
🔍 Buscando IDs: ['id_1017', 'id_1002', 'id_1009']
✅ Encontrados 3 artículos y 3 resúmenes
✅ Ejemplo id_1017 extraído
✅ Ejemplo id_1002 extraído
✅ Ejemplo id_1009 extraído

🎯 EJEMPLOS LISTOS PARA COPIAR AL CHAT:
📋 COPIA EL SIGUIENTE BLOQUE COMPLETO:


=== EJEMPLO id_1017 ===
ESTADÍSTICAS:
- Judgment: 31920 palabras
- Summary: 655 palabras  
- Ratio compresión: 2.1%

JUDGMENT:
CBI Case No. 251/2019 (Old CC Nos. 15/17).
RC No. 219-2015-(E)-0008.
Branch: CBI, EO-I Branch, New Delhi.
In the matter of: -
Through: Sh. R.S. Cheema, Senior Advocate/Special PP
(through VC) with Sh. A.P. Singh, Sh. Sanjay Kumar,
DLAs, Sh. N.P. Srivastava, Sh. VK Pathak, Senior PPs
with Ms. Tarannum Cheema and Sh. Akshay Nagrajan,
Advocates for CBI along with HIO M.R. Atrey.
Versus
1. AES Chhattisgarh Energy Private Limited (A-1)
Through its Director,
At Unit No. 1117, 11th Floor,
Tower-B, Vatika Towers,
Sector-54, Gurgaon.
2. Sanjeev Kumar Aggarwal (A-2)
Through: Sh. Vik

In [6]:
import json

def seleccionar_ejemplos_diversos_rapido(archivo_articulos, archivo_resumenes, num_ejemplos=3):
    """
    Selecciona ejemplos diversos de forma rápida - solo lee los primeros N documentos
    """
    print("🎲 SELECCIONANDO EJEMPLOS DIVERSOS (MODO RÁPIDO)")
    print("="*50)
    
    # Leer solo los primeros 20 documentos para eficiencia
    articulos = {}
    resumenes = {}
    
    print("📂 Cargando primeros 20 documentos...")
    
    # Cargar primeros 20 artículos
    with open(archivo_articulos, 'r', encoding='utf-8') as f:
        for i, linea in enumerate(f):
            if i >= 20:  # Solo primeros 20
                break
            dato = json.loads(linea)
            articulos[dato['ID']] = dato
    
    # Cargar primeros 20 resúmenes  
    with open(archivo_resumenes, 'r', encoding='utf-8') as f:
        for i, linea in enumerate(f):
            if i >= 20:  # Solo primeros 20
                break
            dato = json.loads(linea)
            resumenes[dato['ID']] = dato
    
    print(f"✅ Cargados {len(articulos)} artículos y {len(resumenes)} resúmenes")
    
    # Calcular ratios de compresión
    ratios_compresion = []
    for id_doc in articulos.keys():
        if id_doc in resumenes:
            j_words = len(articulos[id_doc]['Judgment'].split())
            s_words = len(resumenes[id_doc]['Summary'].split())
            ratio = (s_words / j_words) * 100
            ratios_compresion.append((id_doc, ratio, j_words, s_words))
    
    # Ordenar por ratio de compresión
    ratios_compresion.sort(key=lambda x: x[1])
    
    # Seleccionar ejemplos diversos (bajo, medio, alto ratio)
    if len(ratios_compresion) >= num_ejemplos:
        if num_ejemplos == 3:
            indices = [0, len(ratios_compresion)//2, len(ratios_compresion)-1]
        else:
            step = len(ratios_compresion) // num_ejemplos
            indices = [i*step for i in range(num_ejemplos)]
            indices[-1] = len(ratios_compresion)-1  # Asegurar que el último sea el más alto
    else:
        indices = list(range(len(ratios_compresion)))
    
    ejemplos_seleccionados = [ratios_compresion[i] for i in indices]
    
    print("📊 Ejemplos seleccionados por diversidad de compresión:")
    for id_doc, ratio, j_words, s_words in ejemplos_seleccionados:
        print(f"   • {id_doc}: {ratio:.1f}% ({j_words} → {s_words} palabras)")
    
    return [ejemplo[0] for ejemplo in ejemplos_seleccionados]

# Seleccionar ejemplos diversos (modo rápido)
ids_diversos = seleccionar_ejemplos_diversos_rapido(RUTA_TRAIN_JUDG, RUTA_TRAIN_SUMM, 3)
print(f"\n🎯 IDs seleccionados para análisis: {ids_diversos}")

🎲 SELECCIONANDO EJEMPLOS DIVERSOS (MODO RÁPIDO)
📂 Cargando primeros 20 documentos...
✅ Cargados 20 artículos y 20 resúmenes
📊 Ejemplos seleccionados por diversidad de compresión:
   • id_1017: 2.1% (31920 → 655 palabras)
   • id_1002: 18.5% (2175 → 403 palabras)
   • id_1009: 90.6% (434 → 393 palabras)

🎯 IDs seleccionados para análisis: ['id_1017', 'id_1002', 'id_1009']
