In [None]:
import json
from pathlib import Path
from collections import Counter
import os

def extract_main_sources_from_json_files(base_path):
    """
    Extrae todos los valores únicos de 'main_source' de los archivos JSON
    en la estructura de carpetas por mes.
    
    Args:
        base_path: Ruta base donde están las carpetas de meses (ej: 'datasets/unified_json')
    
    Returns:
        set: Conjunto de valores únicos de main_source
        Counter: Contador de frecuencias de cada main_source
    """
    base_path = Path(base_path)
    main_sources = set()
    main_source_counter = Counter()
    
    # Recorrer todas las carpetas de meses
    for month_folder in sorted(base_path.iterdir()):
        if not month_folder.is_dir():
            continue
            
        print(f"Procesando mes: {month_folder.name}")
        
        # Recorrer todos los archivos JSON en cada mes
        for json_file in month_folder.glob("*.json"):
            try:
                with open(json_file, 'r', encoding='utf-8') as f:
                    data = json.load(f)
                
                # Extraer main_sources de ARTICULOS_CITADOS
                articulos_citados = data.get("METADATOS", {}).get("ARTICULOS_CITADOS", {})
                citations = articulos_citados.get("citations", [])
                
                for citation in citations:
                    main_source = citation.get("main_source", "")
                    if main_source and main_source.strip():
                        main_sources.add(main_source)
                        main_source_counter[main_source] += 1
                        
            except Exception as e:
                print(f"Error procesando {json_file}: {e}")
    
    return main_sources, main_source_counter



# Usar la ruta de tu workspace
base_path = Path(os.path.dirname(os.getcwd())) / "datasets" / "unified_json"  # Ajusta esta ruta según tu estructura

print("🔍 Extrayendo valores de 'main_source' de archivos JSON...")

main_sources, counter = extract_main_sources_from_json_files(base_path)

print(f"\n📊 RESULTADOS:")
print(f"Total de 'main_source' únicos encontrados: {len(main_sources)}")
print(f"Total de citas procesadas: {sum(counter.values())}")

print(f"\n📋 LISTA DE MAIN_SOURCES ÚNICOS:")
for i, source in enumerate(sorted(main_sources), 1):
    print(f"{i:2d}. {source}")

print(f"\n📈 FRECUENCIA DE MAIN_SOURCES (Top 10):")
for source, count in counter.most_common(10):
    print(f"  • {source}: {count} citas")


🔍 Extrayendo valores de 'main_source' de archivos JSON...
Procesando mes: 02
Procesando mes: 03
Procesando mes: 04
Procesando mes: 05
Procesando mes: 06
Procesando mes: 07
Procesando mes: 08
Procesando mes: 09
Procesando mes: 10
Procesando mes: 11
Procesando mes: 12

📊 RESULTADOS:
Total de 'main_source' únicos encontrados: 126
Total de citas procesadas: 635

📋 LISTA DE MAIN_SOURCES ÚNICOS:
 1. Ac. Gral. 15/18 SNE
 2. Ac. N° 4/2007
 3. Acordada 15/18 SNE
 4. Acordada General Nº 28/15
 5. Acordada General del S.T.J.E.R.
 6. Acuerdo General 11/20
 7. Acuerdo General 15/18 SNE
 8. Acuerdo General 28/20
 9. Acuerdo General N° 14/24
10. Acuerdo General N° 28/15
11. Acuerdo Gral.
12. Acuerdo Gral. 11/20
13. Acuerdo Gral. 11/20 del 23-6-2020
14. Aranda, Raúl Eduardo c/ ENA (Min. de Def. - Ejército Argentino) y/o Q.R.R. s/ impugnación de acto administrativo
15. Baldwin, Elina Dorotea c/Metrovias S.A. s/ daños y perjuicios
16. C.N.
17. C.P.C.C
18. CCC
19. CCCN
20. CN
21. CPCC
22. CPP
23. CSJN
24

In [3]:
# Imprimir lista completa con frecuencias
print(f"\n📊 LISTA COMPLETA CON FRECUENCIAS:")
print("=" * 60)
for source, count in counter.most_common():
    print(f"{source}: {count}")


📊 LISTA COMPLETA CON FRECUENCIAS:
Ac. Gral. 15/18 SNE: 85
Acuerdo Gral. 11/20: 73
LOPJ: 70
CPCC: 69
unknown: 43
ley 10.704: 32
ley 7046: 27
Constitución Provincial: 16
CPP: 11
Código Procesal Civil y Comercial: 9
Código Civil y Comercial: 9
CCC: 9
CN: 7
Acordada 15/18 SNE: 7
Código Civil: 6
Constitución Nacional: 6
Código Civil y Comercial (CCC): 5
Código Procesal Civil y Comercial de Entre Ríos (CPCCER): 5
ley 48: 5
LCQ: 4
Fallos: 4
LPF: 4
Código Procesal Civil y Comercial (CPCC): 3
Acuerdo General 15/18 SNE: 3
Acuerdo General 11/20: 3
Ley Orgánica del Poder Judicial - Ley 6902: 3
Constitución Nacional (CN): 3
L.C.Q.: 3
resolución: 3
Ordenamiento Procesal: 2
Ley 7046: 2
C.N.: 2
Ley Procesal de Familia: 2
Ley Orgánica del Poder Judicial (LOPJ): 2
ley 6902: 2
ley 26.485: 2
CSJN: 2
Convención Americana de Derechos Humanos: 2
Convención sobre los Derechos de las Personas Adultas Mayores: 2
L.A.S.: 2
Ley Nacional de Tránsito Nro. 24.449: 1
Ley 24449: 1
Ley 10025: 1
Corte Suprema de Justic

In [None]:
# Imprimir lista única sin frecuencias
print(f"\n📝 LISTA ÚNICA SIN FRECUENCIAS:")
print("=" * 60)
for source in sorted(main_sources):
    print(source)


📝 LISTA ÚNICA SIN FRECUENCIAS:
Ac. Gral. 15/18 SNE
Ac. N° 4/2007
Acordada 15/18 SNE
Acordada General Nº 28/15
Acordada General del S.T.J.E.R.
Acuerdo General 11/20
Acuerdo General 15/18 SNE
Acuerdo General 28/20
Acuerdo General N° 14/24
Acuerdo General N° 28/15
Acuerdo Gral.
Acuerdo Gral. 11/20
Acuerdo Gral. 11/20 del 23-6-2020
Aranda, Raúl Eduardo c/ ENA (Min. de Def. - Ejército Argentino) y/o Q.R.R. s/ impugnación de acto administrativo
Baldwin, Elina Dorotea c/Metrovias S.A. s/ daños y perjuicios
C.N.
C.P.C.C
CCC
CCCN
CN
CPCC
CPP
CSJN
Const. Nac.
Constitución Nacional
Constitución Nacional (CN)
Constitución Provincial
Constitución de Entre Ríos
Convención Americana de Derechos Humanos
Convención sobre los Derechos de las Personas Adultas Mayores
Convención sobre los Derechos del Niño
Corte Interamericana de Derechos Humanos
Corte Suprema de Justicia de la Nación
Cámara
Código Civil
Código Civil y Comercial
Código Civil y Comercial (CCC)
Código Civil y Comercial de la Nación
Código 