In [None]:
import json
from pathlib import Path
from collections import Counter
import os

def extract_main_sources_from_json_files(base_path):
    """
    Extrae todos los valores √∫nicos de 'main_source' de los archivos JSON
    en la estructura de carpetas por mes.
    
    Args:
        base_path: Ruta base donde est√°n las carpetas de meses (ej: 'datasets/unified_json')
    
    Returns:
        set: Conjunto de valores √∫nicos de main_source
        Counter: Contador de frecuencias de cada main_source
    """
    base_path = Path(base_path)
    main_sources = set()
    main_source_counter = Counter()
    
    # Recorrer todas las carpetas de meses
    for month_folder in sorted(base_path.iterdir()):
        if not month_folder.is_dir():
            continue
            
        print(f"Procesando mes: {month_folder.name}")
        
        # Recorrer todos los archivos JSON en cada mes
        for json_file in month_folder.glob("*.json"):
            try:
                with open(json_file, 'r', encoding='utf-8') as f:
                    data = json.load(f)
                
                # Extraer main_sources de ARTICULOS_CITADOS
                articulos_citados = data.get("METADATOS", {}).get("ARTICULOS_CITADOS", {})
                citations = articulos_citados.get("citations", [])
                
                for citation in citations:
                    main_source = citation.get("main_source", "")
                    if main_source and main_source.strip():
                        main_sources.add(main_source)
                        main_source_counter[main_source] += 1
                        
            except Exception as e:
                print(f"Error procesando {json_file}: {e}")
    
    return main_sources, main_source_counter



# Usar la ruta de tu workspace
base_path = Path(os.path.dirname(os.getcwd())) / "datasets" / "unified_json"  # Ajusta esta ruta seg√∫n tu estructura

print("üîç Extrayendo valores de 'main_source' de archivos JSON...")

main_sources, counter = extract_main_sources_from_json_files(base_path)

print(f"\nüìä RESULTADOS:")
print(f"Total de 'main_source' √∫nicos encontrados: {len(main_sources)}")
print(f"Total de citas procesadas: {sum(counter.values())}")

print(f"\nüìã LISTA DE MAIN_SOURCES √öNICOS:")
for i, source in enumerate(sorted(main_sources), 1):
    print(f"{i:2d}. {source}")

print(f"\nüìà FRECUENCIA DE MAIN_SOURCES (Top 10):")
for source, count in counter.most_common(10):
    print(f"  ‚Ä¢ {source}: {count} citas")


üîç Extrayendo valores de 'main_source' de archivos JSON...
Procesando mes: 02
Procesando mes: 03
Procesando mes: 04
Procesando mes: 05
Procesando mes: 06
Procesando mes: 07
Procesando mes: 08
Procesando mes: 09
Procesando mes: 10
Procesando mes: 11
Procesando mes: 12

üìä RESULTADOS:
Total de 'main_source' √∫nicos encontrados: 126
Total de citas procesadas: 635

üìã LISTA DE MAIN_SOURCES √öNICOS:
 1. Ac. Gral. 15/18 SNE
 2. Ac. N¬∞ 4/2007
 3. Acordada 15/18 SNE
 4. Acordada General N¬∫ 28/15
 5. Acordada General del S.T.J.E.R.
 6. Acuerdo General 11/20
 7. Acuerdo General 15/18 SNE
 8. Acuerdo General 28/20
 9. Acuerdo General N¬∞ 14/24
10. Acuerdo General N¬∞ 28/15
11. Acuerdo Gral.
12. Acuerdo Gral. 11/20
13. Acuerdo Gral. 11/20 del 23-6-2020
14. Aranda, Ra√∫l Eduardo c/ ENA (Min. de Def. - Ej√©rcito Argentino) y/o Q.R.R. s/ impugnaci√≥n de acto administrativo
15. Baldwin, Elina Dorotea c/Metrovias S.A. s/ da√±os y perjuicios
16. C.N.
17. C.P.C.C
18. CCC
19. CCCN
20. CN
21. CPCC


In [3]:
# Imprimir lista completa con frecuencias
print(f"\nüìä LISTA COMPLETA CON FRECUENCIAS:")
print("=" * 60)
for source, count in counter.most_common():
    print(f"{source}: {count}")


üìä LISTA COMPLETA CON FRECUENCIAS:
Ac. Gral. 15/18 SNE: 85
Acuerdo Gral. 11/20: 73
LOPJ: 70
CPCC: 69
unknown: 43
ley 10.704: 32
ley 7046: 27
Constituci√≥n Provincial: 16
CPP: 11
C√≥digo Procesal Civil y Comercial: 9
C√≥digo Civil y Comercial: 9
CCC: 9
CN: 7
Acordada 15/18 SNE: 7
C√≥digo Civil: 6
Constituci√≥n Nacional: 6
C√≥digo Civil y Comercial (CCC): 5
C√≥digo Procesal Civil y Comercial de Entre R√≠os (CPCCER): 5
ley 48: 5
LCQ: 4
Fallos: 4
LPF: 4
C√≥digo Procesal Civil y Comercial (CPCC): 3
Acuerdo General 15/18 SNE: 3
Acuerdo General 11/20: 3
Ley Org√°nica del Poder Judicial - Ley 6902: 3
Constituci√≥n Nacional (CN): 3
L.C.Q.: 3
resoluci√≥n: 3
Ordenamiento Procesal: 2
Ley 7046: 2
C.N.: 2
Ley Procesal de Familia: 2
Ley Org√°nica del Poder Judicial (LOPJ): 2
ley 6902: 2
ley 26.485: 2
CSJN: 2
Convenci√≥n Americana de Derechos Humanos: 2
Convenci√≥n sobre los Derechos de las Personas Adultas Mayores: 2
L.A.S.: 2
Ley Nacional de Tr√°nsito Nro. 24.449: 1
Ley 24449: 1
Ley 10025: 1
Cort

In [None]:
# Imprimir lista √∫nica sin frecuencias
print(f"\nüìù LISTA √öNICA SIN FRECUENCIAS:")
print("=" * 60)
for source in sorted(main_sources):
    print(source)


üìù LISTA √öNICA SIN FRECUENCIAS:
Ac. Gral. 15/18 SNE
Ac. N¬∞ 4/2007
Acordada 15/18 SNE
Acordada General N¬∫ 28/15
Acordada General del S.T.J.E.R.
Acuerdo General 11/20
Acuerdo General 15/18 SNE
Acuerdo General 28/20
Acuerdo General N¬∞ 14/24
Acuerdo General N¬∞ 28/15
Acuerdo Gral.
Acuerdo Gral. 11/20
Acuerdo Gral. 11/20 del 23-6-2020
Aranda, Ra√∫l Eduardo c/ ENA (Min. de Def. - Ej√©rcito Argentino) y/o Q.R.R. s/ impugnaci√≥n de acto administrativo
Baldwin, Elina Dorotea c/Metrovias S.A. s/ da√±os y perjuicios
C.N.
C.P.C.C
CCC
CCCN
CN
CPCC
CPP
CSJN
Const. Nac.
Constituci√≥n Nacional
Constituci√≥n Nacional (CN)
Constituci√≥n Provincial
Constituci√≥n de Entre R√≠os
Convenci√≥n Americana de Derechos Humanos
Convenci√≥n sobre los Derechos de las Personas Adultas Mayores
Convenci√≥n sobre los Derechos del Ni√±o
Corte Interamericana de Derechos Humanos
Corte Suprema de Justicia de la Naci√≥n
C√°mara
C√≥digo Civil
C√≥digo Civil y Comercial
C√≥digo Civil y Comercial (CCC)
C√≥digo Civil y Com