In [1]:
# Importar librerías
import pandas as pd
import sys

# Importar funciones de extracción
sys.path.append('../functions')
from regulation_mention_functions import extract_regulation_mentions


## 1. Cargar datos procesados

In [2]:
# Cargar el archivo generado en el paso anterior (hash_creation.ipynb)
df = pd.read_csv('../../data/03_extracted/legal_documents_with_ids.csv')

print(f"Total de artículos cargados: {len(df)}")
print(f"\nColumnas disponibles: {list(df.columns)}")
df.head()


Total de artículos cargados: 30351

Columnas disponibles: ['art_id', 'doc_id', 'Archivo', 'document_name', 'article_name', 'art_num', 'text']


Unnamed: 0,art_id,doc_id,Archivo,document_name,article_name,art_num,text
0,6D0C4493_1,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 1,1,Las disposiciones contenidas en este Reglament...
1,6D0C4493_2,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 2,2,La aplicación del presente Reglamento correspo...
2,6D0C4493_3,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,3,"Para los efectos del presente Reglamento, adem..."
3,6D0C4493_4,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 4,4,Sin perjuicio de los principios que prevén los...
4,6D0C4493_5,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 5,5,El tratamiento para la persona privada de su l...


## 2. Ejecutar extracción de menciones de reglamentos

In [3]:
# Ejecutar extracción de menciones de reglamentos
regulation_mentions_df = extract_regulation_mentions(df)

print(f"\nRESUMEN FINAL: Se encontraron {len(regulation_mentions_df)} menciones de reglamentos")


Iniciando extracción de menciones de REGLAMENTOS a las 00:27:23
Progreso: 100/30351 (0.3%) | Menciones encontradas: 0 | Tiempo: 0.0s
Progreso: 200/30351 (0.7%) | Menciones encontradas: 0 | Tiempo: 0.0s
Progreso: 300/30351 (1.0%) | Menciones encontradas: 0 | Tiempo: 0.0s
Progreso: 400/30351 (1.3%) | Menciones encontradas: 0 | Tiempo: 0.1s
Progreso: 500/30351 (1.6%) | Menciones encontradas: 0 | Tiempo: 0.1s
Progreso: 600/30351 (2.0%) | Menciones encontradas: 0 | Tiempo: 0.1s
Progreso: 700/30351 (2.3%) | Menciones encontradas: 0 | Tiempo: 0.1s
Progreso: 800/30351 (2.6%) | Menciones encontradas: 1 | Tiempo: 0.1s
Progreso: 900/30351 (3.0%) | Menciones encontradas: 1 | Tiempo: 0.1s
Progreso: 1000/30351 (3.3%) | Menciones encontradas: 1 | Tiempo: 0.2s
Progreso: 1100/30351 (3.6%) | Menciones encontradas: 1 | Tiempo: 0.2s
Progreso: 1200/30351 (4.0%) | Menciones encontradas: 1 | Tiempo: 0.2s
Progreso: 1300/30351 (4.3%) | Menciones encontradas: 1 | Tiempo: 0.2s
Progreso: 1400/30351 (4.6%) | Menci

## 3. Mostrar estadísticas y ejemplos

In [4]:
# Mostrar distribución por tipo de mención
print("\nDistribución por entity_label:")
print(regulation_mentions_df['entity_label'].value_counts())

print(f"\nPattern group: {regulation_mentions_df['pattern_group'].unique()[0]}")

print("\n" + "="*70)
print("TEXTOS ÚNICOS DE MENCIONES")
print("="*70)
print("\nTextos únicos encontrados:")
for text in regulation_mentions_df['entity_text'].unique():
    count = len(regulation_mentions_df[regulation_mentions_df['entity_text'] == text])
    print(f"  - '{text}': {count} menciones")

print("\n" + "="*70)
print("DOCUMENTOS CON MENCIONES DE REGLAMENTOS")
print("="*70)
print(f"\nTotal de documentos únicos con menciones: {regulation_mentions_df['document_name'].nunique()}")
print("\nDocumentos con más menciones:")
doc_counts = regulation_mentions_df['document_name'].value_counts().head(10)
for doc, count in doc_counts.items():
    print(f"  - {doc}: {count} menciones")

print("\nPrimeras filas del resultado:")
regulation_mentions_df.head()



Distribución por entity_label:
entity_label
LEY_Y_REGLAMENTOS      256
LEY_CON_REGLAMENTOS     36
Name: count, dtype: int64

Pattern group: SPECIFIC_LAW_MENTIONS

TEXTOS ÚNICOS DE MENCIONES

Textos únicos encontrados:
  - 'Reglamento de la presente Ley': 89 menciones
  - 'Reglamento de esta Ley': 97 menciones
  - 'Reglamento de esta ley': 7 menciones
  - 'reglamento de la presente Ley': 22 menciones
  - 'esta ley y sus reglamentos': 4 menciones
  - 'reglamento de esta Ley': 14 menciones
  - 'esta Ley y sus reglamentos': 22 menciones
  - 'Reglamento de la presente ley': 9 menciones
  - 'reglamento de esta ley': 12 menciones
  - 'reglamento de la presente ley': 4 menciones
  - 'esta Ley y sus Reglamentos': 8 menciones
  - 'esta Ley y con el reglamento': 2 menciones
  - 'Reglamento de la Presente Ley': 2 menciones

DOCUMENTOS CON MENCIONES DE REGLAMENTOS

Total de documentos únicos con menciones: 79

Documentos con más menciones:
  - Ley de Desarrollo Urbano del Distrito Federal: 18 menc

Unnamed: 0,doc_id,art_id,document_name,article_name,entity_text,entity_label,pattern_group,before_context,after_context,full_context,words_before_count,words_after_count
0,50BEA374,50BEA374_TRANS,Ley de Mejora Regulatoria para la Ciudad de Me...,TRANSITORIOS,Reglamento de la presente Ley,LEY_Y_REGLAMENTOS,SPECIFIC_LAW_MENTIONS,de diciembre de 2017 y demás normatividad y di...,en ejercicio de las atribuciones que le otorga...,de diciembre de 2017 y demás normatividad y di...,30,30
1,491D6477,491D6477_TRANS,Ley de Responsabilidades Administrativas de la...,TRANSITORIOS,Reglamento de esta Ley,LEY_Y_REGLAMENTOS,SPECIFIC_LAW_MENTIONS,"de México , se continuará aplicando en lo que ...",", en un plazo no mayor a 90 días naturales . O...","de México , se continuará aplicando en lo que ...",30,30
2,37159EFC,37159EFC_19,Ley de Filmaciones de la Ciudad de Mexico,Artículo 19,Reglamento de esta Ley,LEY_Y_REGLAMENTOS,SPECIFIC_LAW_MENTIONS,Federal que haya sido solicitado por un produc...,establecerá las reglas y lineamientos para la ...,Federal que haya sido solicitado por un produc...,30,30
3,292100E1,292100E1_TRANS,Ley de Responsabilidad Ambiental de la Ciudad ...,TRANSITORIOS,Reglamento de la presente Ley,LEY_Y_REGLAMENTOS,SPECIFIC_LAW_MENTIONS,y publicación en la Gaceta Oficial de la Ciuda...,se expedirá en un plazo máximo de 180 días háb...,y publicación en la Gaceta Oficial de la Ciuda...,30,30
4,3A2C8488,3A2C8488_168,Ley de Gestion Integral de Riesgos y Proteccio...,Artículo 168,Reglamento de la presente Ley,LEY_Y_REGLAMENTOS,SPECIFIC_LAW_MENTIONS,Consejo de Resiliencia tendrá órganos de traba...,.,Consejo de Resiliencia tendrá órganos de traba...,30,1


## 4. Guardar resultados


In [5]:
# Reorganizar columnas (estandarizadas para todos los extractores)
columns_order = [
    'doc_id', 
    'art_id',
    'entity_text', 
    'entity_label', 'pattern_group',
    'full_context',
    'words_before_count', 'words_after_count'
]

regulation_mentions_df = regulation_mentions_df[columns_order]

# Guardar resultado completo
output_file = '../../data/03_extracted/regulation_mentions_extracted.csv'
regulation_mentions_df.to_csv(output_file, index=False, encoding='utf-8-sig')
print(f"\nMenciones guardadas en: {output_file}")
print(f"Total de registros: {len(regulation_mentions_df)}")



Menciones guardadas en: ../../data/03_extracted/regulation_mentions_extracted.csv
Total de registros: 292
