# Extracción de Documentos Legales Genéricos

Este notebook extrae menciones genéricas de documentos legales:
- Leyes genéricas (Ley Orgánica, Ley General, Ley Federal, etc.)
- Códigos (Código de, Código del, Código para)
- Reglamentos (Reglamento de, Reglamento del, Reglamento para)
- Normas Oficiales Mexicanas (NOM)

Estas menciones capturan referencias a documentos legales que no coincidieron con patrones específicos.


In [1]:
# Importar librerías
import pandas as pd
import sys

# Importar funciones de extracción
sys.path.append('../functions')
from legal_docs_functions import extract_legal_docs


## 1. Cargar datos procesados


In [2]:
# Cargar el archivo generado en el paso anterior (hash_creation.ipynb)
df = pd.read_csv('../../data/03_extracted/legal_documents_with_ids.csv')

print(f"Total de artículos cargados: {len(df)}")
print(f"\nColumnas disponibles: {list(df.columns)}")
df.head()


Total de artículos cargados: 30351

Columnas disponibles: ['art_id', 'doc_id', 'Archivo', 'document_name', 'article_name', 'art_num', 'text']


Unnamed: 0,art_id,doc_id,Archivo,document_name,article_name,art_num,text
0,6D0C4493_1,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 1,1,Las disposiciones contenidas en este Reglament...
1,6D0C4493_2,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 2,2,La aplicación del presente Reglamento correspo...
2,6D0C4493_3,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,3,"Para los efectos del presente Reglamento, adem..."
3,6D0C4493_4,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 4,4,Sin perjuicio de los principios que prevén los...
4,6D0C4493_5,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 5,5,El tratamiento para la persona privada de su l...


## 2. Ejecutar extracción de documentos legales genéricos


In [3]:
# Ejecutar extracción de documentos legales genéricos
legal_docs_df = extract_legal_docs(df)

print(f"\nRESUMEN FINAL: Se encontraron {len(legal_docs_df)} documentos legales")


Iniciando extracción de DOCUMENTOS LEGALES GENÉRICOS a las 00:25:25
Progreso: 100/30351 (0.3%) | Documentos encontrados: 13 | Tiempo: 0.0s
Progreso: 200/30351 (0.7%) | Documentos encontrados: 21 | Tiempo: 0.0s
Progreso: 300/30351 (1.0%) | Documentos encontrados: 29 | Tiempo: 0.0s
Progreso: 400/30351 (1.3%) | Documentos encontrados: 57 | Tiempo: 0.0s
Progreso: 500/30351 (1.6%) | Documentos encontrados: 91 | Tiempo: 0.0s
Progreso: 600/30351 (2.0%) | Documentos encontrados: 102 | Tiempo: 0.1s
Progreso: 700/30351 (2.3%) | Documentos encontrados: 122 | Tiempo: 0.1s
Progreso: 800/30351 (2.6%) | Documentos encontrados: 140 | Tiempo: 0.1s
Progreso: 900/30351 (3.0%) | Documentos encontrados: 153 | Tiempo: 0.1s
Progreso: 1000/30351 (3.3%) | Documentos encontrados: 177 | Tiempo: 0.1s
Progreso: 1100/30351 (3.6%) | Documentos encontrados: 183 | Tiempo: 0.1s
Progreso: 1200/30351 (4.0%) | Documentos encontrados: 222 | Tiempo: 0.2s
Progreso: 1300/30351 (4.3%) | Documentos encontrados: 225 | Tiempo: 0.

## 3. Mostrar estadísticas y ejemplos

In [4]:
# Mostrar distribución por tipo de documento
print(f"\nPattern Group: {legal_docs_df['pattern_group'].unique()[0]}")

print("\nDistribución por entity_label:")
print(legal_docs_df['entity_label'].value_counts())

print("\n" + "="*70)
print("EJEMPLOS DE CADA TIPO DE DOCUMENTO")
print("="*70)

for label in legal_docs_df['entity_label'].unique():
    print(f"\n{label}:")
    examples = legal_docs_df[legal_docs_df['entity_label'] == label]['entity_text'].unique()[:3]
    for i, example in enumerate(examples, 1):
        print(f"  {i}. {example[:80]}...")

print("\nPrimeras filas del resultado:")
legal_docs_df.head()


Pattern Group: LEGAL_DOCS

Distribución por entity_label:
entity_label
LAW_MENTION    6696
REGULATION     1210
LAW_CODE        339
NOM              53
Name: count, dtype: int64

EJEMPLOS DE CADA TIPO DE DOCUMENTO

LAW_MENTION:
  1. Ley de Centros Penitenciarios de la Ciudad de México y demás normativa aplicable...
  2. Ley de Centros Penitenciarios de la Ciudad de México...
  3. Ley de Centros Penitenciarios...

REGULATION:
  1. Reglamento de la Ley de Centros Penitenciarios de la Ciudad de México...
  2. Reglamento del Servicio Profesional de Carrera de la Policía de Proximidad de la...
  3. Reglamento del Servicio Profesional de Carrera de la Policía de Proximidad de la...

LAW_CODE:
  1. Código de Instituciones y Procedimientos Electorales del Distrito Federal...
  2. Código para las sesiones ordinarias y extraordinarias según corresponda...
  3. Código de Instituciones y Procedimientos Electorales de la Ciudad de México...

NOM:
  1. Norma Oficial Mexicana que...
  2. Norma Oficia

Unnamed: 0,doc_id,art_id,document_name,article_name,entity_text,entity_label,pattern_group,before_context,after_context,full_context,words_before_count,words_after_count
0,6D0C4493,6D0C4493_2,Reglamento de la Ley de Centros Penitenciarios...,Artículo 2,Ley de Centros Penitenciarios de la Ciudad de ...,LAW_MENTION,LEGAL_DOCS,de Sanciones Administrativas y de Integración ...,.,de Sanciones Administrativas y de Integración ...,30,1
1,6D0C4493,6D0C4493_3,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,Ley de Centros Penitenciarios de la Ciudad de ...,LAW_MENTION,LEGAL_DOCS,"Para los efectos del presente Reglamento , ade...",", se entenderá por : CDUDT : Centro de Diagnós...","Para los efectos del presente Reglamento , ade...",14,30
2,6D0C4493,6D0C4493_3,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,Ley de Centros Penitenciarios,LAW_MENTION,LEGAL_DOCS,Sanciones Administrativas de la Ciudad de Méxi...,: Ley de Centros Penitenciarios de la Ciudad d...,Sanciones Administrativas de la Ciudad de Méxi...,30,30
3,6D0C4493,6D0C4493_3,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,Ley de Centros Penitenciarios de la Ciudad de ...,LAW_MENTION,LEGAL_DOCS,de México ; Constitución Federal : Constitució...,; Ley Nacional : Ley Nacional de Ejecución Pen...,de México ; Constitución Federal : Constitució...,30,30
4,6D0C4493,6D0C4493_3,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,Ley de Centros Penitenciarios de la Ciudad de ...,LAW_MENTION,LEGAL_DOCS,otras expresiones no visualizadas en el acróni...,; Secretaría : Secretaría de Seguridad Ciudada...,otras expresiones no visualizadas en el acróni...,30,20


## 4. Guardar resultados

In [5]:
# Reorganizar columnas (estandarizadas para todos los extractores)
columns_order = [
    'doc_id', 
    'art_id',
    'entity_text', 
    'entity_label', 
    'pattern_group',
    'full_context',
    'words_before_count', 
    'words_after_count'
]

legal_docs_df = legal_docs_df[columns_order]
#legal_docs_df.head()
# Guardar resultado completo
output_file = '../../data/03_extracted/legal_docs_generic.csv'
legal_docs_df.to_csv(output_file, index=False, encoding='utf-8-sig')

