# Extracción de Menciones de Materia

Este notebook extrae menciones de "ley de la materia":
- "ley de la materia"
- "Ley en la materia"
- "Ley correspondiente a la materia"

Estas menciones se utilizarán posteriormente para análisis de referencias a leyes aplicables por materia.


In [1]:
# Importar librerías
import pandas as pd
import sys

# Importar funciones de extracción
sys.path.append('../functions')
from materia_mention_functions import extract_materia_mentions


## 1. Cargar datos procesados


In [2]:
# Cargar el archivo generado en el paso anterior (hash_creation.ipynb)
df = pd.read_csv('../../data/03_extracted/legal_documents_with_ids.csv')

print(f"Total de artículos cargados: {len(df)}")
print(f"\nColumnas disponibles: {list(df.columns)}")
df.head()

Total de artículos cargados: 30351

Columnas disponibles: ['art_id', 'doc_id', 'Archivo', 'document_name', 'article_name', 'art_num', 'text']


Unnamed: 0,art_id,doc_id,Archivo,document_name,article_name,art_num,text
0,6D0C4493_1,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 1,1,Las disposiciones contenidas en este Reglament...
1,6D0C4493_2,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 2,2,La aplicación del presente Reglamento correspo...
2,6D0C4493_3,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,3,"Para los efectos del presente Reglamento, adem..."
3,6D0C4493_4,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 4,4,Sin perjuicio de los principios que prevén los...
4,6D0C4493_5,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 5,5,El tratamiento para la persona privada de su l...


## 2. Ejecutar extracción de menciones de materia


In [3]:
# Ejecutar extracción de menciones de materia
materia_mentions_df = extract_materia_mentions(df)

print(f"\nRESUMEN FINAL: Se encontraron {len(materia_mentions_df)} menciones de materia")


Iniciando extracción de MENCIONES DE MATERIA a las 00:25:46
Progreso: 100/30351 (0.3%) | Menciones encontradas: 0 | Tiempo: 0.0s
Progreso: 200/30351 (0.7%) | Menciones encontradas: 0 | Tiempo: 0.0s
Progreso: 300/30351 (1.0%) | Menciones encontradas: 0 | Tiempo: 0.0s
Progreso: 400/30351 (1.3%) | Menciones encontradas: 0 | Tiempo: 0.0s
Progreso: 500/30351 (1.6%) | Menciones encontradas: 3 | Tiempo: 0.0s
Progreso: 600/30351 (2.0%) | Menciones encontradas: 6 | Tiempo: 0.0s
Progreso: 700/30351 (2.3%) | Menciones encontradas: 6 | Tiempo: 0.0s
Progreso: 800/30351 (2.6%) | Menciones encontradas: 8 | Tiempo: 0.0s
Progreso: 900/30351 (3.0%) | Menciones encontradas: 8 | Tiempo: 0.0s
Progreso: 1000/30351 (3.3%) | Menciones encontradas: 8 | Tiempo: 0.1s
Progreso: 1100/30351 (3.6%) | Menciones encontradas: 8 | Tiempo: 0.1s
Progreso: 1200/30351 (4.0%) | Menciones encontradas: 8 | Tiempo: 0.1s
Progreso: 1300/30351 (4.3%) | Menciones encontradas: 8 | Tiempo: 0.1s
Progreso: 1400/30351 (4.6%) | Menciones

## 3. Mostrar estadísticas y ejemplos

In [4]:
# Mostrar distribución
print(f"\nEntity Label: {materia_mentions_df['entity_label'].unique()[0]}")
print(f"Pattern Group: {materia_mentions_df['pattern_group'].unique()[0]}")

print("\n" + "="*70)
print("TEXTOS ÚNICOS DE MENCIONES DE MATERIA")
print("="*70)
print("\nTextos únicos encontrados:")
for text in materia_mentions_df['entity_text'].unique():
    count = len(materia_mentions_df[materia_mentions_df['entity_text'] == text])
    print(f"  - '{text}': {count} menciones")

print("\nPrimeras filas del resultado:")
materia_mentions_df.head()



Entity Label: LEY_DE_MATERIA
Pattern Group: SPECIFIC_LAW_MENTIONS

TEXTOS ÚNICOS DE MENCIONES DE MATERIA

Textos únicos encontrados:
  - 'ley de la materia': 167 menciones
  - 'Ley de la materia': 70 menciones
  - 'Ley en la Materia': 2 menciones
  - 'Ley de
la materia': 1 menciones
  - 'Ley en la materia': 20 menciones
  - 'Ley de la Materia': 4 menciones
  - 'ley en la materia': 43 menciones
  - 'ley en la
materia': 1 menciones
  - 'Ley de la
materia': 1 menciones
  - 'ley de la
materia': 1 menciones

Primeras filas del resultado:


Unnamed: 0,doc_id,art_id,document_name,article_name,entity_text,entity_label,pattern_group,before_context,after_context,full_context,words_before_count,words_after_count
0,3F66D749,3F66D749_1,Ley Procesal Electoral de la Ciudad de Mexico,Artículo 1,ley de la materia,LEY_DE_MATERIA,SPECIFIC_LAW_MENTIONS,electorales constitucionales ; Proceso electiv...,; Proceso electoral : El relativo a la renovac...,electorales constitucionales ; Proceso electiv...,30,30
1,3F66D749,3F66D749_28,Ley Procesal Electoral de la Ciudad de Mexico,Artículo 28,Ley de la materia,LEY_DE_MATERIA,SPECIFIC_LAW_MENTIONS,resolución de la controversia . El Tribunal ún...,.,resolución de la controversia . El Tribunal ún...,30,1
2,3F66D749,3F66D749_41,Ley Procesal Electoral de la Ciudad de Mexico,Artículo 41,ley de la materia,LEY_DE_MATERIA,SPECIFIC_LAW_MENTIONS,"están señalados por días , éstos se considerar...",como competencia del Tribunal . Los asuntos ge...,"están señalados por días , éstos se considerar...",30,30
3,3F66D749,3F66D749_101QUATER,Ley Procesal Electoral de la Ciudad de Mexico,Artículo 101 Quáter,ley de la materia,LEY_DE_MATERIA,SPECIFIC_LAW_MENTIONS,en donde se establecerán los mismos plazos que...,; El derecho de las partes de solicitar la rep...,en donde se establecerán los mismos plazos que...,30,30
4,3F66D749,3F66D749_122,Ley Procesal Electoral de la Ciudad de Mexico,Artículo 122,ley de la materia,LEY_DE_MATERIA,SPECIFIC_LAW_MENTIONS,"partido político , siempre y cuando implique v...","como competencia del Tribunal , siempre y cuan...","partido político , siempre y cuando implique v...",30,30


## 4. Guardar resultados

In [5]:
# Reorganizar columnas (estandarizadas para todos los extractores)
columns_order = [
    'doc_id', 
    'art_id', 
    'entity_text', 
    'entity_label', 
    'pattern_group',
    'full_context',
    'words_before_count', 
    'words_after_count'
]

materia_mentions_df = materia_mentions_df[columns_order]

# Guardar resultado completo
output_file = '../../data/03_extracted/materia_mentions_extracted.csv'
materia_mentions_df.to_csv(output_file, index=False, encoding='utf-8-sig')
