# Extracción de Auto-Referencias (Self-References)

Este notebook extrae menciones de auto-referencia a la ley actual:
- "la presente ley"
- "esta ley"
- "esta presente ley"

Estas menciones se utilizarán posteriormente para análisis de estructura y referencias internas.


In [1]:
# Importar librerías
import pandas as pd
import sys

# Importar funciones de extracción
sys.path.append('../functions')
from self_reference_functions import extract_self_references


## 1. Cargar datos procesados


In [2]:
# Cargar el archivo generado en el paso anterior (hash_creation.ipynb)
df = pd.read_csv('../../data/03_extracted/legal_documents_with_ids.csv')

print(f"Total de artículos cargados: {len(df)}")
print(f"\nColumnas disponibles: {list(df.columns)}")
df.head()


Total de artículos cargados: 30351

Columnas disponibles: ['art_id', 'doc_id', 'Archivo', 'document_name', 'article_name', 'art_num', 'text']


Unnamed: 0,art_id,doc_id,Archivo,document_name,article_name,art_num,text
0,6D0C4493_1,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 1,1,Las disposiciones contenidas en este Reglament...
1,6D0C4493_2,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 2,2,La aplicación del presente Reglamento correspo...
2,6D0C4493_3,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,3,"Para los efectos del presente Reglamento, adem..."
3,6D0C4493_4,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 4,4,Sin perjuicio de los principios que prevén los...
4,6D0C4493_5,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 5,5,El tratamiento para la persona privada de su l...


## 2. Ejecutar extracción de auto-referencias


In [3]:
# Ejecutar extracción de auto-referencias
self_references_df = extract_self_references(df)

print(f"\nRESUMEN FINAL: Se encontraron {len(self_references_df)} auto-referencias")


Iniciando extracción de AUTO-REFERENCIAS a las 00:27:25
Progreso: 100/30351 (0.3%) | Referencias encontradas: 5 | Tiempo: 0.0s
Progreso: 200/30351 (0.7%) | Referencias encontradas: 8 | Tiempo: 0.0s
Progreso: 300/30351 (1.0%) | Referencias encontradas: 20 | Tiempo: 0.0s
Progreso: 400/30351 (1.3%) | Referencias encontradas: 41 | Tiempo: 0.0s
Progreso: 500/30351 (1.6%) | Referencias encontradas: 78 | Tiempo: 0.1s
Progreso: 600/30351 (2.0%) | Referencias encontradas: 113 | Tiempo: 0.1s
Progreso: 700/30351 (2.3%) | Referencias encontradas: 143 | Tiempo: 0.1s
Progreso: 800/30351 (2.6%) | Referencias encontradas: 173 | Tiempo: 0.1s
Progreso: 900/30351 (3.0%) | Referencias encontradas: 185 | Tiempo: 0.2s
Progreso: 1000/30351 (3.3%) | Referencias encontradas: 188 | Tiempo: 0.2s
Progreso: 1100/30351 (3.6%) | Referencias encontradas: 199 | Tiempo: 0.2s
Progreso: 1200/30351 (4.0%) | Referencias encontradas: 283 | Tiempo: 0.2s
Progreso: 1300/30351 (4.3%) | Referencias encontradas: 307 | Tiempo: 0.2

## 3. Mostrar estadísticas y ejemplos


In [4]:
# Mostrar distribución
print(f"\nEntity Label: {self_references_df['entity_label'].unique()[0]}")
print(f"Pattern Group: {self_references_df['pattern_group'].unique()[0]}")

print("\n" + "="*70)
print("TEXTOS ÚNICOS DE AUTO-REFERENCIAS")
print("="*70)
print("\nTextos únicos encontrados:")
for text in self_references_df['entity_text'].unique():
    count = len(self_references_df[self_references_df['entity_text'] == text])
    print(f"  - '{text}': {count} menciones")

print("\nPrimeras filas del resultado:")
self_references_df.head()



Entity Label: REGLAMENTO_REFERENCE
Pattern Group: SPECIFIC_LAW_MENTIONS

TEXTOS ÚNICOS DE AUTO-REFERENCIAS

Textos únicos encontrados:
  - 'este Reglamento': 1190 menciones
  - 'el presente Reglamento': 606 menciones
  - 'El presente Reglamento': 178 menciones
  - 'la presente Ley': 2199 menciones
  - 'esta Ley': 3217 menciones
  - 'la presente ley': 388 menciones
  - 'esta ley': 482 menciones
  - 'este Código': 531 menciones
  - 'La presente Ley': 177 menciones
  - 'el
presente Reglamento': 9 menciones
  - 'este
Reglamento': 26 menciones
  - 'La presente ley': 35 menciones
  - 'este reglamento': 75 menciones
  - 'el presente reglamento': 71 menciones
  - 'Esta Ley': 33 menciones
  - 'el presente
reglamento': 1 menciones
  - 'Esta ley': 13 menciones
  - 'el presente Código': 45 menciones
  - 'el presente código': 2 menciones
  - 'este código': 46 menciones
  - 'Este Código': 8 menciones
  - 'la Presente Ley': 5 menciones
  - 'El presente reglamento': 20 menciones
  - 'El Presente Regl

Unnamed: 0,doc_id,art_id,document_name,article_name,entity_text,entity_label,pattern_group,before_context,after_context,full_context,words_before_count,words_after_count
0,6D0C4493,6D0C4493_1,Reglamento de la Ley de Centros Penitenciarios...,Artículo 1,este Reglamento,REGLAMENTO_REFERENCE,SPECIFIC_LAW_MENTIONS,Las disposiciones contenidas en,"son de orden público , interés social y de obs...",Las disposiciones contenidas en **este Reglame...,4,30
1,6D0C4493,6D0C4493_21,Reglamento de la Ley de Centros Penitenciarios...,Artículo 21,este Reglamento,REGLAMENTO_REFERENCE,SPECIFIC_LAW_MENTIONS,Es obligación de la Subsecretaría del Sistema ...,"a las personas privadas de la libertad , procu...",Es obligación de la Subsecretaría del Sistema ...,23,30
2,6D0C4493,6D0C4493_38,Reglamento de la Ley de Centros Penitenciarios...,Artículo 38,el presente Reglamento,REGLAMENTO_REFERENCE,SPECIFIC_LAW_MENTIONS,seguridad que requieren los módulos de Alta Se...,.,seguridad que requieren los módulos de Alta Se...,30,1
3,6D0C4493,6D0C4493_73,Reglamento de la Ley de Centros Penitenciarios...,Artículo 73,este Reglamento,REGLAMENTO_REFERENCE,SPECIFIC_LAW_MENTIONS,la visita familiar al Centro Penitenciario y r...,y en otros ordenamientos jurídicos y administr...,la visita familiar al Centro Penitenciario y r...,30,30
4,6D0C4493,6D0C4493_88,Reglamento de la Ley de Centros Penitenciarios...,Artículo 88,el presente Reglamento,REGLAMENTO_REFERENCE,SPECIFIC_LAW_MENTIONS,"Los objetos de valor , ropa y otros bienes que...",y demás disposiciones aplicables no pueda tene...,"Los objetos de valor , ropa y otros bienes que...",27,30


## 4. Guardar resultados

In [5]:
# Reorganizar columnas (estandarizadas para todos los extractores)
columns_order = [
    'doc_id', 
    'art_id', 
    'entity_text', 
    'entity_label', 
    'pattern_group',
    'full_context',
    'words_before_count', 
    'words_after_count'
]

self_references_df = self_references_df[columns_order]

# Guardar resultado completo
output_file = '../../data/03_extracted/self_references_extracted.csv'
self_references_df.to_csv(output_file, index=False, encoding='utf-8-sig')
print(f"\nAuto-referencias guardadas en: {output_file}")
print(f"Total de registros: {len(self_references_df)}")



Auto-referencias guardadas en: ../../data/03_extracted/self_references_extracted.csv
Total de registros: 9395
