# Extracción de Organizaciones Gubernamentales Genéricas

Este notebook extrae menciones genéricas de organizaciones gubernamentales:
- Secretarías genéricas
- Alcaldías
- Agencias federales (SEDEMA, SEMARNAT, CONAGUA, etc.)
- Organismos autónomos federales (INE, INAI, CNDH, etc.)
- Paraestatales (IMSS, ISSSTE, PEMEX, CFE)
- Organizaciones genéricas (Instituto, Tribunal, Consejo, Comité, etc.)
- Universidades

Estas menciones capturan referencias a organizaciones que no coincidieron con patrones específicos.


In [1]:
# Importar librerías
import pandas as pd
import sys

# Importar funciones de extracción
sys.path.append('../functions')
from general_gov_functions import extract_general_gov


## 1. Cargar datos procesados


In [2]:
# Cargar el archivo generado en el paso anterior (hash_creation.ipynb)
df = pd.read_csv('../../data/03_extracted/legal_documents_with_ids.csv')

print(f"Total de artículos cargados: {len(df)}")
print(f"\nColumnas disponibles: {list(df.columns)}")
df.head()


Total de artículos cargados: 30351

Columnas disponibles: ['art_id', 'doc_id', 'Archivo', 'document_name', 'article_name', 'art_num', 'text']


Unnamed: 0,art_id,doc_id,Archivo,document_name,article_name,art_num,text
0,6D0C4493_1,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 1,1,Las disposiciones contenidas en este Reglament...
1,6D0C4493_2,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 2,2,La aplicación del presente Reglamento correspo...
2,6D0C4493_3,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,3,"Para los efectos del presente Reglamento, adem..."
3,6D0C4493_4,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 4,4,Sin perjuicio de los principios que prevén los...
4,6D0C4493_5,6D0C4493,RGTO_DE_LA_LEY_DE_CENTROS_PENITENCIARIOS_DE_LA...,Reglamento de la Ley de Centros Penitenciarios...,Artículo 5,5,El tratamiento para la persona privada de su l...


## 2. Ejecutar extracción de organizaciones gubernamentales

In [3]:
# Ejecutar extracción de organizaciones gubernamentales genéricas
general_gov_df = extract_general_gov(df)

print(f"\nRESUMEN FINAL: Se encontraron {len(general_gov_df)} organizaciones gubernamentales")


Iniciando extracción de ORGANIZACIONES GUBERNAMENTALES GENÉRICAS a las 00:24:50
Progreso: 100/30351 (0.3%) | Organizaciones encontradas: 46 | Tiempo: 0.0s
Progreso: 200/30351 (0.7%) | Organizaciones encontradas: 65 | Tiempo: 0.0s
Progreso: 300/30351 (1.0%) | Organizaciones encontradas: 99 | Tiempo: 0.1s
Progreso: 400/30351 (1.3%) | Organizaciones encontradas: 159 | Tiempo: 0.1s
Progreso: 500/30351 (1.6%) | Organizaciones encontradas: 209 | Tiempo: 0.1s
Progreso: 600/30351 (2.0%) | Organizaciones encontradas: 247 | Tiempo: 0.1s
Progreso: 700/30351 (2.3%) | Organizaciones encontradas: 300 | Tiempo: 0.2s
Progreso: 800/30351 (2.6%) | Organizaciones encontradas: 319 | Tiempo: 0.2s
Progreso: 900/30351 (3.0%) | Organizaciones encontradas: 476 | Tiempo: 0.3s
Progreso: 1000/30351 (3.3%) | Organizaciones encontradas: 671 | Tiempo: 0.3s
Progreso: 1100/30351 (3.6%) | Organizaciones encontradas: 796 | Tiempo: 0.3s
Progreso: 1200/30351 (4.0%) | Organizaciones encontradas: 895 | Tiempo: 0.4s
Progreso

## 3. Mostrar estadísticas y ejemplos

In [4]:
# Mostrar distribución por tipo de organización
print(f"\nPattern Group: {general_gov_df['pattern_group'].unique()[0]}")

print("\nDistribución por entity_label:")
print(general_gov_df['entity_label'].value_counts())

print("\n" + "="*70)
print("EJEMPLOS DE CADA TIPO DE ORGANIZACIÓN")
print("="*70)

for label in general_gov_df['entity_label'].unique():
    print(f"\n{label}:")
    examples = general_gov_df[general_gov_df['entity_label'] == label]['entity_text'].unique()[:3]
    for i, example in enumerate(examples, 1):
        print(f"  {i}. {example[:80]}...")

print("\nPrimeras filas del resultado:")
general_gov_df.head()



Pattern Group: GENERAL_GOV

Distribución por entity_label:
entity_label
SECRETARIA_GENERAL    11862
ORG_GENERICO           7760
ALCALDIA_GENERAL       3860
UNIVERSITY              199
ORG_AUTONOMO_FED         25
PARAESTATAL_FED          23
FEDERAL_AGENCY            7
Name: count, dtype: int64

EJEMPLOS DE CADA TIPO DE ORGANIZACIÓN

ORG_GENERICO:
  1. Centro de Sanciones Administrativas y de Integración Social de la Ciudad de Méxi...
  2. Centro de Diagnóstico...
  3. Centro de Sanciones Administrativas...

SECRETARIA_GENERAL:
  1. la Secretaría de Seguridad Ciudadana de la Ciudad de México...
  2. Secretaría...
  3. Secretaría de Seguridad Ciudadana de la Ciudad de México...

UNIVERSITY:
  1. Universidad de la Policía de la Ciudad de México...
  2. Universidad de la Policía de la Ciudad de México impartirá cap...
  3. Universidad de la Policía de la Ciudad de México es un órgano...

ALCALDIA_GENERAL:
  1. alcaldías...
  2. Alcaldías...
  3. Alcaldía...

FEDERAL_AGENCY:
  1. SEDEMA...


Unnamed: 0,doc_id,art_id,document_name,article_name,entity_text,entity_label,pattern_group,before_context,after_context,full_context,words_before_count,words_after_count
0,6D0C4493,6D0C4493_1,Reglamento de la Ley de Centros Penitenciarios...,Artículo 1,Centro de Sanciones Administrativas y de Integ...,ORG_GENERICO,GENERAL_GOV,observancia general en la Ciudad de México ; t...,", garantizando la custodia , vigilancia , segu...",observancia general en la Ciudad de México ; t...,30,30
1,6D0C4493,6D0C4493_2,Reglamento de la Ley de Centros Penitenciarios...,Artículo 2,la Secretaría de Seguridad Ciudadana de la Ciu...,SECRETARIA_GENERAL,GENERAL_GOV,La aplicación del presente Reglamento correspo...,", a través de la Subsecretaría del Sistema Pen...",La aplicación del presente Reglamento correspo...,7,30
2,6D0C4493,6D0C4493_2,Reglamento de la Ley de Centros Penitenciarios...,Artículo 2,Centro de Sanciones Administrativas y de Integ...,ORG_GENERICO,GENERAL_GOV,preventiva y arresto administrativo ; o a cual...,", con las funciones y facultades que expresame...",preventiva y arresto administrativo ; o a cual...,30,30
3,6D0C4493,6D0C4493_3,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,la Secretaría de Seguridad Ciudadana de la Ciu...,SECRETARIA_GENERAL,GENERAL_GOV,"gay , bisexual , transgénero , transexual , tr...",; Reglamento : Reglamento de la Ley de Centros...,"gay , bisexual , transgénero , transexual , tr...",30,30
4,6D0C4493,6D0C4493_3,Reglamento de la Ley de Centros Penitenciarios...,Artículo 3,Secretaría,SECRETARIA_GENERAL,GENERAL_GOV,: Oficialía Mayor de la Secretaría de Segurida...,: Secretaría de Seguridad Ciudadana de la Ciud...,: Oficialía Mayor de la Secretaría de Segurida...,30,18


## 4. Guardar resultados

In [5]:
# Reorganizar columnas (estandarizadas para todos los extractores)
columns_order = [
    'doc_id', 
    'art_id', 
    'entity_text', 
    'entity_label', 
    'pattern_group',
    'full_context',
    'words_before_count', 
    'words_after_count'
]

general_gov_df = general_gov_df[columns_order]
#general_gov_df.head()
# Guardar resultado completo
output_file = '../../data/03_extracted/general_gov_entities_extracted.csv'
general_gov_df.to_csv(output_file, index=False, encoding='utf-8-sig')

