# Identificación de identidades

Este modelo está enfocado en la identificación de identidades nombradas en un pdf también conocido como NER (named entity recognition) model

Los datos a utilizar son datos gubernamentales abiertos. Se trata de una tésis titulada: **MODO HONESTO DE VIVIR. LAS AUTORIDADES NO PUEDEN EXIGIR A LAS PERSONAS CUMPLIR CON ESE REQUISITO LEGAL A FIN DE ACCEDER A UN CARGO PÚBLICO, COMO TAMPOCO PUEDEN SANCIONARLAS DETERMINANDO QUE CARECEN DE ESE MODO DE VIVIR.** disponible en: https://sjf2.scjn.gob.mx/detalle/tesis/2026504


## Carga de Modulos

In [1]:
import fitz
import spacy

## Carga de los datos

Para la carga de los datos es necesario la extracción de texto del PDF, usaremos PyMuPDF para esta tarea

In [2]:
pdf_path = "Tesis2026504.pdf"
doc = fitz.open(pdf_path)

In [3]:
for page in doc:
    text = page.get_text()
    print(text[:200])

Tesis 
 
  Registro digital: 2026504 
    
MODO HONESTO DE VIVIR. LAS AUTORIDADES NO PUEDEN EXIGIR A LAS PERSONAS
CUMPLIR CON ESE REQUISITO LEGAL A FIN DE ACCEDER A UN CARGO PÚBLICO, COMO
TAMPOCO PUED
  
Contradicción de criterios 228/2022. Entre los sustentados por el Pleno de la Suprema Corte de
Justicia de la Nación y la Sala Superior del Tribunal Electoral del Poder Judicial de la Federación. 7


In [4]:
doc.close()

## Trabajo sobre el texto

Una vez extraido el texto del PDF, procedemos a trabajarlo

In [5]:
# descargamos el idioma español
spacy.cli.download("es_core_news_sm")

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [6]:
nlp = spacy.load("es_core_news_sm")

unique_labels = set()
entidades = []

# Procesamiento del texto
doc = nlp(text)

In [8]:
#Extraemos las entidades
for ent in doc.ents:
    entidades.append((ent.text, ent.label_))
    unique_labels.add(ent.label_)

In [9]:
for label in unique_labels:
    print(label)

LOC
ORG
MISC
PER


In [11]:
for ent, label in entidades:
    print(ent, label)

Contradicción LOC
Entre los sustentados por el Pleno de la Suprema Corte de
Justicia de la Nación y la Sala Superior del Tribunal Electoral del Poder Judicial de la Federación MISC
Mayoría de siete votos de las Ministras MISC
Ministros Alfredo Gutiérrez Ortiz
Mena PER
Yasmín Esquivel Mossa PER
Loretta Ortiz Ahlf PER
Arturo Zaldívar Lelo de Larrea PER
Ana
Margarita Ríos Farjat PER
Javier Laynez Potisek PER
Alberto Pérez Dayán PER
Votaron PER
Ministros Juan Luis González Alcántara Carrancá PER
Luis María Aguilar Morales PER
Jorge Mario Pardo Rebolledo PER
Ministra Norma Lucía Piña Hernández LOC
Ponente: Ana Margarita Ríos
 Farjat MISC
Eduardo López Saldaña PER
Paulo Abraham Ordaz Quintero PER
Tesis y/ MISC
Pleno PER
Suprema Corte de Justicia de la Nación LOC
Sala Superior del Tribunal Electoral del
Poder Judicial de la Federación LOC
Procedimiento Especial
 Sancionador Electoral MISC
El Tribunal Pleno LOC
Ciudad de México LOC
Semanario Judicial LOC
Acuerdo General Plenario ORG
Semanario 

In [12]:
len(entidades)

29

Después del procesamiento del texto, podemos observar que esta tesis cuenta con 29 entidades distintas etiquetadas con 4 diferentes categorias:

+ PER: Persona
+ LOC: Lugar 
+ ORG: Organización
+ MISC: Micelaneous i.e que no encajaron en ninguna categoria de las anteriores

