# Reto 1
Construye un modelo de identificación de entidades nombradas usando las bibliotecas que consideres más apropiadas.

## Fuente de datos.
Usamos la publicación 195/2023 de la página de [comunicados](https://www.scjn.gob.mx/multimedia/comunicados). 


## Resumen de la implementación.
Usando la biblioteca spacy y el pre-entrenamiento en españo es_core_news_sm, se ha generado un diccionario de entidades, cada uno contienen una lista de elementos que el modelo identifico en esa entidad. Para ello se hizo un pequeño tratamiento en el texto, iniciando con una alteración manual al crear el archivo y una limpieza en el texto.

In [10]:
import spacy

from spacy import displacy
from spacy.pipeline.ner import DEFAULT_NER_MODEL


In [11]:
# Leyendo un comunicado
ruta = './datos/comunicado_195_2023.txt'

texto = ''
with open(ruta, 'r') as f:
    texto = f.readlines()

print(texto)

['No. 195/2023\n', '\n', 'Ciudad de México, a 05 de junio de 2023\n', '\n', 'INVALIDA LA CORTE DISPOSICIÓN DE LA LEY DE SALUD DEL ESTADO DE HIDALGO POR RESULTAR VIOLATORIA AL PRINCIPIO DE IGUALDAD\n', '\n', 'Los pueblos y comunidades indígenas deben ser consultados siempre y cuando la norma general sea susceptible de afectarles de manera especial y diferenciada frente al resto de la población\n', '\n', 'El derecho a la salud de personas, pueblos y comunidades indígenas implica recibir atención médica en su propia lengua\n', '\n', 'El Pleno de la Suprema Corte de Justicia de la Nación (SCJN), como resultado del análisis de las impugnaciones formuladas por la Comisión Nacional de los Derechos Humanos, invalidó porciones normativas del segundo párrafo del artículo 16 Quater de la Ley de Salud del Estado de Hidalgo, reformado mediante Decreto No. 179 publicado en el Periódico Oficial de esa entidad federativa el 28 de marzo de 2022.\n', '\n', 'La SCJN analizó si la inclusión expresada en l

In [12]:
# Eliminando el salto de linea
ntexto = []
for sub in texto:
    aux = sub.replace("\n", "")
    if aux:
        ntexto.append(aux)

print(ntexto)

['No. 195/2023', 'Ciudad de México, a 05 de junio de 2023', 'INVALIDA LA CORTE DISPOSICIÓN DE LA LEY DE SALUD DEL ESTADO DE HIDALGO POR RESULTAR VIOLATORIA AL PRINCIPIO DE IGUALDAD', 'Los pueblos y comunidades indígenas deben ser consultados siempre y cuando la norma general sea susceptible de afectarles de manera especial y diferenciada frente al resto de la población', 'El derecho a la salud de personas, pueblos y comunidades indígenas implica recibir atención médica en su propia lengua', 'El Pleno de la Suprema Corte de Justicia de la Nación (SCJN), como resultado del análisis de las impugnaciones formuladas por la Comisión Nacional de los Derechos Humanos, invalidó porciones normativas del segundo párrafo del artículo 16 Quater de la Ley de Salud del Estado de Hidalgo, reformado mediante Decreto No. 179 publicado en el Periódico Oficial de esa entidad federativa el 28 de marzo de 2022.', 'La SCJN analizó si la inclusión expresada en la norma de que los hospitales generales y region

In [13]:
# !spacy download es_core_news_sm

# config = {
#    "moves": None,
#    "update_with_oracle_cut_size": 100,
#    "model": DEFAULT_NER_MODEL,
#    "incorrect_spans_key": "incorrect_spans",
# }

In [14]:
# Cargar el modelo preentrenado en español
nlp = spacy.load('es_core_news_sm')

# nlp.add_pipe("ner", config=config)

In [15]:
entidades = {}
for txt in ntexto:
    # Procesar el texto con el modelo de spaCy
    procsTxt = nlp(txt)

    # Obtener las entidades nombradas y sus etiquetas
    for entidad in procsTxt.ents:
        cont = entidades.get(entidad.label_, '')
        if cont:
            entidades[entidad.label_].append(entidad.text)
        else:
            entidades[entidad.label_] = [entidad.text]
print(entidades)

{'LOC': ['Ciudad de México', 'Pleno de la Suprema Corte de Justicia de la Nación', 'SCJN', 'Quater de la Ley de Salud', 'Estado de Hidalgo', 'Periódico Oficial', 'SCJN', 'Tepehua', 'Tenek', 'Pame', 'SCJN', 'Estado de Hidalgo', 'Artículo 16 Quater', 'Estado de Hidalgo', 'Periódico Oficial', 'Ponente'], 'ORG': ['CORTE', 'Comisión Nacional de los Derechos Humanos', 'Congreso', 'Comisión Nacional de los Derechos Humanos', 'Ley de Salud'], 'MISC': ['DISPOSICIÓN', 'LEY', 'RESULTAR', 'PRINCIPIO', 'IGUALDAD', 'Decreto No', 'Estado', 'Pleno de la Corte', 'Decreto No', 'Secretaria: Paula Ximena Méndez Azuela', 'La sentencia es la única versión oficial'], 'PER': ['Náhuatl', 'Hñahñu', 'Otomí', 'Pleno', 'Javier Laynez Potisek']}


In [18]:
for txt in ntexto:
    procsTxt = nlp(txt)
    displacy.render(
        procsTxt, 
        style='ent', 
        jupyter=True
    )

