In [17]:
# importamos spacy
import spacy

In [2]:
# descargamos e instalamos el modelo preentrenado
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.6.0/es_core_news_sm-3.6.0-py3-none-any.whl (12.9 MB)
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.6.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [3]:
# creamos el modelo
nlp = spacy.load('es_core_news_sm')

In [4]:
# texto de prueba
text = ("Apple está buscando comprar una startup del Reino Unido por mil millones de dólares."
        "San Francisco considera prohibir los robots de entrega en la acera.")

In [5]:
# Procesamos el texto de prueba
doc = nlp(text)

In [19]:
# probamos el modelo
for entity in doc.ents:
  print(f"Entidad: {entity.text}; Etiqueta: {entity.label_}")

Entidad: Apple; Etiqueta: ORG
Entidad: Reino Unido; Etiqueta: LOC
Entidad: San Francisco; Etiqueta: LOC


In [9]:
# guardamos el modelo preentrenado en la ruta model_path
model_path = "C:/Users/mike_/OneDrive/Escritorio/pruebas nlp/spacy/model"
nlp.to_disk(model_path)

In [10]:
# cargamos el modelo, ya no es necesario descargar el modelo preentrenado
nlp2 = spacy.load(model_path)

In [11]:
# procesamos texto
doc2 = nlp2(text)

In [12]:
# probamos el modelo
for entity in doc2.ents:
  print(f"Entity: {entity.text}, Type: {entity.label_}")

Entity: Apple, Type: ORG
Entity: Reino Unido, Type: LOC
Entity: San Francisco, Type: LOC


In [20]:
# funcion para obtener entidades de una lista de textos
def obtener_entidades(texto):
    """
    argumento text: lista de strings con el texto a procesar
    return: diccionario con las entidades de cada oración
    """
    output = {"resultado":[]}
    for oracion in texto:
        doc = nlp2(oracion)
        entidades = {}
        for entidad in doc.ents:
            entidades[entidad.text] = entidad.label_

        output["resultado"].append(
            {
                "oración":oracion,
                "entidades":entidades
            }
        )
    return output

In [22]:
# Prueba de función
oraciones = [ "Apple está buscando comprar una startup del Reino Unido por mil millones de dólares.", 
             "San Francisco considera prohibir los robots de entrega en la acera." ]
obtener_entidades(oraciones)

{'resultado': [{'oración': 'Apple está buscando comprar una startup del Reino Unido por mil millones de dólares.',
   'entidades': {'Apple': 'ORG', 'Reino Unido': 'LOC'}},
  {'oración': 'San Francisco considera prohibir los robots de entrega en la acera.',
   'entidades': {'San Francisco': 'LOC'}}]}