In [7]:
import spacy
import random
from spacy import util
from spacy.tokens import Doc
from spacy.training import Example
from spacy.language import Language
from spacy import displacy

def print_doc_entities(_doc: Doc):
    if _doc.ents:
        for _ent in _doc.ents:
            print(f"     {_ent.text} {_ent.label_}")
    else:
        print("     NONE")

def customizing_pipeline_component(nlp: Language, train_data):
    train_data = [
        ('APPLE is releasing a new iPhone next month', [(0, 5, "BRAND"), (25, 31, "PRODUCT")]),
        ("Nike is the world's leading sportswear brand", [(0, 4, "BRAND")]),
        ("Coca-Cola's revenue has increased by 5% this year", [(0, 10, "BRAND")])
    ]
    text = "APPle is releasing a new iPhone next month, I bought one for my friend Pedro, in Peru"
    # Result before training
    print(f"\nResult BEFORE training:")
    doc = nlp(text)
    print_doc_entities(doc)
    displacy.render(doc, style='ent', jupyter=True)

    # Disable all pipe components except 'ner'
    disabled_pipes = []
    for pipe_name in nlp.pipe_names:
        if pipe_name != 'ner':
            nlp.disable_pipes(pipe_name)
            disabled_pipes.append(pipe_name)

    print("   Training ...")
    optimizer = nlp.create_optimizer()
    for _ in range(25):
        random.shuffle(train_data)
        for raw_text, entity_offsets in train_data:
            doc = nlp.make_doc(raw_text)
            example = Example.from_dict(doc, {"entities": entity_offsets})
            nlp.update([example], sgd=optimizer)

    # Enable all previously disabled pipe components
    for pipe_name in disabled_pipes:
        nlp.enable_pipe(pipe_name)

    # Result after training
    print(f"Result AFTER training:")
    doc = nlp(text)
    print_doc_entities(doc)
    displacy.render(doc, style='ent', jupyter=True)

def main():
    nlp = spacy.load('en_core_web_sm')
    customizing_pipeline_component(nlp, None)


In [8]:
main()


Result BEFORE training:
     APPle ORG
     iPhone ORG
     next month DATE
     Pedro PERSON
     Peru GPE


   Training ...
Result AFTER training:
     APPle BRAND
     iPhone PRODUCT
     Pedro PERSON
     Peru GPE


---

In [1]:
import spacy
import random
from spacy import util
from spacy.tokens import Doc
from spacy.training import Example
from spacy.language import Language
from spacy import displacy

2023-11-21 13:09:46.822216: I tensorflow/core/util/port.cc:111] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2023-11-21 13:09:46.862091: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-11-21 13:09:47.081543: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-11-21 13:09:47.081608: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-11-21 13:09:47.082631: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to regi

In [2]:
def customizing_pipeline_component(nlp: Language, train_data: list):
    # Disable all pipe components except 'ner'
    disabled_pipes = []
    for pipe_name in nlp.pipe_names:
        if pipe_name != 'ner':
            nlp.disable_pipes(pipe_name)
            disabled_pipes.append(pipe_name)

    print("   Training ...")
    optimizer = nlp.create_optimizer()
    for _ in range(25):
        random.shuffle(train_data)
        for raw_text, entity_offsets in train_data:
            doc = nlp.make_doc(raw_text)
            example = Example.from_dict(doc, {"entities": entity_offsets})
            nlp.update([example], sgd=optimizer)

    # Enable all previously disabled pipe components
    for pipe_name in disabled_pipes:
        nlp.enable_pipe(pipe_name)

    return nlp

In [4]:
dict_entity = [
    "Ceviche",
    "Lomo Saltado",
    "Aji de Gallina",
    "Anticuchos",
    "Rocoto Relleno",
    "Papa a la Huancaína",
    "Causa Rellena",
    "Huancaina",
    "Tacu Tacu",
    "Seco con Frejoles",
    "Causa Limeña",
    "Arroz con Pollo",
    "Chaufa",
    "Olluquito con Charqui",
    "Jalea de Mariscos",
    "Lechón al Horno",
    "Parihuela",
    "Aeropuerto",
    "Rocoto Relleno de Pescado",
    "Chupe de Camarones"
]
docs = "La gastronomía peruana es una exquisita fusión de sabores, colores y texturas que reflejan la rica diversidad cultural del país. Desde el emblemático ceviche, donde la frescura del pescado se mezcla con el vibrante sabor del ají y la acidez del limón, hasta el reconfortante lomo saltado, que combina trozos de carne salteados con verduras y especias, los platos típicos de Perú son un festín para los sentidos. La influencia de ingredientes autóctonos como la papa y el maíz se entrelaza con la herencia culinaria española, africana y asiática, dando lugar a creaciones únicas como el ají de gallina, la causa rellena o el picante rocoto relleno. La variedad y complejidad de la cocina peruana reflejan no solo la geografía diversa del país, sino también la pasión y creatividad de sus chefs, convirtiendo a Perú en un destino culinario de renombre mundial. El ceviche, considerado el plato insignia de la gastronomía peruana, es una experiencia culinaria que encapsula la frescura y la vitalidad de los productos marinos de la costa peruana. Este platillo, que ha trascendido fronteras para ganarse reconocimiento internacional, consiste en pescado crudo cortado en trozos, marinado en jugo de limón fresco, junto con cebolla roja, ají amarillo, cilantro y sal. El cítrico jugo de limón no solo le confiere al pescado una textura firme y un sabor vibrante, sino que también actúa como un cocinero natural al desnaturalizar las proteínas del pescado. Lo que hace al ceviche peruano único es su armoniosa combinación de ingredientes, donde el ají amarillo aporta un toque de picante equilibrado, la cebolla roja añade un crujido fresco, y el cilantro contribuye con su fragancia herbácea. A menudo, el ceviche se sirve acompañado de maíz choclo y camote, que complementan la experiencia con su dulzura y suavidad, contrarrestando la acidez y picante del platillo principal. Este deleite culinario no solo destaca por su sabor excepcional, sino también por su importancia cultural y social. Es un plato que se disfruta en reuniones familiares, celebraciones y en las playas que bordean la costa peruana, ofreciendo una experiencia gastronómica que refleja la conexión única entre la tierra y el mar en la identidad culinaria de Perú."
sentences = docs.split(".")
# print(sentences)

import re

train_data = []
for s in sentences:
    # tokens = s.split()
    # print(s)
    for entity in dict_entity:
        match = (re.search(entity.lower(), s.lower()))
        if match:
            span = match.span()
            train_data.append((s, [(span[0], span[1], "PERUVIAN-FOOD")]))
train_data

[(' Desde el emblemático ceviche, donde la frescura del pescado se mezcla con el vibrante sabor del ají y la acidez del limón, hasta el reconfortante lomo saltado, que combina trozos de carne salteados con verduras y especias, los platos típicos de Perú son un festín para los sentidos',
  [(22, 29, 'PERUVIAN-FOOD')]),
 (' Desde el emblemático ceviche, donde la frescura del pescado se mezcla con el vibrante sabor del ají y la acidez del limón, hasta el reconfortante lomo saltado, que combina trozos de carne salteados con verduras y especias, los platos típicos de Perú son un festín para los sentidos',
  [(147, 159, 'PERUVIAN-FOOD')]),
 (' La influencia de ingredientes autóctonos como la papa y el maíz se entrelaza con la herencia culinaria española, africana y asiática, dando lugar a creaciones únicas como el ají de gallina, la causa rellena o el picante rocoto relleno',
  [(221, 235, 'PERUVIAN-FOOD')]),
 (' La influencia de ingredientes autóctonos como la papa y el maíz se entrelaza co

In [5]:
text = "En Perú, lo que hace al ceviche peruano único es su armoniosa combinación de ingredientes, donde el ají amarillo aporta un toque de picante equilibrado, la cebolla roja añade un crujido fresco, y el cilantro contribuye con su fragancia herbácea. A menudo, el ceviche se sirve acompañado de maíz choclo y camote, que complementan la experiencia con su dulzura y suavidad, contrarrestando la acidez y picante del platillo principal."
nlp = spacy.load("es_core_news_sm")
# Result after training
doc = nlp(text)
displacy.render(doc, style='ent', jupyter=True)

In [6]:
nlp = customizing_pipeline_component(nlp, train_data)
doc = nlp(text)
displacy.render(doc, style='ent', jupyter=True)

   Training ...
