In [22]:
import spacy

# Carrega o modelo pre-treinado da língua Portuguesa do spaCy
nlp = spacy.load('pt_core_news_sm')

text = 'Foi arrasador quando primeiro descobrimos que nosso manuscrito de Galileu na realidade não é de Galileu,' \
    ' disse em entrevista a diretora interina das bibliotecas da universidade, Donna L. Hayward. Mas como a fina' \
    ' lidade... E esse é um teste para verificar se o spaCy consegue captuar o título do Dr. Jucelino. ' \
    'e um pouco mais de texto para identificar o reconhecimento de entidade localidade João Pessoa-PB, Salvador,' \
    'Ilhéus e Itaparica.' \
    
doc = nlp(text)

for ent in doc.ents:
    print(ent.text, ent.label_)

Galileu PER
Galileu PER
Donna L. PER
Dr. Jucelino MISC
João Pessoa-PB, Salvador PER
Ilhéus LOC
Itaparica LOC


In [23]:
options = {"compact": True, "bg": "#09a3d5",
           "color": "white", "font": "Source Sans Pro"}

spacy.displacy.serve(doc, style='ent', options=options)




Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [24]:
import spacy
from spacy.language import Language
from spacy.tokens import Span

nlp = spacy.load("pt_core_news_sm")

@Language.component("expand_person_entities")
def expand_person_entities(doc):
    new_ents = []
    for ent in doc.ents:
        if (ent.label_ == "PERSON" or ent.label_ == "MISC") and ent.start != 0:
            prev_token = doc[ent.start - 1]
            if prev_token.text in ("Dr", "Dr.", "Mr", "Mr.", "Ms", "Ms."):
                new_ent = Span(doc, ent.start - 1, ent.end, label=ent.label)
                new_ents.append(new_ent)
        else:
            new_ents.append(ent)
    doc.ents = new_ents
    return doc

# Add the component after the named entity recognizer
nlp.add_pipe("expand_person_entities", after="ner")

doc = nlp("Dr. Alex Smith chaired first board meeting of Acme Corp Inc.")
print([(ent.text, ent.label_) for ent in doc.ents])

[('Dr. Alex Smith', 'PER')]


In [27]:
import spacy

nlp = spacy.load('pt_core_news_sm')
ruler = nlp.add_pipe("entity_ruler")

patterns = [{"label": "PERSONA", 
             "pattern": [{"TEXT": {"REGEX": r"\d{3}"}}]
            }]
            
ruler.add_patterns(patterns) 

doc = nlp("This is Fred and his number is 123 to get an apple  pie") 
for ent in doc.ents:
    print(ent.text, ent.label_)


This is Fred MISC
123 PERSONA
apple ORG
