## Customizando componentes no vocabulário em português

In [None]:
import spacy

In [None]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m43.7 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
nlp = spacy.load("pt_core_news_sm")
doc = nlp("Brasil é um lugar top. Maria é médica")

In [None]:
for ent in doc.ents:
    print(ent.text, ent.label_)

Brasil LOC
Maria PER


In [None]:
from spacy.language import Language

In [None]:
@Language.component("remove_per")
def remove_per(doc):
    original_ents = list(doc.ents)
    for ent in doc.ents:
        if ent.label_ == "PER":
            original_ents.remove(ent)
    doc.ents = original_ents
    return doc

In [None]:
nlp.add_pipe("remove_per")

In [None]:
nlp.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'morphologizer': {'assigns': ['token.morph', 'token.pos'],
   'requires': [],
   'scores': ['pos_acc', 'morph_acc', 'morph_per_feat'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'remove_gpe': {'assigns': [],
   'requires': [],
   'scores': [],
   'r

In [None]:
doc = nlp("Brasil é um lugar top. Maria é médica")

In [None]:
for ent in doc.ents:
    print(ent.text, ent.label_)

Brasil LOC


## Utilizando Regex em português

In [None]:
import re

In [None]:
text = "Wagner Domingues Costa, conhecido pelo nome artístico de Mr. Catra (Rio de Janeiro, 5 de novembro de 1968 — São Paulo, 9 de setembro de 2018), foi um cantor e compositor brasileiro. Wagner Maniçoba de Moura é um ator, diretor, roteirista, produtor e músico brasileiro. Reconhecido por suas atuações em filmes e séries nacionais e internacionais, é um dos atores brasileiros mais conhecidos fora do país. Wilhelm Richard Wagner foi um maestro, compositor, diretor de teatro e ensaísta alemão, primeiramente conhecido por suas óperas."

In [None]:
pattern = r"Wagner [A-Z]\w+"

In [None]:
matches = re.finditer(pattern, text)

In [None]:
for match in matches:
    print(match)

<re.Match object; span=(0, 16), match='Wagner Domingues'>
<re.Match object; span=(182, 197), match='Wagner Maniçoba'>


In [None]:
import spacy
from spacy.tokens import Span

In [None]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m65.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
nlp = spacy.blank("pt")
doc = nlp(text)
original_ents = list(doc.ents)
mwt_ents = []
for match in re.finditer(pattern, doc.text):
    start, end = match.span()
    span = doc.char_span(start, end)
    if span is not None:
        mwt_ents.append((span.start, span.end, span.text))

In [None]:
print(mwt_ents)

[(0, 2, 'Wagner Domingues'), (39, 41, 'Wagner Maniçoba')]
