In [1]:
# !pip install -U pip setuptools wheel
# !pip install -U spacy
# !python -m spacy download en_core_web_sm
# !python -m spacy download pt_core_news_sm --user

In [2]:
import spacy
import numpy as np

In [3]:
# Criando instância
nlp = spacy.load("pt_core_news_sm")

In [4]:
with open("wiki_br.txt", "r", encoding="utf8") as f:
    text = f.read()
print(text)

Brasil (localmente [bɾaˈziw][c]), oficialmente República Federativa do Brasil, é o maior país da América do Sul e da região da América Latina, sendo o quinto maior do mundo em área territorial (equivalente a 47,3% do território sul-americano), com 8 510 417,771 km², e o sétimo em população (com 212 milhões de habitantes, em julho de 2024). É o único país na América onde se fala majoritariamente a língua portuguesa e o maior país lusófono do planeta,[17] além de ser uma das nações mais multiculturais e etnicamente diversas, em decorrência da forte imigração oriunda de variados locais do mundo. Sua atual constituição, promulgada em 1988, concebe o Brasil como uma república federativa presidencialista,[11] formada pela união dos 26 estados, do Distrito Federal e dos 5 571 municípios.[11][18][nota 1]

Banhado pelo Oceano Atlântico, o Brasil tem um litoral de 7 491 km[17] e faz fronteira com todos os outros países sul-americanos, exceto Chile e Equador, sendo limitado a norte pela Venezuela

In [5]:
# O objeto nlp separa o doc em tokens (tokenização).
doc = nlp(text)
print(doc)

Brasil (localmente [bɾaˈziw][c]), oficialmente República Federativa do Brasil, é o maior país da América do Sul e da região da América Latina, sendo o quinto maior do mundo em área territorial (equivalente a 47,3% do território sul-americano), com 8 510 417,771 km², e o sétimo em população (com 212 milhões de habitantes, em julho de 2024). É o único país na América onde se fala majoritariamente a língua portuguesa e o maior país lusófono do planeta,[17] além de ser uma das nações mais multiculturais e etnicamente diversas, em decorrência da forte imigração oriunda de variados locais do mundo. Sua atual constituição, promulgada em 1988, concebe o Brasil como uma república federativa presidencialista,[11] formada pela união dos 26 estados, do Distrito Federal e dos 5 571 municípios.[11][18][nota 1]

Banhado pelo Oceano Atlântico, o Brasil tem um litoral de 7 491 km[17] e faz fronteira com todos os outros países sul-americanos, exceto Chile e Equador, sendo limitado a norte pela Venezuela

In [6]:
print(len(text))
print(len(doc))

4258
775


In [7]:
for letter in text[0:10]:
    print(letter)

B
r
a
s
i
l
 
(
l
o


In [8]:
for not_token in text.split()[:10]:
    print(not_token)

Brasil
(localmente
[bɾaˈziw][c]),
oficialmente
República
Federativa
do
Brasil,
é
o


In [9]:
# Tokenização é diferente do split, pois detecta além da separação 
# por espaço e adiciona atributos aos tokens.
for token in doc[0:10]:
    print(token)

Brasil
(
localmente
[
bɾaˈziw][c
]
)
,
oficialmente
República


In [10]:
# Da mesma forma, a sentenciação (.sents) é diferente do split(".").
# Separando as sentenças em spans.
for sent in doc.sents:
    print(sent)

Brasil (localmente [bɾaˈziw][c]), oficialmente República Federativa do Brasil, é o maior país da América do Sul e da região da América Latina, sendo o quinto maior do mundo em área territorial (equivalente a 47,3% do território sul-americano), com 8 510 417,771 km², e o sétimo em população (com 212 milhões de habitantes, em julho de 2024).
É o único país na América onde se fala majoritariamente a língua portuguesa e o maior país lusófono do planeta,[17] além de ser uma das nações mais multiculturais e etnicamente diversas, em decorrência da forte imigração oriunda de variados locais do mundo.
Sua atual constituição, promulgada em 1988, concebe o Brasil como uma república federativa presidencialista,[11] formada pela união dos 26 estados, do Distrito Federal e dos 5 571 municípios.[11][18][nota 1]

Banhado pelo Oceano Atlântico, o Brasil tem um litoral de 7 491 km[17] e faz fronteira com todos os outros países sul-americanos, exceto Chile e Equador, sendo limitado a norte pela Venezuela

In [11]:
# Para acessar as spans por index, tem que converter para lista
sent_1 = list(doc.sents)[0]
print(sent_1)
print(type(sent_1))

Brasil (localmente [bɾaˈziw][c]), oficialmente República Federativa do Brasil, é o maior país da América do Sul e da região da América Latina, sendo o quinto maior do mundo em área territorial (equivalente a 47,3% do território sul-americano), com 8 510 417,771 km², e o sétimo em população (com 212 milhões de habitantes, em julho de 2024).
<class 'spacy.tokens.span.Span'>


In [12]:
token_1 = sent_1[9]
print(token_1)
print(type(token_1))

República
<class 'spacy.tokens.token.Token'>


In [13]:
print(f"Text: {token_1.text}") # String de texto do token
print(f"Left: {token_1.left_edge}") # Elemento antes da entidade
print(f"Righ: {token_1.right_edge}") # Elemento depois da entidade
print(f"Type: #{token_1.ent_type}") # Nº do tipo de entidade
print(f"Type: {token_1.ent_type_}") # Nome do tipo de entidade - específico
print(f"Loca: {token_1.ent_iob_}") # I-inside, B-begining, O-outside entidade
print(f"Lema: {token_1.lemma_}") # Lema, sem inflexões
print(f"Morp: {token_1.morph}") # Morfossintaxe
print(f"PoS : {token_1.pos_}") # PoS tag: PROPN proper noun
print(f"Dep : {token_1.dep_}") # Dependência sintática: conj, conjunct, parte de conjunção
print(f"Lang: {token_1.lang_}") # Idioma


Text: República
Left: ,
Righ: Brasil
Type: #385
Type: LOC
Loca: B
Lema: República
Morp: Gender=Fem|Number=Sing
PoS : PROPN
Dep : conj
Lang: pt


In [14]:
text = "Fábio gosta de jogar futebol."
doc2 = nlp(text)
print(doc2)

Fábio gosta de jogar futebol.


In [15]:
for token in doc2:
    print(f"{token.text} | {token.pos_} | {token.dep_}")

Fábio | NOUN | nsubj
gosta | VERB | ROOT
de | SCONJ | mark
jogar | VERB | xcomp
futebol | NOUN | obj
. | PUNCT | punct


In [16]:
from spacy import displacy
displacy.render(doc2, style="dep")

In [17]:
for ent in doc.ents:
    print(f"{ent.text} | {ent.label_}")

Brasil | LOC
República Federativa do Brasil | LOC
América do Sul | LOC
América | LOC
América | LOC
planeta,[17 | MISC
Brasil | LOC
Distrito Federal | LOC
Banhado | MISC
Oceano Atlântico | LOC
Brasil | LOC
Chile | LOC
Equador | LOC
Venezuela | LOC
Guiana | LOC
Suriname | LOC
Guiana Francesa | LOC
Colômbia | LOC
Bolívia | LOC
Peru | LOC
Argentina | LOC
Paraguai | LOC
Uruguai | LOC
Atol das Rocas | LOC
Arquipélago de São Pedro e São Paulo | LOC
Fernando de Noronha | LOC
Trindade e Martim Vaz.[17 | LOC
O Brasil | MISC
Brasil | LOC
Pedro Álvares Cabral | PER
Antonio de Herrera | PER
Pietro d'Anghiera | PER
Vicente Yáñez Pinzón | PER
Portugal | LOC
Tratado de Tordesilhas | MISC
Império | LOC
Lisboa | LOC
Rio de Janeiro | LOC
Napoleão Bonaparte | PER
Brasil | LOC
reino unido com Portugal | LOC
Dom Pedro I | PER
Brasil | LOC
marechal Deodoro da Fonseca | PER
Congresso Nacional | LOC
Constituição | ORG
América | LOC
Latina | LOC
Hemisfério Sul.[27 | MISC
anos,[28 | ORG
Banco | ORG
América do Su

In [18]:
import pandas as pd
df_ents = pd.DataFrame(columns=["text", "label"])
for ent in doc.ents:
    df_ents.loc[len(df_ents)] = [ent.text, ent.label_]

df_ents

Unnamed: 0,text,label
0,Brasil,LOC
1,República Federativa do Brasil,LOC
2,América do Sul,LOC
3,América,LOC
4,América,LOC
...,...,...
60,OEA,ORG
61,Organização dos Estados Ibero-americanos,ORG
62,OEI,LOC
63,Mercado Comum do Sul,LOC


In [19]:
displacy.render(doc, style="ent")

In [20]:
# !python -m spacy download pt_core_news_md --user
# !python -m spacy download en_core_web_md --user

In [21]:
nlp = spacy.load("pt_core_news_md")

In [22]:
with open("wiki_br.txt", "r", encoding="utf8") as f:
    text = f.read()

In [23]:
doc = nlp(text)
sentence1 = list(doc.sents)[0]
print(sentence1)

Brasil (localmente [bɾaˈziw][c]), oficialmente República


In [24]:
# similaridade de palavras
your_word = "atual"
ms = nlp.vocab.vectors.most_similar(
    np.asarray([nlp.vocab.vectors[nlp.vocab.strings[your_word]]]), n=10)
words = [nlp.vocab.strings[w] for w in ms[0][0]]
distances = ms[2]
print(words)

['atual', 'actu', 'revalorizada', 'vigeu', 'socio-econômico', 'Saiga', 'alcantil', 'nacionalina', 'técnico-cultural', 'organizações']


In [25]:
doc1 = nlp("Eu gosto de batata frita e hamburguer.")
doc2 = nlp("Vou fazer uma pizza.")

In [26]:
print(doc1, "<->", doc2, doc1.similarity(doc2))

Eu gosto de batata frita e hamburguer. <-> Vou fazer uma pizza. 0.5204905867576599


In [27]:
doc3 = nlp("O Cristo Redentor é no Rio de Janeiro.")
print(doc1, "<->", doc3, doc1.similarity(doc3))

Eu gosto de batata frita e hamburguer. <-> O Cristo Redentor é no Rio de Janeiro. 0.13528932631015778


In [28]:
doc4 = nlp("Eu gosto de laranja.")
doc5 = nlp("Eu gosto de maçã.")
print(doc4, "<->", doc5, doc4.similarity(doc5))

Eu gosto de laranja. <-> Eu gosto de maçã. 0.9850549101829529


In [29]:
doc6 = nlp("Eu gosto de música.")
print(doc4, "<->", doc6, doc4.similarity(doc6))

Eu gosto de laranja. <-> Eu gosto de música. 0.9591431021690369


In [30]:
# PIPES
nlp = spacy.blank("en")

In [31]:
nlp.add_pipe("sentencizer")

<spacy.pipeline.sentencizer.Sentencizer at 0x1e397f30dd0>

In [32]:
import requests
from bs4 import BeautifulSoup

In [33]:
s = requests.get("https://ocw.mit.edu/ans7870/6/6.006/s08/lecturenotes/files/t8.shakespeare.txt")
soup = BeautifulSoup(s.content).text.replace("-\n", "").replace("\n", "")
nlp.max_length = 5278439

In [34]:
%%time
doc = nlp(soup)
print(len(list(doc.sents)))

93546
CPU times: total: 12 s
Wall time: 14.5 s


In [35]:
nlp2 = spacy.load("en_core_web_sm")
nlp2.max_length = 5278439

In [36]:
# Isso vai demorar mais de 1h
# %%time
# doc = nlp2(soup)
# print(len(list(doc.sents)))

In [37]:
nlp.analyze_pipes()

{'summary': {'sentencizer': {'assigns': ['token.is_sent_start', 'doc.sents'],
   'requires': [],
   'scores': ['sents_f', 'sents_p', 'sents_r'],
   'retokenizes': False}},
 'problems': {'sentencizer': []},
 'attrs': {'token.is_sent_start': {'assigns': ['sentencizer'], 'requires': []},
  'doc.sents': {'assigns': ['sentencizer'], 'requires': []}}}

In [38]:
nlp2.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'tagger': {'assigns': ['token.tag'],
   'requires': [],
   'scores': ['tag_acc'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False}},
 'problems': {'tok2vec': [],
  'tagger': [],
  'parser': [],
  'attribute_ruler': [],
  'lemmatizer': [],
  'ner': []},
 'att

In [57]:
# EntityRuler
nlp = spacy.load("pt_core_news_sm")
text = "Nísia Floresta foi referenciado em Sr. Vieira."
doc = nlp(text)

In [58]:
# Ele acacha que Nísia Floresta é uma pessoa
for ent in doc.ents:
    print(ent.text, ent.label_)

Nísia Floresta PER
Sr. Vieira PER


In [59]:
ruler = nlp.add_pipe("entity_ruler")

In [60]:
nlp.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'morphologizer': {'assigns': ['token.morph', 'token.pos'],
   'requires': [],
   'scores': ['pos_acc', 'morph_acc', 'morph_per_feat'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'entity_ruler': {'assigns': ['doc.ents', 'token.ent_type', 'token.ent_i

In [61]:
patterns = [
    {"label": "LOC",
     "pattern": "Nísia Floresta"}
]

In [62]:
ruler.add_patterns(patterns)

In [64]:
# Não mudou, porque o entityruler não consegue mudar o resultado do ner
# Podemos dar um jeito de override o ner ou colocar o entityruler antes
doc2 = nlp(text)
for ent in doc2.ents:
    print(ent.text, ent.label_)

Nísia Floresta PER
Sr. Vieira PER


In [65]:
# Colocando o entityruler antes
nlp2 = spacy.load("pt_core_news_sm")
ruler = nlp2.add_pipe("entity_ruler", before="ner") # aqui
ruler.add_patterns(patterns)

In [66]:
doc = nlp2(text)

In [None]:
# Aqui está forçamdp Nísia Floresta a ser LOC
for ent in doc.ents:
    print(ent.text, ent.label_)

Nísia Floresta LOC
Sr. Vieira PER


In [80]:
nlp3 = spacy.load("pt_core_news_sm")
ruler = nlp3.add_pipe("entity_ruler", before="ner") # aqui
patterns = [
    {"label": "LOC", "pattern": "Nísia Floresta"},
    {"label": "FILME", "pattern": "Sr. Vieira"}
]
ruler.add_patterns(patterns)

In [81]:
doc = nlp3(text)
for ent in doc.ents:
    print(ent.text, ent.label_)

Nísia Floresta LOC
Sr. Vieira FILME
