In [17]:
import spacy
from spacy import displacy

nlp = spacy.load("pt_core_news_md")

In [11]:
#Lexemas são entradas do vocabulário que independem do contexto -> não armazenam marcadores de classe gramatical, termo sintático ou entidade

![vocab_stringstore.png](attachment:vocab_stringstore.png)

In [12]:
#Exibe o código hash da string o vocabulário
print(nlp.vocab.strings["café"])

#Exibe a string que representa que contém o coódigo hash no vocabulário
print(nlp.vocab.strings[32833993555699147])

32833993555699147
café


In [13]:
#O objeto Doc tem três parâmetros: o vocabulário compartilhado, as palavras e os espaços em branco

from spacy.tokens import Doc

words = ["Olá", "mundo", "!"]
spaces = [True, False, False]

# Criar um doc manualmente
doc = Doc(nlp.vocab, words=words, spaces=spaces)

In [14]:
#Um objeto Span é uma partição do documento consistindo de um ou mais tokens
#Ele necessita de pelo menos três parâmetros: o doc ao qual a partição se refere, os índices do início e do fim da partição

from spacy.tokens import Span

# Criar uma particção span manualmente
span = Span(doc, 0, 2)

In [15]:
#Registrando uma nova entidade

doc =nlp("Eu gosto do David Bowie")
span = Span(doc, 3, 5, label="PERSON")

# Adicionand a partição às entidades do doc.
doc.ents = [span]

# Imprima o texto e os marcadores das entidades
print([(ent.text, ent.label_) for ent in doc.ents])

[('David Bowie', 'PERSON')]


In [40]:
#Similaridade
#Só funciona com os modelos médio ou grande

#Comparando dois documentos
doc1 = nlp("Eu gosto de pizza")
doc2 = nlp("Eu gosto de hambúrguer")
print(doc1.similarity(doc2))

#Comparando dois tokens
doc = nlp("Eu gosto de pizza e macarrão")
token1 = doc[3]
token2 = doc[5]
print(token1.similarity(token2))

#Comparando uma partição com um documento
span = nlp("Eu gosto de batata frita")[3:5]
doc = nlp("McDonalds vende hambúrguers")
print(span.similarity(doc))

#A similaridade é calculada pelos vetores de palavras, que são representações multi dimensionais do significado de cada palavra
#A similaridade com Doc e span é calculada pela média dos tokens
#print(doc[2].vector) -> mostra o vetor de palavras

#Tomar cuidado com a similaridade
doc1 = nlp("Eu amo gatos")
doc2 = nlp("Eu odeio gatos")
print(doc1.similarity(doc2))

0.9867821898363601
0.59305704
0.36512379952655943
0.9719777014999218


In [59]:
#Combinando modelos e regras

#PhraseMatcher
# - Permite acesso aos tokens e os contextos
# - Excelente para comparar listas grandes de palavras
# - Mais eficiente e mais rápido que o Comparador Matcher

from spacy.matcher import PhraseMatcher

matcher = PhraseMatcher(nlp.vocab)

pattern = nlp("Golden Retriever")
matcher.add("DOG", None, pattern)
doc = nlp("Eu tenho um Golden Retriever")

# Itera nas correspondências
for match_id, start, end in matcher(doc):
    # Obtem a partição que houve correspondência
    span = doc[start:end]
    print("Padrão encontrado:", span.text)
    # Obter o token raiz e o token cabeçalho da partição 
    print("Token raiz:", span.root.text)
    print("Token cabeçalho:", span.root.head.text)
    # Obter o token anterior e seu marcador de classe gramatical
    print("Token anterior:", doc[start - 1].text, doc[start - 1].pos_)

Padrão encontrado: Golden Retriever
Token raiz: Golden
Token cabeçalho: tenho
Token anterior: um DET


In [74]:
#Combinando modelos e regras Ex2

nlp = spacy.load("en_core_web_sm")

#Carrega os txts em listas
with open("Textos/Paises.txt", encoding="utf8") as f:
    COUNTRIES_RAW = f.read()
with open("Textos/Noticia.txt", encoding="utf8") as f:
    TEXT = f.read()
    
COUNTRIES = COUNTRIES_RAW.split("\n")    

#Inicializa o PhraseMatcher, transforma lista de países em doc e adiciona na lista de padrões
matcher = PhraseMatcher(nlp.vocab)
patterns = list(nlp.pipe(COUNTRIES))
matcher.add("COUNTRY", None, *patterns)

# Criar um doc com a notícia e reseta a lista de entidades dele
doc = nlp(TEXT)
doc.ents = []

# Itera nos resultados do combinador
for match_id, start, end in matcher(doc):
    # Crir um Span com o marcador "GPE"
    span = Span(doc, start, end, label="GPE")

    # Atualiza doc.ents com esse Span
    doc.ents = list(doc.ents) + [span]

    # Identificar o token inicial da partição
    span_root_head = span.root.head
    # Imprimir o texto to token inicial da partição e o texto da partição
    print(span_root_head.text, "-->", span.text)

# Imprimir as entidades do documento
print([(ent.text, ent.label_) for ent in doc.ents if ent.label_ == "GPE"])

future --> Afghanistan
in --> Yemen
Yemen --> Syria
Syria --> Ethiopia
elected --> Iran
Taliban --> Afghanistan
in --> Haiti
draws --> Ethiopia
leader --> Haiti
of --> Maldives
prosper --> United States
seeking --> United States
repair --> United States
States --> China
from --> France
to --> Australia
contract --> Australia
repair --> United States
States --> China
Sea --> China
between --> United States
States --> France
alliance --> Australia
with --> China
speech --> China
presence --> China
with --> United States
was --> Brazil
of --> Brazil
in --> Brazil
government --> Brazil
of --> Maldives
cease --> Maldives
from --> Afghanistan
to --> Ethiopia
Ethiopia --> Yemen
[('Afghanistan', 'GPE'), ('Yemen', 'GPE'), ('Syria', 'GPE'), ('Ethiopia', 'GPE'), ('Iran', 'GPE'), ('Afghanistan', 'GPE'), ('Haiti', 'GPE'), ('Ethiopia', 'GPE'), ('Haiti', 'GPE'), ('Maldives', 'GPE'), ('United States', 'GPE'), ('United States', 'GPE'), ('United States', 'GPE'), ('China', 'GPE'), ('France', 'GPE'), ('Au