# Texto com spaCy

## Baixando pacotes e modelos pré-treinados

In [None]:
!pip install -U spacy==3.2.0

In [None]:
# Baixando modelo "grande" pré-treinado (pequeno=sm, medio=md)
!python -m spacy download 'pt_core_news_lg'

In [3]:
import spacy



In [4]:
# Carregando modelo para nlp
nlp = spacy.load('pt_core_news_lg')

In [5]:
# Pipeline de criação de tokens
nlp.pipe_names

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

## Primeiros Testes

In [6]:
tokens_doc = nlp('Hoje tem jogo do Lakers x Boston Celtics. Saudades do tempo de Kobe Bryant vs Paul Pierce')

In [7]:
type(tokens_doc)

spacy.tokens.doc.Doc

In [8]:
for token in tokens_doc:
  print(token)

Hoje
tem
jogo
do
Lakers
x
Boston
Celtics
.
Saudades
do
tempo
de
Kobe
Bryant
vs
Paul
Pierce


In [9]:
print(f'Tokens: {[token.text for token in tokens_doc]}')
print(f'StopWord: {[token.is_stop for token in tokens_doc]}')
print(f'Alfanumérico: {[token.is_alpha for token in tokens_doc]}')
print(f'Maiúsculo: {[token.is_upper for token in tokens_doc]}')
print(f'Pontuação: {[token.is_punct for token in tokens_doc]}')
print(f'Número: {[token.like_num for token in tokens_doc]}')
print(f'Sentença Inicial: {[token.is_sent_start for token in tokens_doc]}')
print(f'Formato: {[token.shape_ for token in tokens_doc]}')

Tokens: ['Hoje', 'tem', 'jogo', 'do', 'Lakers', 'x', 'Boston', 'Celtics', '.', 'Saudades', 'do', 'tempo', 'de', 'Kobe', 'Bryant', 'vs', 'Paul', 'Pierce']
StopWord: [False, True, False, True, False, False, False, False, False, False, True, True, True, False, False, False, False, False]
Alfanumérico: [True, True, True, True, True, True, True, True, False, True, True, True, True, True, True, True, True, True]
Maiúsculo: [False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Pontuação: [False, False, False, False, False, False, False, False, True, False, False, False, False, False, False, False, False, False]
Número: [False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]
Sentença Inicial: [True, False, False, False, False, False, False, False, False, True, False, False, False, False, False, False, False, False]
Formato: ['Xxxx', 'xxx', 'xxxx', 'xx'

## Part-Of-Speech (POS)

In [10]:
for token in tokens_doc:
  print(f'{token} - {token.pos_} - {token.dep_} - {token.lemma_} - {token.shape_}')

Hoje - ADV - advmod - Hoje - Xxxx
tem - VERB - ROOT - ter - xxx
jogo - NOUN - obj - jogar - xxxx
do - ADP - case - do - xx
Lakers - PROPN - nmod - Lakers - Xxxxx
x - PROPN - flat:name - x - x
Boston - PROPN - flat:name - Boston - Xxxxx
Celtics - PROPN - flat:name - Celtics - Xxxxx
. - PUNCT - punct - . - .
Saudades - NOUN - ROOT - Saudades - Xxxxx
do - ADP - case - do - xx
tempo - NOUN - nmod - tempo - xxxx
de - ADP - case - de - xx
Kobe - PROPN - nmod - Kobe - Xxxx
Bryant - PROPN - flat:name - Bryant - Xxxxx
vs - ADP - case - vs - xx
Paul - PROPN - nmod - Paul - Xxxx
Pierce - PROPN - flat:name - Pierce - Xxxxx


## Entidades nomeadas

In [11]:
for ent in tokens_doc.ents:
  print(f'{ent.text} - {ent.label_}')

Lakers - ORG
Boston Celtics - ORG
Kobe Bryant - PER
Paul Pierce - PER


## Stop Words

In [12]:
# Acessando stop words
for token in tokens_doc:
  if token.is_stop:
    print(token)

tem
do
do
tempo
de


In [15]:
# Mostrando a lista de stopwords que o modelo baixado contém
#for stop_word in nlp.Defaults.stop_words:
  #print(stop_word)

print(len(nlp.Defaults.stop_words))

416


In [None]:
# Adicionando uma stop word na lista. Suponha que Eita não exista na lista e que vc considera ela como uma stop word
#nlp.Defaults.stop_words.add('Eita')
#nlp.vocab['Eita'].is_stop = True 

In [16]:
# Removendo stop words de um texto

print(f'{[token for token in tokens_doc if not token.is_stop]}')

[Hoje, jogo, Lakers, x, Boston, Celtics, ., Saudades, Kobe, Bryant, vs, Paul, Pierce]


## Vocabulary

In [17]:
# Acessando hashs de palavras

print(f'Hash: {nlp.vocab.strings["Saudades"]}')
print(f'Hash: {tokens_doc.vocab.strings["Saudades"]}')

Hash: 5746622219371353673
Hash: 5746622219371353673


In [18]:
# Acessando palavras a partir do hash
print(f'Palavra: {nlp.vocab.strings[5746622219371353673]}')

Palavra: Saudades


## Similaridades

In [None]:
# A similaridade retorna um valor (métrica de similaridade, que no caso é a métrica de cosseno) do quão similar duas frases são

In [19]:
documento1 = nlp('Ele viaja de carro')
documento2 = nlp('Ela viaja de caminhão')

print(documento1.similarity(documento2))

0.8956823758373116


In [20]:
# Similaridades entre tokens
documento3 = nlp('Devemos dizer comprimento ou cumprimento?')
token1 = documento3[2]
token2 = documento3[4]
print(f'Similaridade entre tokens: {token1.similarity(token2)}')

Similaridade entre tokens: 0.5804340243339539


In [21]:
# Similaridade entre spans (intervalos de frases)
documento4 = nlp('Ele pede descrição. Ela pede discrição')

intervalo1 = documento4[0:3]
intervalo2 = documento4[4:7]
print(f'Similaridade entre spans: {intervalo1.similarity(intervalo2)}')

Similaridade entre spans: 0.8453987836837769


## Displacy

In [22]:
from spacy import displacy

In [26]:
# style = 'ent' (entidades nomeadas) e style = 'dep' (dependencias de tokens)
displacy.render(tokens_doc, style='ent', jupyter=True)

In [32]:
#tokens_doc.user_data['title'] = 'Dependencias de tokens' # titulo
displacy.render(tokens_doc, style='dep', jupyter=True, 
                options={'compact': True, 'distance':80, 'color': '#8B0000', 'bg': '#B0C4DE'})

## Gerenciando Pipelines no Spacy

In [34]:
# Pipeline normal
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [35]:
# Removendo passos do pipeline
print(nlp.remove_pipe('tok2vec'))
print(nlp.pipe_names)

('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x7f730f42de80>)
['morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [42]:
# Adicionando passos ao pipeline
print(nlp.add_pipe('tok2vec', before='morphologizer')) # adiciona ao final, para escolher a posição, basta colocar o parâmetro "after" ou "before"
print(nlp.pipe_names)

<spacy.pipeline.tok2vec.Tok2Vec object at 0x7f730236dc40>
['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
