# Introdução ao spaCy

# Etapa 1: Instalação do spaCy

In [1]:
# !pip install spacy --upgrade
# #!pip install spacy==2.2.3

In [2]:
import spacy
spacy.__version__

'3.7.4'

In [3]:
# !python -m spacy download pt

# Etapa 2: Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [5]:
# Load PLN object to process portuguese text
pln = spacy.load('pt_core_news_sm')
pln

<spacy.lang.pt.Portuguese at 0x21d7b04dd90>

In [6]:
# Load a string as a pln spacy object
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [7]:
# Print the token and the POS of the text
for token in documento:
  print(token.text, token.pos_)

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
em ADP
Curitiba PROPN


## Legenda

- lemma: raiz da palavra
- pos: parte da fala
- tag: informações morfológicas, como se o verbo está no passado
- dep: dependência sintática
- shape: formato (maiúsculo, minúsculo, dígitos)
- alpha: se é alfabético
- stop: se é stopword

In [8]:
# Example of properties and functions that can be used to obtain information from a text
for token in documento:
  print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
        token.shape_, token.is_alpha, token.is_stop)

Estou estar AUX AUX aux Xxxxx True True
aprendendo aprender VERB VERB ROOT xxxx True False
processamento processamento NOUN NOUN obj xxxx True False
de de ADP ADP case xx True True
linguagem linguagem NOUN NOUN nmod xxxx True False
natural natural ADJ ADJ amod xxxx True False
, , PUNCT PUNCT punct , False False
curso curso NOUN NOUN appos xxxx True False
em em ADP ADP case xx True True
Curitiba Curitiba PROPN PROPN nmod Xxxxx True False


In [9]:
# Example of how extract the text of a specific type of POS.
# PROPN is a location
for token in documento:
  if token.pos_ == 'PROPN':
    print(token.text)

Curitiba


# Etapa 3: Lematização e stemização

- Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- Stemização: Extrair o radical das palavras

In [10]:
for token in documento:
  print(token.text, token.lemma_)

Estou estar
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
curso curso
em em
Curitiba Curitiba


In [11]:
doc = pln('encontrei encontraram encontrarão encontrariam cursando curso cursei')
[token.lemma_ for token in doc]

['encontrar',
 'encontrar',
 'encontrar',
 'encontrar',
 'cursar',
 'curso',
 'cursar']

## Comparação stemização (NLTK) x lematização (spaCy)

In [12]:
#!pip install nltk --upgrade

In [13]:
import nltk
# nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\mhpfe\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [14]:
# Load stemmer from NLTK
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprender')

'aprend'

In [15]:
# Visualizing differences between Lemmatization and Stemming
for token in documento:
  print(token.text, token.lemma_, stemmer.stem(token.text))

Estou estar est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso curso curs
em em em
Curitiba Curitiba curitib


# Etapa 4: Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition)
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas: https://spacy.io/api/annotation#named-entities

In [16]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [17]:
# Load the text string as a PLN object
documento = pln(texto)

In [18]:
# Visualizing the NER of the document entities
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [19]:
# Visual way to see the NER of a text
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [20]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'

In [21]:
documento = pln(texto)
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [22]:
displacy.render(documento, style = 'ent', jupyter = True)

In [23]:
for entidade in documento.ents:
  if entidade.label_ == 'PER':
    print(entidade.text)

Bill Gates


# Etapa 5: Stopwords

- Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [24]:
# Load spacy object to identify stop words from the portuguese language
from spacy.lang.pt.stop_words import STOP_WORDS

In [25]:
print(STOP_WORDS)

{'ela', 'deste', 'sétimo', 'demais', 'partir', 'pela', 'próprio', 'exemplo', 'tempo', 'quieta', 'sexta', 'lá', 'cento', 'umas', 'mas', 'conhecida', 'me', 'número', 'final', 'ponto', 'cuja', 'tiveste', 'fazer', 'pelos', 'sou', 'quem', 'através', 'deverá', 'pelas', 'tentaram', 'somente', 'até', 'desde', 'nem', 'meu', 'vão', 'conhecido', 'estado', 'estivemos', 'parece', 'vossas', 'sob', 'dos', 'cinco', 'portanto', 'estiveste', 'ambas', 'cima', 'neste', 'algumas', 'primeira', 'isso', 'baixo', 'tais', 'se', 'têm', 'às', 'fui', 'nuns', 'seis', 'terceira', 'pôde', 'números', 'pontos', 'qualquer', 'este', 'para', 'nível', 'quanto', 'vinte', 'for', 'porquê', 'deve', 'estivestes', 'nossos', 'oitava', 'talvez', 'podem', 'porquanto', 'diz', 'apontar', 'ainda', 'quando', 'isto', 'primeiro', 'comprida', 'cujo', 'grandes', 'ali', 'como', 'bem', 'poder', 'meses', 'pois', 'nossa', 'eventual', 'tens', 'outros', 'esteve', 'elas', 'sim', 'nos', 'logo', 'não', 'fará', 'vem', 'pelo', 'pode', 'oitavo', 'porq

In [26]:
len(STOP_WORDS)

416

In [27]:
# Spacy method to verify if a text is a stop word
pln.vocab['ir'].is_stop

True

In [28]:
pln.vocab['caminhar'].is_stop

False

In [29]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [30]:
# Verify which word is not a stop word
for token in documento:
  if not pln.vocab[token.text].is_stop:
    print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


# Etapa 6: Parsing de dependências

- Relação pai-filho entre as palavras

## Exemplo 1

In [31]:
documento = pln('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [32]:
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [33]:
list(origem.ancestors)

[saindo, passagem, reserve]

In [34]:
list(destino.ancestors)

[chegando, saindo, passagem, reserve]

In [35]:
documento[0].is_ancestor(documento[2])

True

## Exemplo 2

In [36]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [37]:
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]

In [38]:
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [39]:
for local in locais:
  print('-----', local)
  for objeto in local.ancestors:
    print(objeto)

----- restaurante
mesa
Reserva
----- hotel
táxi
restaurante
mesa
Reserva


In [40]:
for local in locais:
  for objeto in local.ancestors:
    if objeto in tarefas:
      print("Reserva de {} é para o {}".format(objeto, local))
      break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


In [41]:
list(documento[6].children)

[para, o, táxi]

## Exemplo 3

In [42]:
from spacy import displacy

In [43]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [44]:
#displacy.serve(documento, style='dep')
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

In [45]:
list(documento[3].ancestors)

[Reserva]

In [46]:
list(documento[3].children)

[de, uma, restaurante]

## Exemplo 4

In [47]:
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [48]:
for local in lugares:
  for acao in local.ancestors:
    if acao in acoes:
      print("{} para {}".format(local, acao))
      break

Curitiba para visitar
Guarulhos para ficar


In [49]:
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

# Etapa 7: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

## Exemplo 1

In [50]:
p1 = pln("olá")
p2 = pln("oi")
p3 = pln("ou")

In [51]:
p1.similarity(p2)

  p1.similarity(p2)


0.014538315607009597

In [52]:
p2.similarity(p1)

  p2.similarity(p1)


0.014538315607009597

In [53]:
p1.similarity(p3)

  p1.similarity(p3)


0.25684406844871255

In [54]:
p2.similarity(p3)

  p2.similarity(p3)


0.2508599879486254

In [55]:
texto1 = pln('Quando será lançado o novo filme?')
texto2 = pln('O novo filme será lançado mês que vem')
texto3 = pln('Qual a cor do carro?')

In [56]:
texto1.similarity(texto2)

  texto1.similarity(texto2)


0.8188962087108537

In [57]:
texto1.similarity(texto3)

  texto1.similarity(texto3)


0.4563167722610341

## Exemplo 2

In [58]:
texto = pln('gato cachorro cavalo pessoa')

In [59]:
for texto1 in texto:
  #print('----', texto1)
  for texto2 in texto:
    #print(texto2)
    similaridade = int(texto1.similarity(texto2) * 100)
    print("{} é {} similar a {}".format(texto1, similaridade, texto2))

gato é 100 similar a gato
gato é 56 similar a cachorro
gato é 36 similar a cavalo
gato é 16 similar a pessoa
cachorro é 56 similar a gato
cachorro é 100 similar a cachorro
cachorro é 57 similar a cavalo
cachorro é 16 similar a pessoa
cavalo é 36 similar a gato
cavalo é 57 similar a cachorro
cavalo é 100 similar a cavalo
cavalo é 33 similar a pessoa
pessoa é 16 similar a gato
pessoa é 16 similar a cachorro
pessoa é 33 similar a cavalo
pessoa é 100 similar a pessoa


  similaridade = int(texto1.similarity(texto2) * 100)


# Etapa 8: Tokenização

In [60]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [61]:
for token in documento:
  print(token)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
em
Curitiba


In [62]:
documento1 = 'Estou aprendendo processamento de linguagem natural, curso em Curitiba'
documento1.split(' ')

['Estou',
 'aprendendo',
 'processamento',
 'de',
 'linguagem',
 'natural,',
 'curso',
 'em',
 'Curitiba']