# Introdução ao spaCy

# Etapa 1: Instalação do spaCy

In [1]:
#!pip install spacy --upgrade
!pip install spacy==2.2.3



In [2]:
import spacy
spacy.__version__

'2.2.3'

In [3]:
!python -m spacy download pt

Collecting pt_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.2.5/pt_core_news_sm-2.2.5.tar.gz (21.2 MB)
[K     |████████████████████████████████| 21.2 MB 1.2 MB/s 
Building wheels for collected packages: pt-core-news-sm
  Building wheel for pt-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for pt-core-news-sm: filename=pt_core_news_sm-2.2.5-py3-none-any.whl size=21186281 sha256=a6a72c445797ea5a0e68f6c45cc34bc1a7b1a9ebc0c5b013266577863a4c0971
  Stored in directory: /tmp/pip-ephem-wheel-cache-cwcilgk0/wheels/c3/f9/0c/5c014a36941a00f5df5fc0756cb961d7c457a978e697a6ce3b
Successfully built pt-core-news-sm
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.7/dist-packages/pt_core_news_sm -->
/usr/local/lib/

# Etapa 2: Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [5]:
pln = spacy.load('pt')
pln

<spacy.lang.pt.Portuguese at 0x7fd9368f2790>

In [83]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [84]:
for token in documento:
  print(token.text, token.pos_)

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
em ADP
Curitiba PROPN


## Legenda 

- lemma: raiz da palavra
- pos: parte da fala
- tag: informações morfológicas, como se o verbo está no passado
- dep: dependência sintática
- shape: formato (maiúsculo, minúsculo, dígitos)
- alpha: se é alfabético
- stop: se é stopword

In [19]:
for token in documento:
  print(' text:',token.text,'\n',
        'lemma:',token.lemma_,'\n',
        'pos:',token.pos_,'\n',
        'tag:',token.tag_,'\n',
        'dep:',token.dep_,'\n',
        'shape:',token.shape_,'\n',
        'is_alpha:',token.is_alpha,'\n',
        'is_stop:',token.is_stop)

 text: Estou 
 lemma: Estou 
 pos: AUX 
 tag: <aux>|V|PR|1S|IND|@FS-STA 
 dep: aux 
 shape: Xxxxx 
 is_alpha: True 
 is_stop: True
 text: aprendendo 
 lemma: aprender 
 pos: VERB 
 tag: <mv>|V|GER|@ICL-AUX< 
 dep: ROOT 
 shape: xxxx 
 is_alpha: True 
 is_stop: False
 text: processamento 
 lemma: processamento 
 pos: NOUN 
 tag: <np-idf>|N|M|S|@<ACC 
 dep: obj 
 shape: xxxx 
 is_alpha: True 
 is_stop: False
 text: de 
 lemma: de 
 pos: ADP 
 tag: PRP|@N< 
 dep: case 
 shape: xx 
 is_alpha: True 
 is_stop: True
 text: linguagem 
 lemma: linguagem 
 pos: NOUN 
 tag: <np-idf>|N|F|S|@P< 
 dep: nmod 
 shape: xxxx 
 is_alpha: True 
 is_stop: False
 text: natural 
 lemma: natural 
 pos: ADJ 
 tag: ADJ|F|S|@N< 
 dep: amod 
 shape: xxxx 
 is_alpha: True 
 is_stop: False
 text: , 
 lemma: , 
 pos: PUNCT 
 tag: PU|@PU 
 dep: punct 
 shape: , 
 is_alpha: False 
 is_stop: False
 text: curso 
 lemma: cursar 
 pos: NOUN 
 tag: <np-idf>|N|M|S|@N<PRED 
 dep: appos 
 shape: xxxx 
 is_alpha: True 
 is_sto

In [21]:
for token in documento:
  if token.pos_ == 'PROPN':
    print(token.text)

Curitiba


# Etapa 3: Lematização e stemização

- Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- Stemização: Extrair o radical das palavras

In [22]:
for token in documento:
  print(token.text, token.lemma_)

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
curso cursar
em em
Curitiba Curitiba


In [23]:
doc = pln('encontrei encontraram, encontrarão, encontrariam')
[token.lemma_ for token in doc]

['encontrar', 'encontrar', ',', 'encontrar', ',', 'encontrar']

## Comparação stemização (NLTK) x lematização (spaCy)


In [None]:
#!pip install nltk --upgrade

In [24]:
import nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [27]:
stemmer = nltk.stem.RSLPStemmer()
print(stemmer.stem('aprendendo'))
print(stemmer.stem('Estudar'))

aprend
estud


In [30]:
for token in documento:
  # lemma: lematização
  # stem: stemização
  print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso cursar curs
em em em
Curitiba Curitiba curitib


# Etapa 4: Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition)
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas: https://spacy.io/api/annotation#named-entities

In [35]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [36]:
documento = pln(texto)

In [37]:
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [38]:
from spacy import displacy
displacy.render(documento, style='ent', jupyter=True)

In [39]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'

In [40]:
documento = pln(texto)
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [41]:
displacy.render(documento, style='ent',jupyter=True)

In [42]:
for entidade in documento.ents:
  if entidade.label_ == 'PER':
    print(entidade.text)

Bill Gates


# Etapa 5: Stopwords

- Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [43]:
from spacy.lang.pt.stop_words import STOP_WORDS 

In [45]:
print(STOP_WORDS)

{'me', 'daquela', 'oitava', 'vossos', 'esses', 'mesmo', 'tal', 'desse', 'outras', 'nunca', 'ademais', 'tentaram', 'outros', 'das', 'sois', 'tuas', 'coisa', 'esteve', 'ou', 'meus', 'lado', 'depois', 'tens', 'vez', 'tiveste', 'todo', 'estes', 'sétimo', 'algo', 'cima', 'podem', 'possível', 'breve', 'através', 'também', 'ali', 'pois', 'estará', 'podia', 'nos', 'exemplo', 'quieto', 'faz', 'estar', 'fora', 'foram', 'dentro', 'só', 'aquilo', 'quieta', 'enquanto', 'estivestes', 'sem', 'lá', 'cinco', 'pouco', 'adeus', 'novos', 'dos', 'tentei', 'estas', 'nesse', 'nossa', 'doze', 'fazemos', 'novo', 'aquele', 'parte', 'falta', 'fim', 'duas', 'vossas', 'vens', 'muitos', 'fazia', 'meu', 'mas', 'forma', 'dar', 'te', 'pouca', 'nossas', 'sempre', 'ser', 'ligado', 'números', 'direita', 'fostes', 'sim', 'porquanto', 'entre', 'já', 'tenho', 'faço', 'quem', 'no', 'último', 'for', 'pôde', 'daquele', 'área', 'sua', 'maior', 'como', 'tive', 'do', 'elas', 'vêm', 'bastante', 'quinta', 'quais', 'estado', 'diante

In [46]:
len(STOP_WORDS)

413

In [47]:
pln.vocab['ir'].is_stop

True

In [48]:
pln.vocab['caminhar'].is_stop

False

In [49]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [50]:
for token in documento:
  if not pln.vocab[token.text].is_stop:
    print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


# Etapa 6: Parsing de dependências

- Relação pai-filho entre as palavras

## Exemplo 1

In [51]:
documento = pln('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [52]:
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [53]:
list(origem.ancestors)

[passagem, reserve]

In [54]:
list(destino.ancestors)

[chegando, reserve]

In [55]:
documento[0].is_ancestor(documento[2])

True

## Exemplo 2

In [56]:
documento = pln('Reserva de uma mesa para o restaurante e de um taxi para o hotel')

In [57]:
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]
tarefas, locais

((mesa, taxi), (restaurante, hotel))

In [58]:
for local in locais:
  print('-----', local)
  for objeto in local.ancestors:
    print(objeto)

----- restaurante
mesa
Reserva
----- hotel
taxi
restaurante
mesa
Reserva


In [61]:
for local in locais:
  for objeto in local.ancestors:
    if objeto in tarefas:
      print('Reserva de {} é para o {}'.format(objeto, local))
      break

Reserva de mesa é para o restaurante
Reserva de taxi é para o hotel


In [62]:
list(documento[6].children)

[para, o, taxi]

## Exemplo 3

In [64]:
documento = pln('Reserva de uma mesa para o restaurante e de um taxi para o hotel')

In [67]:
#displacy.serve(documento, style='dep')
displacy.render(documento, style='dep', jupyter=True, options={'distance':90})

In [68]:
list(documento[3].ancestors)

[Reserva]

In [69]:
list(documento[3].children)

[de, uma, restaurante]

## Exemplo 4

In [71]:
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [72]:
for local in lugares:
  for acao in local.ancestors:
    if acao in acoes:
      print('{} para {}'.format(local, acao))
      break

Curitiba para visitar
Guarulhos para ficar


In [73]:
displacy.render(documento, style='dep', jupyter=True, options={'distance':90})

In [85]:
documento = pln('ele é legal')

# Etapa 7: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

## Exemplo 1

In [89]:
p1 = pln('olá')
p2 = pln('oi')
p3 = pln('ou')

In [90]:
p1.similarity(p2)

  "__main__", mod_spec)


0.8258470163434681

In [92]:
p2.similarity(p1)

  "__main__", mod_spec)


0.8258470163434681

In [93]:
p1.similarity(p3)

  "__main__", mod_spec)


0.556686068341704

In [95]:
p2.similarity(p3)

  "__main__", mod_spec)


0.5912281781129909

In [96]:
texto1 = pln('Quando será lançado o novo filme?')
texto2 = pln('O novo filme será lançado mês que vem')
texto3 = pln('Qual a cor do carro?')

In [97]:
texto1.similarity(texto2)

  "__main__", mod_spec)


0.7954251395862586

In [98]:
texto1.similarity(texto3)

  "__main__", mod_spec)


0.6686739674689989

In [99]:
texto2.similarity(texto3)

  "__main__", mod_spec)


0.642094918038497

## Exemplo 2

In [100]:
texto = pln('gato cachorro cavalo pessoa')

In [104]:
for texto1 in texto:
  print('-----', texto1)
  for texto2 in texto:
    similaridade = int(texto1.similarity(texto2) * 100)
    print('{} é {}% similar a {}'.format(texto1, similaridade, texto2))

----- gato
gato é 100% similar a gato
gato é 45% similar a cachorro
gato é 30% similar a cavalo
gato é 11% similar a pessoa
----- cachorro
cachorro é 45% similar a gato
cachorro é 100% similar a cachorro
cachorro é 56% similar a cavalo
cachorro é 31% similar a pessoa
----- cavalo
cavalo é 30% similar a gato
cavalo é 56% similar a cachorro
cavalo é 100% similar a cavalo
cavalo é 32% similar a pessoa
----- pessoa
pessoa é 11% similar a gato
pessoa é 31% similar a cachorro
pessoa é 32% similar a cavalo
pessoa é 100% similar a pessoa


  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)


# Etapa 8: Tokenização

In [106]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [107]:
for token in documento:
  print(token)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
em
Curitiba


In [108]:
documento1 = 'Estou aprendendo processamento de linguagem natural, curso em Curitiba'

In [110]:
documento1.split()

['Estou',
 'aprendendo',
 'processamento',
 'de',
 'linguagem',
 'natural,',
 'curso',
 'em',
 'Curitiba']