# Introdução ao spaCy

# Etapa 1: Instalação do spaCy

In [5]:
#pip install spacy --upgrade
#pip install spacy==2.2.3

Collecting spacy==2.2.3
[?25l  Downloading https://files.pythonhosted.org/packages/47/13/80ad28ef7a16e2a86d16d73e28588be5f1085afd3e85e4b9b912bd700e8a/spacy-2.2.3-cp36-cp36m-manylinux1_x86_64.whl (10.4MB)
[K     |████████████████████████████████| 10.4MB 11.5MB/s 
Collecting thinc<7.4.0,>=7.3.0
[?25l  Downloading https://files.pythonhosted.org/packages/07/59/6bb553bc9a5f072d3cd479fc939fea0f6f682892f1f5cff98de5c9b615bb/thinc-7.3.1-cp36-cp36m-manylinux1_x86_64.whl (2.2MB)
[K     |████████████████████████████████| 2.2MB 49.1MB/s 
[?25hCollecting catalogue<1.1.0,>=0.0.7
  Downloading https://files.pythonhosted.org/packages/6c/f9/9a5658e2f56932e41eb264941f9a2cb7f3ce41a80cb36b2af6ab78e2f8af/catalogue-1.0.0-py2.py3-none-any.whl
Collecting srsly<1.1.0,>=0.1.0
[?25l  Downloading https://files.pythonhosted.org/packages/52/61/56e8aac918a220f53b11ce341eab7789e6b50e5d9b191a281dbb983e838e/srsly-1.0.5-cp36-cp36m-manylinux2014_x86_64.whl (184kB)
[K     |████████████████████████████████| 184kB 51.

In [1]:
import spacy
spacy.__version__

'2.2.3'

In [2]:
!python -m spacy download pt

Collecting pt_core_news_sm==2.2.5
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.2.5/pt_core_news_sm-2.2.5.tar.gz (21.2MB)
[K     |████████████████████████████████| 21.2MB 1.1MB/s 
Building wheels for collected packages: pt-core-news-sm
  Building wheel for pt-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for pt-core-news-sm: filename=pt_core_news_sm-2.2.5-cp36-none-any.whl size=21186283 sha256=22bf85ea8f871fe252712f99c266b6d8779400077b2ff62d4ce1a1b7441f5bb1
  Stored in directory: /tmp/pip-ephem-wheel-cache-ac087wnh/wheels/ea/94/74/ec9be8418e9231b471be5dc7e1b45dd670019a376a6b5bc1c0
Successfully built pt-core-news-sm
Installing collected packages: pt-core-news-sm
  Found existing installation: pt-core-news-sm 3.0.0
    Uninstalling pt-core-news-sm-3.0.0:
      Successfully uninstalled pt-core-news-sm-3.0.0
Successfully installed pt-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load th

# Etapa 2: Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [3]:
pln = spacy.load('pt')
pln

<spacy.lang.pt.Portuguese at 0x7f8a0cb8b7f0>

In [4]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [5]:
for token in documento:
  print(token.text, token.pos_)

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
em ADP
Curitiba PROPN


## Legenda 

- lemma: raiz da palavra
- pos: parte da fala
- tag: informações morfológicas, como se o verbo está no passado
- dep: dependência sintática
- shape: formato (maiúsculo, minúsculo, dígitos)
- alpha: se é alfabético
- stop: se é stopword

In [None]:
for token in documento:
  print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, 
        token.shape_, token.is_alpha, token.is_stop)

Estou Estou AUX <aux>|V|PR|1S|IND|@FS-STA aux Xxxxx True True
aprendendo aprender VERB <mv>|V|GER|@ICL-AUX< ROOT xxxx True False
processamento processamento NOUN <np-idf>|N|M|S|@<ACC obj xxxx True False
de de ADP PRP|@N< case xx True True
linguagem linguagem NOUN <np-idf>|N|F|S|@P< nmod xxxx True False
natural natural ADJ ADJ|F|S|@N< amod xxxx True False
, , PUNCT PU|@PU punct , False False
curso cursar NOUN <np-idf>|N|M|S|@N<PRED appos xxxx True False
em em ADP PRP|@N< case xx True True
Curitiba Curitiba PROPN PROP|M|S|@P< nmod Xxxxx True False


In [6]:
for token in documento:
  if token.pos_ == 'PROPN':
    print(token.text)

Curitiba


# Etapa 3: Lematização e stemização

- Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- Stemização: Extrair o radical das palavras

In [7]:
for token in documento:
  print(token.text, token.lemma_)

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
curso cursar
em em
Curitiba Curitiba


In [8]:
doc = pln('encontrei encontraram encontrarão encontrariam cursando curso cursei')
[token.lemma_ for token in doc]

['encontrar',
 'encontrar',
 'encontrar',
 'encontrar',
 'cursar',
 'cursar',
 'cursar']

## Comparação stemização (NLTK) x lematização (spaCy)

In [9]:
#!pip install nltk --upgrade

Collecting nltk
[?25l  Downloading https://files.pythonhosted.org/packages/92/75/ce35194d8e3022203cca0d2f896dbb88689f9b3fce8e9f9cff942913519d/nltk-3.5.zip (1.4MB)
[K     |▎                               | 10kB 16.3MB/s eta 0:00:01[K     |▌                               | 20kB 21.1MB/s eta 0:00:01[K     |▊                               | 30kB 24.8MB/s eta 0:00:01[K     |█                               | 40kB 19.5MB/s eta 0:00:01[K     |█▏                              | 51kB 16.1MB/s eta 0:00:01[K     |█▍                              | 61kB 17.7MB/s eta 0:00:01[K     |█▋                              | 71kB 13.8MB/s eta 0:00:01[K     |█▉                              | 81kB 13.4MB/s eta 0:00:01[K     |██                              | 92kB 13.1MB/s eta 0:00:01[K     |██▎                             | 102kB 12.6MB/s eta 0:00:01[K     |██▌                             | 112kB 12.6MB/s eta 0:00:01[K     |██▊                             | 122kB 12.6MB/s eta 0:00:01[K 

In [11]:
import nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [12]:
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprender')

'aprend'

In [14]:
for token in documento:
  print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso cursar curs
em em em
Curitiba Curitiba curitib


# Etapa 4: Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition)
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas: https://spacy.io/api/annotation#named-entities

In [15]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [16]:
documento = pln(texto)

In [17]:
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [18]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [19]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'

In [20]:
documento = pln(texto)
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [21]:
displacy.render(documento, style = 'ent', jupyter = True)

In [22]:
for entidade in documento.ents:
  if entidade.label_ == 'PER':
    print(entidade.text)

Bill Gates


# Etapa 5: Stopwords

- Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [23]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [24]:
print(STOP_WORDS)

{'bastante', 'meio', 'ver', 'das', 'dentro', 'aqui', 'ambas', 'mil', 'geral', 'esta', 'lhe', 'sobre', 'número', 'vêm', 'quero', 'tentei', 'certamente', 'temos', 'des', 'ir', 'deve', 'vai', 'vais', 'dizer', 'mas', 'cá', 'próprio', 'quarta', 'somente', 'estar', 'segunda', 'catorze', 'estive', 'mal', 'outras', 'algo', 'próximo', 'nenhuma', 'sempre', 'vem', 'suas', 'nove', 'novos', 'tivestes', 'questão', 'duas', 'estas', 'poderá', 'pôde', 'estado', 'não', 'uns', 'obrigado', 'ela', 'foi', 'da', 'embora', 'essa', 'aos', 'tentaram', 'irá', 'posição', 'veja', 'sabe', 'boa', 'for', 'vindo', 'vinte', 'tão', 'quais', 'ou', 'terceira', 'maior', 'mesmo', 'aquela', 'vão', 'certeza', 'eles', 'até', 'muitos', 'desde', 'fomos', 'à', 'lá', 'quanto', 'possivelmente', 'nessa', 'nova', 'doze', 'assim', 'conselho', 'primeiro', 'devem', 'nunca', 'você', 'baixo', 'então', 'conhecido', 'isto', 'usar', 'sei', 'povo', 'onze', 'ligado', 'tentar', 'daquela', 'foste', 'tanta', 'local', 'tal', 'terceiro', 'ora', 'el

In [25]:
len(STOP_WORDS)

413

In [28]:
pln.vocab['ir'].is_stop

True

In [29]:
pln.vocab['caminhar'].is_stop

False

In [30]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [31]:
for token in documento:
  if not pln.vocab[token.text].is_stop:
    print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


# Etapa 6: Parsing de dependências

- Relação pai-filho entre as palavras

## Exemplo 1

In [None]:
documento = pln('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [None]:
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [None]:
list(origem.ancestors)

[passagem, reserve]

In [None]:
list(destino.ancestors)

[chegando, reserve]

In [None]:
documento[0].is_ancestor(documento[2])

True

## Exemplo 2

In [None]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [None]:
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]

In [None]:
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [None]:
for local in locais:
  print('-----', local)
  for objeto in local.ancestors:
    print(objeto)

----- restaurante
mesa
Reserva
----- hotel
táxi
restaurante
mesa
Reserva


In [None]:
for local in locais:
  for objeto in local.ancestors:
    if objeto in tarefas:
      print("Reserva de {} é para o {}".format(objeto, local))
      break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


In [None]:
list(documento[6].children)

[para, o, táxi]

## Exemplo 3

In [None]:
from spacy import displacy

In [None]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [None]:
#displacy.serve(documento, style='dep')
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

In [None]:
list(documento[3].ancestors)

[Reserva]

In [None]:
list(documento[3].children)

[de, uma, restaurante]

## Exemplo 4

In [None]:
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [None]:
for local in lugares:
  for acao in local.ancestors:
    if acao in acoes:
      print("{} para {}".format(local, acao))
      break

Curitiba para visitar
Guarulhos para ficar


In [None]:
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

# Etapa 7: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

## Exemplo 1

In [None]:
p1 = pln("olá")
p2 = pln("oi")
p3 = pln("ou")

In [None]:
p1.similarity(p2)

  "__main__", mod_spec)


0.8258470163434681

In [None]:
p2.similarity(p1)

  "__main__", mod_spec)


0.8258470163434681

In [None]:
p1.similarity(p3)

  "__main__", mod_spec)


0.556686068341704

In [None]:
p2.similarity(p3)

  "__main__", mod_spec)


0.5912281781129909

In [None]:
texto1 = pln('Quando será lançado o novo filme?')
texto2 = pln('O novo filme será lançado mês que vem')
texto3 = pln('Qual a cor do carro?')

In [None]:
texto1.similarity(texto2)

  "__main__", mod_spec)


0.7954251395862586

In [None]:
texto1.similarity(texto3)

  "__main__", mod_spec)


0.6686739674689989

## Exemplo 2

In [None]:
texto = pln('gato cachorro cavalo pessoa')

In [None]:
for texto1 in texto:
  #print('----', texto1)
  for texto2 in texto:
    #print(texto2)
    similaridade = int(texto1.similarity(texto2) * 100)
    print("{} é {} similar a {}".format(texto1, similaridade, texto2))

gato é 100 similar a gato
gato é 45 similar a cachorro
gato é 30 similar a cavalo
gato é 11 similar a pessoa
cachorro é 45 similar a gato
cachorro é 100 similar a cachorro
cachorro é 56 similar a cavalo
cachorro é 31 similar a pessoa
cavalo é 30 similar a gato
cavalo é 56 similar a cachorro
cavalo é 100 similar a cavalo
cavalo é 32 similar a pessoa
pessoa é 11 similar a gato
pessoa é 31 similar a cachorro
pessoa é 32 similar a cavalo
pessoa é 100 similar a pessoa


  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)


# Etapa 8: Tokenização

In [None]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [None]:
for token in documento:
  print(token)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
em
Curitiba


In [None]:
documento1 = 'Estou aprendendo processamento de linguagem natural, curso em Curitiba'
documento1.split(' ')

['Estou',
 'aprendendo',
 'processamento',
 'de',
 'linguagem',
 'natural,',
 'curso',
 'em',
 'Curitiba']