# **Introdução ao spaCy**

## **Etapa 1: Instalação do spaCy**

In [1]:
!pip install spacy==2.2.3



In [2]:
import spacy
spacy.__version__

'2.2.3'

In [3]:
# comando abaixo executado na env_nlp no terminal
!python -m spacy download pt

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/home/lucas/anaconda3/envs/env_nlp/lib/python3.6/site-packages/pt_core_news_sm
--> /home/lucas/anaconda3/envs/env_nlp/lib/python3.6/site-packages/spacy/data/pt
You can now load the model via spacy.load('pt')


## **Etapa 2: Marcação POS**

* POS (part-of-speech) atribui para as palavras 'partes da fala', como: substantivos, adjetivos, verbos;
* Importante para a deteccção de entidades do texto, pois primeiro é necessário saber o que o texto contém;
* Lista de tokens: https://spacy.io/api/annotation#pos-tagging
* Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [7]:
# modelo em português carregado
pln = spacy.load('pt')
pln

<spacy.lang.pt.Portuguese at 0x7fab3c1f8ba8>

In [8]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

**Observação**: Token é cada palavra. Logo, tokenização é a atividade de trabalhar com cada palavra de um texto, inclusive considera vírgula e caracteres especiais

In [18]:
# Exibe apenas os tokens (palavras) tokens
for token in documento:
    print(token.text)

print('\n=============================\n')

# exibe cada token (palavra) e também o POS (part-of-speech) que é a atribuição de o que é cada token (palavra)
for token in documento:
    print(token.text, token.pos_)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
em
Curitiba


Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
em ADP
Curitiba PROPN


## **Legenda**

- **lemma**: raiz da palavra
- **pos**: parte da fala
- **tag**: informações morfológicas, como se o verbo está no passado
- **dep**: dependência sintática
- **shape**: formato (maiúsculo, minúsculo, dígitos)
- **is_alpha**: se é alfabético
- **is_stop**: se é stopword

In [19]:
for token in documento:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.shape_, token.is_alpha, token.is_stop)

Estou Estou AUX <aux>|V|PR|1S|IND|@FS-STA Xxxxx True True
aprendendo aprender VERB <mv>|V|GER|@ICL-AUX< xxxx True False
processamento processamento NOUN <np-idf>|N|M|S|@<ACC xxxx True False
de de ADP PRP|@N< xx True True
linguagem linguagem NOUN <np-idf>|N|F|S|@P< xxxx True False
natural natural ADJ ADJ|F|S|@N< xxxx True False
, , PUNCT PU|@PU , False False
curso cursar NOUN <np-idf>|N|M|S|@N<PRED xxxx True False
em em ADP PRP|@N< xx True True
Curitiba Curitiba PROPN PROP|M|S|@P< Xxxxx True False


In [20]:
for token in documento:
    if token.pos_ == 'PROPN':
        print(token.text)

Curitiba


## **Etapa 3: Lematização e stemização**

- **Lematização**: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- **Stemização**: Extrair o *radical* das palavras

In [21]:
for token in documento:
    print(token.text, token.lemma_)

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
curso cursar
em em
Curitiba Curitiba


In [23]:
doc = pln('encontrei encontraram encontrarão encontrariam')
[token.lemma_ for token in doc]

['encontrar', 'encontrar', 'encontrar', 'encontrar']

### Comparação stemização (NLTK) x lematização (spaCy)

In [25]:
!pip install nltk

Collecting nltk
  Downloading nltk-3.5.zip (1.4 MB)
[K     |████████████████████████████████| 1.4 MB 779 kB/s eta 0:00:01
[?25hCollecting click
  Downloading click-7.1.2-py2.py3-none-any.whl (82 kB)
[K     |████████████████████████████████| 82 kB 4.2 MB/s  eta 0:00:01
[?25hCollecting joblib
  Downloading joblib-0.16.0-py3-none-any.whl (300 kB)
[K     |████████████████████████████████| 300 kB 17.2 MB/s eta 0:00:01
[?25hCollecting regex
  Downloading regex-2020.6.8-cp36-cp36m-manylinux2010_x86_64.whl (660 kB)
[K     |████████████████████████████████| 660 kB 81.2 MB/s eta 0:00:01
Building wheels for collected packages: nltk
  Building wheel for nltk (setup.py) ... [?25ldone
[?25h  Created wheel for nltk: filename=nltk-3.5-py3-none-any.whl size=1434674 sha256=1117eb21ef76e705c18e23db5e2506f7cc4deb1fa16030e982e1efb20823e1ef
  Stored in directory: /home/lucas/.cache/pip/wheels/de/5e/42/64abaeca668161c3e2cecc24f864a8fc421e3d07a104fc8a51
Successfully built nltk
Installing collected pa

In [26]:
import nltk
nltk.download('rslp') # rslp é um stemizador específico para trabalhar com a língua portuguesa

[nltk_data] Downloading package rslp to /home/lucas/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [27]:
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprendendo')

'aprend'

**Observação**: Perceba o resultado do comparativo entre Stemização (NLTK) x Lemmatização (spaCy):
- Enquanto a lemmatização executa um trabalho morfológico no token (palavra) e no exemplo de 'aprendendo' retorna o resultado 'aprender' a Stemização retorna o seu radical, no exemplo da mesma palavra 'aprendendo' o retorno da stemização é 'aprend'.

In [28]:
for token in documento:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso cursar curs
em em em
Curitiba Curitiba curitib


## **Etapa 4: Reconhecimento de entidades nomeadas (NER)**

- **NER** (Named-Entity Recognition)
- **Encontrar e classificar** entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas:  https://spacy.io/api/annotation#named-entities

In [29]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [30]:
documento = pln(texto)

In [31]:
documento

A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais

In [37]:
# entidade.text exibe apenas as entidades reconhecidas
for entidade in documento.ents:
    print(entidade.text)

print('\n==================================\n')

# agora estamos exibindo as entidades reconhecidas e também classificando-as
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

IBM
Estados Unidos
Brasil
São Paulo


IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [38]:
# Uma forma bem interessante e visual de exibir é a seguite
from spacy import displacy
displacy.render(documento, style='ent', jupyter=True)

In [39]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'

In [41]:
# lembrando que o objeto pln é o nosso modelo carregado. Onde passamos textos para ele
documento = pln(texto)
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [42]:
# style = ent significa que será focado/visualizado as entidades do texto
displacy.render(documento, style='ent', jupyter=True)

In [43]:
for entidade in documento.ents:
    if entidade.label_ == 'PER':
        print(entidade.text)

Bill Gates


## **Etapa 5: Stopwords**

- Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc.)

In [47]:
# importação das stopwords da língua portuguesa da lib spaCy
from spacy.lang.pt.stop_words import STOP_WORDS

In [48]:
print(STOP_WORDS)

{'por', 'tentar', 'te', 'pontos', 'você', 'dos', 'foram', 'contra', 'tuas', 'com', 'dizer', 'estas', 'outros', 'temos', 'algo', 'desse', 'sobre', 'custa', 'demais', 'dá', 'para', 'nuns', 'vão', 'estará', 'diz', 'nós', 'sistema', 'mil', 'local', 'desde', 'devem', 'às', 'sem', 'exemplo', 'seu', 'nossos', 'vens', 'ora', 'comprida', 'porque', 'minha', 'sim', 'elas', 'número', 'vais', 'este', 'nos', 'próximo', 'meio', 'mais', 'puderam', 'poderá', 'no', 'vinda', 'toda', 'tenho', 'apoia', 'maior', 'vezes', 'aqueles', 'sob', 'saber', 'dentro', 'ali', 'lado', 'ao', 'nesse', 'fez', 'contudo', 'essa', 'forma', 'estive', 'nenhuma', 'usar', 'tentaram', 'esses', 'quatro', 'vinte', 'fora', 'nada', 'sexto', 'meu', 'estar', 'dizem', 'meses', 'ele', 'treze', 'são', 'conselho', 'pelos', 'tentei', 'está', 'obrigado', 'conhecido', 'quero', 'podem', 'estiveram', 'quanto', 'algumas', 'sou', 'vos', 'menos', 'posição', 'questão', 'vários', 'fazes', 'tua', 'onze', 'maiorias', 'máximo', 'zero', 'dois', 'fará', '

In [50]:
print(len(STOP_WORDS))

413


O recurso abaixo é útil para perifica se determinada palavra é ou não stopwords

In [51]:
pln.vocab['ir'].is_stop

True

In [57]:
pln.vocab['caminhar'].is_stop

False

In [58]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [59]:
for token in documento:
    if not pln.vocab[token.text].is_stop:
        print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


## **Etapa 6: Parsing de dependências**

- Relação pai-filho entre as palavras

### **Exemplo 1**

In [60]:
documento = pln('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [63]:
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [65]:
list(origem.ancestors)

[passagem, reserve]

In [66]:
list(destino.ancestors)

[chegando, reserve]

In [71]:
documento[0].is_ancestor(documento[2])

True

### **Exemplo 2**

In [72]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [76]:
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]

In [77]:
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [80]:
# exibe os locais do texto e os seus respectivos ancestrais
for local in locais:
    print('-----', local)
    for objeto in local.ancestors:
        print(objeto)

----- restaurante
mesa
Reserva
----- hotel
táxi
restaurante
mesa
Reserva


In [82]:
for local in locais:
    for objeto in local.ancestors:
        if objeto in tarefas:
            print('Reserva de {} é para o {}'.format(objeto, local))
            break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


In [83]:
# documento[6] é o token/palavra restaurante
list(documento[6].children)

[para, o, táxi]

### **Exemplo 3**

In [84]:
from spacy import displacy

In [85]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [88]:
# style = dep significa que será focado/visualizado as dependências do texto
displacy.render(documento, style='dep', jupyter=True, options={'distance' : 90})

### **Exemplo 4**

In [89]:
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [93]:
for local in lugares:
    for acao in local.ancestors:
        if acao in acoes:
            print('{} para {}'.format(local, acao))
            break

Curitiba para visitar
Guarulhos para ficar


In [94]:
displacy.render(documento, style='dep', jupyter=True, options={'distance' : 90})

## **Etapa 7: Semelhanças entre palavras e frases**

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

### **Exemplo 1**

In [117]:
p1 = pln('olá')
p2 = pln('oi')
p3 = pln('ou')

Como dito, o cálculo da similaridade não irá verificar apenas a semelhança dos caracteres, mas também se são logicamente relacionadas.

In [118]:
# Retorna a probabilidade entre o documento p1 em relação ao documento p2
p1.similarity(p2)

  "__main__", mod_spec)


0.8258470163434681

In [119]:
# Retorna a probabilidade entre o documento p2 em relação ao documento p1
p2.similarity(p1)

  "__main__", mod_spec)


0.8258470163434681

In [120]:
p1.similarity(p3)

  "__main__", mod_spec)


0.556686068341704

In [121]:
p2.similarity(p3)

  "__main__", mod_spec)


0.5912281781129909

In [122]:
texto1 = pln('Quando será lançado o novo filme?')
texto2 = pln('O novo filme será lançado mês que vem')
texto3 = pln('Qual a cor do carro?')

In [124]:
texto1.similarity(texto2)

  "__main__", mod_spec)


0.7954251395862586

In [125]:
texto1.similarity(texto3)

  "__main__", mod_spec)


0.6686739674689989

### **Exemplo 2**

In [126]:
texto = pln('gato cachorro cavalo pessoa')

In [132]:
for texto1 in texto:
    # print('-----', texto1)
    for texto2 in texto:
        # print(texto2)
        similaridade = int(texto1.similarity(texto2) * 100)
        print('{} é {} similar a {}'.format(texto1, similaridade, texto2))

gato é 100 similar a gato
gato é 45 similar a cachorro
gato é 30 similar a cavalo
gato é 11 similar a pessoa
cachorro é 45 similar a gato
cachorro é 100 similar a cachorro
cachorro é 56 similar a cavalo
cachorro é 31 similar a pessoa
cavalo é 30 similar a gato
cavalo é 56 similar a cachorro
cavalo é 100 similar a cavalo
cavalo é 32 similar a pessoa
pessoa é 11 similar a gato
pessoa é 31 similar a cachorro
pessoa é 32 similar a cavalo
pessoa é 100 similar a pessoa


  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)


## **Etapa 8: Tokenização**

- O conceito de tokenização é separar cada palavra da frase no formato correto.

In [133]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [134]:
for token in documento:
    print(token)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
em
Curitiba


In [135]:
# Caso não utilize bibliotecas de processamento de linguagem natural
documento1 = 'Estou aprendendo processamento de linguagem natural, curso em Curitiba'
documento1.split(' ')

['Estou',
 'aprendendo',
 'processamento',
 'de',
 'linguagem',
 'natural,',
 'curso',
 'em',
 'Curitiba']

**Observação**: Veja que se não utilizarmos bibliotecas de NLP podemos ter resultados não tão bons no momento da tokenização. Veja que o token (palavra) 'natural' no primeiro exemplo utilizando NLP foi separado da vírgula corretamente. Já no segundo exemplo utilizando apenas o split para separar as palavras, o token 'natural' foi unido a vírgula.