## Introdução ao spaCy

### Etapa 1: Instalação do spaCy

In [1]:
#!pip install spacy==2.2.3

In [2]:
import spacy
#spacy.__version__

In [3]:
#!python -m spacy download pt

### Etapa 2: Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [5]:
nlp = spacy.load('pt_core_news_sm')
nlp

<spacy.lang.pt.Portuguese at 0x179aae67548>

In [7]:
documento = nlp('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [8]:
for token in documento:
    print(token.text, token.pos_)

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
em ADP
Curitiba PROPN


### Legenda 

- lemma: raiz da palavra
- pos: parte da fala
- tag: informações morfológicas, como se o verbo está no passado
- dep: dependência sintática
- shape: formato (maiúsculo, minúsculo, dígitos)
- alpha: se é alfabético
- stop: se é stopword

In [9]:
for token in documento:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, 
        token.shape_, token.is_alpha, token.is_stop)

Estou Estou AUX <aux>|V|PR|1S|IND|@FS-STA aux Xxxxx True True
aprendendo aprender VERB <mv>|V|GER|@ICL-AUX< ROOT xxxx True False
processamento processamento NOUN <np-idf>|N|M|S|@<ACC obj xxxx True False
de de ADP PRP|@N< case xx True True
linguagem linguagem NOUN <np-idf>|N|F|S|@P< nmod xxxx True False
natural natural ADJ ADJ|F|S|@N< amod xxxx True False
, , PUNCT PU|@PU punct , False False
curso cursar NOUN <np-idf>|N|M|S|@N<PRED appos xxxx True False
em em ADP PRP|@N< case xx True True
Curitiba Curitiba PROPN PROP|M|S|@P< nmod Xxxxx True False


In [10]:
for token in documento:
    if token.pos_ == 'PROPN':
        print(token.text)

Curitiba


### Etapa 3: Lematização e stemização

- Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- Stemização: Extrair o radical das palavras

In [11]:
for token in documento:
    print(token.text, token.lemma_)

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
curso cursar
em em
Curitiba Curitiba


In [13]:
doc = nlp('encontrei encontraram encontrarão encontrariam cursando curso cursei')
[token.lemma_ for token in doc]

['encontrar',
 'encontrar',
 'encontrar',
 'encontrar',
 'cursar',
 'cursar',
 'cursar']

### Comparação stemização (NLTK) x lematização (spaCy)

In [15]:
import nltk

In [16]:
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprender')

'aprend'

In [17]:
for token in documento:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso cursar curs
em em em
Curitiba Curitiba curitib


### Etapa 4: Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition)
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas: https://spacy.io/api/annotation#named-entities

In [18]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [19]:
documento = nlp(texto)

In [20]:
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [21]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [22]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'

In [23]:
documento = nlp(texto)
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [24]:
displacy.render(documento, style = 'ent', jupyter = True)

In [25]:
for entidade in documento.ents:
    if entidade.label_ == 'PER':
        print(entidade.text)

Bill Gates


### Etapa 5: Stopwords
- Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [26]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [27]:
print(STOP_WORDS)

{'inicio', 'sétima', 'seria', 'dentro', 'apenas', 'pelas', 'sob', 'quatro', 'querem', 'nem', 'essas', 'final', 'outros', 'terceiro', 'nossa', 'cima', 'porquanto', 'lado', 'fomos', 'zero', 'sobre', 'vossa', 'comprida', 'qual', 'elas', 'tivemos', 'também', 'toda', 'põem', 'quinta', 'inclusive', 'valor', 'nós', 'tuas', 'próxima', 'demais', 'isso', 'baixo', 'adeus', 'daquele', 'estás', 'depois', 'ser', 'quê', 'eles', 'só', 'talvez', 'oito', 'quero', 'dezasseis', 'veja', 'vão', 'nove', 'sempre', 'obrigado', 'tanta', 'tudo', 'dezoito', 'daquela', 'pouco', 'novas', 'fazemos', 'tempo', 'geral', 'local', 'menor', 'três', 'oitavo', 'têm', 'fui', 'antes', 'entre', 'pode', 'nível', 'tua', 'próprio', 'treze', 'estão', 'algo', 'nessa', 'conhecida', 'apoia', 'esses', 'tentar', 'põe', 'seu', 'oitava', 'mais', 'os', 'onde', 'que', 'quem', 'tens', 'era', 'porém', 'tentaram', 'conselho', 'vens', 'foi', 'muito', 'bastante', 'nenhuma', 'cuja', 'fazer', 'na', 'nos', 'sistema', 'novos', 'sei', 'eu', 'estives

In [28]:
len(STOP_WORDS)

413

In [30]:
nlp.vocab['ir'].is_stop

True

In [31]:
nlp.vocab['caminhar'].is_stop

False

In [32]:
documento = nlp('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [34]:
for token in documento:
    if not nlp.vocab[token.text].is_stop:
        print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


### Etapa 6: Parsing de dependências

- Relação pai-filho entre as palavras

### Exemplo 1

In [35]:
documento = nlp('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [36]:
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [37]:
list(origem.ancestors)

[passagem, reserve]

In [38]:
list(destino.ancestors)

[chegando, reserve]

In [39]:
documento[0].is_ancestor(documento[2])

True

### Exemplo 2

In [40]:
documento = nlp('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [41]:
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]

In [42]:
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [43]:
for local in locais:
    print('-----', local)
    for objeto in local.ancestors:
        print(objeto)

----- restaurante
mesa
Reserva
----- hotel
táxi
restaurante
mesa
Reserva


In [44]:
for local in locais:
    for objeto in local.ancestors:
        if objeto in tarefas:
            print("Reserva de {} é para o {}".format(objeto, local))
            break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


In [45]:
list(documento[6].children)

[para, o, táxi]

### Exemplo 3

In [46]:
from spacy import displacy

In [47]:
documento = nlp('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [48]:
#displacy.serve(documento, style='dep')
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

In [49]:
list(documento[3].ancestors)

[Reserva]

In [50]:
list(documento[3].children)

[de, uma, restaurante]

### Exemplo 4

In [51]:
documento = nlp('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [52]:
for local in lugares:
    for acao in local.ancestors:
        if acao in acoes:
            print("{} para {}".format(local, acao))
            break

Curitiba para visitar
Guarulhos para ficar


In [53]:
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

### Etapa 7: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

In [67]:
import warnings
warnings.filterwarnings("ignore", message=r"\[W007\]", category=UserWarning)

### Exemplo 1

In [68]:
p1 = nlp("olá")
p2 = nlp("oi")
p3 = nlp("ou")

In [69]:
p1.similarity(p2)

0.8258470579501752

In [70]:
p2.similarity(p1)

0.8258470579501752

In [71]:
p1.similarity(p3)

0.5566860985026827

In [72]:
p2.similarity(p3)

0.5912282624717209

In [73]:
texto1 = nlp('Quando será lançado o novo filme?')
texto2 = nlp('O novo filme será lançado mês que vem')
texto3 = nlp('Qual a cor do carro?')

In [74]:
texto1.similarity(texto2)

0.7954251369412153

In [75]:
texto1.similarity(texto3)

0.6686739425930707

### Exemplo 2

In [76]:
texto = nlp('gato cachorro cavalo pessoa')

In [77]:
for texto1 in texto:
  #print('----', texto1)
  for texto2 in texto:
    #print(texto2)
    similaridade = int(texto1.similarity(texto2) * 100)
    print("{} é {} similar a {}".format(texto1, similaridade, texto2))

gato é 100 similar a gato
gato é 45 similar a cachorro
gato é 30 similar a cavalo
gato é 11 similar a pessoa
cachorro é 45 similar a gato
cachorro é 100 similar a cachorro
cachorro é 56 similar a cavalo
cachorro é 31 similar a pessoa
cavalo é 30 similar a gato
cavalo é 56 similar a cachorro
cavalo é 100 similar a cavalo
cavalo é 32 similar a pessoa
pessoa é 11 similar a gato
pessoa é 31 similar a cachorro
pessoa é 32 similar a cavalo
pessoa é 100 similar a pessoa


### Etapa 8: Tokenização

In [78]:
documento = nlp('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [79]:
for token in documento:
    print(token)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
em
Curitiba


In [80]:
documento1 = 'Estou aprendendo processamento de linguagem natural, curso em Curitiba'
documento1.split(' ')

['Estou',
 'aprendendo',
 'processamento',
 'de',
 'linguagem',
 'natural,',
 'curso',
 'em',
 'Curitiba']