# Introdução ao spaCy
# Etapa 1: Instalação do spaCy

In [1]:
#!pip install spacy --upgrade
#!pip install spacy==2.2.3

In [2]:
import spacy
spacy.__version__

'2.2.3'

In [3]:
!python -m spacy download pt

Link simb¢lico criado para C:\ProgramData\Anaconda3\envs\nlp_spacy\lib\site-packages\spacy\data\pt <<===>> C:\ProgramData\Anaconda3\envs\nlp_spacy\lib\site-packages\pt_core_news_sm
[+] Download and installation successful
You can now load the model via spacy.load('pt_core_news_sm')
[+] Linking successful
C:\ProgramData\Anaconda3\envs\nlp_spacy\lib\site-packages\pt_core_news_sm -->
C:\ProgramData\Anaconda3\envs\nlp_spacy\lib\site-packages\spacy\data\pt
You can now load the model via spacy.load('pt')


You should consider upgrading via the 'C:\ProgramData\Anaconda3\envs\nlp_spacy\python.exe -m pip install --upgrade pip' command.


---
# Etapa 2: Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [4]:
pln = spacy.load('pt')
pln

<spacy.lang.pt.Portuguese at 0x1e99b20cb48>

In [5]:
doc = pln('Estou aprendendo processamento de linguagem natural, curso Curitiba')
for token in doc:
    print(token.text, token.pos_)

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
curso NOUN
Curitiba PROPN


---
## Legenda 

- lemma: raiz da palavra
- pos: parte da fala
- tag: informações morfológicas, como se o verbo está no passado
- dep: dependência sintática
- shape: formato (maiúsculo, minúsculo, dígitos)
- alpha: se é alfabético
- stop: se é stopword

In [6]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_,
         token.dep_, token.shape_, token.is_alpha, token.is_stop)

Estou Estou AUX <aux>|V|PR|1S|IND|@FS-STA aux Xxxxx True True
aprendendo aprender VERB <mv>|V|GER|@ICL-AUX< ROOT xxxx True False
processamento processamento NOUN <np-idf>|N|M|S|@<ACC obj xxxx True False
de de ADP PRP|@N< case xx True True
linguagem linguagem NOUN <np-idf>|N|F|S|@P< nmod xxxx True False
natural natural ADJ ADJ|F|S|@N< amod xxxx True False
, , PUNCT PU|@PU punct , False False
curso cursar NOUN <np-idf>|N|F|S|@N<PRED appos xxxx True False
Curitiba Curitiba PROPN PROP|M|S|@N< appos Xxxxx True False


In [7]:
for token in doc:
    if token.pos_ == 'PROPN':
        print(token.text)

Curitiba


---
# Etapa 3: Lematização e stemização

- Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- Stemização: Extrair o radical das palavras

In [8]:
for token in doc:
    print(token.text, token.lemma_)

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
curso cursar
Curitiba Curitiba


In [9]:
doc1 = pln('encontrei encontraram encontrarão encontrariam')
[token.lemma_ for token in doc]

['Estou',
 'aprender',
 'processamento',
 'de',
 'linguagem',
 'natural',
 ',',
 'cursar',
 'Curitiba']

---
## Comparação stemização (NLTK) x lematização (spaCy)

In [10]:
#!pip install nltk --upgrade

In [11]:
import nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to C:\Users\TOP
[nltk_data]     Artes\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [12]:
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprendendo')

'aprend'

In [14]:
for token in doc:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
curso cursar curs
Curitiba Curitiba curitib


---
# Etapa 4: Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition)
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas: https://spacy.io/api/annotation#named-entities

In [15]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [17]:
documento = pln(texto)
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [19]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [20]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1995 e foi o criador da Microsoft'

In [21]:
documento =pln(texto)
for entidade in documento.ents:
    print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [22]:
displacy.render(documento, style = 'ent', jupyter = True)

In [24]:
for entidade in documento.ents:
    if entidade.label_ == 'PER':
        print(entidade.text)

Bill Gates


---
# Etapa 5: Stopwords
- Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [25]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [26]:
print(STOP_WORDS)

{'pois', 'fazia', 'lá', 'porque', 'mas', 'fomos', 'saber', 'usar', 'sabe', 'da', 'naquela', 'grupo', 'inicio', 'longe', 'aquilo', 'conhecido', 'um', 'porém', 'esse', 'fazemos', 'quieta', 'questão', 'perto', 'possível', 'todas', 'cima', 'meio', 'dentro', 'vinda', 'sois', 'entre', 'dão', 'portanto', 'poder', 'pelos', 'também', 'estas', 'sete', 'pegar', 'quem', 'algo', 'estava', 'cá', 'tentei', 'fostes', 'pelo', 'momento', 'nesse', 'terceiro', 'cujo', 'desta', 'das', 'até', 'dez', 'certamente', 'fim', 'quer', 'relação', 'umas', 'tempo', 'quinto', 'sob', 'máximo', 'pôde', 'ademais', 'em', 'tudo', 'apontar', 'aí', 'sua', 'nessa', 'qualquer', 'sexta', 'exemplo', 'adeus', 'segundo', 'vossas', 'duas', 'outra', 'do', 'é', 'nuns', 'área', 'isso', 'fazer', 'dar', 'no', 'puderam', 'aquele', 'próxima', 'número', 'esteve', 'muitos', 'ele', 'minhas', 'assim', 'baixo', 'as', 'novas', 'quais', 'novos', 'tens', 'quero', 'quanto', 'esta', 'fará', 'lugar', 'pelas', 'tiveste', 'teu', 'tanto', 'nunca', 'ape

In [27]:
len(STOP_WORDS)

413

In [28]:
pln.vocab['ir'].is_stop

True

In [29]:
pln.vocab['caminhar'].is_stop

False

In [32]:
print(f'Documento:\n{doc}\n\n')
for token in doc:
    if not pln.vocab[token.text].is_stop:
        print(token.text)

Documento:
Estou aprendendo processamento de linguagem natural, curso Curitiba


aprendendo
processamento
linguagem
natural
,
curso
Curitiba


---
# Etapa 6: Parsing de dependências

- Relação pai-filho entre as palavras

## Exemplo 1

In [33]:
documento = pln('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [34]:
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [36]:
list(origem.ancestors)

[passagem, reserve]

In [35]:
list(destino.ancestors)

[chegando, reserve]

In [41]:
documento[0].is_ancestor(documento[2])

True

In [40]:
locais = {token.text:list(token.ancestors) for token in documento if token.pos_ == 'PROPN'}
locais

{'Guarulhos': [passagem, reserve], 'Curitiba': [chegando, reserve]}

## Exemplo 2

In [42]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [43]:
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [44]:
for local in locais:
    print('-------', local)
    for objeto in local.ancestors:
        print(objeto)

------- restaurante
mesa
Reserva
------- hotel
táxi
restaurante
mesa
Reserva


In [48]:
 for local in locais:
    for objeto in local.ancestors:
        if objeto in tarefas:
            print(f'Reserva de {objeto} é para o {local}')
            break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


In [50]:
documento[6], list(documento[6].children)

(restaurante, [para, o, táxi])

## Exemplo 3

In [51]:
# visualização local
# displacy.serve(documento, style='dep')

displacy.render(documento, style='dep', jupyter=True, options = {'distance':90})

In [54]:
documento[3], list(documento[3].ancestors), list(documento[3].children)

(mesa, [Reserva], [de, uma, restaurante])

## Exemplo 4

In [55]:
documento = pln('Quais locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [58]:
for local in lugares:
    for acao in local.ancestors:
        if acao.pos_ == 'VERB':
            print(f'{local} para {acao}')
            break

Curitiba para visitar
Guarulhos para ficar


In [59]:
displacy.render(documento, style='dep', jupyter=True, options = {'distance':90})

# Etapa 7: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

## Exemplo 1

In [60]:
p1 = pln('olá')
p2 = pln('oi')
p3 = pln('ou')

In [61]:
p1.similarity(p2)

  "__main__", mod_spec)


0.8258470579501752

In [62]:
p2.similarity(p1)

  "__main__", mod_spec)


0.8258470579501752

In [63]:
p1.similarity(p3)

  "__main__", mod_spec)


0.5566860985026827

In [64]:
p2.similarity(p3)

  "__main__", mod_spec)


0.5912282624717209

In [67]:
texto1 = pln('Quando será lançado o novo filme?')
texto2 = pln('Quando será o lançamento do novo filme?')
texto3 = pln('O novo filme será lançado o mês que vem')
texto4 = pln('Qual a cor do carro?')
texto1.similarity(texto2)

  "__main__", mod_spec)


0.8939301045295635

In [68]:
texto1.similarity(texto3)

  "__main__", mod_spec)


0.7901833740856784

In [69]:
texto1.similarity(texto4)

  "__main__", mod_spec)


0.6686739425930707

## Exemplo 2

In [73]:
texto = pln('gato cachorro cavalo pessoa')
for texto1 in texto:
    # print('------', texto1)
    for texto2 in texto:
        # print(texto2)
        similaridade = int(texto1.similarity(texto2) * 100)
        print(f'{texto1} é {similaridade} similar a {texto2}')

gato é 100 similar a gato
gato é 45 similar a cachorro
gato é 30 similar a cavalo
gato é 11 similar a pessoa
cachorro é 45 similar a gato
cachorro é 100 similar a cachorro
cachorro é 56 similar a cavalo
cachorro é 31 similar a pessoa
cavalo é 30 similar a gato
cavalo é 56 similar a cachorro
cavalo é 100 similar a cavalo
cavalo é 32 similar a pessoa
pessoa é 11 similar a gato
pessoa é 31 similar a cachorro
pessoa é 32 similar a cavalo
pessoa é 100 similar a pessoa


  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)


# Etapa 8: Tokenização

In [75]:
for token in doc:
    print(token)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
Curitiba
