<a href="https://colab.research.google.com/github/flaviagaia/SpaCy/blob/main/1_Introdu%C3%A7%C3%A3o_a_spacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução ao spaCy

# Etapa 1: Instalação do spaCy

In [None]:
#!pip install spacy --upgrade
!pip install spacy==2.2.3

Collecting spacy==2.2.3
[?25l  Downloading https://files.pythonhosted.org/packages/91/76/1f30264c433f9c3c84171fa03f4b6bb5f3303df7781d21554d25045873f4/spacy-2.2.3-cp37-cp37m-manylinux1_x86_64.whl (10.4MB)
[K     |████████████████████████████████| 10.4MB 10.3MB/s 
Collecting thinc<7.4.0,>=7.3.0
[?25l  Downloading https://files.pythonhosted.org/packages/32/53/d11d2faa6921e55c37ad2cd56b0866a9e6df647fb547cfb69a50059d759c/thinc-7.3.1-cp37-cp37m-manylinux1_x86_64.whl (2.2MB)
[K     |████████████████████████████████| 2.2MB 53.4MB/s 
Installing collected packages: thinc, spacy
  Found existing installation: thinc 7.4.0
    Uninstalling thinc-7.4.0:
      Successfully uninstalled thinc-7.4.0
  Found existing installation: spacy 2.2.4
    Uninstalling spacy-2.2.4:
      Successfully uninstalled spacy-2.2.4
Successfully installed spacy-2.2.3 thinc-7.3.1


In [None]:
!python -m spacy download pt_core_news_sm

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')


# Etapa 2: Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [None]:
# Carregue o modelo
import spacy
import pt_core_news_sm

pln = pt_core_news_sm.load()

In [None]:
documento = pln('Estou aprendendo processamento de linguagem natural')

In [None]:
for token in documento:
  print(token.text, token.pos_)

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ


## Legenda 

- lemma: raiz da palavra
- pos: parte da fala
- tag: informações morfológicas, como se o verbo está no passado
- dep: dependência sintática
- shape: formato (maiúsculo, minúsculo, dígitos)
- alpha: se é alfabético
- stop: se é stopword

In [None]:
for token in documento:
  print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, 
        token.shape_, token.is_alpha, token.is_stop)

Estou Estou AUX <aux>|V|PR|1S|IND|@FS-STA aux Xxxxx True True
aprendendo aprender VERB <mv>|V|GER|@ICL-AUX< ROOT xxxx True False
processamento processamento NOUN <np-idf>|N|M|S|@<ACC obj xxxx True False
de de ADP PRP|@N< case xx True True
linguagem linguagem NOUN <np-idf>|N|F|S|@P< nmod xxxx True False
natural natural ADJ ADJ|F|S|@N< amod xxxx True False


In [None]:
for token in documento:
  if token.pos_ == 'PROPN':
    print(token.text)

# Etapa 3: Lematização e stemização

- Lematização: "Lema" de uma palavra de acordo com seu significado no dicionário - palavra base (análise vocabular e morfológica)
- Stemização: Extrair o radical das palavras

In [None]:
for token in documento:
  print(token.text, token.lemma_)

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural


In [None]:
doc = pln('encontrei encontraram encontrarão encontrariam cursando curso cursei')
[token.lemma_ for token in doc]

['encontrar',
 'encontrar',
 'encontrar',
 'encontrar',
 'cursar',
 'cursar',
 'cursar']

## Comparação stemização (NLTK) x lematização (spaCy)

In [None]:
!pip install nltk --upgrade

Collecting nltk
[?25l  Downloading https://files.pythonhosted.org/packages/5e/37/9532ddd4b1bbb619333d5708aaad9bf1742f051a664c3c6fa6632a105fd8/nltk-3.6.2-py3-none-any.whl (1.5MB)
[K     |████████████████████████████████| 1.5MB 14.8MB/s 
Installing collected packages: nltk
  Found existing installation: nltk 3.2.5
    Uninstalling nltk-3.2.5:
      Successfully uninstalled nltk-3.2.5
Successfully installed nltk-3.6.2


In [None]:
import nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [None]:
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprender')

'aprend'

In [None]:
for token in documento:
  print(token.text, token.lemma_, stemmer.stem(token.text))

Estou Estou est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur


# Etapa 4: Reconhecimento de entidades nomeadas

- NER (Named-Entity Recognition)
- Encontrar e classificar entidades no texto, dependendo da base de dados que foi utilizada para o treinamento (pessoa, localização, empresa, numéricos)
- Usado em chatbots para saber o assunto falado
- Siglas: https://spacy.io/api/annotation#named-entities

In [None]:
texto = 'A IBM é uma empresa dos Estados Unidos voltada para a área de informática. Sua sede no Brasil fica em São Paulo e a receita em 2018 foi de aproximadamente 320 bilhões de reais'

In [None]:
documento = pln(texto)

In [None]:
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

IBM ORG
Estados Unidos LOC
Brasil LOC
São Paulo LOC


In [None]:
from spacy import displacy
displacy.render(documento, style = 'ent', jupyter = True)

In [None]:
texto = 'Bill Gates nasceu em Seattle em 28/10/1955 e foi o criador da Microsoft'

In [None]:
documento = pln(texto)
for entidade in documento.ents:
  print(entidade.text, entidade.label_)

Bill Gates PER
Seattle LOC
Microsoft ORG


In [None]:
displacy.render(documento, style = 'ent', jupyter = True)

In [None]:
for entidade in documento.ents:
  if entidade.label_ == 'PER':
    print(entidade.text)

Bill Gates


# Etapa 5: Stopwords

- Palavras que aparecem com muita frequência e que não apresentam muito significado (e, a, de, da, etc)

In [None]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [None]:
print(STOP_WORDS)

{'vários', 'lugar', 'baixo', 'outras', 'estou', 'parte', 'nova', 'comprida', 'uns', 'grandes', 'fazer', 'suas', 'só', 'outra', 'sétimo', 'cima', 'cento', 'agora', 'sempre', 'cinco', 'este', 'neste', 'vêm', 'seus', 'sistema', 'tente', 'sois', 'tipo', 'obrigado', 'naquela', 'como', 'contra', 'essa', 'estivemos', 'certamente', 'tens', 'sob', 'dez', 'nove', 'de', 'dois', 'estava', 'tanta', 'seis', 'partir', 'tendes', 'terceira', 'da', 'saber', 'eventual', 'lá', 'tivestes', 'dessa', 'tudo', 'possivelmente', 'do', 'mais', 'sete', 'cá', 'dizer', 'se', 'meu', 'apoia', 'bem', 'acerca', 'com', 'ambos', 'apoio', 'tua', 'quais', 'meses', 'pouca', 'aos', 'conhecida', 'corrente', 'aquilo', 'sexta', 'tão', 'oitava', 'mesmo', 'podem', 'isso', 'certeza', 'vos', 'ou', 'estes', 'cada', 'nossos', 'muitos', 'sétima', 'nesta', 'breve', 'sem', 'outros', 'nos', 'próxima', 'porquê', 'debaixo', 'teus', 'valor', 'umas', 'vinte', 'ali', 'ademais', 'fora', 'mil', 'além', 'poderá', 'grande', 'teu', 'porque', 'três'

In [None]:
len(STOP_WORDS)

413

In [None]:
pln.vocab['ir'].is_stop

True

In [None]:
pln.vocab['caminhar'].is_stop

False

In [None]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [None]:
for token in documento:
  if not pln.vocab[token.text].is_stop:
    print(token.text)

aprendendo
processamento
linguagem
natural
,
curso
Curitiba


# Etapa 6: Parsing de dependências

- Relação pai-filho entre as palavras

## Exemplo 1

In [None]:
documento = pln('reserve uma passagem saindo de Guarulhos e chegando em Curitiba')

In [None]:
origem = documento[5]
destino = documento[9]
origem, destino

(Guarulhos, Curitiba)

In [None]:
list(origem.ancestors)

[passagem, reserve]

In [None]:
list(destino.ancestors)

[chegando, reserve]

In [None]:
documento[0].is_ancestor(documento[2])

True

## Exemplo 2

In [None]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [None]:
tarefas = documento[3], documento[10]
locais = documento[6], documento[13]

In [None]:
tarefas, locais

((mesa, táxi), (restaurante, hotel))

In [None]:
for local in locais:
  print('-----', local)
  for objeto in local.ancestors:
    print(objeto)

----- restaurante
mesa
Reserva
----- hotel
táxi
restaurante
mesa
Reserva


In [None]:
for local in locais:
  for objeto in local.ancestors:
    if objeto in tarefas:
      print("Reserva de {} é para o {}".format(objeto, local))
      break

Reserva de mesa é para o restaurante
Reserva de táxi é para o hotel


In [None]:
list(documento[6].children)

[para, o, táxi]

## Exemplo 3

In [None]:
from spacy import displacy

In [None]:
documento = pln('Reserva de uma mesa para o restaurante e de um táxi para o hotel')

In [None]:
#displacy.serve(documento, style='dep')
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

In [None]:
list(documento[3].ancestors)

[Reserva]

In [None]:
list(documento[3].children)

[de, uma, restaurante]

## Exemplo 4

In [None]:
documento = pln('Que locais podemos visitar em Curitiba e para ficar em Guarulhos?')
lugares = documento[5], documento[10]
acoes = documento[3], documento[8]
lugares, acoes

((Curitiba, Guarulhos), (visitar, ficar))

In [None]:
for local in lugares:
  for acao in local.ancestors:
    if acao in acoes:
      print("{} para {}".format(local, acao))
      break

Curitiba para visitar
Guarulhos para ficar


In [None]:
displacy.render(documento, style='dep', jupyter=True, options={'distance': 90})

# Etapa 7: Semelhanças entre palavras e frases

- Verificar se duas palavras são semelhantes ou logicamente relacionadas
- Usa o algoritmo GloVe (Global Vectors for Word Representation)
- Artigo original: https://nlp.stanford.edu/pubs/glove.pdf

## Exemplo 1

In [None]:
p1 = pln("olá")
p2 = pln("oi")
p3 = pln("ou")

In [None]:
p1.similarity(p2)

  "__main__", mod_spec)


0.825847027174465

In [None]:
p2.similarity(p1)

  "__main__", mod_spec)


0.825847027174465

In [None]:
p1.similarity(p3)

  "__main__", mod_spec)


0.5566860956596927

In [None]:
p2.similarity(p3)

  "__main__", mod_spec)


0.5912282843406211

In [None]:
texto1 = pln('Quando será lançado o novo filme?')
texto2 = pln('O novo filme será lançado mês que vem')
texto3 = pln('Qual a cor do carro?')

In [None]:
texto1.similarity(texto2)

  "__main__", mod_spec)


0.795425093394398

In [None]:
texto1.similarity(texto3)

  "__main__", mod_spec)


0.66867394624965

## Exemplo 2

In [None]:
texto = pln('gato cachorro cavalo pessoa')

In [None]:
for texto1 in texto:
  #print('----', texto1)
  for texto2 in texto:
    #print(texto2)
    similaridade = int(texto1.similarity(texto2) * 100)
    print("{} é {} similar a {}".format(texto1, similaridade, texto2))

gato é 100 similar a gato
gato é 45 similar a cachorro
gato é 30 similar a cavalo
gato é 11 similar a pessoa
cachorro é 45 similar a gato
cachorro é 100 similar a cachorro
cachorro é 56 similar a cavalo
cachorro é 31 similar a pessoa
cavalo é 30 similar a gato
cavalo é 56 similar a cachorro
cavalo é 100 similar a cavalo
cavalo é 32 similar a pessoa
pessoa é 11 similar a gato
pessoa é 31 similar a cachorro
pessoa é 32 similar a cavalo
pessoa é 100 similar a pessoa


  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)


# Etapa 8: Tokenização

In [None]:
documento = pln('Estou aprendendo processamento de linguagem natural, curso em Curitiba')

In [None]:
for token in documento:
  print(token)

Estou
aprendendo
processamento
de
linguagem
natural
,
curso
em
Curitiba


In [None]:
documento1 = 'Estou aprendendo processamento de linguagem natural, curso em Curitiba'
documento1.split(' ')

['Estou',
 'aprendendo',
 'processamento',
 'de',
 'linguagem',
 'natural,',
 'curso',
 'em',
 'Curitiba']