<a href="https://colab.research.google.com/github/osmarbraz/exemplos_spacy/blob/main/Exemplo_SpacyColab_pt_br.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplo uso Spacy com Modelo em Português
Exemplo do uso Spacy Python Library com execução através do Google Colaboratory.<br>

Funciona no Jupiter Notebook com algumas modificações.

Site ferramenta: https://spacy.io/

Tutorial<br>
https://medium.com/@van3ssabandeira/o-famoso-spacy-90afb683b6fe


# 0 Preparação do ambiente
Preparação do ambiente para executar o spacy.

##Tratamento de logs

In [57]:
#biblioteca de logging
import logging

#Formato da mensagem
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## Parâmetros

Parâmetros da execução do teste

* sm = small model (não possui vocabulário de palavras)
* md = medium model
* lg = large model

https://spacy.io/models/en

In [58]:
# Definição do nome do arquivo do modelo
#MODELO_SPACY = 'pt_core_news_sm'
#MODELO_SPACY = 'pt_core_news_md'
MODELO_SPACY = 'pt_core_news_lg'

logging.info('Parâmetros definidos!')

INFO:root:Parâmetros definidos!


# 1 Instalação

Instala o spacy no notebook. O site para instalação está em https://spacy.io/usage.

No Jupiter Notebook executar através "Anaconda Prompt".

In [59]:
# Instala o spacy
!pip install -U pip==25.3 setuptools==80.9.0 wheel==0.45.1



In [60]:
# Instala a última versão disponível
#!pip install -U spacy

# Instala uma versão específica
!pip install -U spacy==3.8.11



# 2 Execução

##Baixa o modelo em português.

Outras linguagens podem ser consultadas em:<br>
https://spacy.io/usage/models#languages

In [61]:
# Baixa automaticamente o arquivo do modelo
!python -m spacy download $MODELO_SPACY

logging.info('Modelo descarregado !')

Collecting pt-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.8.0/pt_core_news_lg-3.8.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m41.4 MB/s[0m  [33m0:00:10[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


INFO:root:Modelo descarregado !


## Importa as bibliotecas

In [62]:
# Importando as bibliotecas.
import spacy
from spacy  import displacy

logging.info('Import realizado!')

INFO:root:Import realizado!


## Carrega o modelo em português.

Outros modelos estão disponíveis em https://spacy.io/models

Para tornar os modelos compactos e rápidos, os modelos pequenos do spaCy (todos os pacotes que terminam em **sm**(small) não contêm  vetores de palavras e incluem apenas tensores sensíveis ao contexto.

In [63]:
# Instala somente os pipelines necessários
#nlp = spacy.load(MODELO_SPACY, disable=['tokenizer', 'lemmatizer', 'ner', 'parser', 'textcat', 'custom'])

nlp = spacy.load(MODELO_SPACY)

logging.info('Modelo carregado !')

INFO:root:Modelo carregado !


# 3 Exemplo sentença 1

In [64]:
documento = u"Estou bem, mas não tenho certeza se viajarei para São Paulo amanhã às 8:30."

##Armazena um texto.

In [65]:
doc = nlp(documento)
logging.info('Texto armazenado!')

INFO:root:Texto armazenado!


##Separando o texto em uma lista de tokens.

In [66]:
>>> [token.orth_ for token in doc]

['Estou',
 'bem',
 ',',
 'mas',
 'não',
 'tenho',
 'certeza',
 'se',
 'viajarei',
 'para',
 'São',
 'Paulo',
 'amanhã',
 'às',
 '8:30',
 '.']

##Separando o texto em uma lista de palavras

In [67]:
doc.text.split()

['Estou',
 'bem,',
 'mas',
 'não',
 'tenho',
 'certeza',
 'se',
 'viajarei',
 'para',
 'São',
 'Paulo',
 'amanhã',
 'às',
 '8:30.']

## Criando uma lista das sentenças

In [68]:
lista = list(doc.sents)
print("Número de sentenças = ",len(lista))
print(lista)

Número de sentenças =  1
[Estou bem, mas não tenho certeza se viajarei para São Paulo amanhã às 8:30.]


##Verificando se a palavra é um verbo.

In [69]:
[(token.text, token.pos_ == 'VERB') for token in doc]

[('Estou', False),
 ('bem', False),
 (',', False),
 ('mas', False),
 ('não', False),
 ('tenho', True),
 ('certeza', False),
 ('se', False),
 ('viajarei', True),
 ('para', False),
 ('São', False),
 ('Paulo', False),
 ('amanhã', False),
 ('às', False),
 ('8:30', False),
 ('.', False)]

##Identificando o infinitivo dos verbos.

In [70]:
[(token.text, token.lemma_) for token in doc if token.pos_ == 'VERB']

[('tenho', 'ter'), ('viajarei', 'viajar')]

##Verificando se a palavra da sentença é uma pontuação.

In [71]:
[(token.text, token.is_punct) for token in doc]

[('Estou', False),
 ('bem', False),
 (',', True),
 ('mas', False),
 ('não', False),
 ('tenho', False),
 ('certeza', False),
 ('se', False),
 ('viajarei', False),
 ('para', False),
 ('São', False),
 ('Paulo', False),
 ('amanhã', False),
 ('às', False),
 ('8:30', False),
 ('.', True)]

##Identificando as classes gramaticais das palavras.

O significado das classes estão em: https://spacy.io/api/annotation#pos-tagging


https://universaldependencies.org/docs/u/pos/

In [72]:
[(token.text, token.pos_) for token in doc]

[('Estou', 'AUX'),
 ('bem', 'ADV'),
 (',', 'PUNCT'),
 ('mas', 'CCONJ'),
 ('não', 'ADV'),
 ('tenho', 'VERB'),
 ('certeza', 'NOUN'),
 ('se', 'SCONJ'),
 ('viajarei', 'VERB'),
 ('para', 'ADP'),
 ('São', 'PROPN'),
 ('Paulo', 'PROPN'),
 ('amanhã', 'ADV'),
 ('às', 'ADP'),
 ('8:30', 'NOUN'),
 ('.', 'PUNCT')]

## Ancestrais

In [73]:
tokens = [token for token in doc]
tokens[0].is_ancestor(tokens[2])

False

##Identificando as sentenças em um texto.

Mostra as sentenças de um texto.

In [74]:
for sentencas in doc.sents:
    print(sentencas)

Estou bem, mas não tenho certeza se viajarei para São Paulo amanhã às 8:30.


##Identificando as entidades. (NER/Named Entity Recognition)

**Text**: o texto original da entidade.<br>
**Start**: Índice de início da entidade no Doc.<br>
**End**: Índice do fim da entidade no Doc.<br>
**Label**: rótulo da entidade, ou seja, tipo.<br>

https://medium.com/botsbrasil/como-reconhecer-entidades-na-l%C3%ADngua-portuguesa-usando-spacy-8a5ca6f42c4f

### Listando as entidades identificadas

In [75]:
for ent in doc.ents:
   print(ent.text, ent.start_char, ent.end_char, ent.label_)

São Paulo 50 59 LOC


ou

In [76]:
[(entity, entity.label_) for entity in doc.ents]

[(São Paulo, 'LOC')]

### Visualizando o texto marcado

In [77]:
# Importando as bibliotecas.
import spacy
from spacy  import displacy

displacy.render(doc,style="ent",jupyter=True)

###Checando similaridade entre as entidades.

In [78]:
# Retorna as entidades de doc
entities = [entity for entity in doc.ents]

if len(doc.ents) > 1:
  print('Similaridade entre entities[0]=[' + str(entities[0]) + '] e entities[0]=[' + str(entities[0]) + ']: %.4g'%(entities[0].similarity(entities[0]) * 100), "%")
  print('Similaridade entre entities[0]=[' + str(entities[0]) + '] e entities[1]=[' + str(entities[1]) + ']: %.4g'%(entities[0].similarity(entities[1]) * 100), "%")
else:
  print('Similaridade entre entities[0]=[' + str(entities[0]) + '] e entities[0]=[' + str(entities[0]) + ']: %.4g'%(entities[0].similarity(entities[0]) * 100), "%")

Similaridade entre entities[0]=[São Paulo] e entities[0]=[São Paulo]: 100 %


## POS tagging / Analisando a sentença

https://medium.com/greyatom/learning-pos-tagging-chunking-in-nlp-85f7f811a8cb

**Text**: o texto original da palavra.<br>
**Lema**: A forma base da palavra.<br>
**POS**: A tag simples da parte do discurso. O significado das classes estão em: https://spacy.io/api/annotation#pos-tagging<br>
**Tag**: A etiqueta detalhada da parte do discurso.<br>
**Dep**: Dependência sintática, ou seja, a relação entre tokens.<br>
**Shape**: A forma da palavra - letras maiúsculas, pontuação e dígitos.<br>
**is alpha**: o token é um caractere alfa?<br>
**is stop**: o token faz parte de uma lista de paradas, ou seja, as palavras mais comuns do idioma?<br> **bold text**

In [79]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,token.shape_,token.is_alpha, token.is_stop)

Estou estar AUX AUX cop Xxxxx True True
bem bem ADV ADV ROOT xxx True True
, , PUNCT PUNCT punct , False False
mas mas CCONJ CCONJ cc xxx True True
não não ADV ADV advmod xxx True True
tenho ter VERB VERB conj xxxx True True
certeza certeza NOUN NOUN obj xxxx True True
se se SCONJ SCONJ mark xx True True
viajarei viajar VERB VERB ccomp xxxx True False
para para ADP ADP case xxxx True True
São São PROPN PROPN obl Xxx True True
Paulo Paulo PROPN PROPN flat:name Xxxxx True False
amanhã amanhã ADV ADV advmod xxxx True False
às a o ADP ADP case xx True True
8:30 8:30 NOUN NOUN obl d:dd False False
. . PUNCT PUNCT punct . False False


ou partes

In [80]:
print([(token.text, token.tag_) for token in doc])

[('Estou', 'AUX'), ('bem', 'ADV'), (',', 'PUNCT'), ('mas', 'CCONJ'), ('não', 'ADV'), ('tenho', 'VERB'), ('certeza', 'NOUN'), ('se', 'SCONJ'), ('viajarei', 'VERB'), ('para', 'ADP'), ('São', 'PROPN'), ('Paulo', 'PROPN'), ('amanhã', 'ADV'), ('às', 'ADP'), ('8:30', 'NOUN'), ('.', 'PUNCT')]


## Frequência de POS

In [81]:
[(token.text, token.pos_) for token in doc]

[('Estou', 'AUX'),
 ('bem', 'ADV'),
 (',', 'PUNCT'),
 ('mas', 'CCONJ'),
 ('não', 'ADV'),
 ('tenho', 'VERB'),
 ('certeza', 'NOUN'),
 ('se', 'SCONJ'),
 ('viajarei', 'VERB'),
 ('para', 'ADP'),
 ('São', 'PROPN'),
 ('Paulo', 'PROPN'),
 ('amanhã', 'ADV'),
 ('às', 'ADP'),
 ('8:30', 'NOUN'),
 ('.', 'PUNCT')]

In [82]:
def getDicPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS['POS'])

  # Dicionário com as tags e quantidades
  novodic = dict()

  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novodic[classe_gramatical] = qtde

  return novodic

In [83]:
documento = "O céu está azul e verde."
# Processa sentença no spaCy
doc = nlp(documento)

retorno = getDicPOSQtde(documento)

print(retorno)

{'DET': 1, 'NOUN': 1, 'AUX': 1, 'ADJ': 2, 'CCONJ': 1, 'PUNCT': 1}


##Noun Chunking / Substantivos

Os substantivos são "sentenças substantivas de base" - sentenças simples que têm um substantivo como principal. Você pode pensar em blocos de substantivos como um substantivo, além das palavras que descrevem o substantivo - por exemplo, "a luxuosa grama verde" ou "o maior fundo de tecnologia do mundo".

**Text**: o texto original do pedaço do substantivo.<br>
**Root text**: o texto original da palavra que conecta o pedaço do substantivo ao restante da análise.<br>
**Root dep**: relação de dependência que conecta a raiz à sua cabeça.<br>
**Root head text**: o texto do cabeçalho do token raiz.<br>

https://medium.com/greyatom/learning-pos-tagging-chunking-in-nlp-85f7f811a8cb

In [84]:
#for chunk in doc.noun_chunks:
  #print(chunk.text, chunk.label_, chunk.root.text, chunk.root.dep_,chunk.root.head.text)

##Visualizando as dependências

Éo processo de representar as dependências do texto através das relações entre os tokens. Por exemplo: um artigo está ligado a um substantivo, um advérbio modifica um verbo, e assim por diante.

O significado das classes estão em: https://spacy.io/api/annotation#pos-tagging

In [85]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 85})

## Árvore de Análise da sentença

In [86]:
# Importando a biblioteca
from nltk import Tree

def to_nltk_tree(node):
    if node.n_lefts + node.n_rights > 0:
        return Tree(node.orth_, [to_nltk_tree(child) for child in node.children])
    else:
        return node.orth_

[to_nltk_tree(sent.root).pretty_print() for sent in doc.sents]

     azul          
  ____|_________    
 |    |   céu verde
 |    |    |    |   
está  .    O    e  



[None]

## Sentença substantiva

https://realpython.com/natural-language-processing-spacy-python/

In [87]:
doc = nlp(documento)

# Extrai as sentenças substantivas
#for chunk in doc.noun_chunks:
#   print (chunk)

## Localiza verbos

Localiza os verbos e locuções verbais da sentença.

Parâmetro OP:
- \! = Negação, 0 Vezes
- \? = Opcional, 0 ou 1 Vez
- \+ = Requerido, 1 ou mais vezes
- \* = Vários, 0 ou mais vezes

Simulador em inglês:
https://explosion.ai/demos/matcher


In [88]:
import spacy
from spacy.util import filter_spans
from spacy.matcher import Matcher

# (verbo normal como auxilar ou auxilar) + vários verbos auxiliares +verbo principal ou verbo auxiliar
gramaticav1 =  [
                {'POS': 'AUX', 'OP': '?', 'DEP': {'IN': ['aux','aux:pass']}},  #verbo auxiliar
                {'POS': 'VERB', 'OP': '?', 'DEP': {'IN': ['ROOT','aux','xcomp','aux:pass']}},  #verbo normal como auxiliar
                {'POS': 'AUX', 'OP': '*', 'DEP': {'IN': ['aux','xcomp','aux:pass']}},  #verbo auxiliar
                {'POS': 'VERB', 'OP': '+'}, #verbo principal
                {'POS': 'AUX', 'OP': '?', 'DEP': {'IN': ['cop','aux','xcomp','aux:pass']}},  #verbo auxiliar
               ]

# verbo auxiliar + verbo normal como auxiliar + conjunção com preposição + verbo
gramaticav2 =  [
                {'POS': 'AUX', 'OP': '?', 'DEP': {'IN': ['aux','aux:pass']}},  #verbo auxiliar
                {'POS': 'VERB', 'OP': '+', 'DEP': {'IN': ['ROOT']}},  #verbo principal
                {'POS': 'SCONJ', 'OP': '+', 'DEP': {'IN': ['mark']}}, #conjunção com preposição
                {'POS': 'VERB', 'OP': '+', 'DEP': {'IN': ['xcomp']}}, #verbo normal como complementar
               ]

#Somente verbos auxiliares
gramaticav3 =  [
                {'POS': 'AUX', 'OP': '?'},  #Verbos auxiliar
                {'POS': 'AUX', 'OP': '?', 'DEP': {'IN': ['cop']}},  #Verbos auxiliar de ligação (AUX+(cop))
                {'POS': 'ADJ', 'OP': '+', 'DEP': {'IN': ['ROOT']}},
                {'POS': 'AUX', 'OP': '?'}  #Verbos auxiliar
                ]

matcherv = Matcher(nlp.vocab)

matcherv.add("sentença verbal", [gramaticav1])
matcherv.add("sentença verbal", [gramaticav2])
matcherv.add("sentença verbal", [gramaticav3])

#Retorna a Sentença Verbal
def localizaVerbos(sentenca):
  #Processa o período
  doc1 = nlp(sentenca)

  # Chama o matcher para encontrar o padrão
  matches = matcherv(doc1)

  padrao = [doc1[start:end] for _, start, end in matches]

  #elimina as repetições e sobreposições
  lista1 = filter_spans(padrao)

  # Converte os itens em string
  lista2 = []
  for x in lista1:
      lista2.append(str(x))

  return lista2

In [89]:
documento = "Vi, vi e venci."

verbos = localizaVerbos(documento)

print(verbos)

['Vi', 'vi', 'venci']


# 4 Exemplo sentenças

##Armazena um texto.

In [90]:
#documento = u"Estou bem, mas não tenho certeza se viajarei para São Paulo amanhã às 8:30."
#documento = u"Que é época de alta circulação de vírus respiratórios, apontam séries históricas da Fiocruz."
#documento = u'Olá Professor Osmar, hoje teremos aula?'
#documento = u'Professor, como eu faço para Empilhar um elemento de uma Fila?'
#documento = u'Olá Professor tudo bem? Como eu faço para Empilhar um elemento de uma Fila? Boa Tarde!'
#documento = u"O cão roía o osso."
#documento = u"O rato comeu o queijo."
documento = u"O que é uma pilha e como empilhar seu elemento?"

In [91]:
doc = nlp(documento)

logging.info('Texto armazenado!')

INFO:root:Texto armazenado!


##Visualizando as dependências

Éo processo de representar as dependências do texto através das relações entre os tokens. Por exemplo: um artigo está ligado a um substantivo, um advérbio modifica um verbo, e assim por diante.

O significado das classes estão em: https://spacy.io/api/annotation#pos-tagging

In [92]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 100})

##Armazena um texto.

In [93]:
#documento = u"Estou bem, mas não tenho certeza se viajarei para São Paulo amanhã às 8:30."
#documento = u"Que é época de alta circulação de vírus respiratórios, apontam séries históricas da Fiocruz."
#documento = u'Olá Professor Osmar, hoje teremos aula?'
#documento = u'Professor, como eu faço para Empilhar um elemento de uma Fila?'
#documento = u'Olá Professor tudo bem? Como eu faço para Empilhar um elemento de uma Fila? Boa Tarde!'
#documento = u"O cão roía o osso."
#documento = u"O rato comeu o queijo."
documento = u"O que é uma fila e como enfileirar seu elemento?"

In [94]:
doc = nlp(documento)

logging.info('Texto armazenado!')

INFO:root:Texto armazenado!


##Visualizando as dependências

Éo processo de representar as dependências do texto através das relações entre os tokens. Por exemplo: um artigo está ligado a um substantivo, um advérbio modifica um verbo, e assim por diante.

O significado das classes estão em: https://spacy.io/api/annotation#pos-tagging

In [95]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 100})

##Árvore de Análise

In [96]:
#documento = u"Que dia bonito hoje!"
#documento = u"Que é época de alta circulação de vírus respiratórios, apontam séries históricas da Fiocruz."
#documento = u"Estou bem, mas não tenho certeza se viajarei para São Paulo amanhã às 8:30."
#documento = u"Estados anunciam flexibilização em época de alta circulação de vírus respiratórios, apontam séries históricas da Fiocruz."
documento = u"O que é uma pilha e como empilhar seu elemento?"

doc = nlp(documento)

print (type(doc))

if (type(doc) is spacy.tokens.doc.Doc):
  print("tipo Spacy")
else:
  print("Não é do tipo spacy")

<class 'spacy.tokens.doc.Doc'>
tipo Spacy


In [97]:
# Importando as bibliotecas.
import spacy
from nltk import Tree

def to_nltk_tree(node):
    if node.n_lefts + node.n_rights > 0:
        return Tree(node.orth_, [to_nltk_tree(child) for child in node.children])
    else:
        return node.orth_

In [98]:
print([to_nltk_tree(sent.root).pretty_print() for sent in doc.sents])

     O                                 
  ___|________                          
 |          pilha                      
 |    ________|__________               
 |   |   |    |       empilhar         
 |   |   |    |     _____|________      
 |   |   |    |    |     |     elemento
 |   |   |    |    |     |        |     
 ?  que  é   uma   e    como     seu   

[None]


# 5 Exemplo comparando os embeddings das ocorrências da palavra "banco" em uma sentença.

## Comparando embeddings de palavras

In [99]:
texto = "Depois de roubar o cofre do banco,"\
        " o ladrão de banco foi visto " \
        "sentado no banco da praça central."

logging.info('Texto armazenado!')

INFO:root:Texto armazenado!


In [100]:
doc = nlp(texto)

Confirmando os tokens do documento

In [101]:
i = 0
for token in doc:
   print(i, token)
   i = i + 1

0 Depois
1 de
2 roubar
3 o
4 cofre
5 do
6 banco
7 ,
8 o
9 ladrão
10 de
11 banco
12 foi
13 visto
14 sentado
15 no
16 banco
17 da
18 praça
19 central
20 .


Exibe os embenddings das palavras

A banco aparece nos índices 6, 11 e 16.


In [102]:
# Índice das palavras a serem comparadas
palavra1 = 6
palavra2 = 11
palavra3 = 16

print("Os primeiros 5 valores de cada instância de \"banco\".")
print("")
print(str(doc[palavra1]), doc[palavra1].vector[:5])
print(str(doc[palavra2]), doc[palavra3].vector[:5])
print(str(doc[palavra3]), doc[palavra2].vector[:5])

Os primeiros 5 valores de cada instância de "banco".

banco [-0.9601  -3.2818  -1.357   -0.91696  3.5838 ]
banco [-0.9601  -3.2818  -1.357   -0.91696  3.5838 ]
banco [-0.9601  -3.2818  -1.357   -0.91696  3.5838 ]


In [103]:
# Índice das palavras a serem comparadas
print("Período:", texto)
print("Palavra 1 =", palavra1, "=", str(doc[palavra1]), "(instituição financeira)")
print("Palavra 2 =", palavra2, "=", str(doc[palavra2]), "(instituição financeira)")
print("Palavra 3 =", palavra3, "=", str(doc[palavra3]), "(assento)")

# Calcula a similaridade de coseno entre as palavras banco
# Em "ladrão de banco" versus "banco da praça" (diferentes significados).
banco_diferente = doc[palavra2].similarity(doc[palavra3])

print("Vetor de similaridade  para diferentes significados(",palavra2,",",palavra3,"):  %.2f" % banco_diferente)

# Calcula a similaridade de coseno entre as palavras banco
# Em "ladrão de banco" versus "cofre do banco" (mesmo significado).
mesmo_banco = doc[palavra2].similarity(doc[palavra1])

print("Vetor de similaridade  para mesmo significado(",palavra2,",",palavra1,"):  %.2f" % mesmo_banco)

# Calcula a similaridade de coseno entre as palavras banco
# Em "cofre do banco" versus "banco da praça" (diferente significados).
banco_diferente2 = doc[palavra3].similarity(doc[palavra1])

print("Vetor de similaridade  para diferentes significados(",palavra3,",",palavra1,"):  %.2f" % banco_diferente2)

Período: Depois de roubar o cofre do banco, o ladrão de banco foi visto sentado no banco da praça central.
Palavra 1 = 6 = banco (instituição financeira)
Palavra 2 = 11 = banco (instituição financeira)
Palavra 3 = 16 = banco (assento)
Vetor de similaridade  para diferentes significados( 11 , 16 ):  1.00
Vetor de similaridade  para mesmo significado( 11 , 6 ):  1.00
Vetor de similaridade  para diferentes significados( 16 , 6 ):  1.00


# 6 Exemplo comparando embeddings de palavras diferentes

## Comparando palavras diferentes

Import para apresentação dos dados

In [104]:
# Importando as bibliotecas.
from scipy import spatial
from jinja2 import Template
from IPython.display import display, HTML

logging.info('Import realizado!')

INFO:root:Import realizado!


Função para calcular a similaridade e apresentação dos dados.

In [105]:
#template de apresentação dos dados
table_list_template = """
<table>
        <tr>
           <th>Palavra</th>
           <th>Similaridade</th>
        </tr>
        {% for item in items%}
        <TR>
           <TD class="c1">{{item[0].text}}</TD>
           <TD class="c2">{{item[1]}}</TD>
        </TR>
        {% endfor %}
</table>
"""

#função de cálculo da das palavras
def most_similar(positive, negative):
    cosine_similarity = lambda x, y: 1 - spatial.distance.cosine(x, y)

    #recupera o cálculo das palavras
    positivo1 = nlp.vocab[positive[0]].vector
    positivo2 = nlp.vocab[positive[1]].vector
    negativo1 = nlp.vocab[negative[0]].vector

    # Agora precisamos encontrar o vetor mais próximo no vocabulário do resultado de "man" - "woman" + "queen"
    diferenca = negativo1 - positivo2 + positivo1

    cs = []
    for word in nlp.vocab:
        # Ignore palavras sem vetor
        if not word.has_vector:
            continue

        similarity = cosine_similarity(diferenca, word.vector)
        cs.append((word, similarity))

    cs = sorted(cs, key=lambda item: -item[1])

    tmpl = Template(table_list_template)
    output_html = tmpl.render(items=cs[:10])
    return HTML(output_html)

logging.info('Função criada!')

INFO:root:Função criada!


Similaridade de "queen" e "king"<br>
Rainha + Mulher – Homem = ?

In [106]:
most_similar(positive=[u'rainha',u'mulher'], negative=[u'homem'])

Palavra,Similaridade
homem,0.65435696
rainha,0.63287497
ladrão,0.39399546
dom,0.38642812
céu,0.36699665
D.,0.3281002
sentado,0.2875048
d.,0.24366677
elemento,0.2368108
v.v,0.23499781



Rainha + Homem – Mulher = ?

In [107]:
most_similar(positive=[u'rainha',u'homen'], negative=[u'mulher'])

Palavra,Similaridade
rainha,0.8429845
mulher,0.74813455
sra.,0.37973404
Sra.,0.35056645
homem,0.32568753
pilha,0.28417754
D.,0.28291935
Sra,0.27065104
sra,0.25299478
certeza,0.2419604


Rei + Mulher – Homem = ?

In [108]:
most_similar(positive=[u'rei',u'mulher'], negative=[u'homem'])

Palavra,Similaridade
rei,0.9311677
homem,0.55031234
rainha,0.39487094
D.,0.37275463
ladrão,0.3627836
v.v,0.3469931
dom,0.34520942
homen,0.30901098
d.,0.30572623
céu,0.29148066


Rei + Homem – Mulher = ?

In [109]:
most_similar(positive=[u'rei',u'homem'], negative=[u'mulher'])

Palavra,Similaridade
rei,0.8917217
rainha,0.7386541
D.,0.46361017
d.,0.38125312
mulher,0.3643728
(;,0.30199814
r.,0.28308493
v.v,0.2759232
c.,0.23240358
homen,0.22730857


Função de cálculo da similaridade de palavras.

In [110]:
#Matemática de Word Embeding
from scipy import spatial

cosine_similarity = lambda x, y: 1 - spatial.distance.cosine(x, y)

#recupera o cálculo das palavras
man = nlp.vocab[u'homem'].vector
woman = nlp.vocab[u'mulher'].vector
queen = nlp.vocab[u'rainha'].vector
#king = nlp.vocab[u'rei'].vector

# Agora precisamos encontrar o vetor mais próximo no vocabulário do resultado de "man" - "woman" + "queen"
maybe_king = man - woman + queen
computed_similarities = []

for word in nlp.vocab:
    # Ignore palavras sem vetor
    if not word.has_vector:
        continue

    similarity = cosine_similarity(maybe_king, word.vector)
    computed_similarities.append((word, similarity))

computed_similarities = sorted(computed_similarities, key=lambda item: -item[1])

#mostra o resultado
print([w[0].text for w in computed_similarities[:10]])

['rei', 'homem', 'rainha', 'ladrão', 'dom', 'céu', 'homen', 'D.', 'sentado', 'd.']


Calculando a similaridade

In [111]:
banana = nlp.vocab[u'banana']
dog = nlp.vocab[u'cachorro']
fruit = nlp.vocab[u'fruta']
animal = nlp.vocab[u'animal']

print(dog.similarity(animal), dog.similarity(fruit))
print(banana.similarity(fruit), banana.similarity(animal))

0.6258523464202881 0.23907972872257233
0.7187858819961548 0.17296834290027618


Calculando a similaridade entre textos

In [112]:
destino = nlp(u'Gatos são bonitos animais.')

doc1 = nlp(u'Cães são incríveis.')
doc2 = nlp(u'Algumas criaturas lindas são felinos.')
doc3 = nlp(u'Golfinhos são animais que nadam.')

print(destino.similarity(doc1))
print(destino.similarity(doc2))
print(destino.similarity(doc3))

0.9246653318405151
0.8842596411705017
0.864515483379364
