<a href="https://colab.research.google.com/github/osmarbraz/exemplos_spacy/blob/main/Exemplo_SpacyColab_en.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplo uso Spacy com Modelo em Inglês
Exemplo do uso Spacy Python Library com execução através do Google Colaboratory.<br>
Site ferramenta: https://spacy.io/

Tutorial<br>
https://medium.com/@van3ssabandeira/o-famoso-spacy-90afb683b6fe


# 0 Preparação do ambiente
Preparação do ambiente para executar o spacy.

##Tratamento de logs

In [1]:
#biblioteca de logging
import logging

#Formado da mensagem
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## Parâmetros

Parâmetros da execução do teste

* sm = small model (não possui vocabulário de palavras)
* md = medium model
* lg = large model

https://spacy.io/models/en

In [2]:
#definição do nome do arquivo do modelo
#MODELO_SPACY = 'en_core_web_sm'
#MODELO_SPACY = 'en_core_web_md'
MODELO_SPACY = 'en_core_web_lg'

logging.info('Parâmetros definidos!')

# 1 Instalação

Instala o spacy no notebook. O site para instalação está em https://spacy.io/usage.

No Jupiter Notebook executar através "Anaconda Prompt".

In [3]:
# Instala a última versão disponível
#!pip install -U spacy

# Instala uma versão específica
!pip install -U spacy==3.7.2



# 2 Execução

##Baixa o modelo em inglês.

Outras linguagens podem ser consultadas em:<br>
https://spacy.io/usage/models#languages

In [4]:
!python -m spacy download $MODELO_SPACY

Collecting en-core-web-lg==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1-py3-none-any.whl (587.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m587.7/587.7 MB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: en-core-web-lg
Successfully installed en-core-web-lg-3.7.1
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_lg')


## Importa as bibliotecas

In [5]:
# Importando as bibliotecas.
import spacy
from spacy  import displacy

logging.info('Import realizado!')

##Carrega o modelo em inglês.

Outros modelos estão disponíveis em https://spacy.io/models

Para tornar os modelos compactos e rápidos, os modelos pequenos do spaCy (todos os pacotes que terminam em **sm**(small) não contêm  vetores de palavras e incluem apenas tensores sensíveis ao contexto.


In [6]:
# Instala somente os pipelines necessários
#nlp = spacy.load(MODELO_SPACY, disable=['tokenizer', 'lemmatizer', 'ner', 'parser', 'textcat', 'custom'])

nlp = spacy.load(MODELO_SPACY)

logging.info('Modelo carregado !')

# 3 Frase a ser analisada

In [7]:
document = u"Wall Street Journal just published an interesting piece on crypto currencies. What is crypto currencies?"

##Armazena um texto.

Com duas frases(sentenças).

In [8]:
doc = nlp(document)
logging.info('Texto armazenado!')

##Separando o texto em uma lista de tokens.



In [9]:
>>> [token.orth_ for token in doc]

['Wall',
 'Street',
 'Journal',
 'just',
 'published',
 'an',
 'interesting',
 'piece',
 'on',
 'crypto',
 'currencies',
 '.',
 'What',
 'is',
 'crypto',
 'currencies',
 '?']

##Separando o texto em uma lista de palavras

In [10]:
doc.text.split()

['Wall',
 'Street',
 'Journal',
 'just',
 'published',
 'an',
 'interesting',
 'piece',
 'on',
 'crypto',
 'currencies.',
 'What',
 'is',
 'crypto',
 'currencies?']

##Verificando se a palavra é um verbo.

In [11]:
[(token.text, token.pos_ == 'VERB') for token in doc]

[('Wall', False),
 ('Street', False),
 ('Journal', False),
 ('just', False),
 ('published', True),
 ('an', False),
 ('interesting', False),
 ('piece', False),
 ('on', False),
 ('crypto', False),
 ('currencies', False),
 ('.', False),
 ('What', False),
 ('is', False),
 ('crypto', False),
 ('currencies', False),
 ('?', False)]

##Identificando o infinitivo dos verbos.

In [12]:
[(token.text, token.lemma_) for token in doc if token.pos_ == 'VERB']

[('published', 'publish')]

##Verificando se a palavra da frase é uma pontuação.

In [13]:
[(token.text, token.is_punct) for token in doc]

[('Wall', False),
 ('Street', False),
 ('Journal', False),
 ('just', False),
 ('published', False),
 ('an', False),
 ('interesting', False),
 ('piece', False),
 ('on', False),
 ('crypto', False),
 ('currencies', False),
 ('.', True),
 ('What', False),
 ('is', False),
 ('crypto', False),
 ('currencies', False),
 ('?', True)]

##Identificando as classes gramaticais das palavras.

O significado das classes estão em: https://spacy.io/api/annotation#pos-tagging


In [14]:
[(token.text, token.pos_) for token in doc]

[('Wall', 'PROPN'),
 ('Street', 'PROPN'),
 ('Journal', 'PROPN'),
 ('just', 'ADV'),
 ('published', 'VERB'),
 ('an', 'DET'),
 ('interesting', 'ADJ'),
 ('piece', 'NOUN'),
 ('on', 'ADP'),
 ('crypto', 'PROPN'),
 ('currencies', 'NOUN'),
 ('.', 'PUNCT'),
 ('What', 'PRON'),
 ('is', 'AUX'),
 ('crypto', 'NOUN'),
 ('currencies', 'NOUN'),
 ('?', 'PUNCT')]

## Ancestrais

In [15]:
tokens = [token for token in doc]
tokens[0].is_ancestor(tokens[2])

False

##Identificando as sentenças em um texto.

Mostra as frases de um texto.

In [16]:
for sentencas in doc.sents:
    print(sentencas)

Wall Street Journal just published an interesting piece on crypto currencies.
What is crypto currencies?


##Identificando as entidades. (NER/Named Entity Recognition)

**Text**: o texto original da entidade.<br>
**Start**: Índice de início da entidade no Doc.<br>
**End**: Índice do fim da entidade no Doc.<br>
**Label**: rótulo da entidade, ou seja, tipo.<br>

https://medium.com/botsbrasil/como-reconhecer-entidades-na-l%C3%ADngua-portuguesa-usando-spacy-8a5ca6f42c4f

### Listando as entidades identificadas

In [17]:
for ent in doc.ents:
   print(ent.text, ent.start_char, ent.end_char, ent.label_)

Wall Street Journal 0 19 ORG


ou

In [18]:
[(entity, entity.label_) for entity in doc.ents]

[(Wall Street Journal, 'ORG')]

###Checando similaridade entre as entidades.

In [19]:
#retorna as entidades de doc
entities = [entity for entity in doc.ents]

if len(doc.ents) > 1:
  print('Similaridade entre entities[0]=[' + str(entities[0]) + '] e entities[0]=[' + str(entities[0]) + ']: %.4g'%(entities[0].similarity(entities[0]) * 100), "%")
  print('Similaridade entre entities[0]=[' + str(entities[0]) + '] e entities[1]=[' + str(entities[1]) + ']: %.4g'%(entities[0].similarity(entities[1]) * 100), "%")
else:
  print('Similaridade entre entities[0]=[' + str(entities[0]) + '] e entities[0]=[' + str(entities[0]) + ']: %.4g'%(entities[0].similarity(entities[0]) * 100), "%")

Similaridade entre entities[0]=[Wall Street Journal] e entities[0]=[Wall Street Journal]: 100 %


##POS tagging / Analisando a frase

https://medium.com/greyatom/learning-pos-tagging-chunking-in-nlp-85f7f811a8cb

**Text**: o texto original da palavra.<br>
**Lema**: A forma base da palavra.<br>
**POS**: A tag simples da parte do discurso. O significado das classes estão em: https://spacy.io/api/annotation#pos-tagging<br>
**Tag**: A etiqueta detalhada da parte do discurso.<br>
**Dep**: Dependência sintática, ou seja, a relação entre tokens.<br>
**Shape**: A forma da palavra - letras maiúsculas, pontuação e dígitos.<br>
**is alpha**: o token é um caractere alfa?<br>
**is stop**: o token faz parte de uma lista de paradas, ou seja, as palavras mais comuns do idioma?<br>

In [20]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,token.shape_,token.is_alpha, token.is_stop)

Wall Wall PROPN NNP compound Xxxx True False
Street Street PROPN NNP compound Xxxxx True False
Journal Journal PROPN NNP nsubj Xxxxx True False
just just ADV RB advmod xxxx True True
published publish VERB VBD ROOT xxxx True False
an an DET DT det xx True True
interesting interesting ADJ JJ amod xxxx True False
piece piece NOUN NN dobj xxxx True False
on on ADP IN prep xx True True
crypto crypto PROPN NNP compound xxxx True False
currencies currency NOUN NNS pobj xxxx True False
. . PUNCT . punct . False False
What what PRON WP attr Xxxx True True
is be AUX VBZ ROOT xx True True
crypto crypto NOUN NN compound xxxx True False
currencies currency NOUN NNS nsubj xxxx True False
? ? PUNCT . punct ? False False


ou partes

In [21]:
print([(token.text, token.tag_) for token in doc])

[('Wall', 'NNP'), ('Street', 'NNP'), ('Journal', 'NNP'), ('just', 'RB'), ('published', 'VBD'), ('an', 'DT'), ('interesting', 'JJ'), ('piece', 'NN'), ('on', 'IN'), ('crypto', 'NNP'), ('currencies', 'NNS'), ('.', '.'), ('What', 'WP'), ('is', 'VBZ'), ('crypto', 'NN'), ('currencies', 'NNS'), ('?', '.')]


##Noun Chunking / Substantivos

Os substantivos são "frases substantivas de base" - frases simples que têm um substantivo como principal. Você pode pensar em blocos de substantivos como um substantivo, além das palavras que descrevem o substantivo - por exemplo, "a luxuosa grama verde" ou "o maior fundo de tecnologia do mundo".

**Text**: o texto original do pedaço do substantivo.<br>
**Root text**: o texto original da palavra que conecta o pedaço do substantivo ao restante da análise.<br>
**Root dep**: relação de dependência que conecta a raiz à sua cabeça.<br>
**Root head text**: o texto do cabeçalho do token raiz.<br>

https://medium.com/greyatom/learning-pos-tagging-chunking-in-nlp-85f7f811a8cb

In [22]:
for chunk in doc.noun_chunks:
    print(chunk.text, chunk.label_, chunk.root.text, chunk.root.dep_,chunk.root.head.text)

Wall Street Journal NP Journal nsubj published
an interesting piece NP piece dobj published
crypto currencies NP currencies pobj on
What NP What attr is
crypto currencies NP currencies nsubj is


##Visualizando as dependências

Éo processo de representar as dependências do texto através das relações entre os tokens. Por exemplo: um artigo está ligado a um substantivo, um advérbio modifica um verbo, e assim por diante.

O significado das classes estão em: https://spacy.io/api/annotation#pos-tagging

In [23]:
displacy.render(doc, style='dep', jupyter=True, options={'distance': 85})


# 4 Árvore de Análise

In [24]:
from nltk import Tree

def to_nltk_tree(node):
    if node.n_lefts + node.n_rights > 0:
        return Tree(node.orth_, [to_nltk_tree(child) for child in node.children])
    else:
        return node.orth_

[to_nltk_tree(sent.root).pretty_print() for sent in doc.sents]

         published                           
  ___________|______________                  
 |    |      |            piece              
 |    |      |       _______|__________       
 |    |   Journal   |       |          on    
 |    |      |      |       |          |      
 |    |    Street   |       |      currencies
 |    |      |      |       |          |      
just  .     Wall    an interesting   crypto  

      is           
  ____|______       
 |    |  currencies
 |    |      |      
What  ?    crypto  



[None, None]

# 5 Frase substantiva

https://realpython.com/natural-language-processing-spacy-python/

In [25]:
doc = nlp(document)

# Extrai a frase substantiva
for chunk in doc.noun_chunks:
   print (chunk)

Wall Street Journal
an interesting piece
crypto currencies
What
crypto currencies


## Outros Exemplos

Visualiza o vetor que representa a palavra 'Journal'.

In [26]:
print(nlp.vocab[u'and'].vector)

[-3.3477e+00 -6.0854e+00 -3.6366e+00  5.3480e-01  8.4195e+00  1.3784e+00
  3.1166e-01  5.6086e+00 -7.7685e-01 -3.3725e+00  5.4329e+00  5.6387e+00
 -4.1205e+00  1.5086e-01  2.8298e+00  6.9572e-01 -9.3532e-01  9.1541e-03
 -6.3726e+00 -6.9950e+00  3.9154e+00 -2.4749e+00 -5.8399e-01 -1.4355e+00
  2.0191e+00 -4.0832e+00 -4.8968e+00 -1.9113e+00 -1.5628e+00  3.5496e-01
 -1.6256e+00 -1.2456e+00  1.9968e-01 -2.3400e+00 -4.9446e+00 -6.0552e-01
 -2.0166e-02  3.4880e+00 -3.0311e+00 -8.3404e-01  8.0265e+00 -1.3459e+00
 -2.2444e+00 -1.3351e+00  1.3528e+00  3.3609e+00 -1.2901e+00 -3.2747e+00
 -9.5598e-01  2.0673e+00 -2.6536e+00  5.8997e+00 -1.7266e+00 -7.8783e+00
  4.7405e+00  2.5866e-01 -2.7322e+00  1.0752e+00  1.0980e+00 -6.0148e+00
 -1.3032e+00 -1.1575e+00 -1.1644e+00 -3.0110e+00  9.2055e+00  2.0158e+00
 -2.0257e+00 -3.7185e+00  2.2678e+00  1.1666e+00  4.1012e-02 -5.4005e+00
 -3.4992e+00  3.0273e-01  8.9587e-01 -1.1921e+00 -1.0156e+01  1.9735e+00
 -1.1343e+00  2.9908e-01 -8.3119e+00 -1.2927e-01 -4

Import para apresentação dos dados

In [27]:
from scipy import spatial
from jinja2 import Template
from IPython.display import display, HTML

logging.info('Import realizado!')

Função para calcular a similaridade e apresentação dos dados.

In [28]:
#template de apresentação dos dados
table_list_template = """
<table>
        <tr>
           <th>Palavra</th>
           <th>Similaridade</th>
        </tr>
        {% for item in items%}
        <TR>
           <TD class="c1">{{item[0].text}}</TD>
           <TD class="c2">{{item[1]}}</TD>
        </TR>
        {% endfor %}
</table>
"""

#função de cálculo da das palavras
def most_similar(positive, negative):
    cosine_similarity = lambda x, y: 1 - spatial.distance.cosine(x, y)

    #recupera o cálculo das palavras
    positivo1 = nlp.vocab[positive[0]].vector
    positivo2 = nlp.vocab[positive[1]].vector
    negativo1 = nlp.vocab[negative[0]].vector

    # Agora precisamos encontrar o vetor mais próximo no vocabulário do resultado de "man" - "woman" + "queen"
    diferenca = negativo1 - positivo2 + positivo1

    cs = []
    for word in nlp.vocab:
        # Ignore palavras sem vetor
        if not word.has_vector:
            continue

        similarity = cosine_similarity(diferenca, word.vector)
        cs.append((word, similarity))

    cs = sorted(cs, key=lambda item: -item[1])

    tmpl = Template(table_list_template)
    output_html = tmpl.render(items=cs[:10])
    return HTML(output_html)

logging.info('Função criada!')

Similaridade de "queen" e "king"<br>
Rainha + Mulher – Homem = ?

In [29]:
most_similar(positive=[u'Queen',u'Woman'], negative=[u'Man'])
#['Queen', 'QUEEN', 'queen', 'King', 'KING', 'king', 'KIng', 'Kings', 'KINGS', 'kings']

Palavra,Similaridade
Man,0.7194699048995972
Queen,0.6806347370147705
Woman,0.2698817849159241
Miss,0.2632724344730377
Sha,0.2543659508228302
O,0.2224365025758743
Wall,0.1998120546340942
Kan,0.1984662562608719
Ark,0.1982955336570739
"""",0.1921927779912948



Rainha + Homem – Mulher = ?

In [30]:
most_similar(positive=[u'queen',u'man'], negative=[u'woman'])

Palavra,Similaridade
queen,0.7638460397720337
Queen,0.6072567701339722
she,0.3810137510299682
Miss,0.3704747855663299
woman,0.3048556745052337
She,0.2959792017936706
i.e,0.2399549335241317
Woman,0.217139258980751
r.,0.1959810554981231
<3,0.1865963190793991


Rei + Mulher – Homem = ?

In [31]:
most_similar(positive=[u'king',u'woman'], negative=[u'man'])

Palavra,Similaridade
king,0.9031597375869752
man,0.6066977381706238
queen,0.4711490571498871
that,0.3780456781387329
he,0.3769613802433014
that’s,0.3697320520877838
’cause,0.3687140643596649
r.,0.3588667809963226
there's,0.3537166714668274
there,0.3434299230575561


Rei + Homem – Mulher = ?

In [32]:
most_similar(positive=[u'king',u'man'], negative=[u'woman'])

Palavra,Similaridade
king,0.8489541411399841
queen,0.6178014278411865
Queen,0.4875862300395965
and,0.3899005055427551
that,0.3848358392715454
interesting,0.3790722489356994
r.,0.3631141185760498
where,0.3385923206806183
she,0.3244562447071075
they,0.3206636309623718


Função de cálculo da similaridade de palavras.

In [33]:
#Matemática de Word Embeding
from scipy import spatial

cosine_similarity = lambda x, y: 1 - spatial.distance.cosine(x, y)

#recupera o cálculo das palavras
man = nlp.vocab[u'man'].vector
woman = nlp.vocab[u'woman'].vector
queen = nlp.vocab[u'queen'].vector
#king = nlp.vocab[u'king'].vector

# Agora precisamos encontrar o vetor mais próximo no vocabulário do resultado de "man" - "woman" + "queen"
maybe_king = man - woman + queen
computed_similarities = []

for word in nlp.vocab:
    # Ignore palavras sem vetor
    if not word.has_vector:
        continue

    similarity = cosine_similarity(maybe_king, word.vector)
    computed_similarities.append((word, similarity))

computed_similarities = sorted(computed_similarities, key=lambda item: -item[1])

#mostra o resultado
print([w[0].text for w in computed_similarities[:10]])

['queen', 'man', 'king', 'woman', 'Queen', 'he', 'nothin’', "'cause", "'Cause", 'He']


Calculando a similaridade

In [34]:
banana = nlp.vocab[u'banana']
dog = nlp.vocab[u'dog']
fruit = nlp.vocab[u'fruit']
animal = nlp.vocab[u'animal']

print(dog.similarity(animal), dog.similarity(fruit))
print(banana.similarity(fruit), banana.similarity(animal))

0.5192115902900696 0.13643456995487213
0.6650428175926208 0.18752224743366241


Calculando a similaridade entre textos

In [35]:
destino = nlp(u'Cats are beautiful animals.')

doc1 = nlp(u'Dogs are awesome.')
doc2 = nlp(u'Some gorgeous creatures are felines.')
doc3 = nlp(u'Dolphins are swimming mammals.')

print(destino.similarity(doc1))
print(destino.similarity(doc2))
print(destino.similarity(doc3))

0.925293344292394
0.9067517259890845
0.9037427153904276
