# Explorando Word Embeddings com spaCy

Neste notebook, vamos explorar o conceito de Word Embeddings, sua importância no Processamento de Linguagem Natural (PLN), e como podemos trabalhar com eles usando a biblioteca spaCy.

### Objetivos:
- Compreender o que são Word Embeddings e como funcionam.
- Explorar diferentes tipos de embeddings.
- Aprender a extrair, comparar e aplicar embeddings usando spaCy.

# O que são Word Embeddings?

Word Embeddings são representações vetoriais de palavras que capturam o significado semântico de uma palavra em um espaço contínuo. Ao contrário de representações esparsas, como Bag-of-Words, os embeddings mapeiam palavras para vetores densos de dimensões reduzidas, preservando relações semânticas.

Modelos populares de Word Embeddings incluem:
- **Word2Vec**: Um modelo baseado em redes neurais que usa o contexto das palavras para aprender suas representações.
- **GloVe (Global Vectors for Word Representation)**: Um modelo que combina estatísticas globais de coocorrência de palavras para aprender representações.
- **FastText**: Uma variação do Word2Vec que leva em conta subpalavras, o que melhora a representação de palavras raras ou morfologicamente ricas.

## Trabalhando com Word Embeddings no spaCy

O spaCy fornece modelos pré-treinados que incluem vetores de palavras (Word Embeddings). Esses vetores são acessíveis diretamente, e você pode usá-los para tarefas como comparação de similaridade entre palavras e frases.

Vamos explorar como carregar um modelo de spaCy e usar seus embeddings.

In [2]:
import spacy

nlp = spacy.load("pt_core_news_md")


print(f"Tamanho do vocabulário: {len(nlp.vocab)} palavras.")

Tamanho do vocabulário: 350 palavras.


## Explorando Vetores de Palavras

Agora que carregamos o modelo, podemos explorar os vetores de palavras. Cada palavra no vocabulário do modelo possui um vetor associado, que representa sua posição no espaço vetorial.

Vamos visualizar o vetor de uma palavra e entender o que ele representa.

In [3]:
word = "homen"

In [6]:
nlp.vocab[word].vector.shape

(300,)

In [13]:
# Exemplo de vetor de uma palavra
word = "homen"
word_vector = nlp.vocab[word].vector

print(f"Vetor para a palavra '{word}':\n{word_vector}")
print(f"Tamanho do vetor: {len(word_vector)} dimensões.")

Vetor para a palavra 'homen':
[-5.4599e-01 -1.6861e-01  1.5195e+00 -1.3087e+00 -1.1700e-01  1.1732e-01
 -7.9616e-01  7.5680e-01 -6.3276e-01  5.5164e-01 -1.6963e-01 -4.6776e-01
 -5.5000e-01 -1.0419e+00 -2.3745e-01  3.8617e-01 -1.4881e-02 -8.2770e-01
 -8.8004e-01 -3.4084e-01 -1.8027e+00 -3.1811e-01 -3.9425e-01  6.2820e-01
 -2.2139e+00  1.0263e+00 -1.3429e-02  5.4489e-01  2.2987e+00  8.6533e-01
 -5.0896e-02  3.0199e+00 -1.4524e+00  1.4374e+00  8.9107e-01  9.4465e-01
 -1.6955e-01 -1.4726e+00  1.5798e+00 -1.1678e+00 -1.4371e+00 -7.0871e-01
  1.2503e+00  1.9593e+00 -1.1204e-01 -7.0902e-02 -1.1197e+00  1.2381e+00
  2.4771e+00  4.1677e-02 -1.2796e+00  1.3167e-01  1.4707e+00 -1.1925e+00
 -8.5987e-01  3.3947e-01 -5.3827e-01 -2.6641e+00 -8.8770e-01  2.2820e+00
  1.6084e+00  7.9834e-01  2.2490e+00  1.6650e+00 -1.8591e+00  4.4785e-01
 -1.3454e-01  4.8996e-02 -1.0863e+00 -7.5397e-01 -3.4468e-01 -1.6346e+00
  4.4565e-01 -4.0422e-03  2.2581e+00 -8.6084e-01  1.5066e+00  1.8598e-01
 -2.4338e+00 -5.3052e

# Comparando Similaridade entre Palavras

Uma das principais aplicações dos embeddings é calcular a similaridade entre palavras. Palavras com significados semelhantes terão vetores próximos no espaço vetorial.

Vamos comparar a similaridade entre algumas palavras.

In [7]:
word1 = nlp("rei")
word2 = nlp("rainha")
word3 = nlp("homem")
word4 = nlp("mulher")


In [8]:
word1.similarity(word2)

0.6001227943189619

In [9]:
word1.similarity(word3)

0.4191260644255058

In [10]:
word1.similarity(word4)

0.22795657259023788

In [None]:
print(f"Similaridade entre 'rei' e 'rainha': {word1.similarity(word2):.4f}")

In [11]:

print(f"Similaridade entre 'rei' e 'rainha': {word1.similarity(word2):.4f}")
print(f"Similaridade entre 'homem' e 'mulher': {word3.similarity(word4):.4f}")
print(f"Similaridade entre 'rei' e 'homem': {word1.similarity(word3):.4f}")
print(f"Similaridade entre 'rei' e 'mulher': {word1.similarity(word4):.4f}")

Similaridade entre 'rei' e 'rainha': 0.6001
Similaridade entre 'homem' e 'mulher': 0.6596
Similaridade entre 'rei' e 'homem': 0.4191
Similaridade entre 'rei' e 'mulher': 0.2280


In [12]:
# Comparando similaridade entre frases
sentence1 = nlp("O rei governa o reino.")
sentence2 = nlp("A rainha governa o império.")

similarity = sentence1.similarity(sentence2)
print(f"Similaridade entre as frases:\n'{sentence1.text}'\ne\n'{sentence2.text}': {similarity:.4f}")

Similaridade entre as frases:
'O rei governa o reino.'
e
'A rainha governa o império.': 0.6615


### Alterando o dicionário
Embedding em portugues
http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc


In [17]:
from spacy.vocab import Vocab

# Criar um vocabulário vazio
vocab = Vocab()

# Como a spaCy prevê similaridades?

- A similaridade é determinada usando os **vetores de palavras**
- Vetores são representações multi dimensionais das palavras
- São gerados utilizando algoritmos similares a 
  [Word2Vec](https://en.wikipedia.org/wiki/Word2vec) e uma enorme quantidade de textos.
- Podem ser adicionados aos fluxos (pipelines) de processamento da spaCy.
- Algoritmo padrão: similaridade por cosseno, mas pode ser alterado
- Os vetores de `Doc` e `Span` são a média dos vetores de seus tokens.
- Frases curtas são melhores que grandes documentos com palavras irrelevantes.

Notes: Mas como a spaCy faz esse cálculo de similaridade?

A similaridade é determinada utilizando-se vetores de palavras, que são representações
multi dimensionais do significado de cada palavra.

Você deve ter ouvido falar do Word2Vec, um algoritmo que é usado com frequencia para
treinar vetores de palavras a partir de textos.

Os vetores podem ser adicionados aos modelos estatísticos da spaCy.

Por padrão, a similaridade calculada pela spaCy é a similaridade cosseno entre os
dois vetores, mas isso pode ser alterado se necessário.

O vetor de um objeto consistido de vários tokens, como o `Doc` e o `Span`, é calculado 
como a média dos vetores dos seus tokens.

É por este motivo que você consegue extrair mais valor de frases curtas com poucas
palavras irrelevantes.