
## Aritmética do Word2Vec com FastText

Com o modelo pré-treinado carregado, podemos agora explorar a aritmética de palavras. A seguir, demonstraremos como realizar operações aritméticas em vetores de palavras e como elas podem revelar relações semânticas.



## Introdução ao Word2Vec e FastText

Word2Vec é uma técnica de aprendizado de máquina que treina um modelo de redes neurais para aprender representações vetoriais de palavras, chamadas "embeddings", de grandes conjuntos de dados de texto. Esses embeddings capturam o contexto das palavras em relação às outras, de forma que palavras com significados semelhantes tenham representações vetoriais próximas no espaço.

FastText é uma biblioteca para aprendizado de representações de texto e classificação de texto desenvolvida pelo Facebook. Difere do Word2Vec tradicional por representar cada palavra como um saco de n-gramas de caracteres, permitindo que o modelo capture informações subpalavrares e seja mais robusto para lidar com palavras desconhecidas ou raras.

Neste notebook, exploraremos como realizar a aritmética de palavras usando embeddings de palavras, demonstrando como as relações semânticas entre palavras podem ser capturadas e manipuladas matematicamente com a ajuda da biblioteca FastText.



## Configuração do Ambiente

Para começar, precisamos instalar e importar as bibliotecas necessárias. O código abaixo instala a biblioteca FastText e importa tudo o que precisaremos para este tutorial.


In [1]:

#!pip install fasttext
#!pip install huggingface_hub
import fasttext
import fasttext.util
import numpy as np
from scipy.spatial.distance import cosine
from huggingface_hub import hf_hub_download



## Carregando o Modelo Pré-treinado

Em vez de preparar e treinar um modelo a partir de um conjunto de dados de texto, vamos carregar um modelo FastText pré-treinado para o português.


In [2]:

model_path = hf_hub_download(repo_id="facebook/fasttext-pt-vectors", filename="model.bin")
model = fasttext.load_model(model_path)





## Aritmética do Word2Vec com FastText

Uma vez que o modelo é treinado, podemos explorar a aritmética de palavras. A ideia básica por trás da aritmética de palavras é que as relações entre palavras são capturadas de tal forma que operações matemáticas como adição e subtração podem mostrar relações semânticas entre diferentes palavras. Por exemplo, a famosa equação "rei - homem + mulher = rainha" mostra essa relação.


In [4]:
# Substitua 'palavra1', 'palavra2', e 'palavra3' com palavras de sua escolha que formam uma relação analógica (por exemplo, 'rei', 'homem', 'mulher')
word1, word2, word3 = 'rei', 'homem', 'mulher'

# Buscar as palavras mais próximas na analogia
nearest_words = model.get_analogies(word1, word2, word3, k=5)

# Imprimir as palavras encontradas
for word, similarity in nearest_words:
    print(f"{word} {similarity}")


0.7363070845603943 rainha
0.6031950116157532 princesa
0.5876360535621643 rainha-mãe
0.5831598043441772 súdita
0.582430362701416 rainha-consorte


In [8]:
model.get_nearest_neighbors("chuva", k=5)

[(0.8040949702262878, 'chuvarada'),
 (0.7732902765274048, 'chuva.A'),
 (0.7683786749839783, 'chuvinha'),
 (0.7578243613243103, 'chuva.E'),
 (0.7484294176101685, 'chuva.É')]


## Similaridade de Cossenos

A similaridade de cossenos é uma medida da similaridade entre dois vetores não-nulos em um espaço que possui um produto interno, que mede o cosseno do ângulo entre eles. A seguir, calcularemos a similaridade do cosseno entre diferentes pares de palavras para entender quão semanticamente próximas ou distantes elas estão.


In [13]:

def cosine_similarity(word1, word2):
    return np.dot(model[word1], model[word2]) / (np.linalg.norm(model[word1]) * np.linalg.norm(model[word2]))

# Substitua 'palavra1' e 'palavra2' com palavras de sua escolha
word1, word2 = 'aviao', 'batata'
similarity = cosine_similarity(word1, word2)

similarity


0.16110392

In [19]:

def cosine_similarity(word1, word2):
    return np.dot(model[word1], model[word2]) / (np.linalg.norm(model[word1]) * np.linalg.norm(model[word2]))

# Substitua 'palavra1' e 'palavra2' com palavras de sua escolha
word1, word2 = 'Avião', 'Helicoptero'
similarity = cosine_similarity(word1, word2)

similarity


0.56745315


## Conclusão

Neste notebook, exploramos como usar um modelo FastText pré-treinado para realizar a aritmética do Word2Vec, calcular a similaridade do cosseno entre vetores de palavras e identificar idiomas em textos. Essas técnicas são poderosas para entender e manipular relações semânticas em grandes conjuntos de dados de texto e têm amplas aplicações em áreas como processamento de linguagem natural, sistemas de recomendação e muito mais.
