In [None]:
'''
O que são Word Embeddings?
São representações vetoriais densas das palavras, onde palavras com significados semelhantes ficam próximas no espaço vetorial.

Ao invés de cada palavra ser representada por um número ou índice (como no BoW/TF-IDF), os embeddings capturam relações semânticas como:

´Rei - Homem + Mulher ≈ Rainha´
'''

# ---------- ---------- ----------

'''
📌 Principais Modelos de Word Embeddings:
Modelo - Características principais
Word2Vec - Aprende a prever palavras vizinhas (Skip-Gram) ou o contexto (CBOW). Rápido, eficiente.
GloVe	Usa - contagem global de coocorrência para gerar embeddings. Captura bem relações semânticas.
FastText - Similar ao Word2Vec, mas trabalha com subpalavras (n-grams), lidando melhor com palavras raras ou novas.
'''

In [2]:
!pip install gensim

Collecting gensim
  Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m707.6 kB/s[0m eta [36m0:00:00[0m
[?25hCollecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.7/26.7 MB[0m [31m68.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
[2K   [90m━━━━━━━━━

In [4]:
!pip install --upgrade numpy
!pip install --upgrade scipy
!pip install --upgrade gensim

Collecting numpy
  Downloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.0/62.0 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.4/16.4 MB[0m [31m32.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.26.4
    Uninstalling numpy-1.26.4:
      Successfully uninstalled numpy-1.26.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
gensim 4.3.3 requires numpy<2.0,>=1.18.5, but you have numpy 2.2.4 which is incompatible.
numba 0.60.0 requires numpy<2.1,>=1.22, but you have numpy 2.2.4 which is incom

In [5]:
# Exemplo prático Word2Vec (usando Gensim):

from gensim.models import Word2Vec

# Corpus de exemplo
sentencas = [
    "O cachorro mordeu o carteiro",
    "O carteiro entregou a carta",
    "O gato subiu no telhado"
]
# Tokeniza as sentenças
tokenizado = [sent.lower().split() for sent in sentencas]

# Treina o modelo Word2Vec
modelo = Word2Vec(sentences=tokenizado, vector_size=100, window=5, min_count=1, sg=1)  # sg=1 usa Skip-Gram

# Exemplo: encontra palavras semelhantes
print(modelo.wv.most_similar('cachorro'))

# Vetor da palavra 'cachorro'
print(modelo.wv['cachorro'])


ModuleNotFoundError: No module named 'numpy.rec'

In [6]:
# GloVe (pré-treinado):

import gensim.downloader as api

# Baixa um modelo GloVe pré-treinado
glove = api.load("glove-wiki-gigaword-100")

# Palavras mais similares
print(glove.most_similar('king'))

# Operação vetorial famosa
print(glove.most_similar(positive=['woman', 'king'], negative=['man'], topn=1))  # Deve retornar 'queen'


ModuleNotFoundError: No module named 'numpy.rec'

In [7]:
# FastText (Gensim) — ideal para português ou palavras fora do vocabulário

from gensim.models import FastText

# Treina FastText
fasttext = FastText(sentences=tokenizado, vector_size=100, window=5, min_count=1)

# Vetor de uma palavra
print(fasttext.wv['cachorro'])

# Funciona melhor com palavras novas
print(fasttext.wv.most_similar('cachorrinho'))  # Mesmo que 'cachorrinho' não estivesse no treino


ModuleNotFoundError: No module named 'numpy.rec'

In [None]:
'''
💾 Modelos Pré-Treinados em Português (recomendado):
Modelo	Onde baixar
FastText Portuguese - https://fasttext.cc/docs/en/crawl-vectors.html
Word2Vec Portuguese - https://nilc.icmc.usp.br/embeddings
BERTimbau (BERT PT-BR) - https://huggingface.co/neuralmind/bert-base-portuguese-cased
'''

# ---------- ---------- ----------

'''
🔥 Principais usos dos Embeddings:
✅ Similaridade de palavras
✅ Clustering (agrupamento)
✅ Input para modelos de Deep Learning (LSTM, Transformers)
✅ Detecção de sentimentos
✅ Sistemas de recomendação
'''

# ---------- ---------- ----------

'''
✅ Resumo comparativo final:
Modelo - Lida com OOV? - Baseado em coocorrência? - Bom para Português?
Word2Vec - Não - Não - Razoável
GloVe - Não - Sim - Razoável
FastText - Sim (usa subwords) - Não - Ótimo
'''