<a href="https://colab.research.google.com/github/LuigiFalcade13/fatec_PLN_Codes/blob/main/Aula_6_Representa%C3%A7%C3%A3o_de_texto_com_Embeddings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Luigi Falcade de Souza**

#Aula 06 - Representação de texto com Embeddings

## Exemplo 01 - Word2Vec

In [None]:
# importação da ferramenta de vetorização
from gensim.models import Word2Vec

# texto a ser analisado
corpus = [
    ["o", "cachorro", "está", "latindo"],
    ["o", "gato", "está", "miando"]
]

# realizar o treinamento das palavras
model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)
  # sentences -- indicar o texto a ser analisado.
  # window -- faixa de palavras (antes e depois) que serão analisadas
  # vector_size -- Dimensão do vetor
  # min_count=1
  #sg - representa o modelo a ser utiizado
    # 0 - CBOW: busca a palavra a partir do contexto
    # 1 - Skip-gram: busco o contexto a partir da palavr

# vetorização da palavra desejada
vector = model.wv['cachorro']

# comparação de vetores.
similarity = model.wv.similarity('cachorro', 'gato')

# impressão do resultado
print("Similaridade entre 'cachorro' e 'gato':", similarity)

Similaridade entre 'cachorro' e 'gato': 0.13149002


**Exemplo 2**

In [None]:
from gensim.models import Word2Vec

# Corpus de treinamento com frases simples
corpus = [
    ["o", "cachorro", "está", "latindo", "no", "quintal"],  # Exemplo de frase com cachorro
    ["o", "gato", "está", "miando", "no", "telhado"],  # Exemplo com gato
    ["o", "pássaro", "está", "voando", "no", "céu"],  # Exemplo com pássaro
    ["a", "bola", "está", "rolando", "no", "chão"],  # Exemplo com bola
    ["a", "criança", "está", "brincando", "com", "o", "cachorro"],  # Frase com criança e cachorro
    ["o", "gato", "e", "o", "rato", "são", "inimigos"],  # Frase com gato e rato
    ["a", "água", "está", "quente", "na", "caneca"],  # Exemplo com água
    ["o", "sol", "está", "brilhando", "no", "céu"],  # Exemplo com sol
    ["a", "lua", "está", "cheia", "hoje"],  # Exemplo com lua
    ["a", "computador", "está", "ligado", "na", "mesa"]  # Exemplo com computador
]

# Treinando o modelo Word2Vec
model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)

# 'vector_size=100' define o tamanho do vetor que representa cada palavra.
# 'window=5' define o número de palavras ao redor da palavra central que serão usadas como contexto.
# 'min_count=1' diz que consideraremos todas as palavras que aparecem pelo menos uma vez.
# 'sg=1' usa o modelo Skip-gram (em vez do CBOW que seria com sg=0).

# Calculando a similaridade entre "cachorro" e "gato"
print(f"Similidaridade entre cachorro e gato: {model.wv.similarity('cachorro', 'gato')}")
# "cachorro" e "gato" são animais frequentemente mencionados em contextos semelhantes (animais domésticos), então esperamos uma alta similaridade.

# Calculando a similaridade entre "cachorro" e "bola"
print(f"Similidaridade entre cachorro e bola: {model.wv.similarity('cachorro', 'bola')}")
# "cachorro" e "bola" são relacionados em contextos de brincadeiras, mas a similaridade será menor do que entre "cachorro" e "gato".

# Calculando a similaridade entre "céu" e "lua"
print(f"Similidaridade entre céu e lua: {model.wv.similarity('céu', 'lua')}")
# "céu" e "lua" estão relacionados em contextos naturais (ambos associados ao ambiente exterior), então esperamos uma boa similaridade.

# Calculando a similaridade entre "computador" e "mesa"
print(f"Similidaridade entre computador e mesa: {model.wv.similarity('computador', 'mesa')}")
# "computador" e "mesa" estão associados frequentemente em contextos de escritório ou estudo, mas a similaridade pode ser mais moderada.



Similidaridade entre cachorro e gato: -0.027537165209650993
Similidaridade entre cachorro e bola: 0.08071544766426086
Similidaridade entre céu e lua: 0.16293543577194214
Similidaridade entre computador e mesa: 0.037479717284440994


## Exemplo 3 - Glove

In [None]:
# Importação da biblioteca
from gensim.models import KeyedVectors

# Indicação do caminho do arquivo
glove_path = '/content/drive/MyDrive/[FATEC] PLN/glove.6B.100d.txt'

# Acesso ao modelo treinado (instanciação)
glove_model = KeyedVectors.load_word2vec_format(glove_path, binary=False, no_header=True)
  # glove_path >>> caminho do arquivo com o modelo treinado
  # binary >>> arquivo em texto (False)
  # no_header >>> ignorar o cabeçalho

# Método para acessar a similaridade de duas palavras dentro do modelo treinado
similaridade = glove_model.similarity('king', 'queen')
print("Similaridade entre 'king' e 'queen': ", similaridade)

# Método de proximidade para uma determinada palavra "King"
palavras_proximas = glove_model.most_similar('king')
print("Palavras próximas a 'king': ", palavras_proximas)

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/[FATEC] PLN/glove.6B.100d.txt'

## Exemplo 4 - FastText

In [None]:
# Importação das funcionalidades necessárias para o uso do modelo FastText
from gensim.models import fasttext
from gensim.models import KeyedVectors

# Caminho para o arquivo FastText pré-treinado (modelo com 300 dimensões para o português)
fasttext_path = '/content/drive/MyDrive/[FATEC] PLN/cc.pt.300.vec'

# Carregamento do modelo FastText em formato compatível com o Word2Vec (ainda que o modelo seja FastText)
# O arquivo está em formato texto (não binário), por isso 'binary=False' e 'no_header=True' porque o arquivo não contém cabeçalho
fasttext_model = KeyedVectors.load_word2vec_format(fasttext_path, binary=False, no_header=True)

# Cálculo da similaridade entre as palavras 'gato' e 'gatinhos'
# A similaridade vai retornar um valor entre -1 e 1, onde 1 significa palavras muito semelhantes
similaridade = fasttext_model.similarity('gato', 'gatinhos')
print(f"Similaridade entre 'gato' e 'gatinhos': {similaridade:.4f}")
# Espera-se que a similaridade seja alta, já que 'gato' e 'gatinhos' são semanticamente muito próximos (diferem apenas em plural)

# Cálculo das palavras mais próximas de 'gato'
# A função 'most_similar' retorna as palavras que têm vetores próximos a 'gato' no espaço vetorial
palavras_proximas = fasttext_model.most_similar('gato')
print("Palavras mais próximas de 'gato': ")
for palavra, score in palavras_proximas:
    # Exibe as palavras mais próximas e seus respectivos scores (semelhança)
    print(f"{palavra}: {score:.4f}")

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/[FATEC] PLN/cc.pt.300.vec'