<a href="https://colab.research.google.com/github/SaraSilvaa/FATEC_PLN_Codes/blob/master/Aula06.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Aula 06 - Representação de texto com Embeddings

##Exemplo 1: Word2Vec

In [3]:
# Abaixo sera importado da ferramenta de vetorização Word2Vec pesquisando a biblioteca na documentação
from gensim.models import Word2Vec

#Textos a serem analisados
corpus = [
    ["o","cachorro","está","latindo"],
    ["o","gato","está","miando"]
]

# Essa etapa serve para treinar as palavras
model = Word2Vec(sentences=corpus, vector_size=40,  window=5, min_count=1,sg=1)
  # • sentences: Indica o texto que vai ser analizado
  # • window: faixa de palavras (antes e depois) que serão analizadas
  # • vector_size: tamanho do vetor
  # • min_count=1 - quantidade do resultado
  # • sg: Modelo que vai ser utilizado
  # • 0 - CBOW: Busca a palavra a partir do contexto dado
  # • 1 - Skip-gram: Busca o contexto a partir da palavra

# Vetorizando a palavra desejada
vector = model.wv['cachorro']
similarity = model.wv.similarity('cachorro','gato')

#print do resultado da vetorização e similaridade
print("\nSimilaridade entre 'cachorro' e 'gato': ",similarity)


Similaridade entre 'cachorro' e 'gato':  0.09868057


In [4]:
#Agora vamos usar mais frases a serem analizadas
from gensim.models import Word2Vec

corpus = [
    ["o", "cachorro", "está", "latindo", "no", "quintal"],
    ["o", "gato", "está", "miando", "no", "telhado"],
    ["o", "pássaro", "está", "voando", "no", "céu"],
    ["a", "bola", "está", "rolando", "no", "chão"],
    ["a", "criança", "está", "brincando", "com", "o", "cachorro"],
    ["o", "gato", "e", "o", "rato", "são", "inimigos"],
    ["a", "água", "está", "quente", "na", "caneca"],
    ["o", "sol", "está", "brilhando", "no", "céu"],
    ["a", "lua", "está", "cheia", "hoje"],
    ["a", "computador", "está", "ligado", "na", "mesa"]
]

model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)

#Similaridade entre as palavras
print(f"Similaridade entre cachorro e gato: {model.wv.similarity('cachorro', 'gato')}")
print(f"Similaridade entre cachorro e bola: {model.wv.similarity('cachorro', 'bola')}")
print(f"Similaridade entre céu e lua: {model.wv.similarity('céu', 'lua')}")
print(f"Similaridade entre computador e mesa: {model.wv.similarity('computador', 'mesa')}")

Similaridade entre cachorro e gato: -0.027537165209650993
Similaridade entre cachorro e bola: 0.08071544766426086
Similaridade entre céu e lua: 0.16293543577194214
Similaridade entre computador e mesa: 0.037479717284440994


In [11]:
from gensim.models import KeyedVectors

  #Subi o arquivo no python e indiquei o caminho
glove_path = '/content/glove.6B.100d.txt'

  # Acesso ao modelo de instanciação
glove_model = KeyedVectors.load_word2vec_format(glove_path, binary=False, no_header=True)
  # glove_path: Caminho do arquivo a ser utilizado
  # binary: Arquivo em texto (False)
  # no_header: Ignora o cabeçalho

  #Método para acessar a similaridade de duas palavras dentro do modelo treinado
similaridade = glove_model.similarity('king',"queen")
print("Similaridade entre 'king' e 'queen': ", similaridade)

print('Similaridade entre "king" e "queen": ', similaridade)

  #método de proximidade para uma determinada palavra "KING"
palavras_proximas = glove_model.most_similar('king')
print(f"Palavras próximas de 'king': {glove_model.most_similar('king')}")
print(f"Palavras próximas de 'queen': {glove_model.most_similar('queen')}")

Similaridade entre 'king' e 'queen':  0.7507691
Similaridade entre "king" e "queen":  0.7507691
Palavras próximas de 'king': [('prince', 0.7682328820228577), ('queen', 0.7507690787315369), ('son', 0.7020888328552246), ('brother', 0.6985775232315063), ('monarch', 0.6977890729904175), ('throne', 0.6919989585876465), ('kingdom', 0.6811409592628479), ('father', 0.6802029013633728), ('emperor', 0.6712858080863953), ('ii', 0.6676074266433716)]
Palavras próximas de 'queen': [('princess', 0.7947245240211487), ('king', 0.7507690191268921), ('elizabeth', 0.7355712056159973), ('royal', 0.7065026164054871), ('lady', 0.7044796943664551), ('victoria', 0.6853758096694946), ('monarch', 0.6683257818222046), ('crown', 0.6680562496185303), ('prince', 0.6640506386756897), ('daughter', 0.6395184397697449)]


##Exemplo 3 - FastText


In [13]:
#Funcionalidades fasttext e KeyedVectors
from gensim.models import fasttext
from gensim.models import KeyedVectors

#Subi o arquivo no python e indiquei o caminho
fasttext_path = '/content/cc.pt.300.vec.gz'
# instanciação do objeto
fasttext_model = KeyedVectors.load_word2vec_format(fasttext_path, binary=False)

# calculo de proximidade
similaridade = fasttext_model.similarity('gato','gatinhos')
print(f"Similaridade entre 'gato' e 'gatinho': {similaridade:.4f}")

# calculo das palavras mais próximas
palavras_proximas = fasttext_model.most_similar('gato')
print("Palavras mais próximas de 'gato': ")
for palavra, score in palavras_proximas:
  print(f"{palavra}: {score:.4f}")

Similaridade entre 'gato' e 'gatinho': 0.5815
Palavras mais próximas de 'gato': 
gatinho: 0.8185
cão: 0.7903
cachorro: 0.7688
gatoO: 0.7448
felino: 0.7386
cãozinho: 0.7356
cachorrinho: 0.7047
gato.O: 0.7008
gatoe: 0.6934
bichinho: 0.6690
