<a href="https://colab.research.google.com/github/EddyGiusepe/Word2Vec_exemplo_1/blob/main/Word2Vec_exemplo_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <h2 align='center'>**Python | Word Embedding using Word2Vec**</h2> 

\\
**Cientista de Dados Jr.:**  Dr.Eddy Giusepe Chirinos Isidro


link de estudo: [CLICK AQUI](https://www.geeksforgeeks.org/python-word-embedding-using-word2vec/)


<font color="yellow">Word Embedding</font> é uma técnica de modelagem de linguagem usada para mapear palavras em vetores de números reais. Representa palavras ou frases no espaço vetorial com várias dimensões. Embeddings de palavras podem ser gerados usando vários métodos, como redes neurais, matriz de co-ocorrência, modelos probabilísticos, etc.


\\
<font color="yellow">Word2Vec</font> consiste em modelos para gerar incorporação de palavras. Esses modelos são redes neurais superficiais de duas camadas com uma camada de entrada, uma camada oculta e uma camada de saída. Word2Vec utiliza duas arquiteturas:

**CBOW (Continuous Bag of Words):**

o modelo CBOW prevê a palavra atual dadas as palavras de contexto dentro de uma janela específica. A camada de entrada contém as palavras de contexto e a camada de saída contém a palavra atual. A camada oculta contém o número de dimensões nas quais queremos representar a palavra atual presente na camada de saída.


\\
**Skip Gram:** 

Skip grama prevê as palavras de contexto circundantes dentro de uma janela específica dada a palavra atual. A camada de entrada contém a palavra atual e a camada de saída contém as palavras do contexto. A camada oculta contém o número de dimensões nas quais queremos representar a palavra atual presente na camada de entrada.

\\
A ideia básica da incorporação de palavras é que palavras que ocorrem em contextos semelhantes tendem a estar mais próximas umas das outras no espaço vetorial. Para gerar vetores de palavras em Python, os módulos necessários são nltk e gensim.



In [1]:
!pip install nltk



In [2]:
!pip install gensim



## Python program to generate word vectors using Word2Vec



In [3]:
# Importing all necessary modules

from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
import warnings
import numpy as np
import gensim
from gensim.models import Word2Vec

# Resource punkt not found. Please use the NLTK Downloader to obtain the resource:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [4]:
warnings.filterwarnings(action = 'ignore')

In [5]:
#  Reads ‘alice.txt’ file

sample = open("/content/drive/MyDrive/2_DEEP LEARNING REDES NEURAIS -- Jorge/text_classification_Word2Vec_Eddy/alice.txt", "r")
s = sample.read()


In [6]:
# Replaces escape character with space
f = s.replace("\n", " ")

In [7]:
data = list()

# Iterate through each sentence in the file
for i in sent_tokenize(f):
  temp = list()
  # tokenize the sentence into words
  for j in word_tokenize(i):
    temp.append(j.lower())

    data.append(temp)

In [8]:
# Create CBOW model
model1 = gensim.models.Word2Vec(data, min_count = 1, 
                              size = 1000, window = 5)

In [9]:
# Print results
print("Cosine similarity between 'alice' " + "and 'wonderland' - CBOW : ", model1.similarity('alice', 'wonderland'))

Cosine similarity between 'alice' and 'wonderland' - CBOW :  0.06948266


In [10]:
print("Cosine similarity between 'alice' " + "and 'machines' - CBOW : ", model1.similarity('alice', 'machines'))

Cosine similarity between 'alice' and 'machines' - CBOW :  -0.0037568505


In [11]:
# Create Skip Gram model
model2 = gensim.models.Word2Vec(data, min_count = 1, size = 100,
                                             window = 5, sg = 1)

In [12]:
# Print results
print("Cosine similarity between 'alice' " +
          "and 'wonderland' - Skip Gram : ",
    model2.similarity('alice', 'wonderland'))

Cosine similarity between 'alice' and 'wonderland' - Skip Gram :  0.12857467


In [13]:
print("Cosine similarity between 'alice' " +
            "and 'machines' - Skip Gram : ",
      model2.similarity('alice', 'machines'))

Cosine similarity between 'alice' and 'machines' - Skip Gram :  0.1469699


Output indicates the cosine similarities between word vectors ‘alice’, ‘wonderland’ and ‘machines’ for different models. One interesting task might be to change the parameter values of ‘size’ and ‘window’ to observe the variations in the cosine similarities.