# Embeddings from scratch

In [37]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset

import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

In [74]:
sentences = [
    'La inteligencia artificial es la hostia',
    'El procesamiento de lenguaje natural es una rama del aprendizaje profundo',
    "Me encanta estudar inteligencia artifical",
    "Las películas de inteligencia artificial me encantan",
    "El arendizaje profundo es una subcategoría de la inteligencia artificial",
    "Los embeddings de palabras capturan semántica",
    "PyTorch es una herramienta para aprendiaje profundo e inteligencia artificial",
]

In [72]:
class SkipGramData(Dataset):
    def __init__(self, corpus, window_sz= 2):
        super().__init__
        self.corpus = corpus
        self.window = window_sz
        self.vocab = list(set(token.lower() for sentence in self.corpus for token in sentence.split())) # set elimina dups y no mantiene el orden
        self.word2idx = {word: idx for idx, word in enumerate(self.vocab)}
        self.idx2word = {idx: word for word, idx in self.word2idx.items()}
        self.data = self.gen_dataset()

    def gen_dataset(self):
        # Metod for enventanado
        data = []
        for sentence in self.corpus:
            text = sentence.lower().split()
            print(text)
            for center_idx, center_word in enumerate(text):
                for offset in range(-self.window, self.window +1):
                    context_idx = center_idx + offset
                    if context_idx < 0 or context_idx >= len(text) or context_idx == center_idx: continue
                    context_word = text[context_idx]
                    data.append((self.word2idx[center_word], self.word2idx[context_word]))
        return data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

In [73]:
class SkipGram(nn.Module):
    def __init__(self, vocab_sz, embed_sz):
        super().__init__()
        self.embed_layer = nn.Linear(vocab_sz, embed_sz, bias = False)
        self.output_Layer = nn.Linear(embed_sz, vocab_sz)

    def forward(self, x):
        return self.output_layer(self.embed_layer(x))

In [None]:
def train_skipgrad(model, loss_function, optimizer, data_loader, epochs=100):
    for epoch in range(epochs):
        total_loss = 0
        for center, context in data_loader:
            

In [75]:
dataset = SkipGramData(sentences)
data_loader = DataLoader(dataset, batch_size=1, shuffle=True)
model = SkipGram(len(dataset.vocab), embed_sz=300)
for center_idx, context_idx in dataset.data:
    print(dataset.idx2word[center_idx],dataset.idx2word[context_idx])

['la', 'inteligencia', 'artificial', 'es', 'la', 'hostia']
['el', 'procesamiento', 'de', 'lenguaje', 'natural', 'es', 'una', 'rama', 'del', 'aprendizaje', 'profundo']
['me', 'encanta', 'estudar', 'inteligencia', 'artifical']
['las', 'películas', 'de', 'inteligencia', 'artificial', 'me', 'encantan']
['el', 'arendizaje', 'profundo', 'es', 'una', 'subcategoría', 'de', 'la', 'inteligencia', 'artificial']
['los', 'embeddings', 'de', 'palabras', 'capturan', 'semántica']
['pytorch', 'es', 'una', 'herramienta', 'para', 'aprendiaje', 'profundo', 'e', 'inteligencia', 'artificial']
la inteligencia
la artificial
inteligencia la
inteligencia artificial
inteligencia es
artificial la
artificial inteligencia
artificial es
artificial la
es inteligencia
es artificial
es la
es hostia
la artificial
la es
la hostia
hostia es
hostia la
el procesamiento
el de
procesamiento el
procesamiento de
procesamiento lenguaje
de el
de procesamiento
de lenguaje
de natural
lenguaje procesamiento
lenguaje de
lenguaje natu