## Word2Vec con Gensim
Curso de Embeddings y Bases de Datos Vectoriales para NLP en Platzi


## Instalación de librerías y carga de dataset

In [None]:
!pip install datasets

Collecting datasets
  Downloading datasets-2.14.2-py3-none-any.whl (518 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m518.9/518.9 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.8,>=0.3.0 (from datasets)
  Downloading dill-0.3.7-py3-none-any.whl (115 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m11.8 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.15-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0.0,>=0.14.0 (from datasets)
  Downloading huggingface_hub-0.16.4-py3-none-a

El modelo que se va utilizar es gensim se va entrenar para que endienda de Embeddings representaciones vectoriales, es decir se va a utilizar
import Word2Vec para pasar una palabra a una representacion vectorial para endenter mejor el contexto del lenguaje.


In [None]:
from gensim.models import Word2Vec
import pandas as pd
import re
from gensim.parsing.preprocessing import strip_punctuation, strip_numeric, strip_short, stem_text
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

-------------------------

In [None]:
from datasets import load_dataset

dataset_corpus = load_dataset("large_spanish_corpus", "ParaCrawl")

Downloading builder script:   0%|          | 0.00/3.93k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/8.26k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/5.79G [00:00<?, ?B/s]

Generating train split:   0%|          | 0/15510649 [00:00<?, ? examples/s]

In [None]:
dataset_corpus

DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 15510649
    })
})

In [None]:
subset = dataset_corpus['train'].select(range(1000000))

In [None]:
subset[0:2]

{'text': ['lavado de cerebro a través de los medios de comunicación, y amenaza de fuerza a través de los militares.',
  'Sin un constante aluvión de doble cañón, requiriendo la complicidad de los seres humanos para reprimir y engañar a sus semejantes, su tan cacareada magia rápidamente se desvanecería y se disiparía.']}

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

from nltk.tokenize import word_tokenize

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


## Pre-procesamiento de texto
Procesamiento y Limpieza de Datos para IA con Word2Vec y Gensim


In [None]:
def clean_text(sentence_batch):
    # extrae el texto de la entrada
    text_list = sentence_batch['text']

    cleaned_text_list = []
    for text in text_list:
        # Convierte el texto a minúsculas
        text = text.lower()

        # Elimina URLs
        text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)

        # Elimina las menciones @ y '#' de las redes sociales
        text = re.sub(r'\@\w+|\#\w+', '', text)

        # Elimina los caracteres de puntuación
        text = strip_punctuation(text)

        # Elimina los números
        text = strip_numeric(text)

        # Elimina las palabras cortas
        text = strip_short(text,minsize=2)

        # Elimina las palabras comunes (stop words)
        stop_words = set(stopwords.words('spanish'))
        word_tokens = word_tokenize(text)
        filtered_text = [word for word in word_tokens if word not in stop_words]

        cleaned_text_list.append(filtered_text)

    # Devuelve el texto limpio
    return {'text': cleaned_text_list}

In [None]:
sentences_corpus = subset.map(clean_text, batched=True)

Map:   0%|          | 0/1000000 [00:00<?, ? examples/s]

In [None]:
sentences_corpus['text'][:3]

[['lavado',
  'cerebro',
  'través',
  'medios',
  'comunicación',
  'amenaza',
  'fuerza',
  'través',
  'militares'],
 ['constante',
  'aluvión',
  'doble',
  'cañón',
  'requiriendo',
  'complicidad',
  'seres',
  'humanos',
  'reprimir',
  'engañar',
  'semejantes',
  'tan',
  'cacareada',
  'magia',
  'rápidamente',
  'desvanecería',
  'disiparía'],
 ['realidad',
  'nuevo',
  'om',
  'sólo',
  'puede',
  'mantener',
  'ilusión',
  'supremacía',
  'mágica',
  'siempre',
  'reprima',
  'desvíe',
  'potencial',
  'humano',
  'mora',
  'verdadera',
  'magia',
  'decir',
  'capacidad',
  'innata',
  'especie',
  'magia',
  'interactiva',
  'poderes',
  'animación',
  'diosa',
  'planetaria']]

## Carga y uso de modelo de embeddings Word2Vec

Entrenamiento de Modelos Word2Vec con GenSim y Análisis de Similitud


In [None]:
model = Word2Vec(sentences_corpus['text'], vector_size=100, window=5, min_count= 2, workers=6, sg=1)

# Podemos guardar el modelo para uso futuro
model.save("word2vec.model")

In [None]:
model.wv['rey']

array([ 0.17061825, -0.05523819,  0.0370718 ,  0.38870603, -0.18689875,
        0.03989432, -0.5228691 ,  0.18875739, -0.6329118 ,  0.1539114 ,
       -0.10219856,  0.13349785,  0.32190356,  0.20333336, -0.38264862,
       -0.03745398, -0.44029036, -0.5751736 ,  0.17400914,  0.42481267,
        0.2655877 ,  0.5668156 ,  1.0399382 , -0.05759381,  0.16531499,
        0.6969268 , -0.05628058, -0.15586577, -0.8053375 ,  0.21253237,
       -0.28121907,  0.7115182 , -0.15774348, -0.15451847, -0.5154172 ,
        0.9812431 , -0.59950423,  0.25621286, -0.16941325, -0.55159885,
        0.0439605 , -0.6925604 ,  0.67777884,  0.2490357 ,  0.19048582,
       -0.01189345, -0.52051544, -0.01500108,  0.37064192,  0.23100907,
       -0.6776154 , -0.764844  , -0.19123577, -0.13046837, -0.43170217,
       -0.34789687, -0.02590029, -0.27682403, -0.22345346,  0.66556054,
        0.28272593, -0.06529995, -0.10637344,  0.37861955,  0.31357062,
        0.49431533,  0.27237013,  0.10749663, -0.2131937 ,  0.02

In [None]:
##comida, ser, reina, television
model.wv.most_similar(['television'],topn=3)

[('gsm', 0.864591121673584),
 ('entertainment', 0.8640109300613403),
 ('supren', 0.8610200881958008)]

In [None]:
word_vectors = model.wv
vectors = word_vectors.vectors
words = word_vectors.index_to_key

## Almacenamiento de embeddings

In [None]:
df_vectors = pd.DataFrame(vectors)
df_vectors.to_csv('embeddings.tsv',sep='\t', index=False)

In [None]:
df_words = pd.DataFrame(words)
df_words.to_csv('labels.tsv',sep='\t', index=False)