<a href="https://colab.research.google.com/github/ahcamachod/1904-word2vec-entrenamiento-de-word-embedding/blob/main/word2vec_entrenamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Word2Vec: Entrenamiento de Word Embedding

En este notebook encontrarás el desarrollo del proyecto para modelar tus propias representaciones de Word Embedding utilizando **Word2Vec** .


Los principales recursos de Python que utilizaremos como base para nuestro modelaje se encuentran en:


*https://spacy.io/*

*https://radimrehurek.com/gensim/models/word2vec.html*


La documentación referente al diseño de las arquitecturas Word2Vec la encontramos en:


*https://arxiv.org/pdf/1301.3781.pdf*

## Aula 1

### 1.2 Iniciando con spacy

In [1]:
import logging 

logging.basicConfig(format='%(asctime)s - %(message)s', level=logging.INFO)

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
import pandas as pd

noticias_train = pd.read_csv('/content/drive/MyDrive/word2vec/noticias_entrenamiento.csv')
noticias_test = pd.read_csv('/content/drive/MyDrive/word2vec/noticias_prueba.csv')

2022-05-21 16:26:58,041 - NumExpr defaulting to 2 threads.


In [4]:
noticias_train.shape

(91844, 7)

In [5]:
noticias_train.sample(2)

Unnamed: 0,fecha,titulo,pais,extracto,resumen,enlace,categoria
46969,2022-03-17 12:33:17,"Correos en Canarias niega que exista ""precarie...",ES,Correos en Canarias se encuentra inmersa en un...,Oficina de Correos. Archivo Correos en Canaria...,https://diariodeavisos.elespanol.com/2022/03/c...,economia
36498,2022-04-03 22:51:17,Bad Bunny gana Grammy por mejor disco de músic...,PR,El cantante tiene otras seis nominaciones,"Benito Ocasio Martínez, conocido como 'Bad Bun...",https://www.metro.pr/entretenimiento/2022/04/0...,entretenimiento


In [6]:
noticias_test.shape

(22961, 7)

In [7]:
noticias_test.sample(2)

Unnamed: 0,fecha,titulo,pais,extracto,resumen,enlace,categoria
9045,2022-03-23 08:00:00,Detuvieron en Hungría al principal sospechoso ...,AR,El principal sospechoso de la muerte del exrug...,El principal sospechoso de la muerte del exrug...,https://www.grupolaprovincia.com/deportes/detu...,deportes
18886,2022-03-31 15:11:30,Casi 35.000 firmantes piden incluir la memoria...,ES,"Entre los promotores de la iniciativa, difundi...",Representantes de organizaciones de memoria y ...,https://www.publico.es/politica/35-000-firmant...,politica


In [8]:
#!python -m spacy download es_core_news_sm

In [9]:
import spacy

nlp = spacy.load("es_core_news_sm")

### 1.3 Spacy y sus estructuras

In [10]:
texto = "Big Data es una ciencia que nos permite trabajar velozmente con grandes volúmenes de datos."

In [11]:
doc = nlp(texto)

In [12]:
type(doc)

spacy.tokens.doc.Doc

In [13]:
doc[0]

Big

In [14]:
doc.ents

(Big Data,)

In [15]:
doc[5].is_stop

True

In [16]:
doc[9].is_stop

False

In [17]:
doc[9].pos_

'ADV'

## Aula 2

### 2.1 Preprocesamiento de los datos

In [18]:
texto_para_tratamiento = (titulo.lower() for titulo in noticias_train.titulo)

In [19]:
def trata_texto(doc):
  token_valido = []
  for token in doc:
    valido = not token.is_stop and token.is_alpha
    if valido:
      token_valido.append(token.text)
  if len(token_valido) > 2:
    return " ".join(token_valido)

In [20]:
texto = "Big Data es una ciencia que nos permite trabajar velozmente con grandes volúmenes de datos."
doc = nlp(texto)
trata_texto(doc)

'Big Data ciencia permite velozmente volúmenes datos'

In [21]:
texto = "Big Data 4673423 es una ciencia! que nos permite  %¨&%$$%& trabajar velozmente con grandes -0898982 volúmenes de datos."
doc = nlp(texto)
trata_texto(doc)

'Big Data ciencia permite velozmente volúmenes datos'

### 2.2 Optimizando el tratamiento de los datos

In [22]:
from time import time

t0 = time()
texto_tratado = [trata_texto(doc) for doc in nlp.pipe(texto_para_tratamiento, batch_size=1000, n_process= -1)]
tf = time()-t0

print(tf/60)

3.1199692209561665


In [23]:
titulos_tratados = pd.DataFrame({'titulo': texto_tratado})
titulos_tratados.head()

Unnamed: 0,titulo
0,tenso debate senado argentino refinanciamiento...
1,triunfo dramático cruz azul duelo campeones atlas
2,moderar inflación urgente marcha plan calviño
3,llega the batman a hbo max mira fecha estreno ...
4,guzmán default fmi implicaba ajuste y caída pr...


In [24]:
len(titulos_tratados)

91844

## Aula 3

### 3.1 Hiperparámetros de Word2Vec

### 3.2 Avanzando en los hiperparámetros

### 3.3 Vocabulario Word2Vec

## Aula 4

### 4.1 Entrenando el modelo CBOW

### 4.2 Entrenando el modelo Skip Gram

## Aula 5

### 5.1 Iniciando el clasificador

### 5.2 Combinación de vectores

### 5.3 Vectorizando los titulares

## Aula 6

### 6.1 Clasificando los titulares

### 6.2 Comparando los modelos