## Mastering Machine Learning 2025

Taller 2: tokenizers y embeddings

Antes de iniciar abra este cuaderno en Google Colab y habilite la ejecución con GPU:
- En el menú Entorno de ejecución seleccione Cambiar tipo entorno de ejecución.
- Asegúrese de tener seleccionado Python 3.
- Como Acelerador de hardware seleccione GPU T4.

In [None]:
!pip install gensim

Descarguemos un embedding entrenado con los datos de Wikipedia. El tamaño del vector del embedding es de 50 y tamaño de la descarga es cerca de 66MB.

Puede encontrar otras opciones en https://github.com/RaRe-Technologies/gensim-data

In [None]:
import gensim.downloader as api

model = api.load("glove-wiki-gigaword-50")

In [None]:
model.most_similar([model['song']], topn=11)

## Word2Vec para generar embeddings

Word2Vec emplea contrastive learning, donde se comparan una palabra contra otra para determianr si pertenecen al mismo contexto o no. Se emplean ejemplos positivos (obtenidos del mismo texto) y negativos (obtenidos al azar).

Importamos las dependencias necesarias

In [None]:
import pandas as pd
from urllib import request

Cargamos los datos con un conjunto de datos de playlists

In [None]:
data = request.urlopen('https://storage.googleapis.com/maps-premium/dataset/yes_complete/train.txt')

Saltamos las dos primeras líneas ya que no tienen datos útiles para el ejercicio (solo metadatos)

In [None]:
lines = data.read().decode("utf-8").split('\n')[2:]

Eliminamos playlists con una sola canción dado que no sirven para generar información del contexto en el que aparecen canciones similares (misma playlist)

In [None]:
playlists = [s.rstrip().split() for s in lines if len(s.split()) > 1]

Exploremos algunas de las playlists para ver su contenido (IDs de las canciones)

In [None]:
print( f'Playlist #1:\n {playlists[0]}\n')
print( f'Playlist #2:\n {playlists[1]}')

Importamos el modelo Word2Vec y lo entrenamos con el dataset de playlists

In [None]:
from gensim.models import Word2Vec

model = Word2Vec(
    playlists, vector_size=32, window=20, negative=50, min_count=1, workers=4
)

Una vez entrenado, solocitamos canciones similares a una canción en particular

In [None]:
song_id = 2172

model.wv.most_similar(positive=str(song_id))

Traemos y procesamos los datos de las canciones para tener acceso a sus títulos y artistas

In [None]:
songs_file = request.urlopen('https://storage.googleapis.com/maps-premium/dataset/yes_complete/song_hash.txt')
songs_file = songs_file.read().decode("utf-8").split('\n')
songs = [s.rstrip().split('\t') for s in songs_file]
songs_df = pd.DataFrame(data=songs, columns = ['id', 'title', 'artist'])
songs_df = songs_df.set_index('id')

Traemos la información de la canción que seleccionamos

In [None]:
print(songs_df.iloc[song_id])

Definimos una función para mostrar las canciones más similares a una seleccionada en formato texto

In [None]:
import numpy as np

def print_recommendations(song_id):
    similar_songs = np.array(
        model.wv.most_similar(positive=str(song_id),topn=5)
    )[:,0]
    return  songs_df.iloc[similar_songs]

Empleamos la función creada con la canción seleccionada

In [None]:
print_recommendations(song_id)

In [None]:
song_id = 2222
print(songs_df.iloc[song_id])
print_recommendations(song_id)