<img src="https://github.com/hernancontigiani/ceia_memorias_especializacion/raw/master/Figures/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Desafio 2



**1**. Crear sus propios vectores con Gensim basado en lo visto en clase con otro dataset.

**2**. Probar términos de interés y explicar similitudes en el espacio de embeddings (sacar 
       conclusiones entre palabras similitudes y diferencias).

**3**. Graficarlos

**4**. Obtener conclusiones

In [1]:
pip install --upgrade gensim scipy numpy

Collecting scipy
  Using cached scipy-1.16.2-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting numpy
  Using cached numpy-2.3.3-cp312-cp312-win_amd64.whl.metadata (60 kB)
Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import multiprocessing
from gensim.models import Word2Vec

### Datos
Utilizaré como dataset canciones de bandas de habla inglesa.

In [3]:
import os
import platform
import zipfile
import urllib.request

# Descargar la carpeta de dataset
if os.access('./songs_dataset', os.F_OK) is False:
    if os.access('songs_dataset.zip', os.F_OK) is False:
        print("Descargando dataset...")
        url = "https://raw.githubusercontent.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/main/datasets/songs_dataset.zip"
        urllib.request.urlretrieve(url, "songs_dataset.zip")
        print("Descarga completada")
    
    print("Descomprimiendo archivo...")
    with zipfile.ZipFile("songs_dataset.zip", 'r') as zip_ref:
        zip_ref.extractall(".")
    print("Descompresión completada")
else:
    print("El dataset ya se encuentra descargado")

El dataset ya se encuentra descargado


In [4]:
# Posibles bandas
os.listdir("./songs_dataset/")

['adele.txt',
 'al-green.txt',
 'alicia-keys.txt',
 'amy-winehouse.txt',
 'beatles.txt',
 'bieber.txt',
 'bjork.txt',
 'blink-182.txt',
 'bob-dylan.txt',
 'bob-marley.txt',
 'britney-spears.txt',
 'bruce-springsteen.txt',
 'bruno-mars.txt',
 'cake.txt',
 'dickinson.txt',
 'disney.txt',
 'dj-khaled.txt',
 'dolly-parton.txt',
 'dr-seuss.txt',
 'drake.txt',
 'eminem.txt',
 'janisjoplin.txt',
 'jimi-hendrix.txt',
 'johnny-cash.txt',
 'joni-mitchell.txt',
 'kanye-west.txt',
 'kanye.txt',
 'Kanye_West.txt',
 'lady-gaga.txt',
 'leonard-cohen.txt',
 'lil-wayne.txt',
 'Lil_Wayne.txt',
 'lin-manuel-miranda.txt',
 'lorde.txt',
 'ludacris.txt',
 'michael-jackson.txt',
 'missy-elliott.txt',
 'nickelback.txt',
 'nicki-minaj.txt',
 'nirvana.txt',
 'notorious-big.txt',
 'notorious_big.txt',
 'nursery_rhymes.txt',
 'patti-smith.txt',
 'paul-simon.txt',
 'prince.txt',
 'r-kelly.txt',
 'radiohead.txt',
 'rihanna.txt']

In [5]:
# Armar el dataset. Voy a usar el dataset de prince 
with open('songs_dataset/prince.txt', 'r', encoding='utf-8') as file:
    lineas = [linea.strip() for linea in file if linea.strip()]  # Eliminar espacios y líneas vacías

df = pd.DataFrame(lineas, columns=['letra'])
print(f"Total de líneas: {len(df)}")
df.head(10)


Total de líneas: 9616


Unnamed: 0,letra
0,All of this and more is for you
1,"With love, sincerity and deepest care"
2,My life with you I share
3,"Ever since I met you, baby"
4,I've been wantin' to lay you down
5,But it's so hard to get you
6,"Baby, when you never come around"
7,Every day that you keep it away
8,It only makes me want it more
9,"Ooh baby, just say the word"


In [6]:
print("Cantidad de documentos:", df.shape[0])

Cantidad de documentos: 9616


### Preprocesamiento

In [7]:
# REEMPLAZO de TensorFlow por Gensim
from gensim.utils import simple_preprocess

sentence_tokens = []
# Recorrer todas las filas y transformar las oraciones
for _, row in df.iterrows():
    sentence_tokens.append(simple_preprocess(str(row[0])))

print(f"Tokenización completada: {len(sentence_tokens)} oraciones")


Tokenización completada: 9616 oraciones


  sentence_tokens.append(simple_preprocess(str(row[0])))


In [8]:
# Demos un vistazo
sentence_tokens[:10]

[['all', 'of', 'this', 'and', 'more', 'is', 'for', 'you'],
 ['with', 'love', 'sincerity', 'and', 'deepest', 'care'],
 ['my', 'life', 'with', 'you', 'share'],
 ['ever', 'since', 'met', 'you', 'baby'],
 ['ve', 'been', 'wantin', 'to', 'lay', 'you', 'down'],
 ['but', 'it', 'so', 'hard', 'to', 'get', 'you'],
 ['baby', 'when', 'you', 'never', 'come', 'around'],
 ['every', 'day', 'that', 'you', 'keep', 'it', 'away'],
 ['it', 'only', 'makes', 'me', 'want', 'it', 'more'],
 ['ooh', 'baby', 'just', 'say', 'the', 'word']]

### Crear los vectores (word2vec)

In [9]:
from gensim.models.callbacks import CallbackAny2Vec
# Durante el entrenamiento gensim por defecto no informa el "loss" en cada época
# Sobrecargamos el callback para poder tener esta información
class callback(CallbackAny2Vec):
    """
    Callback to print loss after each epoch
    """
    def __init__(self):
        self.epoch = 0

    def on_epoch_end(self, model):
        loss = model.get_latest_training_loss()
        if self.epoch == 0:
            print('Loss after epoch {}: {}'.format(self.epoch, loss))
        else:
            print('Loss after epoch {}: {}'.format(self.epoch, loss- self.loss_previous_step))
        self.epoch += 1
        self.loss_previous_step = loss

In [10]:
# Crearmos el modelo generador de vectores
# En este caso utilizaremos la estructura modelo Skipgram
w2v_model = Word2Vec(min_count=5,    # frecuencia mínima de palabra para incluirla en el vocabulario
                     window=2,       # cant de palabras antes y desp de la predicha
                     vector_size=300,       # dimensionalidad de los vectores 
                     negative=20,    # cantidad de negative samples... 0 es no se usa
                     workers=1,      # si tienen más cores pueden cambiar este valor
                     sg=1)           # modelo 0:CBOW  1:skipgram

In [11]:
# Obtener el vocabulario con los tokens
w2v_model.build_vocab(sentence_tokens)

In [12]:
# Cantidad de filas/docs encontradas en el corpus
print("Cantidad de docs en el corpus:", w2v_model.corpus_count)

Cantidad de docs en el corpus: 9616


In [13]:
# Cantidad de words encontradas en el corpus
print("Cantidad de words distintas en el corpus:", len(w2v_model.wv.index_to_key))

Cantidad de words distintas en el corpus: 1128


### Entrenar embeddings

In [14]:
# Entrenamos el modelo generador de vectores
# Utilizamos nuestro callback
w2v_model.train(sentence_tokens,
                 total_examples=w2v_model.corpus_count,
                 epochs=20,
                 compute_loss = True,
                 callbacks=[callback()]
                 )

Loss after epoch 0: 405371.9375
Loss after epoch 1: 288654.75
Loss after epoch 2: 291745.9375
Loss after epoch 3: 255344.75
Loss after epoch 4: 239785.125
Loss after epoch 5: 233872.125
Loss after epoch 6: 226706.625
Loss after epoch 7: 212890.25
Loss after epoch 8: 192304.0
Loss after epoch 9: 190405.75
Loss after epoch 10: 186618.25
Loss after epoch 11: 184322.25
Loss after epoch 12: 182422.0
Loss after epoch 13: 181275.75
Loss after epoch 14: 179350.25
Loss after epoch 15: 176060.25
Loss after epoch 16: 178055.75
Loss after epoch 17: 176491.25
Loss after epoch 18: 176880.25
Loss after epoch 19: 166159.75


(733365, 1111580)

### Ensayar

In [15]:
# Palabras que MÁS se relacionan con...:
w2v_model.wv.most_similar(positive=["love"], topn=10)

[('calling', 0.6867708563804626),
 ('loving', 0.6316197514533997),
 ('sound', 0.6273171305656433),
 ('hurry', 0.6216462254524231),
 ('york', 0.6174184679985046),
 ('weak', 0.6163065433502197),
 ('critics', 0.6128811240196228),
 ('awake', 0.6123108863830566),
 ('live', 0.604878842830658),
 ('ring', 0.5929914116859436)]

In [16]:
# Palabras que MÁS se relacionan con...:
w2v_model.wv.most_similar(positive=["baby"], topn=10)

[('sorry', 0.7379322648048401),
 ('yea', 0.7031965851783752),
 ('teach', 0.6902633309364319),
 ('ooo', 0.682292103767395),
 ('sweet', 0.6699206233024597),
 ('dog', 0.6554384231567383),
 ('fallin', 0.6529253721237183),
 ('remember', 0.6527729034423828),
 ('outta', 0.6523392796516418),
 ('mmm', 0.6483972072601318)]

In [17]:
# Palabras que MÁS se relacionan con...:
w2v_model.wv.most_similar(positive=["time"], topn=10)

[('waste', 0.6955963969230652),
 ('land', 0.6375869512557983),
 ('everyday', 0.6339872479438782),
 ('quite', 0.630098819732666),
 ('march', 0.628497302532196),
 ('once', 0.6228129863739014),
 ('next', 0.6220715045928955),
 ('years', 0.6171838045120239),
 ('fuckin', 0.6126856207847595),
 ('past', 0.6116873621940613)]

In [18]:
# Palabras que MENOS se relacionan con...:
w2v_model.wv.most_similar(negative=["love"], topn=10)

[('affirmative', 0.0312030129134655),
 ('internal', -0.018145808950066566),
 ('your', -0.10929660499095917),
 ('place', -0.1188286542892456),
 ('off', -0.12503564357757568),
 ('his', -0.1313561052083969),
 ('ready', -0.1327703595161438),
 ('away', -0.13530008494853973),
 ('zero', -0.1412997990846634),
 ('like', -0.1472502201795578)]

In [19]:
# Palabras que MENOS se relacionan con...:
w2v_model.wv.most_similar(negative=["baby"], topn=10)

[('internal', 0.13177011907100677),
 ('affirmative', 0.036582812666893005),
 ('annie', -0.14560610055923462),
 ('christian', -0.16835105419158936),
 ('water', -0.1713973879814148),
 ('new', -0.17575418949127197),
 ('as', -0.1769055277109146),
 ('old', -0.18267829716205597),
 ('lady', -0.1828959584236145),
 ('not', -0.18585549294948578)]

In [20]:
# Palabras que MENOS se relacionan con...:
w2v_model.wv.most_similar(negative=["time"], topn=10)

[('internal', 0.07051612436771393),
 ('affirmative', -0.004968159832060337),
 ('her', -0.06407134234905243),
 ('his', -0.09699761867523193),
 ('de', -0.10479700565338135),
 ('thank', -0.10964679718017578),
 ('slam', -0.11010246723890305),
 ('am', -0.1123565211892128),
 ('be', -0.1208551898598671),
 ('old', -0.12165925651788712)]

In [21]:
# el método `get_vector` permite obtener los vectores:
vector_love = w2v_model.wv.get_vector("love")
#print(vector_love)

Para explorar las relaciones semánticas capturadas por el modelo, se evaluaron las palabras más cercanas y lejanas en el espacio de embeddings para tres términos representativos del corpus: “love”, “baby” y “time”.

Término: “love”

Las palabras más próximas incluyen “calling”, “loving”, “sound”, “awake”, “live”, entre otras.
Estas asociaciones reflejan componentes emocionales y sensoriales del discurso de Prince.
Por el contrario, las palabras menos relacionadas con “love” presentan un sesgo hacia lo neutro o técnico, como “internal”, “affirmative” o “zero”, que carecen de carga emocional y se sitúan fuera del campo semántico afectivo predominante.

Término: “baby”
Las palabras más similares incluyen “sorry”, “sweet”, “remember”, “fallin”, y onomatopeyas como “ooo” o “mmm”.
Esto evidencia la asociación afectiva y sensual del término “baby” en el lenguaje de Prince.
Entre las palabras menos relacionadas aparecen “internal”, “christian” o “water”, lo que confirma que “baby” se distancia de los contextos espirituales o abstractos.

Término: “time”

Las palabras más próximas a “time” son “waste”, “everyday”, “once”, “years”, “past”, lo cual indica una relación semántica coherente: el modelo asocia “time” con términos que denotan duración, cambio o paso del tiempo, lo que demuestra que los embeddings lograron capturar un significado temporal de manera consistente.
Las menos relacionadas se vinculan a contextos más personales distintos del plano temporal en el que “time” suele aparecer. Llama la atención la poca cercanía de "old".

En definitiva, tanto las palabras relacionadas como las no relacionadas con los términos analizados son consistentes con la percepción general que uno tiene del contenido de las letras de Prince.

### Visualizar agrupación de vectores

In [23]:
from sklearn.decomposition import IncrementalPCA    
from sklearn.manifold import TSNE                   
import numpy as np                                  

def reduce_dimensions(model, num_dimensions = 2 ):
     
    vectors = np.asarray(model.wv.vectors)
    labels = np.asarray(model.wv.index_to_key)  

    tsne = TSNE(n_components=num_dimensions, random_state=0)
    vectors = tsne.fit_transform(vectors)

    return vectors, labels


In [29]:
# Graficar los embedddings en 2D
import plotly.graph_objects as go
import plotly.express as px

vecs, labels = reduce_dimensions(w2v_model)

MAX_WORDS=200
fig = px.scatter(x=vecs[:MAX_WORDS,0], y=vecs[:MAX_WORDS,1], text=labels[:MAX_WORDS])
fig.show(renderer="colab") # esto para plotly en colab

In [25]:
# Graficar los embedddings en 3D

vecs, labels = reduce_dimensions(w2v_model,3)

fig = px.scatter_3d(x=vecs[:MAX_WORDS,0], y=vecs[:MAX_WORDS,1], z=vecs[:MAX_WORDS,2],text=labels[:MAX_WORDS])
fig.update_traces(marker_size = 2)
fig.show(renderer="colab") # esto para plotly en colab

Los gráficos muestran la representación bidimensional y tridimensional de las palabras más frecuentes del corpus, obtenida mediante la reducción de dimensionalidad . Cada punto representa una palabra, y su posición refleja la relación semántica con las demás dentro del espacio vectorial aprendido.

Agrupamientos semánticos claros:
Se observan clusters de palabras que comparten un mismo campo temático. Por ejemplo: términos como “around”-“round”-“space”-“back”-“here” conforman un grupo asociado a descripciónes espaciales o "yes"-"yeah"-"ooh"-"oh"-"hey" conforman un conjuntos de expresiones o palabras de énfasis.

Estos tipos de agrupamiento evidencia que el modelo logró capturar contextos de coocurrencia coherentes con el dominio temático del corpus.


Conclusión general

El gráfico confirma que el modelo Word2Vec entrenado sobre las letras de Prince aprendió representaciones semánticas consistentes, agrupando palabras según su afinidad contextual y temática. Los embeddings logran identificar patrones latentes de significado.