![Superdatada.png](attachment:ceee13cf-f626-46ae-a53d-63c93b98f4cf.png)

# ¿Qué demonios estamos cantando? 👩‍🎤🎶

Sabemos que hoy en día muchas canciones suenan como 🔥*pura marranada*🔥, pero... ¿siempre fue así? ¿Nuestros abuelos también movían el esqueleto al ritmo del deseo? 🧓💃 Así que nos pusimos a explorar cómo se ha expresado el sexo y otros temitas jugosos en las canciones más populares desde 1960 hasta hoy.

Obtuvimos las canciones top del **Billboard Hot 100** por década 📅, conseguimos sus letras 🎤, las limpiamos 🧼 y luego aplicamos **Topic Modeling** para agruparlas por temas. Y sí...hay más cochambre que en un sartén de fonda. 🍳🎶



### 🎯 Objetivos específicos:

- **Base de datos** 📊:  
  - Obtener listas quincenales del Billboard Hot 100 utilizando la biblioteca [`billboard`](https://github.com/guoguo12/billboard-charts).  
  - Extraer las letras de canciones con la biblioteca [`lyricsgenius`](https://lyricsgenius.readthedocs.io/en/master/reference/genius.html).

- **Preprocesamiento** 🧹:  
  - Limpiar las letras eliminando caracteres especiales, números, coros repetidos y demás ruido textual que no aporta al chisme académico.

- **Modelado de temas** 🧠:  
  - Aplicar técnicas de **Topic Modeling** para descubrir patrones líricos y temáticos que han dominado la escena musical a lo largo de las décadas.  



Este análisis no solo nos chismea qué cantamos, sino que también responde la gran duda existencial:
**¿siempre se cantó tan subido de tono… o solo cambió el ritmo?** 🎧👀

![Cerebra_SD.png](attachment:dd583b43-f3fb-48d8-9527-5677075af42d.png)

# 1. Prep 🔧

**Instalación e importación de librerías**

In [None]:
# Bibliotecas estándar
import re
import time

# Bibliotecas externas
import billboard as bd
import lyricsgenius
import numpy as np
import pandas as pd
import torch
from bertopic import BERTopic
from bertopic.representation import KeyBERTInspired
from fuzzywuzzy import fuzz
from langdetect import detect
from sklearn.decomposition import LatentDirichletAllocation, NMF
from transformers import BertModel, BertTokenizer

**Autenticación de la API**


Para poder acceder a las letras de canciones desde Genius, es necesario autenticarse usando una clave API **(api_key)**. Esta clave es un código único que obtienes al registrarte en la [plataforma de Genius](https://genius.com/developers).

In [None]:
# Define la autenticación para la API de Genius con la clave proporcionada
# Configura opciones para saltar canciones no oficiales, excluir remixes y versiones en vivo,
# y eliminar los encabezados de sección en las letras. También establece un tiempo máximo de espera.
api_key = ""
genius = lyricsgenius.Genius(
    api_key,
    skip_non_songs=False,
    excluded_terms=["(Remix)", "(Live)"],
    remove_section_headers=True,
    timeout=10,
)

**Funciones auxiliares**


En esta sección encontrarás funciones que nos ayudan a descargar canciones y letras, limpiar y normalizar los textos, detectar idiomas y comparar nombres de artistas con técnicas de coincidencia difusa. Estas herramientas son clave para preparar los datos y facilitar el análisis musical🛠️🎵.

In [None]:
def obtener_canciones_por_año(año_inicial: int) -> pd.DataFrame:
    """
    Obtiene canciones del Billboard Hot 100 para dos años consecutivos a partir del año dado.

    Args:
        año_inicial (int): Año desde el cual comenzar a obtener datos.

    Returns:
        pd.DataFrame: DataFrame con columnas ['artists', 'weeks', 'songs', 'years'].
    """
    canciones = []
    artistas = []
    semanas = []
    años = []

    meses = np.char.zfill(np.arange(1, 13).astype(str), 2)  # '01', '02', ..., '12'
    años_consulta = np.arange(año_inicial, año_inicial + 2)

    for año in años_consulta:
        for mes in meses:
            fecha = f"{año}-{mes}-15"
            chart = bd.ChartData("hot-100", date=fecha)
            for entrada in chart:
                canciones.append(entrada.title)
                artistas.append(entrada.artist)
                semanas.append(entrada.weeks)
                años.append(año)

    df = pd.DataFrame(
        {"artists": artistas, "weeks": semanas, "songs": canciones, "years": años}
    )
    return df


def obtener_letras(df: pd.DataFrame) -> pd.DataFrame:
    """
    Busca y descarga las letras de canciones usando la API de Genius.

    Args:
        df (pd.DataFrame): DataFrame con columnas 'songs' y 'artists_genius'.

    Returns:
        pd.DataFrame: DataFrame con letras y datos asociados.
    """
    letras = []
    artistas_encontrados = []
    titulos_encontrados = []
    decadas = []
    busqueda_cancion = []
    busqueda_artista = []

    for idx in range(df.shape[0]):
        try:
            print(
                f"Buscando letra {idx+1}/{df.shape[0]}: {df.iloc[idx]['songs']} - {df.iloc[idx]['artists_genius']}"
            )
            resultado = genius.search_song(
                df.iloc[idx]["songs"], df.iloc[idx]["artists_genius"]
            )
            letras.append(resultado.lyrics if resultado else "not found")
            artistas_encontrados.append(
                resultado.artist if resultado else df.iloc[idx]["artists_genius"]
            )
            titulos_encontrados.append(
                resultado.title if resultado else df.iloc[idx]["songs"]
            )
        except Exception:
            letras.append("not found")
            artistas_encontrados.append(df.iloc[idx]["artists_genius"])
            titulos_encontrados.append(df.iloc[idx]["songs"])

        decadas.append(df.iloc[idx]["decade"] if "decade" in df.columns else None)
        busqueda_cancion.append(df.iloc[idx]["songs"])
        busqueda_artista.append(df.iloc[idx]["artists_genius"])
        time.sleep(0.3)

    resultado_df = pd.DataFrame(
        {
            "lyrics": letras,
            "artists_genius_found": artistas_encontrados,
            "song_genius_found": titulos_encontrados,
            "decade": decadas,
            "song_search": busqueda_cancion,
            "artist_search": busqueda_artista,
        }
    )
    return resultado_df


def transformar_nombre_artista(nombre: str) -> str:
    """
    Normaliza el nombre del artista para facilitar comparaciones.

    Pasos:
    - Pasa a minúsculas.
    - Cambia 'x' por '&'.
    - Elimina colaboraciones ('featuring', 'feat.', etc.).
    - Elimina contenido entre paréntesis y corchetes.

    Args:
        nombre (str): Nombre original del artista.

    Returns:
        str: Nombre normalizado.
    """
    nombre = nombre.lower()
    nombre = re.sub(r"\bx\b", "&", nombre)

    for palabra in ["featuring", "with", "feat.", "duet", "(", "["]:
        nombre = re.split(re.escape(palabra), nombre, flags=re.IGNORECASE)[0].strip()

    nombre = re.sub(r"\([^()]*\)", "", nombre)
    nombre = re.sub(r"\[[^\[\]]*\]", "", nombre)

    return nombre.strip()


def limpiar_letras(letra: str) -> str:
    """
    Limpia la letra eliminando texto innecesario y caracteres no deseados.

    Args:
        letra (str): Letra original.

    Returns:
        str: Letra limpia y normalizada.
    """
    letra_limpia = re.sub(r".*Lyrics", "", letra, flags=re.DOTALL)
    letra_limpia = re.sub(r"[0-9\W_]+", " ", letra_limpia)
    letra_limpia = re.sub(
        r"chorus|instrumental|you might also like|embed",
        "",
        letra_limpia,
        flags=re.IGNORECASE,
    )
    letra_limpia = " ".join(letra_limpia.split())
    return letra_limpia


def detectar_idioma(texto: str) -> str:
    """
    Detecta el idioma del texto dado.

    Args:
        texto (str): Texto a analizar.

    Returns:
        str: Código del idioma detectado o 'Unknown' si falla.
    """
    try:
        return detect(texto)
    except Exception:
        return "Unknown"


def comparar_artistas_fuzzy(fila: dict) -> int:
    """
    Calcula la similitud entre dos nombres de artistas usando comparación difusa.

    Args:
        fila (dict): Diccionario con las claves 'artists_genius_found' y 'artist_search'.

    Returns:
        int: Puntuación de similitud entre 0 y 100.
    """
    try:
        return fuzz.token_set_ratio(
            fila["artists_genius_found"].lower(), fila["artist_search"].lower()
        )
    except Exception:
        return 0

# 2. Data 📊

### Canciones
⏳ ¡Ten paciencia! Estamos recopilando 100 canciones cada dos semanas desde 1960. Si un mes tiene 4 semanas, eso son 48 semanas al año. Cada quincena equivale a 24 periodos por año. ¿Y desde 1960 hasta 2023? ¡Haz los cálculos!

In [None]:
# Lista de años iniciales para obtener canciones
años_inicio = [1960, 1970, 1980, 1990, 2000, 2010, 2022, 2023]

# Obtener y concatenar los DataFrames de canciones para cada año
df_canciones = pd.concat([obtener_canciones_por_año(año) for año in años_inicio])

# Eliminar duplicados considerando artista y canción
df_canciones = df_canciones.drop_duplicates(subset=["artists", "songs"])

# Crear columna 'decade' redondeando hacia abajo a la década más cercana
df_canciones["decade"] = (df_canciones["years"] // 10) * 10

# Volver a eliminar duplicados y agrupar para obtener máximo de semanas por grupo
df_canciones = (
    df_canciones.drop_duplicates()
    .groupby(["artists", "songs", "decade"], as_index=False)["weeks"]
    .max()
)

# Filtrar el DataFrame para tener un número similar de canciones por década
df_filtrado = pd.concat(
    [
        df_canciones[(df_canciones["decade"] < 1990) & (df_canciones["weeks"] >= 3)],
        df_canciones[
            (df_canciones["decade"] >= 1990)
            & (df_canciones["decade"] < 2020)
            & (df_canciones["weeks"] > 2)
        ],
        df_canciones[df_canciones["decade"] == 2020],
    ],
    ignore_index=True,
)

### Lyrics

#### Pasos del procesamiento 🎶✨

1. **Limpieza y normalización de nombres de artistas** 🧹💃  
   Para asegurarnos de que los nombres de los artistas coincidan correctamente con los registros de la API de Genius, realizamos una limpieza cuidadosa. Esto incluye eliminar partes irrelevantes como colaboraciones, símbolos extraños o contenidos entre paréntesis. Así, evitamos confusiones y mejoramos la calidad de la búsqueda.

2. **Obtención de letras de canciones** 🎤📥  
   A partir de los nombres limpios de artistas y títulos de canciones, consultamos la API de Genius para descargar las letras. En total, procesamos más de 10,700 canciones, un trabajo que puede tardar entre 3 y 4 horas, ¡pero que vale completamente la espera!

3. **Preprocesamiento y filtrado de letras** 🧼🔍  
   Limpiamos las letras para eliminar textos innecesarios como instrucciones, etiquetas, números o caracteres especiales. Además, aplicamos una comparación inteligente para validar que el artista encontrado sea el correcto y detectamos automáticamente el idioma de cada canción para un análisis más preciso.

   Debido a que la API de Genius no es perfecta, implementamos estas etapas adicionales de procesamiento del lenguaje natural (NLP) para mejorar la calidad y precisión de los datos:

   - **Identificación de idioma**:  
     Utilizamos [`langdetect`](https://pypi.org/project/langdetect/), una librería sencilla y efectiva para detectar el idioma del texto.

   - **Tokenización, eliminación de stopwords y lematización/raíz**:  
     Para esto recurrimos a librerías robustas como:
     - [`NLTK`](https://www.nltk.org/): un toolkit completo para tareas de procesamiento de texto.  
     - [`spaCy`](https://spacy.io/): una biblioteca de NLP industrial que ofrece tokenización, lematización, etiquetado gramatical y más.

---

¡Comencemos esta aventura musical! 🚀🎵



**(1) Limpieza y normalización de nombres de artistas** 🧹💃 

In [None]:
# Crear una nueva columna 'artists_genius' con los nombres de artistas normalizados
df_filtrado["artists_genius"] = df_filtrado["artists"].map(transformar_nombre_artista)
df_filtrado

**(2) Obtención de letras de canciones** 🎤📥 

In [None]:
# Obtener las letras de las canciones a partir del DataFrame de canciones
df_lyr = obtener_letras(df_filtrado)
df_lyr

**(3) Preprocesamiento y filtrado de letras** 🧼🔍  

In [None]:
# Filtrar letras que fueron encontradas y no están vacías
df = df_lyr[(df_lyr["lyrics"] != "not found") & (df_lyr["lyrics"] != "")].copy()

# Limpiar las letras de canciones usando la función definida
df["clean_lyrics"] = df["lyrics"].map(limpiar_letras)

# Detectar el idioma de las letras limpias
df["language"] = df["clean_lyrics"].map(detectar_idioma)

# Calcular el puntaje de similitud entre el artista encontrado y el buscado
df["similarity_score"] = df.apply(comparar_artistas_fuzzy, axis=1)

# Filtrar resultados con alta similitud y idioma válido (excluyendo estonio y desconocido)
df = df[
    (df["similarity_score"] > 64)
    & (df["language"] != "et")
    & (df["language"] != "Unknown")
].copy()

In [None]:
df.head()

### Resultados del procesamiento final 🎯

Aquí tenemos el **DataFrame final** con las letras ya limpias, filtradas y validadas tras aplicar toda la rutina de limpieza, detección de idioma y comparación de artistas. 

Este conjunto de datos es el que usaremos para los siguientes análisis y modelados. Puedes consultarlo directamente en este notebook para inspeccionar resultados, hacer visualizaciones o cualquier otro análisis que desees.

In [None]:
# Guardar DataFrame listo para usar en un archivo CSV
# Esto facilita futuras cargas y evita repetir el procesamiento
# df.to_csv('df_ready.csv', index=False)

# 3. Modelo 🤖

Usamos **mBERT** (Multilingual BERT), una versión multilingüe del modelo BERT, que es altamente eficiente para tareas de procesamiento de lenguaje natural (NLP). mBERT ha sido entrenado con datos en varios idiomas, lo que lo hace ideal para trabajar con textos multilingües.

En este proyecto, lo utilizamos para **modelado de temas** (topic modeling) en un corpus multilingüe, ayudándonos a identificar patrones y temas recurrentes en las letras de canciones a lo largo del tiempo.


## 1960

In [None]:
%%time  # Mide el tiempo de ejecución de esta celda

# Crear el modelo de representación basado en KeyBERT
representation_model = KeyBERTInspired()  # KeyBERTInspired es un modelo de representación basado en palabras clave

# Crear el modelo de BERTopic con parámetros ajustados
model = BERTopic(
    verbose=True,              # Muestra información detallada durante el entrenamiento
    min_topic_size=10,         # Número mínimo de documentos por tema
    language='multilingual',   # Especifica que el modelo debe ser capaz de manejar múltiples idiomas
    representation_model=representation_model  # Usamos el modelo de representación personalizado
)

# Entrenamos el modelo de BERTopic usando las letras de canciones de la década de 1960
headline_topics, _ = model.fit_transform(df[df.decade == 1960].clean_lyrics.values)

2024-01-16 17:29:59,113 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/73 [00:00<?, ?it/s]

2024-01-16 17:30:51,079 - BERTopic - Embedding - Completed ✓
2024-01-16 17:30:51,080 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-01-16 17:30:54,488 - BERTopic - Dimensionality - Completed ✓
2024-01-16 17:30:54,488 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-01-16 17:30:54,539 - BERTopic - Cluster - Completed ✓
2024-01-16 17:30:54,542 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-01-16 17:30:55,539 - BERTopic - Representation - Completed ✓


CPU times: user 2min 44s, sys: 18.6 s, total: 3min 3s
Wall time: 56.7 s


In [None]:
# Obtener la información de los temas generados por el modelo
freq = model.get_topic_info()

# Imprimir el número total de temas identificados
print("Número de temas encontrados: {}".format(len(freq)))

freq.head()

Number of topics: 4


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,215,-1_me_you_go_my,"[me, you, go, my, ooh, your, come, be, think, ...",[Bobby Goldsboro With pen in hand You sign you...
1,0,2061,0_love_me_wanna_be,"[love, me, wanna, be, feel, want, you, my, thi...",[From my heart I give thanks to you For stayin...
2,1,32,1_he_him_his_hero,"[he, him, his, hero, man, john, johnny, who, m...",[The school board says He can t come to school...
3,2,13,2_bird_fly_birds_wings,"[bird, fly, birds, wings, mockingbird, sky, ba...",[Buzzing Come on come on and do the fly with m...


In [None]:
# Visualizar los 10 principales temas en un gráfico de barras
# top_n_topics=10 especifica que queremos ver los 10 temas más frecuentes
model.visualize_barchart(top_n_topics=10)

In [None]:
# Visualizar la jerarquía de los temas en un gráfico de árbol
model.visualize_hierarchy(top_n_topics=30)

## 1970

In [None]:
%%time  # Medir el tiempo de ejecución de esta celda

# Crear el modelo de representación basado en KeyBERT
representation_model = KeyBERTInspired()  # Modelo de representación para capturar palabras clave

# Crear el modelo de BERTopic con parámetros ajustados
model = BERTopic(
    verbose=True,              # Muestra información detallada durante el entrenamiento
    min_topic_size=10,         # Número mínimo de documentos por tema
    language='multilingual',   # El modelo debe ser capaz de manejar múltiples idiomas
    representation_model=representation_model  # Usamos el modelo de representación KeyBERT
)

# Aplicar BERTopic a las letras de canciones de la década de 1970
# Filtramos los datos para la década de 1970 y pasamos las letras limpias al modelo
headline_topics, _ = model.fit_transform(df[df.decade == 1970].clean_lyrics.values)

2024-01-16 17:32:11,993 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/63 [00:00<?, ?it/s]

2024-01-16 17:32:56,433 - BERTopic - Embedding - Completed ✓
2024-01-16 17:32:56,433 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-01-16 17:32:59,244 - BERTopic - Dimensionality - Completed ✓
2024-01-16 17:32:59,245 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-01-16 17:32:59,287 - BERTopic - Cluster - Completed ✓
2024-01-16 17:32:59,289 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-01-16 17:33:00,413 - BERTopic - Representation - Completed ✓


CPU times: user 2min 23s, sys: 16.6 s, total: 2min 40s
Wall time: 48.7 s


In [None]:
# Obtener la información sobre los temas generados por el modelo BERTopic
freq = model.get_topic_info()

# Imprimir el número total de temas encontrados en el modelo
# len(freq) nos da la cantidad de temas detectados
print("Número de temas encontrados: {}".format(len(freq)))
freq.head()

Number of topics: 5


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,284,-1_me_you_ya_feel,"[me, you, ya, feel, come, ooh, this, wanna, yo...",[small wonder How the world could get younger ...
1,0,1628,0_me_love_feel_ooh,"[me, love, feel, ooh, you, wanna, my, man, bee...",[It s wonderful to be in love with you It s so...
2,1,68,1_she_her_girl_lady,"[she, her, girl, lady, love, feel, me, be, bab...",[She s driving away With the dim lights on And...
3,2,14,2_remember_joy_old_merry,"[remember, joy, old, merry, laughed, laugh, ki...",[There are some who can still remember All the...
4,3,12,3_you_yourself_mind_your,"[you, yourself, mind, your, be, life, imaginat...",[Are you optimistic bout the way things are go...


In [400]:
model.visualize_barchart(top_n_topics=10)

In [401]:
model.visualize_hierarchy(top_n_topics=30)

# 1980

In [402]:
%%time
# Create your representation model
representation_model = KeyBERTInspired()

model = BERTopic(verbose=True, min_topic_size= 10, language='multilingual',representation_model=representation_model)
headline_topics, _ = model.fit_transform(df[df.decade==1980].clean_lyrics.values)

2024-01-16 17:33:22,012 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/62 [00:00<?, ?it/s]

2024-01-16 17:34:05,888 - BERTopic - Embedding - Completed ✓
2024-01-16 17:34:05,888 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-01-16 17:34:08,621 - BERTopic - Dimensionality - Completed ✓
2024-01-16 17:34:08,622 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-01-16 17:34:08,661 - BERTopic - Cluster - Completed ✓
2024-01-16 17:34:08,662 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-01-16 17:34:09,486 - BERTopic - Representation - Completed ✓


CPU times: user 2min 20s, sys: 17.1 s, total: 2min 37s
Wall time: 47.7 s


In [None]:
freq = model.get_topic_info()
print("Number of topics: {}".format( len(freq)))
freq.head()

Number of topics: 3


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,64,-1_you_me_when_love,"[you, me, when, love, was, been, my, come, you...",[Verse I What s going on I ve waited by the ph...
1,0,1759,0_me_feel_be_wanna,"[me, feel, be, wanna, this, come, love, been, ...",[I need Baby I need your love right now And I ...
2,1,139,1_her_she_girl_love,"[her, she, girl, love, me, be, ooh, this, been...",[So here she s actin happy Inside her handsome...


In [406]:
model.visualize_barchart(top_n_topics=10)

In [407]:
model.visualize_hierarchy(top_n_topics=30)


# 1990

In [408]:
%%time

# Create your representation model
representation_model = KeyBERTInspired()

model = BERTopic(verbose=True, min_topic_size= 10, language='multilingual',representation_model=representation_model)
headline_topics, _ = model.fit_transform(df[df.decade==1990].clean_lyrics.values)

2024-01-16 17:34:09,852 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/49 [00:00<?, ?it/s]

2024-01-16 17:34:45,221 - BERTopic - Embedding - Completed ✓
2024-01-16 17:34:45,221 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-01-16 17:34:47,316 - BERTopic - Dimensionality - Completed ✓
2024-01-16 17:34:47,316 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-01-16 17:34:47,341 - BERTopic - Cluster - Completed ✓
2024-01-16 17:34:47,342 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-01-16 17:34:48,681 - BERTopic - Representation - Completed ✓


CPU times: user 1min 55s, sys: 13.4 s, total: 2min 9s
Wall time: 39.3 s


In [None]:
freq = model.get_topic_info()
print("Number of topics: {}".format( len(freq)))
freq.head()

Number of topics: 6


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,515,-1_me_feel_wanna_love,"[me, feel, wanna, love, gonna, be, my, hey, oo...",[Am I giving enough Is it all it should be Whe...
1,0,644,0_love_girl_baby_me,"[love, girl, baby, me, wanna, feel, be, want, ...",[Girl you re such a bad thing Standing there a...
2,1,308,1_niggas_nigga_ain_ya,"[niggas, nigga, ain, ya, yo, fuck, gotta, shit...",[If you really dig me and you think I m jiggy ...
3,2,56,2_she_girl_her_maria,"[she, girl, her, maria, this, love, sayin, me,...",[Her hat is hanging by the door The one she bo...
4,3,25,3_me_wanna_feel_my,"[me, wanna, feel, my, want, hey, am, be, gonna...",[It s raining again What time is it Do right d...


In [412]:
model.visualize_barchart(top_n_topics=10)

In [413]:
model.visualize_hierarchy(top_n_topics=30)

# 2000

In [414]:
%%time

# Create your representation model
representation_model = KeyBERTInspired()

model = BERTopic(verbose=True, min_topic_size= 10, language='multilingual',representation_model=representation_model)
headline_topics, _ = model.fit_transform(df[df.decade==2000].clean_lyrics.values)

2024-01-16 17:34:49,295 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/48 [00:00<?, ?it/s]

2024-01-16 17:35:23,625 - BERTopic - Embedding - Completed ✓
2024-01-16 17:35:23,626 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-01-16 17:35:25,632 - BERTopic - Dimensionality - Completed ✓
2024-01-16 17:35:25,633 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-01-16 17:35:25,657 - BERTopic - Cluster - Completed ✓
2024-01-16 17:35:25,659 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-01-16 17:35:28,232 - BERTopic - Representation - Completed ✓


CPU times: user 1min 58s, sys: 13.7 s, total: 2min 12s
Wall time: 39.4 s


In [None]:
freq = model.get_topic_info()
print("Number of topics: {}".format( len(freq)))
freq.head()

Number of topics: 15


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,753,-1_me_love_wanna_be,"[me, love, wanna, be, feel, this, ain, gonna, ...",[I wanna be with you gotta be with you need to...
1,0,208,0_niggas_nigga_ain_ya,"[niggas, nigga, ain, ya, yo, ayy, clap, fuck, ...",[This is how we do We make a move and act a fo...
2,1,165,1_sexy_girl_wanna_me,"[sexy, girl, wanna, me, feel, ain, want, bwok,...",[Lloyd All around the world girls all around t...
3,2,89,2_girl_she_her_wanna,"[girl, she, her, wanna, me, this, ooh, love, w...",[My girlfriend s a dick magnet My girlfriend g...
4,3,87,3_heaven_feel_life_love,"[heaven, feel, life, love, me, be, believe, an...",[When I think back on these times And the drea...


In [418]:
model.visualize_barchart(top_n_topics=10)

In [419]:
model.visualize_hierarchy(top_n_topics=30)


# 2010

In [439]:
%%time

# Create your representation model
representation_model = KeyBERTInspired()

model = BERTopic(verbose=True, min_topic_size= 10, language='multilingual',representation_model=representation_model)
headline_topics, _ = model.fit_transform(df[df.decade==2010].clean_lyrics.values)

2024-01-16 18:00:54,977 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/44 [00:00<?, ?it/s]

2024-01-16 18:01:26,518 - BERTopic - Embedding - Completed ✓
2024-01-16 18:01:26,521 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-01-16 18:01:28,431 - BERTopic - Dimensionality - Completed ✓
2024-01-16 18:01:28,431 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-01-16 18:01:28,455 - BERTopic - Cluster - Completed ✓
2024-01-16 18:01:28,457 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-01-16 18:01:30,590 - BERTopic - Representation - Completed ✓


CPU times: user 1min 42s, sys: 13.3 s, total: 1min 55s
Wall time: 36 s


In [None]:
freq = model.get_topic_info()
print("Number of topics: {}".format( len(freq)))
freq.head()

Number of topics: 10


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,420,-1_boo_me_ya_wanna,"[boo, me, ya, wanna, gonna, ayy, ooh, you, ain...",[Baby you got a body like a Benz And I m just ...
1,0,371,0_feel_me_love_been,"[feel, me, love, been, you, let, wanna, be, ai...",[Mom I know I let you down And though you say ...
2,1,246,1_bitches_fuckin_niggas_bitch,"[bitches, fuckin, niggas, bitch, nigga, fuck, ...",[I get em up I m on one I get em up Fuck it I ...
3,2,112,2_song_music_ain_me,"[song, music, ain, me, gotta, ooh, go, gonna, ...",[You know yeah Touchin yeah Night of You know ...
4,3,67,3_she_girl_her_wanna,"[she, girl, her, wanna, ain, me, this, gotta, ...",[Anything she want she can get Oh you can get ...


In [443]:
model.visualize_barchart(top_n_topics=10)

In [444]:
model.visualize_hierarchy(top_n_topics=30)


# Intertopic Distance Map 🗺️

El **Intertopic Distance Map** es una visualización que muestra la relación entre los temas generados por el modelo BERTopic. Cada punto en el mapa representa un tema, y la distancia entre los puntos indica cuán similares o diferentes son los temas.

Esta visualización ayuda a observar cómo se agrupan o separan los temas en un espacio bidimensional, lo que facilita la interpretación de los resultados del modelado de temas.

In [445]:
model.visualize_topics()

# 2020

In [None]:
%%time

representation_model = KeyBERTInspired()

model = BERTopic(verbose=True, min_topic_size= 5, language='multilingual',representation_model=representation_model)
headline_topics, _ = model.fit_transform(df[df.decade==2020].clean_lyrics.values)

2024-01-17 19:30:17,353 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/47 [00:00<?, ?it/s]

2024-01-17 19:30:50,393 - BERTopic - Embedding - Completed ✓
2024-01-17 19:30:50,393 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-01-17 19:30:53,606 - BERTopic - Dimensionality - Completed ✓
2024-01-17 19:30:53,606 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-01-17 19:30:53,632 - BERTopic - Cluster - Completed ✓
2024-01-17 19:30:53,634 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-01-17 19:30:54,004 - BERTopic - Representation - Completed ✓


CPU times: user 1min 48s, sys: 11.5 s, total: 1min 59s
Wall time: 36.9 s


In [None]:
freq = model.get_topic_info()
print("Number of topics: {}".format( len(freq)))
freq.head()

Number of topics: 2


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,0,1472,0_you_the_it_me,"[you, the, it, me, my, to, and, that, in, yeah]",[Danny Why the fuck they put my business on th...
1,1,27,1_christmas_santa_the_and,"[christmas, santa, the, and, you, ooh, oh, to,...",[Build the fire and gather round the tree Fill...


In [456]:
model.visualize_barchart(top_n_topics=10)

In [431]:
model.visualize_hierarchy(top_n_topics=30)
