# PRIMERA TRANSFORMACIÓN

Importamos las librerías con las que vamos a trabajar y el dataset que hemos creado en el notebook 'preparacion'

In [1]:
import pandas as pd

# Ruta del archivo creado en el notebook preparacion.ipynb
spotify_paises = pd.read_csv("../data/interim/spotify_paises.csv")

In [2]:
# Muestra de información del archivo
print("Info archivo:")
print(spotify_paises.head())

Info archivo:
               spotify_id                name                artists  \
0  2RkZ5LkEzeHGRsmDqKwmaJ            Ordinary            Alex Warren   
1  42UBPzRMh5yyz0EDPr6fr1            Manchild      Sabrina Carpenter   
2  0FTmksd2dxiE5e3rWyJXs6     back to friends                  sombr   
3  7so0lgd0zP2Sbgs2d7a1SZ    Die With A Smile  Lady Gaga, Bruno Mars   
4  6dOtVTDdiauQNBQEDOtlAB  BIRDS OF A FEATHER          Billie Eilish   

   daily_rank  daily_movement  weekly_movement country snapshot_date  \
0           1               1                0      XX    2025-06-11   
1           2              -1               48      XX    2025-06-11   
2           3               0                1      XX    2025-06-11   
3           4               0               -1      XX    2025-06-11   
4           5               1                0      XX    2025-06-11   

   popularity  is_explicit  ...  country_name alpha-3 country-code  \
0          95        False  ...           NaN     

In [3]:
# Listado columnas para ver cuales nos pueden ser útiles de cara al EDA, y limpiar las demás
print("Columnas archivo:")
print(list(spotify_paises.columns))

Columnas archivo:
['spotify_id', 'name', 'artists', 'daily_rank', 'daily_movement', 'weekly_movement', 'country', 'snapshot_date', 'popularity', 'is_explicit', 'duration_ms', 'album_name', 'album_release_date', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'country_name', 'alpha-3', 'country-code', 'iso_3166-2', 'region', 'sub-region', 'intermediate-region', 'region-code', 'sub-region-code', 'intermediate-region-code']


Antes de proceder a la limpieza como tal vamos a explicar una las columnas del dataset que hemos creado explicando los datos que contiene cada columna, en base a la muestra que hemos sacado:

'spotify_id': Identificador único para cada canción en Spotify  
'name': Titulo de la canción  
'artists': Nombre(s) de (los) artista(s) que participa(n) en la canción  
'daily_rank': La posición que ocupa en el TOP50  
'daily_movement': Variación de puesto(s) en el ranking respecto al dia anterior  
'weekly_movement': Variación de puesto(s) en el ranking respecto a la semana anterior  
'country': Codigo ISO del país, que representa la lista del TOP50 (el código XX corresponde al global)  
'snapshot_date': Fecha de obtención del dato desde Spotify API  
'popularity': Medida de la popularidad de la canción en Spotify (de 0 a 100)  
'is_explicit': Indica si la canción contiene letras explicitas (booleano)  
'duration_ms': Duración de la canción en milisegundos  
'album_name': Titulo del álbum al que pertenece la canción  
'album_release_date': Fecha de lanzamiento del álbum  
'danceability': Medida de como de bailable es la canción (de 0 a 1)  
'energy': Medida de como de intensa/activa es la canción (de 0 a 1)  
'key': La clave musical principal de la canción  
'loudness': El volumen de la canción de dB  
'mode': Indica si la clave principal de la canción es mayor o menor  (booleano) (0 ó 1)  
'speechiness': Una medida sobre la presencia de palabras habladas en la canción (de 0 a 1)  
'acousticness': Una medida sobre la calidad acústica de la canción (de 0 a 1)  
'instrumentalness': Una medida de como de probable es que la canción no contenga voz (de 0 a 1)  
'liveness': Una medida sobre la presencia de público durante la grabación (de 0 a 1)  
'valence': Una medida sobre la positividad de la canción (de 0 a 1)  
'tempo': El tempo de la canción medido en BPM (Beats Per Minute)  
'time_signature': El compás general de la canción  
'country_name': Nombre completo del país  
'alpha-3': Codigo de 3 letras del país  
'country-code': Código único del país  
'iso_3166-2' Codigo para identificar la subdivisión de países según la norma ISO 3166  
'region': Continente  
'sub-region': Región subcontinental  
'intermediate-region': Región intermedia  
'region-code': Código de la región (continente)  
'sub-region-code': Código de la subregión  
'intermediate-region-code': Código de la región intermedia

# PRIMERA LIMPIEZA

Sabiendo los datos que muestra cada columna, seleccionamos las columnas que no van a aportar información relevante para el análisis, y procedemos a su eliminación.

In [4]:
# Eliminar columnas que consideramos innecesarias para el análisis, porque no aportan información relevante o son redundantes.
spotify_clean = spotify_paises.drop(columns=['alpha-3', 'country-code', 'iso_3166-2', 'sub-region', 'intermediate-region', 'region-code', 'sub-region-code', 'intermediate-region-code'])

In [5]:
# Comprobamos columnas que quedan tras la limpieza
print("Columnas tras la limpieza:")
print(list(spotify_clean.columns))

Columnas tras la limpieza:
['spotify_id', 'name', 'artists', 'daily_rank', 'daily_movement', 'weekly_movement', 'country', 'snapshot_date', 'popularity', 'is_explicit', 'duration_ms', 'album_name', 'album_release_date', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'country_name', 'region']


In [6]:
# Guardamos el DataFrame para continuar con la limpieza y análisis posterior
spotify_clean.to_csv("../data/interim/spotify_paises_clean.csv", index=False, encoding='utf-8')

Una vez guardado, procedemos al análisis de nulos y vacíos por columna

In [7]:
columnas = ['spotify_id', 'name', 'artists', 'daily_rank', 'daily_movement', 'weekly_movement',
            'country', 'snapshot_date', 'popularity', 'is_explicit', 'duration_ms', 'album_name',
            'album_release_date', 'danceability', 'energy', 'key', 'loudness', 'mode',
            'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence',
            'tempo', 'time_signature', 'country_name', 'region']

for col in columnas:
    nulos = spotify_clean[col].isnull().sum()
    vacios = (spotify_clean[col] == '').sum()
    print(f"En {col} hay {nulos} valores nulos.")
    print(f"En {col} hay {vacios} valores vacíos.\n")

En spotify_id hay 0 valores nulos.
En spotify_id hay 0 valores vacíos.

En name hay 30 valores nulos.
En name hay 0 valores vacíos.

En artists hay 29 valores nulos.
En artists hay 0 valores vacíos.

En daily_rank hay 0 valores nulos.
En daily_rank hay 0 valores vacíos.

En daily_movement hay 0 valores nulos.
En daily_movement hay 0 valores vacíos.

En weekly_movement hay 0 valores nulos.
En weekly_movement hay 0 valores vacíos.

En country hay 0 valores nulos.
En country hay 0 valores vacíos.

En snapshot_date hay 0 valores nulos.
En snapshot_date hay 0 valores vacíos.

En popularity hay 0 valores nulos.
En popularity hay 0 valores vacíos.

En is_explicit hay 0 valores nulos.
En is_explicit hay 0 valores vacíos.

En duration_ms hay 0 valores nulos.
En duration_ms hay 0 valores vacíos.

En album_name hay 822 valores nulos.
En album_name hay 0 valores vacíos.

En album_release_date hay 659 valores nulos.
En album_release_date hay 0 valores vacíos.

En danceability hay 0 valores nulos.
E

Sabiendo que hay valores nulos, buscamos que datos de cada una son los que faltan para ver cómo tratarlos.

In [8]:
# Filas con valores nulos en 'name'
nulos_name = spotify_clean[spotify_clean['name'].isnull()]
print(f"Filas con valores nulos en 'name': {len(nulos_name)}")
display(nulos_name[['spotify_id', 'country','country_name', 'snapshot_date', 'name', 'artists']])

# Filas con valores nulos en 'artists'
nulos_artists = spotify_clean[spotify_clean['artists'].isnull()]
print(f"\nFilas con valores nulos en 'artists': {len(nulos_artists)}")
display(nulos_artists[['spotify_id', 'country','country_name', 'snapshot_date', 'name', 'artists']])

# Filas con valores nulos en 'album_name'
nulos_album = spotify_clean[spotify_clean['album_name'].isnull()]
print(f"\nFilas con valores nulos en 'album_name': {len(nulos_album)}")
display(nulos_album[['spotify_id', 'country','country_name', 'snapshot_date', 'name', 'artists', 'album_name']])

# Filas con valores nulos en 'album_release_date'
nulos_release = spotify_clean[spotify_clean['album_release_date'].isnull()]
print(f"\nFilas con valores nulos en 'album_release_date': {len(nulos_release)}")
display(nulos_release[['spotify_id', 'country','country_name', 'snapshot_date', 'name', 'artists', 'album_name', 'album_release_date']])

# Filas con valores nulos en 'country_name'
nulos_country_name = spotify_clean[spotify_clean['country_name'].isnull()]
print(f"\nFilas con valores nulos en 'country_name': {len(nulos_country_name)}")
display(nulos_country_name[['spotify_id', 'country','country_name', 'snapshot_date', 'name', 'artists', 'album_name', 'album_release_date']])
# Filas con valores nulos en 'region'
nulos_region = spotify_clean[spotify_clean['region'].isnull()]
print(f"\nFilas con valores nulos en 'region': {len(nulos_region)}")
display(nulos_region[['spotify_id', 'country','country_name', 'snapshot_date', 'name', 'artists', 'album_name', 'album_release_date', 'region']])


Filas con valores nulos en 'name': 30


Unnamed: 0,spotify_id,country,country_name,snapshot_date,name,artists
502366,4nLJ61BP9owXw9sLoLtqIa,MA,Morocco,2025-01-15,,
751623,35wSewUpyeXwde8wVlHW7L,EE,Estonia,2024-10-28,,NOVR
790671,0y2sUHVDAWQbfuIQGEfhFO,IS,Iceland,2024-10-17,,
1420334,3GMeCx87zWbtg6jD4evZ58,TR,Turkey,2024-04-27,,
1420357,0wbcG4kKNOdZ9wTEra3aYI,TR,Turkey,2024-04-27,,
1567150,3vz3SKnCyJCzPuXWLoGfdG,UY,Uruguay,2024-03-14,,
1570595,3vz3SKnCyJCzPuXWLoGfdG,AR,Argentina,2024-03-14,,
1773300,2h4b8QdmU4nxZrlpz7INIs,IS,Iceland,2024-01-18,,
1928350,2V2K1hzCtgj9xAnga9WUTy,ZA,South Africa,2023-12-06,,
2022978,7lyv2sysHCzFjypILxAynT,VE,Venezuela,2023-11-10,,



Filas con valores nulos en 'artists': 29


Unnamed: 0,spotify_id,country,country_name,snapshot_date,name,artists
502366,4nLJ61BP9owXw9sLoLtqIa,MA,Morocco,2025-01-15,,
790671,0y2sUHVDAWQbfuIQGEfhFO,IS,Iceland,2024-10-17,,
1420334,3GMeCx87zWbtg6jD4evZ58,TR,Turkey,2024-04-27,,
1420357,0wbcG4kKNOdZ9wTEra3aYI,TR,Turkey,2024-04-27,,
1567150,3vz3SKnCyJCzPuXWLoGfdG,UY,Uruguay,2024-03-14,,
1570595,3vz3SKnCyJCzPuXWLoGfdG,AR,Argentina,2024-03-14,,
1773300,2h4b8QdmU4nxZrlpz7INIs,IS,Iceland,2024-01-18,,
1928350,2V2K1hzCtgj9xAnga9WUTy,ZA,South Africa,2023-12-06,,
2022978,7lyv2sysHCzFjypILxAynT,VE,Venezuela,2023-11-10,,
2023310,7lyv2sysHCzFjypILxAynT,SV,El Salvador,2023-11-10,,



Filas con valores nulos en 'album_name': 822


Unnamed: 0,spotify_id,country,country_name,snapshot_date,name,artists,album_name
279384,3yrSvpt2l1xhsV9Em88Pul,IE,Ireland,2025-03-18,Brown Eyed Girl,Van Morrison,
502366,4nLJ61BP9owXw9sLoLtqIa,MA,Morocco,2025-01-15,,,
571284,2FPfeYlrbSBR8PwCU0zaqq,IE,Ireland,2024-12-27,Have Yourself A Merry Little Christmas - Remas...,Frank Sinatra,
572373,2FPfeYlrbSBR8PwCU0zaqq,CA,Canada,2024-12-27,Have Yourself A Merry Little Christmas - Remas...,Frank Sinatra,
572374,4HEOgBHRCExyYVeTyrXsnL,CA,Canada,2024-12-27,Jingle Bells - Remastered 1999,Frank Sinatra,
...,...,...,...,...,...,...,...
2029168,0kvD9ksvXyRHANPypIpkIh,EC,Ecuador,2023-11-09,,,
2029423,0kvD9ksvXyRHANPypIpkIh,CR,Costa Rica,2023-11-09,,,
2029512,0kvD9ksvXyRHANPypIpkIh,CL,Chile,2023-11-09,,,
2029762,0kvD9ksvXyRHANPypIpkIh,BO,Bolivia,2023-11-09,,,



Filas con valores nulos en 'album_release_date': 659


Unnamed: 0,spotify_id,country,country_name,snapshot_date,name,artists,album_name,album_release_date
279384,3yrSvpt2l1xhsV9Em88Pul,IE,Ireland,2025-03-18,Brown Eyed Girl,Van Morrison,,
502366,4nLJ61BP9owXw9sLoLtqIa,MA,Morocco,2025-01-15,,,,
571284,2FPfeYlrbSBR8PwCU0zaqq,IE,Ireland,2024-12-27,Have Yourself A Merry Little Christmas - Remas...,Frank Sinatra,,
572373,2FPfeYlrbSBR8PwCU0zaqq,CA,Canada,2024-12-27,Have Yourself A Merry Little Christmas - Remas...,Frank Sinatra,,
572374,4HEOgBHRCExyYVeTyrXsnL,CA,Canada,2024-12-27,Jingle Bells - Remastered 1999,Frank Sinatra,,
...,...,...,...,...,...,...,...,...
2029168,0kvD9ksvXyRHANPypIpkIh,EC,Ecuador,2023-11-09,,,,
2029423,0kvD9ksvXyRHANPypIpkIh,CR,Costa Rica,2023-11-09,,,,
2029512,0kvD9ksvXyRHANPypIpkIh,CL,Chile,2023-11-09,,,,
2029762,0kvD9ksvXyRHANPypIpkIh,BO,Bolivia,2023-11-09,,,,



Filas con valores nulos en 'country_name': 28908


Unnamed: 0,spotify_id,country,country_name,snapshot_date,name,artists,album_name,album_release_date
0,2RkZ5LkEzeHGRsmDqKwmaJ,XX,,2025-06-11,Ordinary,Alex Warren,"You'll Be Alright, Kid (Chapter 1)",2024-09-26
1,42UBPzRMh5yyz0EDPr6fr1,XX,,2025-06-11,Manchild,Sabrina Carpenter,Manchild,2025-06-05
2,0FTmksd2dxiE5e3rWyJXs6,XX,,2025-06-11,back to friends,sombr,back to friends,2024-12-27
3,7so0lgd0zP2Sbgs2d7a1SZ,XX,,2025-06-11,Die With A Smile,"Lady Gaga, Bruno Mars",MAYHEM,2025-03-07
4,6dOtVTDdiauQNBQEDOtlAB,XX,,2025-06-11,BIRDS OF A FEATHER,Billie Eilish,HIT ME HARD AND SOFT,2024-05-17
...,...,...,...,...,...,...,...,...
2106720,4SW9gHnW8NfKOdqmh0ij45,XX,,2023-10-18,Fruto,"Bizarrap, Milo j",en dormir sin Madrid,2023-10-04
2106721,2QjOHCTQ1Jl3zawyYOpxh6,XX,,2023-10-18,Sweater Weather,The Neighbourhood,I Love You.,2013-04-19
2106722,4Jc7252S1P99DjQ1lNGEOc,XX,,2023-10-18,CYBERTRUCK,Bad Bunny,nadie sabe lo que va a pasar mañana,2023-10-13
2106723,5PyDJG7SQRgWXefgexqIge,XX,,2023-10-18,Agora Hills,Doja Cat,Scarlet,2023-09-20



Filas con valores nulos en 'region': 28908


Unnamed: 0,spotify_id,country,country_name,snapshot_date,name,artists,album_name,album_release_date,region
0,2RkZ5LkEzeHGRsmDqKwmaJ,XX,,2025-06-11,Ordinary,Alex Warren,"You'll Be Alright, Kid (Chapter 1)",2024-09-26,
1,42UBPzRMh5yyz0EDPr6fr1,XX,,2025-06-11,Manchild,Sabrina Carpenter,Manchild,2025-06-05,
2,0FTmksd2dxiE5e3rWyJXs6,XX,,2025-06-11,back to friends,sombr,back to friends,2024-12-27,
3,7so0lgd0zP2Sbgs2d7a1SZ,XX,,2025-06-11,Die With A Smile,"Lady Gaga, Bruno Mars",MAYHEM,2025-03-07,
4,6dOtVTDdiauQNBQEDOtlAB,XX,,2025-06-11,BIRDS OF A FEATHER,Billie Eilish,HIT ME HARD AND SOFT,2024-05-17,
...,...,...,...,...,...,...,...,...,...
2106720,4SW9gHnW8NfKOdqmh0ij45,XX,,2023-10-18,Fruto,"Bizarrap, Milo j",en dormir sin Madrid,2023-10-04,
2106721,2QjOHCTQ1Jl3zawyYOpxh6,XX,,2023-10-18,Sweater Weather,The Neighbourhood,I Love You.,2013-04-19,
2106722,4Jc7252S1P99DjQ1lNGEOc,XX,,2023-10-18,CYBERTRUCK,Bad Bunny,nadie sabe lo que va a pasar mañana,2023-10-13,
2106723,5PyDJG7SQRgWXefgexqIge,XX,,2023-10-18,Agora Hills,Doja Cat,Scarlet,2023-09-20,


Trabajamos todas las columnas con valores nulos salvo 'country_name' y 'region' que lo haremos más adelante, ya que sospecho que esos nulos pueden corresponder al TOP50 Global. Y comprobamos si podemos rellenar datos de los que faltan con alguna información que ya tengamos.

In [9]:
# Detectar spotify_id con 'name' nulo
ids_name_nulos = spotify_clean[spotify_clean['name'].isnull()]['spotify_id'].unique()

# Detectar spotify_id con 'artists' nulo
ids_artists_nulos = spotify_clean[spotify_clean['artists'].isnull()]['spotify_id'].unique()

# Detectar spotify_id con 'album_name' nulo
ids_album_nulos = spotify_clean[spotify_clean['album_name'].isnull()]['spotify_id'].unique()

# Detectar spotify_id con 'album_release_date' nulo
ids_release_nulos = spotify_clean[spotify_clean['album_release_date'].isnull()]['spotify_id'].unique()

# Ver si esos IDs tienen otras filas con la misma ID y 'name' NO nulo
ids_name_reutilizables = []
for sp_id in ids_name_nulos:
    filas = spotify_clean[spotify_clean['spotify_id'] == sp_id]
    if filas['name'].notnull().any():
        ids_name_reutilizables.append(sp_id)

# Ver si esos IDs tienen otras filas con la misma ID y 'artists' NO nulo
ids_artists_reutilizables = []
for sp_id in ids_artists_nulos:
    filas = spotify_clean[spotify_clean['spotify_id'] == sp_id]
    if filas['artists'].notnull().any():
        ids_artists_reutilizables.append(sp_id)

# Ver si esos IDs tienen otras filas con la misma ID y 'album_name' NO nulo
ids_album_reutilizables = []
for sp_id in ids_album_nulos:
    filas = spotify_clean[spotify_clean['spotify_id'] == sp_id]
    if filas['album_name'].notnull().any():
        ids_album_reutilizables.append(sp_id)
# Ver si esos IDs tienen otras filas con la misma ID y 'album_release_date' NO nulo
ids_release_reutilizables = []
for sp_id in ids_release_nulos:
    filas = spotify_clean[spotify_clean['spotify_id'] == sp_id]
    if filas['album_release_date'].notnull().any():
        ids_release_reutilizables.append(sp_id)

print(f"{len(ids_name_reutilizables)} spotify_id con 'name' nulo tienen otra fila con 'name' válido.")
print(f"{len(ids_artists_reutilizables)} spotify_id con 'artists' nulo tienen otra fila con 'artists' válido.")
print(f"{len(ids_album_reutilizables)} spotify_id con 'album_name' nulo tienen otra fila con 'album_name' válido.")
print(f"{len(ids_release_reutilizables)} spotify_id con 'album_release_date' nulo tienen otra fila con 'album_release_date' válido.")



3 spotify_id con 'name' nulo tienen otra fila con 'name' válido.
3 spotify_id con 'artists' nulo tienen otra fila con 'artists' válido.
3 spotify_id con 'album_name' nulo tienen otra fila con 'album_name' válido.
3 spotify_id con 'album_release_date' nulo tienen otra fila con 'album_release_date' válido.


Sabiendo que tenemos algunos datos en otros registros que nos pueden ayudar a completar los nulos (al haber artistas, canciones, etc... que pueden tener la información que buscamos en otros registros), ejecutamos un script para rellenarlos.

In [10]:
# Crear diccionario spotify_id -> resto de variables válidas (sin nulos)
name_dict = spotify_clean.dropna(subset=['name']).drop_duplicates('spotify_id')[['spotify_id', 'name']].set_index('spotify_id')['name'].to_dict()
artists_dict = spotify_clean.dropna(subset=['artists']).drop_duplicates('spotify_id')[['spotify_id', 'artists']].set_index('spotify_id')['artists'].to_dict()
album_dict = spotify_clean.dropna(subset=['album_name']).drop_duplicates('spotify_id')[['spotify_id', 'album_name']].set_index('spotify_id')['album_name'].to_dict()
release_dict = spotify_clean.dropna(subset=['album_release_date']).drop_duplicates('spotify_id')[['spotify_id', 'album_release_date']].set_index('spotify_id')['album_release_date'].to_dict()

# Rellenar valores nulos en 'name', 'artists', 'album_name' y 'album_release_date' usando los diccionarios creados.
spotify_clean['name'] = spotify_clean.apply(
    lambda row: name_dict[row['spotify_id']] if pd.isnull(row['name']) and row['spotify_id'] in name_dict else row['name'],
    axis=1
)

spotify_clean['artists'] = spotify_clean.apply(
    lambda row: artists_dict[row['spotify_id']] if pd.isnull(row['artists']) and row['spotify_id'] in artists_dict else row['artists'],
    axis=1
)

spotify_clean['album_name'] = spotify_clean.apply(
    lambda row: album_dict[row['spotify_id']] if pd.isnull(row['album_name']) and row['spotify_id'] in album_dict else row['album_name'],
    axis=1
)
spotify_clean['album_release_date'] = spotify_clean.apply(
    lambda row: release_dict[row['spotify_id']] if pd.isnull(row['album_release_date']) and row['spotify_id'] in release_dict else row['album_release_date'],
    axis=1
)

print("Valores nulos rellenados donde ha sido posible.")


Valores nulos rellenados donde ha sido posible.


Ahora trabajamos con 'country_name' y 'region' para quitar los nulos

In [11]:
# Rellenar los nulos en 'country_name' solo si country == 'XX'
spotify_clean.loc[(spotify_clean['country_name'].isnull()) & (spotify_clean['country'] == 'XX'), 'country_name'] = 'Global'

# Rellenar los nulos en 'region' solo si country == 'XX' 
spotify_clean.loc[(spotify_clean['region'].isnull()) & (spotify_clean['country'] == 'XX'), 'region'] = 'Global'

# Comprobar cuántos nulos quedan en cambas columnas
nulos_country_name = spotify_clean['country_name'].isnull().sum()
nulos_region = spotify_clean['region'].isnull().sum()

print(f"Después de rellenar, quedan {nulos_country_name} valores nulos en la columna 'country_name'.")
print(f"Después de rellenar, quedan {nulos_region} valores nulos en la columna 'region'.")

Después de rellenar, quedan 0 valores nulos en la columna 'country_name'.
Después de rellenar, quedan 0 valores nulos en la columna 'region'.


Viendo que tras rellenar con 'Global' en los países con código XX, ya no hay valores nulos, confirmamos la sospecha.

Terminado el trabajo 'automático' (por el cruce de datos de los diferentes registros que ya tenemos), vemos que solo se han actualizado 3 tuplas por cada uno de los campos ('name', 'artists', 'album_name' y 'album_release_date'), por lo que antes de hacer el trabajo a mano, buscamos que 'spotify_id' son los que aún tienen datos faltantes:

In [12]:
# Filtrar las filas que tienen valores nulos en 'name', 'artists', 'album_name' o 'album_release_date'
ids_con_nulos = spotify_clean[spotify_clean['name'].isnull() | spotify_clean['artists'].isnull() | spotify_clean['album_name'].isnull() | spotify_clean['album_release_date'].isnull()]

# Mostrar los IDs únicos afectados
ids_afectados = ids_con_nulos['spotify_id'].unique()

print("'spotify_id' con valores nulos en cualquiera de los cuatro campos:")
print(ids_afectados)


'spotify_id' con valores nulos en cualquiera de los cuatro campos:
['3yrSvpt2l1xhsV9Em88Pul' '4nLJ61BP9owXw9sLoLtqIa'
 '2FPfeYlrbSBR8PwCU0zaqq' '4HEOgBHRCExyYVeTyrXsnL'
 '5yNgdD8E6WruhULb4n2Con' '35wSewUpyeXwde8wVlHW7L'
 '53rB05bAi7JdNbUfgz72I1' '0V2passWyAXnON67kfAj7y'
 '3GMeCx87zWbtg6jD4evZ58' '0wbcG4kKNOdZ9wTEra3aYI'
 '3vz3SKnCyJCzPuXWLoGfdG' '2h4b8QdmU4nxZrlpz7INIs'
 '7faDzZnZYqTyYThx2sbHVQ' '7lyv2sysHCzFjypILxAynT'
 '0kvD9ksvXyRHANPypIpkIh']


Viendo que son solo 15 'spotify_id', optamos por rellenar los campos 'name', 'artists' y 'album_name', con 'Unknown' y 'album_release_date' con una fecha fuera de rango, para que no afecte al posterior EDA.

In [13]:
# Rellenar nulos en 'name', 'artists' y 'album_name' con "Unknown"
spotify_clean['name'] = spotify_clean['name'].fillna("Unknown")
spotify_clean['artists'] = spotify_clean['artists'].fillna("Unknown")
spotify_clean['album_name'] = spotify_clean['album_name'].fillna("Unknown")

# Rellenar nulos de 'album_release_date' con una fecha fuera de rango y reconocible para no afectar a análisis posteriores
spotify_clean['album_release_date'] = spotify_clean['album_release_date'].fillna("1900-01-01")

#Verificamos que se han rellenado los nulos
print("Nulos en 'name' después de reemplazo:", spotify_clean['name'].isnull().sum())
print("Nulos en 'artists' después de reemplazo:", spotify_clean['artists'].isnull().sum())
print("Nulos en 'album_name' después de reemplazo:", spotify_clean['album_name'].isnull().sum())
print("Nulos en 'album_release_date' después de reemplazo:", spotify_clean['album_release_date'].isnull().sum())

Nulos en 'name' después de reemplazo: 0
Nulos en 'artists' después de reemplazo: 0
Nulos en 'album_name' después de reemplazo: 0
Nulos en 'album_release_date' después de reemplazo: 0


# TRANSFORMACIÓN Y LIMPIEZA FINAL

Una vez sabemos  los datos que contienen cada una de las columnas y que ya no existen nulos ni vacios, veo que podemos hacer algunas transformaciones para ayudarnos a hacer un  EDA más claro: 

'artists': Si en la canción participan varios artistas, aparecen todos, siendo el principal el primero, por lo que vamos a dividir la columna en dos: 'main_artist' y 'featuring_artist', de cara al EDA para el estudio de los mejores artistas. Y también vamos a crear una nueva columna donde se cuenten el número de artistas que aparecen en una canción.

In [14]:
# Crear columna 'main_artist'
spotify_clean['main_artist'] = spotify_clean['artists'].apply(
    lambda x: x.split(',')[0].strip()
)

# Crear columna 'featuring_artists'
spotify_clean['featuring_artists'] = spotify_clean['artists'].apply(
    lambda x: ', '.join([artist.strip() for artist in x.split(',')[1:]]) if ',' in x else ''
)

# Crear columna 'no_of_artists'
def contar_artistas(artistas):
    cantidad = len(artistas.split(','))
    if cantidad == 1:
        return '1'
    elif cantidad == 2:
        return '2'
    else:
        return '3+'

spotify_clean['no_of_artists'] = spotify_clean['artists'].apply(contar_artistas)

# Comprobamos las nuevas columnas para ver si se han creado correctamente
print(spotify_clean[['artists', 'main_artist', 'featuring_artists', 'no_of_artists']].head(10))

                            artists        main_artist  \
0                       Alex Warren        Alex Warren   
1                 Sabrina Carpenter  Sabrina Carpenter   
2                             sombr              sombr   
3             Lady Gaga, Bruno Mars          Lady Gaga   
4                     Billie Eilish      Billie Eilish   
5                               Jin                Jin   
6  W Sound, Beéle, Ovy On The Drums            W Sound   
7                             sombr              sombr   
8                  ROSÉ, Bruno Mars               ROSÉ   
9                       Ravyn Lenae        Ravyn Lenae   

         featuring_artists no_of_artists  
0                                      1  
1                                      1  
2                                      1  
3               Bruno Mars             2  
4                                      1  
5                                      1  
6  Beéle, Ovy On The Drums            3+  
7                

'duration_ms': Lo transformamos en una medida que sea más fácil de entender, pasando de milisegundo a un formato de minutos y segundos

In [15]:
# Crear columna 'duration' en formato mm:ss
spotify_clean['duration'] = spotify_clean['duration_ms'].apply(
    lambda x: f"{int(x // 60000)}:{str(int((x % 60000) // 1000)).zfill(2)}"
)
# Comprobar que la columna 'duration' se ha creado correctamente
print(spotify_clean[['duration_ms', 'duration']].head(10))

   duration_ms duration
0       186964     3:06
1       213645     3:33
2       199032     3:19
3       251667     4:11
4       210373     3:30
5       180716     3:00
6       150001     2:30
7       182088     3:02
8       169917     2:49
9       213466     3:33


'key': Esta columna contiene datos de la clave de la canción en formato MIDI (0-11), por lo que para una mejor comprensión creamos la columna con la clave en formato americano (Usando letras), y la clave standard (Usando el escalado latino)

In [16]:
# Claves musicales
notacion_americana = {
    0: 'C', 1: 'C♯/D♭', 2: 'D', 3: 'D♯/E♭', 4: 'E', 5: 'F',
    6: 'F♯/G♭', 7: 'G', 8: 'G♯/A♭', 9: 'A', 10: 'A♯/B♭', 11: 'B'
}

notacion_latina = {
    0: 'Do', 1: 'Do♯/Re♭', 2: 'Re', 3: 'Re♯/Mi♭', 4: 'Mi', 5: 'Fa',
    6: 'Fa♯/Sol♭', 7: 'Sol', 8: 'Sol♯/La♭', 9: 'La', 10: 'La♯/Si♭', 11: 'Si'
}

# Crear nuevas columnas
spotify_clean['key_americana'] = spotify_clean['key'].map(notacion_americana)
spotify_clean['key_latina'] = spotify_clean['key'].map(notacion_latina)

# Comprobar que las nuevas columnas se han creado correctamente
print(spotify_clean[['key', 'key_americana', 'key_latina']].head(10))

   key key_americana key_latina
0    2             D         Re
1    7             G        Sol
2    1         C♯/D♭    Do♯/Re♭
3    6         F♯/G♭   Fa♯/Sol♭
4    2             D         Re
5    8         G♯/A♭   Sol♯/La♭
6    5             F         Fa
7    0             C         Do
8    0             C         Do
9    0             C         Do


'mode' se refiere al tipo de escala (mayor o menor), por lo que lo transformamos de binario (0-1), a texto para una mejor comprensión

In [17]:
# Escala musical
escala_musical = {
    0: 'Menor',
    1: 'Mayor'
}

# Crear una nueva columna con el modo musical en texto
spotify_clean['escala_musical'] = spotify_clean['mode'].map(escala_musical)

# Comprobar que la nueva columna se han creado correctamente
print(spotify_clean[['mode', 'escala_musical']].head(10))

   mode escala_musical
0     1          Mayor
1     1          Mayor
2     1          Mayor
3     0          Menor
4     1          Mayor
5     1          Mayor
6     1          Mayor
7     1          Mayor
8     0          Menor
9     1          Mayor


'time_signature' hace referencia al compás de la canción, lo transformamos de valores numéricos (de 0 a 5), a algo mas legible a nivel humano. ATENCIÓN: No puede existir un compás 0, por lo que entendemos que este valor será desconocido por lo tanto será tratado como 'Unknown'.

In [18]:
# Valores de time_signature
signature_map = {
    0: 'Unknown',
    1: '1/4',
    2: '2/4',
    3: '3/4',
    4: '4/4',
    5: '5/4'
}

# Crear columna legible
spotify_clean['compas'] = spotify_clean['time_signature'].map(signature_map)

# Comprobar que la nueva columna se han creado correctamente
print(spotify_clean[['time_signature', 'compas']].head(10))


   time_signature compas
0               3    3/4
1               4    4/4
2               4    4/4
3               3    3/4
4               4    4/4
5               4    4/4
6               4    4/4
7               4    4/4
8               4    4/4
9               4    4/4


Una vez hechas todas las modificaciones, volvemos a listar las columnas para hacer una nueva limpieza, y quitar las columnas que ahora son redundantes, irrelevantes y/o aportan menos información.

In [19]:
# Listado de columnas tras las ultimas modificaciones
print("Columnas actuales:")
print(list(spotify_clean.columns))

Columnas actuales:
['spotify_id', 'name', 'artists', 'daily_rank', 'daily_movement', 'weekly_movement', 'country', 'snapshot_date', 'popularity', 'is_explicit', 'duration_ms', 'album_name', 'album_release_date', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'country_name', 'region', 'main_artist', 'featuring_artists', 'no_of_artists', 'duration', 'key_americana', 'key_latina', 'escala_musical', 'compas']


In [20]:
#Reorganizamos las columnas para que las que hemos creado estén junto a las originales de las que provienen para una mejor comprensión

columnas_reordenadas = ['spotify_id', 'name', 'artists', 'main_artist', 'featuring_artists', 'no_of_artists', 'daily_rank', 'daily_movement',
                         'weekly_movement', 'country','country_name', 'region', 'snapshot_date', 'popularity', 'is_explicit', 'duration_ms', 
                         'duration', 'album_name', 'album_release_date','danceability', 'energy', 'key', 'key_americana', 'key_latina', 
                         'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo','time_signature',
                         'compas', 'escala_musical']

spotify_clean = spotify_clean[columnas_reordenadas]

# Listado de columnas tras reordenacion
print("Columnas actuales:")
print(list(spotify_clean.columns))

Columnas actuales:
['spotify_id', 'name', 'artists', 'main_artist', 'featuring_artists', 'no_of_artists', 'daily_rank', 'daily_movement', 'weekly_movement', 'country', 'country_name', 'region', 'snapshot_date', 'popularity', 'is_explicit', 'duration_ms', 'duration', 'album_name', 'album_release_date', 'danceability', 'energy', 'key', 'key_americana', 'key_latina', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'compas', 'escala_musical']


In [21]:
# Limpieza de columnas para crear el dataset final
spotify_clean2 = spotify_clean.drop(columns= ['artists','duration_ms','key', 'mode', 'time_signature'])


In [22]:
# Nuevo listado de columnas
print("Columnas actuales:")
print(list(spotify_clean2.columns))

Columnas actuales:
['spotify_id', 'name', 'main_artist', 'featuring_artists', 'no_of_artists', 'daily_rank', 'daily_movement', 'weekly_movement', 'country', 'country_name', 'region', 'snapshot_date', 'popularity', 'is_explicit', 'duration', 'album_name', 'album_release_date', 'danceability', 'energy', 'key_americana', 'key_latina', 'loudness', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'compas', 'escala_musical']


Por último antes de guardar, vamos a revisar la columna 'snapshot_date' para comprobar las fechas que aparecen en el dataset para que, en caso de ser necesario, se acote el EDA en un periodo concreto.

In [23]:
spotify_clean2['snapshot_date'] = pd.to_datetime(spotify_clean['snapshot_date'])

# Mostrar fechas únicas ordenadas
fechas_unicas = spotify_clean2['snapshot_date'].sort_values().unique()

# Mostrarlas en formato legible
for fecha in fechas_unicas:
    print(fecha.strftime('%Y-%m-%d'))

# Mostrar la primera y última fecha, y el total de fechas únicas
print("Primera fecha:", fechas_unicas[0])
print("Última fecha:", fechas_unicas[-1])
print("Total de fechas únicas:", len(fechas_unicas))


2023-10-18
2023-10-19
2023-10-20
2023-10-21
2023-10-22
2023-10-23
2023-10-24
2023-10-25
2023-10-26
2023-10-27
2023-10-28
2023-10-29
2023-10-30
2023-10-31
2023-11-01
2023-11-02
2023-11-03
2023-11-04
2023-11-05
2023-11-06
2023-11-07
2023-11-08
2023-11-09
2023-11-10
2023-11-11
2023-11-12
2023-11-13
2023-11-14
2023-11-15
2023-11-16
2023-11-17
2023-11-18
2023-11-19
2023-11-20
2023-11-21
2023-11-22
2023-11-23
2023-11-24
2023-11-25
2023-11-26
2023-11-27
2023-11-28
2023-11-29
2023-11-30
2023-12-01
2023-12-02
2023-12-03
2023-12-04
2023-12-05
2023-12-06
2023-12-07
2023-12-08
2023-12-09
2023-12-10
2023-12-11
2023-12-12
2023-12-13
2023-12-14
2023-12-15
2023-12-16
2023-12-17
2023-12-18
2023-12-19
2023-12-20
2023-12-21
2023-12-22
2023-12-23
2023-12-24
2023-12-25
2023-12-26
2023-12-27
2023-12-28
2023-12-29
2023-12-30
2023-12-31
2024-01-01
2024-01-02
2024-01-03
2024-01-04
2024-01-05
2024-01-06
2024-01-07
2024-01-08
2024-01-09
2024-01-10
2024-01-11
2024-01-12
2024-01-13
2024-01-14
2024-01-15
2024-01-16

Viendo que se recogen datos de 583 fechas en total, que comprenden desde el 18/10/2023 al 11/06/2025, tenemos diversos periodos por los que acotar. Decido hacer la acotación contando 1 año atrás desde la última fecha recogida, y de ahí volver a descontar un mes, es decir analizaremos el periodo entre 11/05/2024 y 11/06/2024.

In [24]:
# Creamos el DataFrame conteniendo solo los datos del ultimo mes (respecto a la serie temporal)
spotify_ultimo = spotify_clean2[
    (spotify_clean2['snapshot_date'] >= '2024-05-11') &
    (spotify_clean2['snapshot_date'] <= '2024-06-11')
]
# Comprobamos el tamaño del DataFrame filtrado
print("Tamaño del DataFrame filtrado:", spotify_ultimo.shape)

# Volvemos a comprobar las fechas:

fechas_unicas = spotify_ultimo['snapshot_date'].sort_values().unique()

# Mostrarlas en formato legible
for fecha in fechas_unicas:
    print(fecha.strftime('%Y-%m-%d'))

# Mostrar la primera y última fecha del periodo junto con el total de fechas únicas.
print("Primera fecha:", fechas_unicas[0])
print("Última fecha:", fechas_unicas[-1])
print("Total de fechas únicas:", len(fechas_unicas))


Tamaño del DataFrame filtrado: (116800, 30)
2024-05-11
2024-05-12
2024-05-13
2024-05-14
2024-05-15
2024-05-16
2024-05-17
2024-05-18
2024-05-19
2024-05-20
2024-05-21
2024-05-22
2024-05-23
2024-05-24
2024-05-25
2024-05-26
2024-05-27
2024-05-28
2024-05-29
2024-05-30
2024-05-31
2024-06-01
2024-06-02
2024-06-03
2024-06-04
2024-06-05
2024-06-06
2024-06-07
2024-06-08
2024-06-09
2024-06-10
2024-06-11
Primera fecha: 2024-05-11 00:00:00
Última fecha: 2024-06-11 00:00:00
Total de fechas únicas: 32


In [25]:
# Guardamos el DataFrame para conservar los cambios realizados
spotify_ultimo.to_csv("../data/processed/spotify_dataset_final.csv", index=False, encoding='utf-8')