In [293]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
import scipy.stats as st
import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest

# Librerias para imputar nulos
# ------------------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.impute import KNNImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [294]:
def extract_data(file_path):    
    try:
        df = pd.read_json(file_path)
        print("Datos cargados correctamente.")
        print(df.head())
    except Exception as e:
        print("Error al cargar los datos:", e)
        df = None
    print("----------------------------------------------------------------")
    return df

In [295]:
ruta = "StreamingHistory_music_0.json"

df_spotify = extract_data(ruta)

Datos cargados correctamente.
            endTime         artistName                          trackName  \
0  2024-04-16 18:57  Rigoberta Bandini                     Too Many Drugs   
1  2024-04-17 09:32  Rigoberta Bandini                     Too Many Drugs   
2  2024-04-17 09:35         C. Tangana                         Los Tontos   
3  2024-04-17 09:38       Alex Gaudino  Destination Calabria - Radio Edit   
4  2024-04-17 09:41        Varry Brava                           No Gires   

   msPlayed  
0    272360  
1       966  
2    192786  
3    223111  
4    143623  
----------------------------------------------------------------


In [296]:
# Comienzo explorando el dataset

def explore_data(df):
    print("----------------------------------------------------------------")
    print("Explorando los datos...\n")
    print('Aplicando ".info()"', df.info())
    print("----------------------------------------------------------------")
    print('Aplicando ".shape"', df.shape)
    print("----------------------------------------------------------------")
    print('Aplicando ".columns"', df.columns)
    print("----------------------------------------------------------------")
    print('Aplicando ".describe()"', df.describe())
    print("----------------------------------------------------------------")
    print('Aplicando ".isnull().sum()"', df.isnull().sum())
    print("----------------------------------------------------------------")
    print('Aplicando ".isnull().mean()*100).round(2).sort_values(ascending=False)"', (df.isnull().mean()*100).round(2).sort_values(ascending=False))
    print("----------------------------------------------------------------")
    print('Aplicando .duplicated().sum()"', df.duplicated().sum())
    print("----------------------------------------------------------------")
    return df.head(5)

In [297]:
explore_data(df_spotify)

----------------------------------------------------------------
Explorando los datos...

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8611 entries, 0 to 8610
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   endTime     8611 non-null   object
 1   artistName  8611 non-null   object
 2   trackName   8611 non-null   object
 3   msPlayed    8611 non-null   int64 
dtypes: int64(1), object(3)
memory usage: 269.2+ KB
Aplicando ".info()" None
----------------------------------------------------------------
Aplicando ".shape" (8611, 4)
----------------------------------------------------------------
Aplicando ".columns" Index(['endTime', 'artistName', 'trackName', 'msPlayed'], dtype='object')
----------------------------------------------------------------
Aplicando ".describe()"             msPlayed
count    8611.000000
mean   118223.230055
std    105686.528219
min         0.000000
25%      4560.000000
50%    140666.0000

Unnamed: 0,endTime,artistName,trackName,msPlayed
0,2024-04-16 18:57,Rigoberta Bandini,Too Many Drugs,272360
1,2024-04-17 09:32,Rigoberta Bandini,Too Many Drugs,966
2,2024-04-17 09:35,C. Tangana,Los Tontos,192786
3,2024-04-17 09:38,Alex Gaudino,Destination Calabria - Radio Edit,223111
4,2024-04-17 09:41,Varry Brava,No Gires,143623


In [298]:
# Transformo el nombre de las columnas originales:

nuevos_nombres = []

for col in df_spotify.columns:
    nombre_con_espacios = ''.join([' ' + c if c.isupper() else c for c in col]).strip()
    nombre_final = ' '.join(word.capitalize() for word in nombre_con_espacios.split())
    nuevos_nombres.append(nombre_final)

df_spotify.columns = nuevos_nombres


In [299]:
# Voy a convertir la columna Ms Played, que está en milisegundos en minutos

df_spotify['Minutes Played'] = df_spotify['Ms Played'] / (1000 * 60)
df_spotify['Minutes Played'] = df_spotify['Minutes Played'].round(2)

# Ahora elimino columna en milisegundos:

df_spotify.drop(columns = ['Ms Played'], inplace = True)

In [300]:
# Transformo End Time a formato fecha y hora:

df_spotify['End Time'] = pd.to_datetime(df_spotify['End Time'])
df_spotify['Hour'] = df_spotify['End Time'].dt.hour
df_spotify['Day'] = df_spotify['End Time'].dt.day_name()
df_spotify['Month'] = df_spotify['End Time'].dt.month_name()

In [301]:
# Quiero ver los valores únicos de la columna "Track Name", para saber cuantas canciones diferentes tengo y cuantas veces he 
# escuchado cada una en total

tracks_unicos = df_spotify["Track Name"].unique().tolist()
print(len(tracks_unicos))

# Agrupar por 'Track Name' y contar cuántas veces se repite cada canción
conteo_canciones = df_spotify.groupby("Track Name").size().sort_values(ascending=False)

# Convertir a DataFrame para visualizar mejor
conteo_canciones_df = conteo_canciones.to_frame(name='Repeticiones')

# Imprimir todo el DataFrame
print(conteo_canciones_df)


1460
                                                    Repeticiones
Track Name                                                      
A Dónde Ir                                                   104
A Estas Alturas                                               70
Big Bang                                                      61
Todos los Besos                                               59
Potra Salvaje - Hard Remix                                    49
La matanza de Texas                                           44
Virtud y Castigo                                              43
Crystal Fighters                                              43
Instante                                                      42
Bad Liar                                                      41
Nena (DJ Nano Remix)                                          41
No se te puede dejar nada                                     40
Better Off Alone                                              39
Qué Vida Tan Dura   

In [302]:
# Conteo de repeticiones de cada canción
conteo_canciones = df_spotify.groupby("Track Name").size()

# Usar 'map' para asignar las repeticiones de canciones al DataFrame original
df_spotify["Total Repeats"] = df_spotify["Track Name"].map(conteo_canciones)

df_spotify.head(10)  # Muestra las primeras 10 filas

Unnamed: 0,End Time,Artist Name,Track Name,Minutes Played,Hour,Day,Month,Total Repeats
0,2024-04-16 18:57:00,Rigoberta Bandini,Too Many Drugs,4.54,18,Tuesday,April,7
1,2024-04-17 09:32:00,Rigoberta Bandini,Too Many Drugs,0.02,9,Wednesday,April,7
2,2024-04-17 09:35:00,C. Tangana,Los Tontos,3.21,9,Wednesday,April,14
3,2024-04-17 09:38:00,Alex Gaudino,Destination Calabria - Radio Edit,3.72,9,Wednesday,April,14
4,2024-04-17 09:41:00,Varry Brava,No Gires,2.39,9,Wednesday,April,4
5,2024-04-17 09:44:00,Sidonie,El Incendio,2.9,9,Wednesday,April,31
6,2024-04-17 09:48:00,Imagine Dragons,Shots - Broiler Remix,3.19,9,Wednesday,April,11
7,2024-04-17 09:53:00,Carlos Sadness,Que Electricidad,0.13,9,Wednesday,April,2
8,2024-04-17 10:00:00,Pont Aeri,Flying Free - Original Mix,6.77,10,Wednesday,April,13
9,2024-04-17 10:03:00,Sebastian Yatra,Vagabundo,3.59,10,Wednesday,April,15


In [303]:
# Reviso los valores en las columnas tipo Object:

for col in df_spotify.select_dtypes(include='object'):
    print('-----------------------------')
    print('Para la columna:', col)
    print('-----------------------------')
    print('Hay estos valores únicos:')
    print('-----------------------------')
    print(df_spotify[col].unique())
    print('-----------------------------')
    print('Esta es la frecuencia de cada valor único:')
    print('-----------------------------')
    print(df_spotify[col].value_counts())

-----------------------------
Para la columna: Artist Name
-----------------------------
Hay estos valores únicos:
-----------------------------
['Rigoberta Bandini' 'C. Tangana' 'Alex Gaudino' 'Varry Brava' 'Sidonie'
 'Imagine Dragons' 'Carlos Sadness' 'Pont Aeri' 'Sebastian Yatra'
 'Señor Trepador' 'Viva Suecia' 'Shinova' 'Mikel Izal' 'Arde Bogotá'
 'Chino & Nacho' 'Celtas Cortos' 'Prezioso' 'Nil Moliner' 'Ginebras'
 'Hey Kid' 'Loquillo Y Los Trogloditas' 'Calle 13' 'Pereza' 'Veintiuno'
 'The Script' 'Daviles de Novelda' 'Los Ronaldos' 'La La Love You'
 'Ladilla Rusa' 'Manolo Garcia' 'Ivan Ferreiro' 'KAROL G' 'Polo Montañez'
 'Suu' 'Calvin Harris' 'DePol' 'MARLENA' 'IZAL' 'Besmaya' 'Bukahara'
 'Capital Cities' 'Rihanna' 'ROSALÍA' 'La Bien Querida' 'Don Omar'
 'Dani Fernández' 'Swedish House Mafia' 'Marc Seguí' 'Carolina Durante'
 'Sexy Zebras' 'DJ Matrix' 'Shakira' 'Vicco' 'Miss Caffeina' 'Barbero 507'
 'Jonas Blue' 'Orchestral Manoeuvres In The Dark' 'Leiva' 'Carlos Baute'
 'Nicky J

In [304]:
## Voy a revisar valores de Artist Name y Track Name, para ponerlos todos en minúsculas conservando la primera mayúscula

def transform_data(df, columns_to_titlecase=None):
    if columns_to_titlecase:
        for col in columns_to_titlecase:
            df[col] = df[col].apply(lambda x: x.title() if isinstance(x, str) else x)
    
    return df


In [305]:
transform_data(df_spotify, columns_to_titlecase=['Artist Name', 'Track Name'])
df_spotify["Artist Name"].unique()

array(['Rigoberta Bandini', 'C. Tangana', 'Alex Gaudino', 'Varry Brava',
       'Sidonie', 'Imagine Dragons', 'Carlos Sadness', 'Pont Aeri',
       'Sebastian Yatra', 'Señor Trepador', 'Viva Suecia', 'Shinova',
       'Mikel Izal', 'Arde Bogotá', 'Chino & Nacho', 'Celtas Cortos',
       'Prezioso', 'Nil Moliner', 'Ginebras', 'Hey Kid',
       'Loquillo Y Los Trogloditas', 'Calle 13', 'Pereza', 'Veintiuno',
       'The Script', 'Daviles De Novelda', 'Los Ronaldos',
       'La La Love You', 'Ladilla Rusa', 'Manolo Garcia', 'Ivan Ferreiro',
       'Karol G', 'Polo Montañez', 'Suu', 'Calvin Harris', 'Depol',
       'Marlena', 'Izal', 'Besmaya', 'Bukahara', 'Capital Cities',
       'Rihanna', 'Rosalía', 'La Bien Querida', 'Don Omar',
       'Dani Fernández', 'Swedish House Mafia', 'Marc Seguí',
       'Carolina Durante', 'Sexy Zebras', 'Dj Matrix', 'Shakira', 'Vicco',
       'Miss Caffeina', 'Barbero 507', 'Jonas Blue',
       'Orchestral Manoeuvres In The Dark', 'Leiva', 'Carlos Baute',
  

In [306]:
# Reviso los valores en las columnas tipo int:

for col in df_spotify.select_dtypes(include='int'):
    print('-----------------------------')
    print('Para la columna:', col)
    print('-----------------------------')
    print('Hay estos valores únicos:')
    print('-----------------------------')
    print(df_spotify[col].unique())
    print('-----------------------------')
    print('Esta es la frecuencia de cada valor único:')
    print('-----------------------------')
    print(df_spotify[col].value_counts())

-----------------------------
Para la columna: Hour
-----------------------------
Hay estos valores únicos:
-----------------------------
[18  9 10 11 13 19 20 12 14 16 15 17 22  8  7 21 23  6  2  3  4  5  0  1]
-----------------------------
Esta es la frecuencia de cada valor único:
-----------------------------
Hour
11    1038
10    1016
12     943
14     919
13     765
9      596
15     557
19     469
8      418
18     381
16     301
20     295
17     285
21     136
7      126
22     120
6       67
4       45
5       42
23      25
3       22
0       22
2       13
1       10
Name: count, dtype: int64
-----------------------------
Para la columna: Total Repeats
-----------------------------
Hay estos valores únicos:
-----------------------------
[  7  14   4  31  11   2  13  15  27  38  19  36  16   6  18  43  30  33
  25  21  26  37  42  20   5   8  12   9  23   3  10  32  24  39   1  17
  22  28  59  61 104  40  35  41  70  44  49  29]
-----------------------------
Esta es la frecue

In [307]:
# Reviso los valores en las columnas tipo float:

for col in df_spotify.select_dtypes(include='float'):
    print('-----------------------------')
    print('Para la columna:', col)
    print('-----------------------------')
    print('Hay estos valores únicos:')
    print('-----------------------------')
    print(df_spotify[col].unique())
    print('-----------------------------')
    print('Esta es la frecuencia de cada valor único:')
    print('-----------------------------')
    print(df_spotify[col].value_counts())

-----------------------------
Para la columna: Minutes Played
-----------------------------
Hay estos valores únicos:
-----------------------------
[4.540e+00 2.000e-02 3.210e+00 3.720e+00 2.390e+00 2.900e+00 3.190e+00
 1.300e-01 6.770e+00 3.590e+00 7.000e-02 2.960e+00 5.230e+00 1.440e+00
 4.100e-01 4.400e+00 2.200e-01 3.760e+00 3.920e+00 4.120e+00 1.170e+00
 2.930e+00 3.430e+00 4.040e+00 3.840e+00 2.600e-01 1.000e-01 3.390e+00
 4.000e-02 1.530e+00 3.000e-02 3.750e+00 1.460e+00 2.730e+00 3.000e+00
 4.770e+00 3.080e+00 4.440e+00 3.230e+00 3.460e+00 4.370e+00 1.100e-01
 4.070e+00 3.510e+00 3.370e+00 1.600e-01 3.560e+00 2.780e+00 2.720e+00
 3.860e+00 3.250e+00 2.550e+00 1.480e+00 1.000e-02 3.540e+00 4.000e+00
 3.500e+00 3.680e+00 2.770e+00 3.320e+00 4.260e+00 4.340e+00 3.380e+00
 4.300e-01 5.000e-02 3.640e+00 2.320e+00 3.160e+00 3.090e+00 3.400e+00
 2.940e+00 3.270e+00 3.120e+00 3.980e+00 2.560e+00 1.630e+00 2.880e+00
 2.870e+00 4.300e+00 4.960e+00 2.890e+00 3.520e+00 1.500e-01 4.030e+00


In [308]:
# Compruebo que no hay valores nulos:

df_spotify.isnull().sum()

End Time          0
Artist Name       0
Track Name        0
Minutes Played    0
Hour              0
Day               0
Month             0
Total Repeats     0
dtype: int64

In [309]:
# Compruebo que no hay valores duplicados:

def visualize_duplicates(df):
    duplicados = df.duplicated().sum()  # Total de filas duplicadas (no cuenta la primera aparición)  # Detectar duplicados en todo el DataFrame
    print(f"Total de filas duplicadas (sin contar la primera aparición): {duplicados}")  # Mostrar el número total de duplicados
    
    # Si hay duplicados, mostramos más detalles
    if duplicados > 0:
        print("\nLas filas duplicadas son:")
        print(df[df.duplicated()])
        print("\n--------------------------------------------------------------------")
        
        # Contar duplicados por columnas
        print("Duplicados por columnas:")
        print(df[df.duplicated()].value_counts())
        
    else:
        print("\nNo hay filas duplicadas en el DataFrame.")
        
    print("------------------------------------------------------------")
    return duplicados


In [310]:
visualize_duplicates(df_spotify)

Total de filas duplicadas (sin contar la primera aparición): 11

Las filas duplicadas son:
                End Time           Artist Name  \
3508 2024-08-19 09:41:00               Karol G   
4390 2024-09-05 12:39:00        Kisko Espinosa   
4480 2024-09-09 15:05:00               Marlena   
4564 2024-09-11 10:27:00           Herman Düne   
5121 2024-09-30 14:11:00  La Oreja De Van Gogh   
5364 2024-10-22 15:47:00           Arde Bogotá   
5542 2024-10-30 15:09:00      Lost Frequencies   
6280 2024-12-08 21:11:00        Unknown Artist   
6985 2025-01-22 10:55:00               Shakira   
7410 2025-02-16 17:47:00           Carlos Jean   
8394 2025-04-09 11:33:00        La La Love You   

                              Track Name  Minutes Played  Hour        Day  \
3508        Si Antes Te Hubiera Conocido            0.03     9     Monday   
4390            Vine Un Finde Y Me Quedé            0.01    12   Thursday   
4480                   Te Vas A Inventar            0.06    15     Monday   


11

In [311]:
# Elimino las 11 filas duplicadas porque considero que se trata de un error al extraer los datos (es practicamente imposible que 
# haya escuchado una canción en el mismo día, hora y segundos exactos)

def remove_duplicates(df):
    original_len = len(df)  # Guardamos el número de filas originales
    df.drop_duplicates(inplace=True)  # Eliminamos duplicados
    removed = original_len - len(df)  # Calculamos cuántas filas se eliminaron
    print(f"Se eliminaron {removed} filas duplicadas.")


In [312]:
remove_duplicates(df_spotify)

Se eliminaron 11 filas duplicadas.


In [317]:
# Guardar el DataFrame procesado (sin nulos, duplicados, con columnas actualizadas) en un archivo JSON
df_spotify.to_json("spotify_cleaned.json", orient="records", lines=True)

print("El DataFrame ha sido guardado en un archivo JSON.")

El DataFrame ha sido guardado en un archivo JSON.


### VOY A CREAR AHORA LA BASE DE DATOS PARA EXPORTAR LOS DATOS A MYSQL

In [323]:
# Para ello antes voy a preparar el df para poder manejarlo mejor en MySql
df_spotify_sql = df_spotify.copy()

# Reemplazar espacios por guiones bajos y pasar todo a minúsculas (opcional)
df_spotify_sql.columns = df_spotify_sql.columns.str.strip().str.replace(' ', '_').str.lower()

# Revisar nombres de columnas nuevos
print(df_spotify_sql.columns)

Index(['end_time', 'artist_name', 'track_name', 'minutes_played', 'hour',
       'day', 'month', 'total_repeats'],
      dtype='object')


In [326]:
import pymysql

connection = pymysql.connect(
    host='localhost',
    user='root',
    password='AlumnaAdalab'
)

cursor = connection.cursor()

cursor.execute("CREATE DATABASE IF NOT EXISTS bd_spotify")
print("✅ Base de datos 'bd_spotify' creada o ya existe.")

connection.close()

✅ Base de datos 'bd_spotify' creada o ya existe.


In [327]:
from sqlalchemy import create_engine

# Cambia aquí también el nombre de la base de datos
engine = create_engine('mysql+pymysql://root:AlumnaAdalab@localhost/bd_spotify')

# Subir tu DataFrame a una tabla, por ejemplo: 'spotify_data'
df_spotify_sql.to_sql('spotify_data', con=engine, if_exists='replace', index=False)

print("✅ Datos subidos a la base de datos 'bd_spotify'.")


✅ Datos subidos a la base de datos 'bd_spotify'.


### CONTINUO AHORA CON LA PARTE DE VISUALIZACION 