# EDA SPOTIFY DATA

In [1]:
#Librerias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import math
from datetime import datetime as dt, timedelta
import warnings

#Ignoramos todos los warnings
warnings.filterwarnings('ignore')

In [2]:
def descripcion(df):
    tipos = df.dtypes
    nulos = df.isnull().sum()
    unicos = df.nunique()
    duplicados = df.duplicated().sum(axis=0)
    valores = df.count()

    df_result = pd.DataFrame({
        'Columna': df.columns,
        'Tipo': tipos,
        'Valores': valores,
        'Nulos': nulos,
        'Unicos': unicos,
        'Duplicados': duplicados
    })
    
    return df_result

## 1. Carga de datos

In [13]:
path_base='/Users/Garazi/Desktop/SPOTIFY/DATA/ORIGEN/'
archivo_1='Streaming_History_Audio_2016_2019_0.json'
archivo_2='Streaming_History_Audio_2019_2020_1.json'
archivo_3='Streaming_History_Audio_2020_2021_2.json'
archivo_4='Streaming_History_Audio_2021_2023_3.json'
archivo_5='Streaming_History_Audio_2023_2024_4.json'


df_1619=pd.read_json(path_base+archivo_1)
df_1920=pd.read_json(path_base+archivo_2)
df_2021=pd.read_json(path_base+archivo_3)
df_2123=pd.read_json(path_base+archivo_4)
df_2324=pd.read_json(path_base+archivo_5)

In [14]:
#Se juntas los datos de todos los años en un único df y eliminamos los duplicados que hemos generado
df=pd.concat([df_1619,df_1920,df_2021,df_2123,df_2324])
df.drop_duplicates(inplace=True)

descripcion(df)

Unnamed: 0,Columna,Tipo,Valores,Nulos,Unicos,Duplicados
ts,ts,object,89474,0,88261,0
platform,platform,object,89474,0,29,0
ms_played,ms_played,int64,89474,0,32342,0
conn_country,conn_country,object,89474,0,4,0
ip_addr,ip_addr,object,89474,0,2973,0
master_metadata_track_name,master_metadata_track_name,object,89012,462,10273,0
master_metadata_album_artist_name,master_metadata_album_artist_name,object,89012,462,1999,0
master_metadata_album_album_name,master_metadata_album_album_name,object,89012,462,5200,0
spotify_track_uri,spotify_track_uri,object,89012,462,11735,0
episode_name,episode_name,object,462,89012,65,0


In [5]:
#La columna ts (fecha) es de tipo object, la ponemos como datetime
df['ts'] = pd.to_datetime(df['ts'])
df['ts'].dtype

datetime64[ns, UTC]

## 2. Análisis general

Significado de todas las variables:

In [6]:
df_columnas=pd.DataFrame()
data = {
    "Campo técnico": [
        "ts", "username", "platform", "ms_played", "conn_country", "Ip_addr_decrypted",
        "user_agent_decrypted", "master_metadata_track_name", "master_metadata_album_artist_name",
        "master_metadata_album_album_name", "spotify_track_uri", "episode_name",
        "episode_show_name", "spotify_episode_uri", "reason_start", "reason_end",
        "shuffle", "skipped", "offline", "offline_timestamp", "incognito_mode"
    ],
    "Contenido": [
        "Marca de tiempo que indica cuándo se dejó de reproducir una canción en formato UTC (Tiempo Universal Coordinado). El orden de la fecha es año, mes y día, seguida por una marca de tiempo en formato de 24 horas.",
        "nombre de usuario o usuaria de Spotify.",
        "la plataforma que se usó al escuchar la canción ",
        "número de milisegundos que duró la reproducción.",
        "el código de país para especificar dónde se escuchó la canción",
        "dirección IP registrada",
        "el agente de usuario que se usó al reproducir la canción ",
        "nombre de la pista.",
        "el nombre del artista o la artista, del grupo o del podcast.",
        "el nombre del álbum que incluye la canción.",
        "Un URI de Spotify que identifica de forma única la canción",
        "el nombre del episodio del podcast.",
        "el nombre del programa del podcast.",
        "Un URI de episodio de Spotify que identifica de forma única el episodio de podcast.",
        "valor que indica por qué se empezó a reproducir la canción ",
        "por qué se acabó de reproducir la canción (por ejemplo, “endplay”).",
        " tiene el valor \"True\" o \"False\" según si se usó o no el modo aleatorio al escuchar la canción.",
        "si los usuarios se saltaron la canción.",
        " si la canción se escuchó en el modo sin conexión (“True”) o no (“False”).",
        " una marca de tiempo de cuándo se usó el modo sin conexión, si es que se usó.",
        "si la canción se escuchó durante una sesión privada (“True”) o no (“False”)."
    ]
}

df_columnas=pd.DataFrame(data)

df_columnas


Unnamed: 0,Campo técnico,Contenido
0,ts,Marca de tiempo que indica cuándo se dejó de r...
1,username,nombre de usuario o usuaria de Spotify.
2,platform,la plataforma que se usó al escuchar la canción
3,ms_played,número de milisegundos que duró la reproducción.
4,conn_country,el código de país para especificar dónde se es...
5,Ip_addr_decrypted,dirección IP registrada
6,user_agent_decrypted,el agente de usuario que se usó al reproducir ...
7,master_metadata_track_name,nombre de la pista.
8,master_metadata_album_artist_name,"el nombre del artista o la artista, del grupo ..."
9,master_metadata_album_album_name,el nombre del álbum que incluye la canción.


Seleccionamos variables de interes y las renombramos:

In [7]:
df.columns

Index(['ts', 'platform', 'ms_played', 'conn_country', 'ip_addr',
       'master_metadata_track_name', 'master_metadata_album_artist_name',
       'master_metadata_album_album_name', 'spotify_track_uri', 'episode_name',
       'episode_show_name', 'spotify_episode_uri', 'reason_start',
       'reason_end', 'shuffle', 'skipped', 'offline', 'offline_timestamp',
       'incognito_mode'],
      dtype='object')

In [8]:
df=df[['ts','ms_played','master_metadata_track_name', 'master_metadata_album_artist_name',
       'master_metadata_album_album_name', 'episode_name','episode_show_name', 'reason_start',
       'reason_end', 'shuffle', 'skipped']]

df.rename(columns=({'ts':'fecha','ms_played':'milisegundos',
                   'master_metadata_track_name':'Nombre_pista',
                   'master_metadata_album_artist_name':'Nombre_artista',
                   'master_metadata_album_album_name':'Nombre_album',
                   'episode_name':'Nombre_episodio',
                   'episode_show_name':'Nombre_show_episodio',
                   'reason_start':'razon_comienzo',
                   'reason_end':'razon_fin',
                   'shuffle':'aleatorio',
                   'skipped':'saltado'}), inplace=True)

df.head()

Unnamed: 0,fecha,milisegundos,Nombre_pista,Nombre_artista,Nombre_album,Nombre_episodio,Nombre_show_episodio,razon_comienzo,razon_fin,aleatorio,saltado
0,2016-02-09 13:44:41+00:00,333659,Sorry,Justin Bieber,Purpose,,,appload,trackdone,False,False
1,2016-02-09 13:48:02+00:00,200786,Sorry,Justin Bieber,Purpose,,,trackdone,trackdone,False,False
2,2016-02-09 13:51:23+00:00,200786,Sorry,Justin Bieber,Purpose,,,trackdone,trackdone,False,False
3,2016-02-09 13:54:44+00:00,200786,Sorry,Justin Bieber,Purpose,,,trackdone,trackdone,False,False
4,2016-02-09 13:58:41+00:00,200786,Sorry,Justin Bieber,Purpose,,,trackdone,trackdone,False,False


Partiendo del df general creamos dos dfs diferentes: uno con datos de podcasts/epidodios (df_podcast), y otro con datos de canciones (df_music). Y eliminamos de cada df las columnas que no tienen que ver con su contenido (estas columnas aparecen rellenas con Nan/None).

In [9]:
df_podcast=df[df['Nombre_show_episodio'].notna()]
df_podcast.dropna(axis=1, how='all', inplace=True)
df_music=df[~df['Nombre_show_episodio'].notna()]
df_music.dropna(axis=1, how='all', inplace=True)

### 2.1 Canciones

In [10]:
df_music.head()

Unnamed: 0,fecha,milisegundos,Nombre_pista,Nombre_artista,Nombre_album,razon_comienzo,razon_fin,aleatorio,saltado
0,2016-02-09 13:44:41+00:00,333659,Sorry,Justin Bieber,Purpose,appload,trackdone,False,False
1,2016-02-09 13:48:02+00:00,200786,Sorry,Justin Bieber,Purpose,trackdone,trackdone,False,False
2,2016-02-09 13:51:23+00:00,200786,Sorry,Justin Bieber,Purpose,trackdone,trackdone,False,False
3,2016-02-09 13:54:44+00:00,200786,Sorry,Justin Bieber,Purpose,trackdone,trackdone,False,False
4,2016-02-09 13:58:41+00:00,200786,Sorry,Justin Bieber,Purpose,trackdone,trackdone,False,False


In [11]:
df_music.shape

(89012, 9)

In [12]:
descripcion(df_music)

Unnamed: 0,Columna,Tipo,Valores,Nulos,Unicos,Duplicados
fecha,fecha,"datetime64[ns, UTC]",89012,0,87803,21
milisegundos,milisegundos,int64,89012,0,32067,21
Nombre_pista,Nombre_pista,object,89012,0,10273,21
Nombre_artista,Nombre_artista,object,89012,0,1999,21
Nombre_album,Nombre_album,object,89012,0,5200,21
razon_comienzo,razon_comienzo,object,89012,0,9,21
razon_fin,razon_fin,object,89012,0,11,21
aleatorio,aleatorio,bool,89012,0,2,21
saltado,saltado,bool,89012,0,2,21


Razones de comienzo y final de las canciones:

In [13]:
df_music['razon_comienzo'].value_counts()

trackdone     58464
fwdbtn        12081
clickrow      10065
appload        4191
playbtn        2413
backbtn        1391
remote          258
trackerror       81
unknown          68
Name: razon_comienzo, dtype: int64

In [14]:
df_music['razon_fin'].value_counts()

trackdone                       57622
fwdbtn                          12081
endplay                         10242
logout                           4219
unexpected-exit-while-paused     2643
backbtn                          1345
unexpected-exit                   585
unknown                           133
remote                            132
appload                             8
trackerror                          2
Name: razon_fin, dtype: int64

Estadísticas de canciones reproducidas en modo aleatroio y canciones saltadas:

In [15]:
total=df_music.shape[0]
aleatorio= len(df_music[df_music['aleatorio']==True])
no_aleatorio= len(df_music[df_music['aleatorio']==False])

print(f'Número de canciones reproducidas en modo aleatorio: {aleatorio} ({round(100*aleatorio/total,2)} %)')
print(f'Número de canciones reproducidas en modo NO aleatorio: {no_aleatorio} ({round(100*no_aleatorio/total,2)} %)')

Número de canciones reproducidas en modo aleatorio: 39128 (43.96 %)
Número de canciones reproducidas en modo NO aleatorio: 49884 (56.04 %)


In [16]:
total=df_music.shape[0]
saltado= len(df_music[df_music['saltado']==True])
no_saltado= len(df_music[df_music['saltado']==False])

print(f'El {round(100*saltado/total,2)} % de las canciones han sido saltadas antes de terminar la pista completa')

El 6.14 % de las canciones han sido saltadas antes de terminar la pista completa


#### 2.1.1 Artistas y canciones más escuchadas

In [17]:
df_music.head(2)

Unnamed: 0,fecha,milisegundos,Nombre_pista,Nombre_artista,Nombre_album,razon_comienzo,razon_fin,aleatorio,saltado
0,2016-02-09 13:44:41+00:00,333659,Sorry,Justin Bieber,Purpose,appload,trackdone,False,False
1,2016-02-09 13:48:02+00:00,200786,Sorry,Justin Bieber,Purpose,trackdone,trackdone,False,False


In [37]:
df_music[(df_music['fecha'].dt.year==2022) & (df_music['saltado']==False)]['Nombre_artista'].value_counts().head(15)

Natos y Waor    745
Bad Bunny       488
Bad Gyal        442
ROSALÍA         434
LUNA KI         385
John Pollõn     315
Hofe            309
K1ZA            303
Gata Cattana    278
Chill Chicos    275
Cariño          256
GARRAIO         234
Dellachaouen    231
Melendi         221
Amaia           176
Name: Nombre_artista, dtype: int64

In [19]:
df_music['Nombre_pista'].value_counts()

Gremlin                                      213
Hustlers                                     186
Si Veo a Tu Mamá                             183
Cicatrices                                   177
Septiembre                                   170
                                            ... 
De Cacería                                     1
Digan Lo Que Quieran                           1
Hablando de Nada                               1
La Habitación Que Más Me Gusta de Mi Keli      1
Ondas Delta para Relajarse                     1
Name: Nombre_pista, Length: 10273, dtype: int64

### 2.2 Podcasts

In [20]:
df_podcast

Unnamed: 0,fecha,milisegundos,Nombre_episodio,Nombre_show_episodio,razon_comienzo,razon_fin,aleatorio,saltado
15968,2019-01-12 07:31:54+00:00,59360,Wikipodcast02 - Noticias 07/10,Wikipodcast,clickrow,endplay,False,False
6938,2019-10-19 21:47:19+00:00,3517,marihuana,Marihuana,playbtn,endplay,False,False
5421,2020-07-07 13:18:07+00:00,0,Nadie Sabe Nada: Que la mascarilla no oculte l...,Nadie Sabe Nada,clickrow,unexpected-exit,False,False
5422,2020-07-07 13:18:50+00:00,33716,Nadie Sabe Nada: Que la mascarilla no oculte l...,Nadie Sabe Nada,clickrow,endplay,False,False
6033,2020-07-31 21:48:48+00:00,11717,Como aman los pobres (Gata Cattana),Versos a Voces,clickrow,endplay,False,False
...,...,...,...,...,...,...,...,...
14159,2024-10-07 21:49:32+00:00,1686010,Sueño Profundo y Reparación Con Antiestrés,LAS MEMORIAS DEL ALMA,clickrow,endplay,False,True
14160,2024-10-07 21:51:39+00:00,9970,Sanación y Milagros Sobrenaturales/ Historias ...,LAS MEMORIAS DEL ALMA,trackdone,backbtn,False,True
14161,2024-10-07 22:46:45+00:00,2703520,Sueño Profundo y Reparación Con Antiestrés,LAS MEMORIAS DEL ALMA,backbtn,logout,False,False
15480,2024-11-28 20:34:20+00:00,2880,Un libro una hora: El jugador - Fiódor Dostoye...,Un Libro Una Hora,clickrow,endplay,False,True


In [21]:
df['Nombre_show_episodio'].value_counts()

Musicas para Relaxar                                      239
La Pija y la Quinqui                                       76
Dj bm mix                                                  58
LAS MEMORIAS DEL ALMA                                      22
Salud Mental✨ con Alan Disavia                              9
Meditation Life Skills Podcast - Learn How To Meditate      8
Cambia Tu Mente Y Podrás Cambiar Tu Vida                    6
Sonidos del Cosmos                                          5
SONIDOS PARA EL ALMA.                                       4
Psicologia Al Desnudo | @psi.mammoliti                      4
Study Focus                                                 4
Meditation Sounds                                           4
Meditaaccion                                                3
Nadie Sabe Nada                                             2
Dormicast                                                   2
 Estefania Girón 777                                        2
El Faro 