<a href="https://colab.research.google.com/github/AlexisSamboy/alexissamboy-data-portafolio/blob/main/proyectos/python/02_Analisis_habitos_personales_spotify/notebook/02_limpieza_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **An치lisis de h치bitos de escucha usando datos personales de Spotify**

## Contexto
Spotify permite solicitar el historial completo de reproducci칩n.  
Este proyecto analiza mis **datos** reales de escucha desde el inicio de mi cuenta.
con el objetivo de identificar patrones de consumo musical en el tiempo.

## Objetivo
- Analizar h치bitos de consumo musical.
- Identificar artistas y canciones m치s reproducidas
- Evaluar patrones por d칤a, hora y per칤odo

## Fuente de datos
Los datos fueron obtenidos directamente desde Spotify a trav칠s de la solicitud
de historial completo de cuenta.  
**Formato**: archivos JSON (StreamingHistory Audio).

### **Importar las librerias a utilizar**

Los datos proporcionados por spotify son en formato **JSON**, empezaremos importando esa libreria. Luego importaremos a **Pandas** para empezar la preparaci칩n de los datos y el analisis exploratorio.

In [10]:
import json

In [11]:
files = ["Streaming_History_Audio_2020-2023_0.json","Streaming_History_Audio_2023-2024_1.json","Streaming_History_Audio_2024-2025_2.json"]

**Ya tenemos los archivos en una variable llamada Files**


### **Importar pandas**

In [12]:
import pandas as pd

In [13]:
dfs = []

for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        dfs.append(pd.DataFrame(data))

Cada archivo JSON se carga de forma independiente y se convierte en un DataFrame. Se almacena en una lista para luego unificar en un solo DataFrame.

游댕**Unificaci칩n de datos**

In [14]:
df = pd.concat(dfs, ignore_index=True)

**Observaci칩n**: *Concat* es una funci칩n de pandas que utilizamos para concatenar o unificar varios DataFrames, por defecto la funcion utilza el (**Ignore_index**) = false, esto significa que conservara los index de cada registro, esto no es malo del todo, pero si utlizamos en varios DataFrames el mismo index cuando apliquemos una busqueda por index tendremos varios resultados y lo ideal seria que un solo index sea asociado a un solo registro. Por esa razon utilizamos el (**Ignore_index**) = true para ignorar el index y crear nuevos index.

In [15]:
df.shape

(46828, 23)

**Shape**: Utilizamos este atributo de pandas para visualizar la cantidad de registros en el nuevo DataFrame. El resultado que arrojo fue **46,828 filas** y **23 columnas**.

In [16]:
df.head()

Unnamed: 0,ts,platform,ms_played,conn_country,ip_addr,master_metadata_track_name,master_metadata_album_artist_name,master_metadata_album_album_name,spotify_track_uri,episode_name,...,audiobook_uri,audiobook_chapter_uri,audiobook_chapter_title,reason_start,reason_end,shuffle,skipped,offline,offline_timestamp,incognito_mode
0,2020-08-20T03:49:59Z,"Android-tablet OS 8.1.0 API 27 (SAMSUNG, SM-T8...",1004,DO,181.37.40.76,Hey DJ - Remix,CNCO,Hey DJ - Remix,spotify:track:3cR5ZtQ4JqGj4VHBb1gvFf,,...,,,,playbtn,unexpected-exit,True,False,False,,False
1,2020-08-20T03:50:58Z,"Android-tablet OS 8.1.0 API 27 (SAMSUNG, SM-T8...",32117,DO,181.37.40.76,Doble Filo,Romeo Santos,Golden,spotify:track:7sasRSZNmUPaHXLWndC8oj,,...,,,,playbtn,fwdbtn,False,False,False,,False
2,2020-08-20T03:52:59Z,"Android-tablet OS 8.1.0 API 27 (SAMSUNG, SM-T8...",27491,DO,181.37.40.76,Princesa,Frank Reyes,Dosis De Amor,spotify:track:5ABUWUrqYGMXbF8qCZ5zF9,,...,,,,fwdbtn,trackdone,False,False,False,,False
3,2020-08-20T03:54:02Z,"Android-tablet OS 8.1.0 API 27 (SAMSUNG, SM-T8...",30007,DO,181.37.40.76,Consejo De Padre,Anthony Santos,Siempre Rom치ntico,spotify:track:7HQ9aLUEUCtmrDHVh27jBD,,...,,,,trackdone,endplay,False,False,False,,False
4,2020-08-20T03:54:21Z,"Android-tablet OS 8.1.0 API 27 (SAMSUNG, SM-T8...",18675,DO,181.37.40.76,Relaci칩n,Sech,1 of 1,spotify:track:3ZG8N7aWw2meb6UrI5ZmnZ,,...,,,,playbtn,endplay,True,False,False,,False


**Head**: Este atributo lo aplicamos para visualizar la estructura del DataFrame, nos muestra los primeros 5 registros y todas las columnas que componen el dataset.

In [17]:
# Veamos las variables categ칩ricas y las num칠ricas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46828 entries, 0 to 46827
Data columns (total 23 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   ts                                 46828 non-null  object 
 1   platform                           46828 non-null  object 
 2   ms_played                          46828 non-null  int64  
 3   conn_country                       46828 non-null  object 
 4   ip_addr                            46828 non-null  object 
 5   master_metadata_track_name         46813 non-null  object 
 6   master_metadata_album_artist_name  46813 non-null  object 
 7   master_metadata_album_album_name   46813 non-null  object 
 8   spotify_track_uri                  46813 non-null  object 
 9   episode_name                       15 non-null     object 
 10  episode_show_name                  15 non-null     object 
 11  spotify_episode_uri                15 non-null     obj

Podemos observar que existen muchas columnas con datos nulos, muchas de esas columnas no nos aportan ninguna informacion relevante para nuestro analisis, entonces muchas de esas columnas la vamos a eliminar, pero antes vamos a renombrar e identificar esas columnas relevantes para nuestro analisis.

# **Limpiezas de los Datos**

Realizaremos el proceso de limpieza teniendo en cuenta las situaciones m치s comunes:

* Datos faltantes en algunas celdas.

* Columnas irrelevantes (que no responden al problema que queremos resolver)

* Renombrar columnas

* Estandarizaci칩n de los datos: convertir datos de fecha en formatos de fecha y entre otros.

Al final de este proceso de limpieza deber칤amos tener un set de datos 칤ntegro, listo para la fase de An치lisis Exploratorio.

### **1. Limpieza de datos**

Vamos a empezar con esas columnas que poseen casi todos registros nulos y que no aportan nada relevante a nuestro analisis.

In [18]:
df = df.drop(columns=['episode_name', 'episode_show_name', 'spotify_episode_uri', 'audiobook_title','audiobook_uri','audiobook_chapter_uri','audiobook_chapter_title'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46828 entries, 0 to 46827
Data columns (total 16 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   ts                                 46828 non-null  object 
 1   platform                           46828 non-null  object 
 2   ms_played                          46828 non-null  int64  
 3   conn_country                       46828 non-null  object 
 4   ip_addr                            46828 non-null  object 
 5   master_metadata_track_name         46813 non-null  object 
 6   master_metadata_album_artist_name  46813 non-null  object 
 7   master_metadata_album_album_name   46813 non-null  object 
 8   spotify_track_uri                  46813 non-null  object 
 9   reason_start                       46828 non-null  object 
 10  reason_end                         46828 non-null  object 
 11  shuffle                            46828 non-null  boo

Luego de eliminar esas columnas aun quedan algunos registros nulos, vamos aplicar el atributo de pandas **dropna** y eliminamos todos esos datos nulos.

In [20]:
#Con esta funcion eliminamos los datos faltantes
df.dropna(inplace=True)

#Volvemos a imprimir los detalles del data set y confirmar que no existan datos faltantes
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 33657 entries, 3686 to 46827
Data columns (total 16 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   ts                                 33657 non-null  object 
 1   platform                           33657 non-null  object 
 2   ms_played                          33657 non-null  int64  
 3   conn_country                       33657 non-null  object 
 4   ip_addr                            33657 non-null  object 
 5   master_metadata_track_name         33657 non-null  object 
 6   master_metadata_album_artist_name  33657 non-null  object 
 7   master_metadata_album_album_name   33657 non-null  object 
 8   spotify_track_uri                  33657 non-null  object 
 9   reason_start                       33657 non-null  object 
 10  reason_end                         33657 non-null  object 
 11  shuffle                            33657 non-null  bool 

Aun podemos eliminar columanas que no aportan nada o que irrelevante. Por ejemplo "conn_country" esta columna muestra el pais de reproducci칩n, pero toda la reproducci칩n fue en **Rep. Dom.** mi pais de origen. {"ip_addr", "spotify_track_uri", "incognito_mode"}

In [None]:
df = df.drop(columns=["ip_addr", "spotify_track_uri", "incognito_mode"])
df.info()

In [23]:
df = df.drop(columns=["conn_country"])
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 33657 entries, 3686 to 46827
Data columns (total 12 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   ts                                 33657 non-null  object 
 1   platform                           33657 non-null  object 
 2   ms_played                          33657 non-null  int64  
 3   master_metadata_track_name         33657 non-null  object 
 4   master_metadata_album_artist_name  33657 non-null  object 
 5   master_metadata_album_album_name   33657 non-null  object 
 6   reason_start                       33657 non-null  object 
 7   reason_end                         33657 non-null  object 
 8   shuffle                            33657 non-null  bool   
 9   skipped                            33657 non-null  bool   
 10  offline                            33657 non-null  bool   
 11  offline_timestamp                  33657 non-null  float

Vamos ahora a renombrar las columnas con nombre mas acorde a los datos que proporcionan

In [27]:
df.rename(columns={
    'ts': 'fecha_reproduccion',
    'platform': 'plataforma',
    'ms_played': 'duracion_ms',
    'master_metadata_track_name': 'Nom_cancion',
    'master_metadata_album_artist_name': 'Nom_artista',
    'master_metadata_album_album_name': 'Nom_album',
    'reason_start': 'motivo_inicio',
    'reason_end': 'motivo_fin',
    'shuffle': 'Aleatorio',
    'skipped': 'saltado',
    'offline': 'offline',
    'offline_timestamp': 'fecha_offline'
}, inplace=True)

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 33657 entries, 3686 to 46827
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   fecha_reproduccion  33657 non-null  object 
 1   plataforma          33657 non-null  object 
 2   duracion_ms         33657 non-null  int64  
 3   Nom_cancion         33657 non-null  object 
 4   Nom_artista         33657 non-null  object 
 5   Nom_album           33657 non-null  object 
 6   motivo_inicio       33657 non-null  object 
 7   motivo_fin          33657 non-null  object 
 8   Aleatorio           33657 non-null  bool   
 9   saltado             33657 non-null  bool   
 10  offline             33657 non-null  bool   
 11  fecha_offline       33657 non-null  float64
dtypes: bool(3), float64(1), int64(1), object(7)
memory usage: 2.7+ MB


### Ahora vamos a estandirizar los datos

Convertir las columnas "Fecha_reproduccion" en formato datatime porque actualmente esta object, de igual manera Fecha_offline. Tambien llevaremos la duracion de milisegundo a minutos y tomaremos como un reproduccion valida toda aquella reporduccion que supere los 10 segundos.

Ya terminamos la limpieza basica de los datos (Eliminamos columnas, datos nulos y renombramos columnas)