# Análisis del Dataset

## Introducción

Tal y como plantea el problema original, el objetivo es construir un modelo que permita **visualizar los streams de Spotify**. Para lograr esto, realizaremos un análisis enfocado en los streams por mes del año 2023. 

### Consideraciones Iniciales:
1. **Rango Temporal de los Datos**:
   - Los datos de streams proporcionan un valor acumulado total, lo cual resulta útil para canciones lanzadas en 2023.
   - Sin embargo, para canciones lanzadas en años anteriores, surge una limitación importante: el creador del dataset no especifica si los streams corresponden únicamente al año de lanzamiento o son acumulados conforme pasan los años. Esto introduce incertidumbre en la interpretación de los datos históricos.

2. **Enfoque del Análisis**:
   - Dado que analizar streams de una canción específica no aporta gran valor (los datos son constantes al ser acumulados), nuestro enfoque se limitará al análisis mensual para el año 2023.
   - Este enfoque nos permitirá trabajar con un rango temporal específico, minimizando la ambigüedad en los datos.

### Objetivos Iniciales:
Antes de plantear soluciones o construir modelos, es fundamental:
- **Limpiar el dataset** para eliminar inconsistencias y tratar valores anómalos.
- **Normalizar los datos de streams** para un análisis uniforme y comparativo.
- Realizar un análisis exhaustivo para identificar patrones y características relevantes.

Al finalizar este análisis preliminar, el dataset estará depurado y listo para futuros análisis o modelado. En esta libreta, nos enfocaremos principalmente en la limpieza y preparación de los datos. 😊


In [1]:
import pandas as pd
import numpy as np

In [13]:
# Cargar el dataset
file_path = "./dataset/spotify-2023.csv"  # Cambia la ruta si es necesario
df = pd.read_csv(file_path,  encoding="latin1")

In [15]:
# Inspección inicial
print("===== Información General del Dataset =====")
print(df.info())
print("\n===== Primeras Filas del Dataset =====")
print(df.head())

===== Información General del Dataset =====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 953 entries, 0 to 952
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   track_name            953 non-null    object
 1   artist(s)_name        953 non-null    object
 2   artist_count          953 non-null    int64 
 3   released_year         953 non-null    int64 
 4   released_month        953 non-null    int64 
 5   released_day          953 non-null    int64 
 6   in_spotify_playlists  953 non-null    int64 
 7   in_spotify_charts     953 non-null    int64 
 8   streams               953 non-null    object
 9   in_apple_playlists    953 non-null    int64 
 10  in_apple_charts       953 non-null    int64 
 11  in_deezer_playlists   953 non-null    object
 12  in_deezer_charts      953 non-null    int64 
 13  in_shazam_charts      903 non-null    object
 14  bpm                   953 non-null    int64 
 

In [16]:
# Verificar duplicados
print("\n===== Duplicados =====")
print(f"Registros duplicados: {df.duplicated().sum()}")

# Verificar valores nulos
print("\n===== Valores Nulos =====")
print(df.isnull().sum())


===== Duplicados =====
Registros duplicados: 0

===== Valores Nulos =====
track_name               0
artist(s)_name           0
artist_count             0
released_year            0
released_month           0
released_day             0
in_spotify_playlists     0
in_spotify_charts        0
streams                  0
in_apple_playlists       0
in_apple_charts          0
in_deezer_playlists      0
in_deezer_charts         0
in_shazam_charts        50
bpm                      0
key                     95
mode                     0
danceability_%           0
valence_%                0
energy_%                 0
acousticness_%           0
instrumentalness_%       0
liveness_%               0
speechiness_%            0
dtype: int64


In [17]:
# Análisis descriptivo de columnas numéricas
print("\n===== Estadísticas Descriptivas =====")
print(df.describe())


===== Estadísticas Descriptivas =====
       artist_count  released_year  released_month  released_day  \
count    953.000000     953.000000      953.000000    953.000000   
mean       1.556139    2018.238195        6.033578     13.930745   
std        0.893044      11.116218        3.566435      9.201949   
min        1.000000    1930.000000        1.000000      1.000000   
25%        1.000000    2020.000000        3.000000      6.000000   
50%        1.000000    2022.000000        6.000000     13.000000   
75%        2.000000    2022.000000        9.000000     22.000000   
max        8.000000    2023.000000       12.000000     31.000000   

       in_spotify_playlists  in_spotify_charts  in_apple_playlists  \
count            953.000000         953.000000          953.000000   
mean            5200.124869          12.009444           67.812172   
std             7897.608990          19.575992           86.441493   
min               31.000000           0.000000            0.000000  

In [18]:
# Análisis de columnas categóricas y textuales
print("\n===== Frecuencia de Nombres de Canciones =====")
print(df['track_name'].value_counts().head())

print("\n===== Frecuencia de Nombres de Artistas =====")
print(df['artist(s)_name'].value_counts().head())


===== Frecuencia de Nombres de Canciones =====
track_name
Daylight                                  2
About Damn Time                           2
SNAP                                      2
Take My Breath                            2
Let It Snow! Let It Snow! Let It Snow!    2
Name: count, dtype: int64

===== Frecuencia de Nombres de Artistas =====
artist(s)_name
Taylor Swift    34
The Weeknd      22
Bad Bunny       19
SZA             19
Harry Styles    17
Name: count, dtype: int64
