## Librerias y configuracion inicial.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 5)

df = pd.read_csv("spotify_dataset.csv")
print(" Dataset shape:", df.shape)
print("\n Data types:\n", df.dtypes)
print("\n Missing values:\n", df.isnull().sum())
print("\n Duplicate rows:", df.duplicated().sum())
df.head()

###  Estructura General del Dataset

El dataset contiene **114,000 filas** y **21 columnas**, lo que representa una muestra amplia y rica para el an√°lisis musical.

#### Tipos de Datos:
- Las columnas se dividen principalmente entre:
  - **Variables num√©ricas continuas** (`float64`), como `danceability`, `energy`, `tempo`, etc.
  - **Variables categ√≥ricas o de texto** (`object`), como `track_id`, `artists`, `track_name`, `track_genre`.
  - **Variables discretas enteras** (`int64`), como `popularity`, `key`, `mode`, `time_signature`.
  - Una variable booleana (`explicit`) que indica si la canci√≥n tiene contenido expl√≠cito.

Este esquema de datos es adecuado tanto para an√°lisis estad√≠stico cl√°sico como para algoritmos de machine learning supervisado y no supervisado.

#### Revisi√≥n de Calidad Inicial:  (Sujeto a una segunda revisi√≥n de esta hipotesis al final del EDA)
-  **No se encontraron valores nulos ni duplicados**, lo que indica que el dataset ya ha sido preprocesado adecuadamente o curado de forma controlada.
- La columna `Unnamed: 0` es un **√≠ndice generado autom√°ticamente** durante la exportaci√≥n. Puede eliminarse si no se requiere para trazabilidad o identificaci√≥n.

En general, la estructura de este dataset es robusta, bien definida y lista para exploraci√≥n profunda y modelamiento.


In [None]:
numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns.tolist()
desc_stats = df[numerical_cols].describe().T
desc_stats["missing"] = df[numerical_cols].isnull().sum()
desc_stats["skew"] = df[numerical_cols].skew()
desc_stats["kurtosis"] = df[numerical_cols].kurt()
desc_stats

###  Estad√≠sticas Descriptivas, Asimetr√≠a y Curtosis

El resumen estad√≠stico permite identificar tendencias, dispersi√≥n y posibles anomal√≠as en las variables num√©ricas:

####  `popularity`
- Media = 33.2, mediana = 35: distribuci√≥n aproximadamente **sim√©trica**.
- Rango completo desde 0 hasta 100.
- Ligera asimetr√≠a positiva (skew = 0.04), curtosis ligeramente negativa.

####  `duration_ms`
- Media ‚âà 3.8 minutos (228,029 ms).
- Valor **m√°ximo extremadamente alto**: 5,237,295 ms (~87 minutos) ‚Äî probable outlier.
- **Alta asimetr√≠a (11.2)** y **curtosis extrema (354.9)**: distribuci√≥n altamente sesgada.

####  `danceability`, `energy`, `valence`
- Distribuciones razonablemente normales.
- `danceability` con leve sesgo negativo.
- `valence` (emocionalidad positiva) est√° centrada en 0.47, lo cual sugiere un balance entre temas felices y neutros.

####  `loudness`
- Rango de -49 dB a +4.5 dB (fuertemente asim√©trica a la izquierda).
- **Curtosis negativa** (menos extremos que una distribuci√≥n normal), pero a√∫n as√≠ valores extremos como -49.5 dB indican outliers.

####  `speechiness`, `instrumentalness`, `acousticness`
- Todas muestran **alta asimetr√≠a positiva**, indicando que la mayor√≠a de canciones tienen valores cercanos a 0.
- `speechiness` tiene curtosis de **28.8**, lo que indica presencia de valores extremos (posiblemente canciones 100% habladas como podcasts o spoken word).
- `instrumentalness` y `acousticness` tienen distribuci√≥n polarizada: muchas canciones cantadas o electr√≥nicas, pero tambi√©n presencia significativa de instrumentales o ac√∫sticas puras.

####  `tempo`
- Rango razonable (hasta 243 BPM), media ‚âà 122 BPM.
- Asimetr√≠a moderada, distribuci√≥n saludable para an√°lisis r√≠tmico.

####  `time_signature`
- La mayor√≠a tiene comp√°s de **4/4** (mediana = 4.0), lo cual es est√°ndar en m√∫sica pop.
- Asimetr√≠a y curtosis elevadas debido a los pocos valores diferentes (e.g., 3/4, 5/4).

###  Conclusiones Clave:
- Las variables `duration_ms`, `speechiness`, `instrumentalness` y `acousticness` muestran **sesgo fuerte o valores extremos**, por lo que requieren especial atenci√≥n en visualizaci√≥n, normalizaci√≥n o eliminaci√≥n de outliers.
- La mayor√≠a de las variables est√°n distribuidas adecuadamente para modelamiento predictivo, con algunas transformaciones opcionales seg√∫n el objetivo.


In [None]:
print("Top 10 artistas con m√°s canciones:")
print(df['artists'].value_counts().head(10))

print("\nTop 10 g√©neros musicales:")
print(df['track_genre'].value_counts().head(10))

###  Top 10 Artistas con M√°s Canciones

El dataset est√° dominado por artistas legendarios como **The Beatles** (279 canciones), **George Jones** y **Stevie Wonder**, lo cual sugiere una fuerte presencia de m√∫sica cl√°sica y de cat√°logo. Esto puede influir en las m√©tricas generales como duraci√≥n y popularidad.

###  Top 10 G√©neros Musicales

Todos los g√©neros m√°s frecuentes tienen exactamente **1000 canciones**, lo que indica que el dataset ha sido construido de forma **balanceada por g√©nero**. Esto es ideal para an√°lisis comparativos y modelos de clasificaci√≥n, ya que se evita el sesgo por clase desbalanceada.


In [None]:
sns.histplot(df['popularity'], bins=30, kde=True, color='green')
plt.title("Distribuci√≥n de Popularidad de Canciones")
plt.xlabel("Popularidad (0 a 100)")
plt.ylabel("Frecuencia")
plt.show()

###  Distribuci√≥n de Popularidad

La popularidad de las canciones est√° **sesgada hacia la izquierda**, con un pico muy alto en el rango 0‚Äì10. Esto implica que la mayor√≠a de las canciones tienen baja popularidad en plataformas como Spotify.

No obstante, tambi√©n se observa una distribuci√≥n bimodal secundaria, con picos adicionales en los rangos 20‚Äì40 y 50‚Äì60. Esto podr√≠a deberse a canciones con cierto reconocimiento pero que no alcanzan los niveles virales.

Este sesgo debe tenerse en cuenta al entrenar modelos de predicci√≥n, y puede sugerir estrategias de marketing digital enfocadas en este segmento intermedio.


In [None]:
df['duration_min'] = df['duration_ms'] / 60000
sns.kdeplot(df['duration_min'], fill=True, label="Duraci√≥n (min)")
sns.kdeplot(df['tempo'], fill=True, label="Tempo (BPM)")
plt.title("Distribuci√≥n de Duraci√≥n y Tempo")
plt.legend()
plt.show()

###  Distribuci√≥n de Duraci√≥n y Tempo

La duraci√≥n de las canciones tiene una distribuci√≥n normal sesgada hacia la izquierda, con la mayor√≠a de los temas entre **2.5 y 4 minutos**, como es t√≠pico en la industria musical comercial.

En cambio, el **tempo (BPM)** muestra m√∫ltiples picos alrededor de **100 a 130 BPM**, indicando diferentes estilos r√≠tmicos comunes (pop, electr√≥nica, reguet√≥n). Algunos valores extremos por encima de 200 BPM podr√≠an representar outliers o errores de carga.

Este an√°lisis ayuda a identificar las "zonas de confort" de los g√©neros m√°s consumidos.


In [None]:
for feature in ['speechiness', 'acousticness', 'instrumentalness']:
    sns.histplot(df[feature], kde=True, bins=30)
    plt.title(f"Distribuci√≥n de: {feature}")
    plt.show()

###  Distribuci√≥n de Speechiness

La mayor√≠a de las canciones tienen valores de speechiness cercanos a **0.05**, lo que sugiere que predominan las canciones **cantadas** y no habladas.

Valores altos (cercanos a 1.0) son raros, pero pueden representar **podcasts, spoken word o rap expl√≠cito**. Este tipo de an√°lisis permite detectar autom√°ticamente contenido hablado o mixto.

Esta variable es √∫til para segmentar entre g√©neros l√≠ricos y g√©neros hablados.


###  Distribuci√≥n de Acousticness

La mayor√≠a de las canciones tienen un valor de acousticness cercano a **0**, lo cual indica que predomina la producci√≥n digital o electr√≥nica sobre los instrumentos ac√∫sticos puros.

Sin embargo, tambi√©n hay un **ligero repunte cerca del valor 1**, lo que sugiere una presencia significativa ‚Äîaunque mucho menor‚Äî de canciones ac√∫sticas puras (guitarra, piano, voz sin procesamiento).

Esta distribuci√≥n fuertemente sesgada a la izquierda es com√∫n en datasets con diversidad de g√©neros modernos y sugiere que la m√∫sica ac√∫stica representa un **nicho de mercado espec√≠fico**.


###  Distribuci√≥n de Instrumentalness

La gran mayor√≠a de las canciones tienen un valor de instrumentalness inferior a **0.1**, lo que indica que son canciones con voz o canto, y por tanto no instrumentales.

Un peque√±o pico hacia el valor **1.0** evidencia la presencia de pistas completamente instrumentales (m√∫sica ambiental, cl√°sica, electr√≥nica sin vocales). Este grupo minoritario puede ser clave para tareas de clasificaci√≥n musical o detecci√≥n autom√°tica de contenido sin voz.

La fuerte asimetr√≠a hacia valores bajos implica que la voz sigue siendo **el componente central de la mayor√≠a de las producciones musicales modernas**.


In [13]:
df.dropna(subset=['track_name', 'artists', 'album_name'], inplace=True)
df.drop_duplicates(inplace=True)

In [None]:
audio_features = ['danceability', 'energy', 'loudness', 'speechiness', 'acousticness',
                  'instrumentalness', 'liveness', 'valence', 'tempo']

sns.heatmap(df[audio_features].corr(), annot=True, cmap='coolwarm')
plt.title("Matriz de Correlaci√≥n entre Caracter√≠sticas de Audio")
plt.show()

###  Correlaci√≥n entre Caracter√≠sticas de Audio

- **Energy y Loudness** tienen una **alta correlaci√≥n positiva (0.76)**, lo cual es l√≥gico, ya que las canciones m√°s energ√©ticas suelen estar producidas con mayor volumen percibido.
- **Acousticness** tiene correlaciones **negativas fuertes** con energy (-0.73) y loudness (-0.59), reafirmando que las canciones ac√∫sticas tienden a ser suaves y menos procesadas.
- **Danceability y Valence** muestran una correlaci√≥n moderada (0.48), indicando que las canciones m√°s bailables suelen tener una carga emocional m√°s positiva.
- **Instrumentalness y Valence** tienen una correlaci√≥n negativa (-0.32), lo que sugiere que las canciones instrumentales tienden a ser m√°s neutras o melanc√≥licas.

Estas correlaciones gu√≠an el dise√±o de modelos de recomendaci√≥n musical y an√°lisis de estilo.


In [None]:
for feature in audio_features:
    sns.scatterplot(x=feature, y='popularity', data=df, alpha=0.3)
    plt.title(f"Popularidad vs {feature}")
    plt.show()

## Limpieza de los datos y carga en nuevo dataset como "spotify_dataset_clean.csv"

In [None]:

# Cargar el dataset original
df = pd.read_csv("spotify_dataset.csv")

# =============================
# 1. Detecci√≥n de valores nulos
# =============================
print(" Valores nulos por columna:")
print(df.isnull().sum())

# =============================
# 2. Detecci√≥n de strings vac√≠os o solo espacios
# =============================
# Aplicamos solo a columnas de tipo 'object' (textuales)
text_cols = df.select_dtypes(include='object').columns

for col in text_cols:
    vacios = df[col].apply(lambda x: isinstance(x, str) and x.strip() == '').sum()
    if vacios > 0:
        print(f" Valores vac√≠os detectados en '{col}': {vacios}")

# =============================
# 3. Reemplazo de strings vac√≠os por NaN y limpieza
# =============================
df[text_cols] = df[text_cols].applymap(lambda x: None if isinstance(x, str) and x.strip() == '' else x)

# =============================
# 4. Eliminaci√≥n de filas con valores nulos cr√≠ticos
# =============================
# Puedes ajustar aqu√≠ qu√© columnas son esenciales
columnas_cr√≠ticas = ['track_name', 'artists', 'album_name']
df_clean = df.dropna(subset=columnas_cr√≠ticas)

# =============================
# 5. Eliminaci√≥n de duplicados exactos
# =============================
duplicados_antes = df_clean.duplicated().sum()
print(f"üßπ Duplicados encontrados: {duplicados_antes}")
df_clean = df_clean.drop_duplicates()

# =============================
# 6. Guardar el nuevo dataset limpio
# =============================
df_clean.to_csv("spotify_dataset_clean.csv", index=False)
print(" Dataset limpio guardado como 'spotify_dataset_clean.csv'")


In [None]:
# Mostrar forma y resumen r√°pido
print(" Shape del dataset limpio:", df_clean.shape)

# 1. Verificaci√≥n general de nulos
print("\n Nulos por columna:")
print(df_clean.isnull().sum())

# 2. Confirmaci√≥n total
if df_clean.isnull().sum().sum() == 0:
    print("\n Confirmado: No hay valores nulos en el dataset limpio.")
else:
    print("\n A√∫n hay valores nulos. Revisa las columnas con conteos mayores a 0.")

# 3. Ver muestra de datos para inspecci√≥n visual
df_clean.head()