# EDA Exploratorio - Spotify Streaming History

Este notebook realiza un análisis exploratorio de datos (EDA) completo sobre los datos de reproducción de Spotify.

## Objetivos:
1. Cargar y validar los datos curados
2. Obtener estadísticas descriptivas generales
3. Analizar patrones temporales de escucha
4. Identificar top tracks y artistas
5. Analizar comportamiento de skips
6. Visualizar distribuciones por plataforma y país
7. Explorar correlaciones entre variables

---

## 1. Setup y Carga de Datos

In [None]:
# Importar librerías necesarias
import sys
sys.path.append('../src')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configurar estilo
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Importar módulos custom
from data_pipeline import load_curated_data
from eda import *
from features import *

# Configurar pandas para mejor visualización
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("✓ Librerías importadas correctamente")

In [None]:
# Cargar datos curados
# NOTA: Asegúrate de tener un archivo parquet en data/curated/
# Puedes generarlo con: python src/data_pipeline.py data/raw/tu_archivo.json data/curated/spotify_data.parquet

DATA_PATH = '../data/curated/spotify_data.parquet'

# Si no tienes datos reales, este cell fallará
# Comenta esta línea y usa datos de ejemplo si es necesario
try:
    df = load_curated_data(DATA_PATH)
    print(f"\n✓ Dataset cargado exitosamente")
    print(f"  Shape: {df.shape}")
    print(f"  Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
except FileNotFoundError:
    print("⚠ No se encontró el archivo de datos curados.")
    print("Por favor, ejecuta primero el pipeline de transformación:")
    print("  python src/data_pipeline.py data/raw/sample.json data/curated/spotify_data.parquet")
    # Crear datos de ejemplo para demostración
    print("\nCreando datos de ejemplo para demostración...")
    df = None  # Reemplazar con datos de ejemplo si es necesario

## 2. Resumen General del Dataset

In [None]:
# Información básica del dataset
print("="*60)
print("INFORMACIÓN DEL DATASET")
print("="*60)
df.info()

In [None]:
# Estadísticas clave
stats = summary_stats(df)
stats

In [None]:
# Primeras filas
df.head(10)

## 3. Análisis Temporal

In [None]:
# Reproducciones a lo largo del tiempo (por día)
fig = plot_plays_over_time(df, freq='D', title='Reproducciones Diarias')
fig.show()

In [None]:
# Heatmap de actividad por hora y día de la semana
fig = plot_hourly_heatmap(df)
fig.show()

## 4. Top Tracks y Artistas

In [None]:
# Top 20 tracks por número de reproducciones
fig = plot_top_tracks(df, n=20, by='plays')
fig.show()

In [None]:
# Top 20 artistas por número de reproducciones
fig = plot_top_artists(df, n=20, by='plays')
fig.show()

## 5. Análisis de Duración de Reproducción

In [None]:
# Distribución de duración de reproducción
fig = plot_listening_duration_dist(df)
fig.show()

In [None]:
# Estadísticas descriptivas de duración
print("Estadísticas de duración de reproducción (minutos):")
print(df['minutes_played'].describe())

## 6. Análisis por Plataforma

In [None]:
# Distribución por plataforma
fig = plot_platform_distribution(df)
fig.show()

## 7. Análisis de Razones de Inicio y Fin

Exploramos por qué los usuarios inician y terminan las reproducciones.

In [None]:
# Análisis de razones
reason_start, reason_end = reason_analysis(df)

print("TOP 10 RAZONES DE INICIO:")
print(reason_start.head(10))
print("\nTOP 10 RAZONES DE FIN:")
print(reason_end.head(10))

## 8. Conclusiones y Próximos Pasos

### Hallazgos clave:
- **Volumen de datos**: Identificamos el tamaño del dataset y periodo cubierto
- **Patrones temporales**: Visualizamos cuándo se escucha más música
- **Preferencias**: Identificamos los tracks y artistas más populares
- **Comportamiento**: Analizamos duración promedio y razones de skip

### Próximos pasos:
1. **Feature Engineering** (Notebook 02): Crear sesiones y features avanzadas
2. **Análisis de Series Temporales** (Notebook 03): Detectar tendencias y estacionalidad
3. **Modelos Predictivos** (Notebook 04): Predecir skips
4. **Sistema de Recomendación** (Notebook 05): Recomendar tracks similares