# 01 - Exploratory Data Analysis (EDA)

**Autor:** Gabriel Veliz  
**Fecha:** Noviembre 2025  
**Proyecto:** Spotify Analytics - Data Engineering & ML Pipeline

---

## Contexto del Proyecto

Este notebook realiza un **An√°lisis Exploratorio de Datos (EDA) profesional** sobre datos de reproducci√≥n de Spotify, demostrando habilidades en:
- Data Quality Assessment
- Statistical Analysis
- Data Visualization
- Temporal Pattern Recognition
- Insight Generation

**‚ö†Ô∏è Nota de Privacidad:** Para demostraci√≥n p√∫blica, usar datos sint√©ticos generados en notebook 00.

---

## Objetivos del An√°lisis

1. ‚úÖ **Data Quality**: Validar integridad y calidad de datos
2. üìä **Descriptive Stats**: Obtener m√©tricas clave del negocio
3. ‚è∞ **Temporal Patterns**: Identificar patrones de uso por hora/d√≠a/mes
4. üéµ **Content Analysis**: Top tracks, artistas, g√©neros
5. üì± **Platform & Geo**: Distribuci√≥n por plataforma y pa√≠s
6. üîç **User Behavior**: An√°lisis de skips y duraci√≥n de sesiones
7. üìà **Correlations**: Relaciones entre variables

---

## 1. Setup & Configuration

Configuraci√≥n del entorno de an√°lisis y carga de dependencias.

In [None]:
# Importar librer√≠as necesarias
import sys
sys.path.append('../src')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configurar estilo
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Importar m√≥dulos custom
from data_pipeline import load_curated_data
from eda import *
from features import *

# Configurar pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("‚úì Librer√≠as importadas correctamente")

In [None]:
# Cargar datos curados
# NOTA: Aseg√∫rate de tener un archivo parquet en data/curated/
# Puedes generarlo con: python src/data_pipeline.py data/raw/tu_archivo.json data/curated/spotify_data.parquet

DATA_PATH = '../data/curated/spotify_data.parquet'

# Si no tienes datos reales, este cell fallar√°
# Comenta esta l√≠nea y usa datos de ejemplo si es necesario
try:
    df = load_curated_data(DATA_PATH)
    print(f"\n‚úì Dataset cargado exitosamente")
    print(f"  Shape: {df.shape}")
    print(f"  Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
except FileNotFoundError:
    print("‚ö† No se encontr√≥ el archivo de datos curados.")
    print("Por favor, ejecuta primero el pipeline de transformaci√≥n:")
    print("  python src/data_pipeline.py data/raw/sample.json data/curated/spotify_data.parquet")
    # Crear datos de ejemplo para demostraci√≥n
    print("\nCreando datos de ejemplo para demostraci√≥n...")
    df = None  # Reemplazar con datos de ejemplo si es necesario

## 2. Resumen General del Dataset

In [None]:
# Informaci√≥n b√°sica del dataset
print("="*60)
print("INFORMACI√ìN DEL DATASET")
print("="*60)
df.info()

In [None]:
# Estad√≠sticas clave
stats = summary_stats(df)
stats

In [None]:
# Primeras filas
df.head(10)

## 3. An√°lisis Temporal

In [None]:
# Reproducciones a lo largo del tiempo (por d√≠a)
fig = plot_plays_over_time(df, freq='D', title='Reproducciones Diarias')
fig.show()

In [None]:
# Heatmap de actividad por hora y d√≠a de la semana
fig = plot_hourly_heatmap(df)
fig.show()

## 4. Top Tracks y Artistas

In [None]:
# Top 20 tracks por n√∫mero de reproducciones
fig = plot_top_tracks(df, n=20, by='plays')
fig.show()

In [None]:
# Top 20 artistas por n√∫mero de reproducciones
fig = plot_top_artists(df, n=20, by='plays')
fig.show()

## 5. An√°lisis de Duraci√≥n de Reproducci√≥n

In [None]:
# Distribuci√≥n de duraci√≥n de reproducci√≥n
fig = plot_listening_duration_dist(df)
fig.show()

In [None]:
# Estad√≠sticas descriptivas de duraci√≥n
print("Estad√≠sticas de duraci√≥n de reproducci√≥n (minutos):")
print(df['minutes_played'].describe())

## 6. An√°lisis por Plataforma

In [None]:
# Distribuci√≥n por plataforma
fig = plot_platform_distribution(df)
fig.show()

## 7. An√°lisis de Razones de Inicio y Fin

Exploramos por qu√© los usuarios inician y terminan las reproducciones.

In [None]:
# An√°lisis de razones
reason_start, reason_end = reason_analysis(df)

print("TOP 10 RAZONES DE INICIO:")
print(reason_start.head(10))
print("\nTOP 10 RAZONES DE FIN:")
print(reason_end.head(10))

## 8. Conclusiones y Pr√≥ximos Pasos

### Hallazgos clave:
- **Volumen de datos**: Identificamos el tama√±o del dataset y periodo cubierto
- **Patrones temporales**: Visualizamos cu√°ndo se escucha m√°s m√∫sica
- **Preferencias**: Identificamos los tracks y artistas m√°s populares
- **Comportamiento**: Analizamos duraci√≥n promedio y razones de skip

### Pr√≥ximos pasos:
1. **Feature Engineering** (Notebook 02): Crear sesiones y features avanzadas
2. **An√°lisis de Series Temporales** (Notebook 03): Detectar tendencias y estacionalidad
3. **Modelos Predictivos** (Notebook 04): Predecir skips
4. **Sistema de Recomendaci√≥n** (Notebook 05): Recomendar tracks similares