## 1. Importar Dependencias

In [None]:
# Imports
import sys
sys.path.append('../src')

import pandas as pd
import numpy as np
from pathlib import Path
from generate_synthetic_data import generate_synthetic_spotify_data

# Configuraci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.2f}'.format)

print("‚úì Dependencias cargadas")

## 2. Generar Dataset Sint√©tico

Generamos 50,000 registros sint√©ticos con:
- Timestamps realistas distribuidos en 2 a√±os
- Artistas y tracks ficticios con tem√°tica tech
- Distribuciones estad√≠sticas similares a datos reales
- Todas las columnas del schema de Spotify

In [None]:
# Generar datos sint√©ticos
df_synthetic = generate_synthetic_spotify_data(
    n_rows=50000,
    output_path='../data/demo/synthetic_spotify_data.parquet'
)

print(f"\nüìä Dataset sint√©tico generado:")
print(f"  Shape: {df_synthetic.shape}")
print(f"  Memoria: {df_synthetic.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

## 3. Validar Datos Generados

In [None]:
# Estad√≠sticas b√°sicas
print("=== RESUMEN GENERAL ===")
print(f"Total reproducciones: {len(df_synthetic):,}")
print(f"Per√≠odo: {df_synthetic['ts'].min()} a {df_synthetic['ts'].max()}")
print(f"D√≠as totales: {(df_synthetic['ts'].max() - df_synthetic['ts'].min()).days}")
print(f"\nArtistas √∫nicos: {df_synthetic['master_metadata_album_artist_name'].nunique()}")
print(f"Tracks √∫nicos: {df_synthetic['spotify_track_uri'].nunique()}")
print(f"Plataformas: {df_synthetic['platform'].nunique()}")
print(f"Pa√≠ses: {df_synthetic['conn_country'].nunique()}")
print(f"\nHoras totales reproducidas: {df_synthetic['hours_played'].sum():.1f}")
print(f"Duraci√≥n promedio por track: {df_synthetic['minutes_played'].mean():.2f} min")

In [None]:
# Verificar schema
print("\n=== SCHEMA ===")
print(df_synthetic.dtypes)

In [None]:
# Vista previa
print("\n=== VISTA PREVIA ===")
df_synthetic.head(10)

## 4. Conclusi√≥n

‚úÖ Dataset sint√©tico generado exitosamente  
‚úÖ Todas las columnas presentes y con tipos correctos  
‚úÖ Distribuciones estad√≠sticas realistas  
‚úÖ Datos completamente anonimizados y seguros para compartir  

**Siguiente paso:** Usar este dataset en los notebooks de an√°lisis (01-05)