# **Dask: De Conceptos a Aplicaciones Pr√°cticas**

## Objetivos del Curso
- Comprender qu√© es Dask y por qu√© es fundamental para big data
- Dominar los conceptos de computaci√≥n distribuida y paralelizaci√≥n
- Procesar datasets grandes en m√°quina local
- Aplicar Dask en casos pr√°cticos reales
- Resolver problemas comunes y errores frecuentes

## Estructura del Curso
1. Introducci√≥n y Fundamentos (15 min) - Qu√© es Dask?
2. Conceptos T√©cnicos (20 min) - Lazy Evaluation y Particiones
3. Comparaci√≥n Pr√°ctica (15 min) - Pandas vs Dask
4. Caso Pr√°ctico (20 min) - Dataset de Vuelos Real
5. Optimizaci√≥n Avanzada (10 min) - Mejores Pr√°cticas


## 1. INTRODUCCI√ìN: QU√â ES DASK?

Dask es una biblioteca paralela y distribuida en Python que permite escalar c√°lculos comunes a conjuntos de datos m√°s grandes de los que pueden manejar pandas o numpy directamente.

### Qu√© problemas resuelve Dask?

- Memoria limitada: Procesar datos m√°s grandes que la RAM disponible
- CPU subutilizada: Aprovechar todos los n√∫cleos del procesador
- Escalabilidad: Desde laptop personal hasta clusters distribuidos
- API familiar: Sintaxis similar a pandas sin curva de aprendizaje pronunciada

### Ventajas principales:
- Sintaxis similar a pandas y numpy
- Manejo eficiente de datos que no entran en memoria
- Paralelismo autom√°tico y distribuci√≥n inteligente
- Integraci√≥n con m√∫ltiples fuentes de datos
- Ecosistema completo (DataFrame, Array, ML, Delayed)

### Instalaci√≥n

Si a√∫n no tienes instalado dask, ejecuta:


In [None]:
# ! pip install dask

Tambi√©n puedes instalarlo junto con otras dependencias √∫tiles:

In [None]:
# ! pip install dask[dataframe]

### Comparaci√≥n: Dask vs Pandas

| Caracter√≠stica | Pandas | Dask |
|----------------|--------|------|
| Datos en RAM | S√≠ (todo en memoria) | No (lazy evaluation) |
| Paralelizaci√≥n | No (procesamiento secuencial) | S√≠ (m√∫ltiples n√∫cleos) |
| Tama√±o m√°ximo | Limitado por RAM | S√≠ (terabytes) |
| API familiar | - | S√≠ (muy similar) |
| Velocidad | R√°pido para datasets peque√±os | M√°s lento por operaci√≥n, pero escalable |
| Memoria | Carga todo inmediatamente | Carga bajo demanda |


## 2. IMPORTACI√ìN Y CONFIGURACI√ìN

In [None]:
# Importar las librer√≠as necesarias
import pandas as pd
import dask.dataframe as dd
import dask as dk  # Dask principal para obtener versi√≥n
import numpy as np
import time
import matplotlib.pyplot as plt
import seaborn as sns

print(f"Versi√≥n de pandas: {pd.__version__}")
print(f"Versi√≥n de dask: {dk.__version__}")
print("Imports completados exitosamente")

## 3. CONCEPTOS FUNDAMENTALES

### A. Lazy Evaluation (Evaluaci√≥n Perezosa)

Concepto clave: Dask no ejecuta operaciones inmediatamente, las construye en un grafo de tareas que se ejecuta solo cuando:
- Llamamos .compute()
- Guardamos a disco
- Mostramos resultados (trigger impl√≠cito)

Esta estrategia permite:
- Inicializaci√≥n r√°pida (no carga datos inmediatamente)
- Optimizaci√≥n global del plan de ejecuci√≥n
- Planificaci√≥n inteligente de operaciones

In [None]:
# Demostraci√≥n de Lazy Evaluation
print("Demostrando Lazy Evaluation...")
start_time = time.time()

# Crear un DataFrame de Dask (no se carga en memoria a√∫n)
n_partitions = 4
df_demo = dd.from_pandas(
    pd.DataFrame({
        'id': range(100000),
        'valor': np.random.randn(100000),
        'categoria': np.random.choice(['A', 'B', 'C'], 100000),
        'fecha': pd.date_range('2023-01-01', periods=100000, freq='1min')
    }),
    npartitions=n_partitions
)

creation_time = time.time() - start_time
print(f"DataFrame creado en {creation_time:.4f} segundos")
print(f"Tipo: {type(df_demo)}")
print(f"Particiones: {df_demo.npartitions}")

print("\nPlan de ejecuci√≥n (lazy - SIN ejecutar):")
print(df_demo)  # Solo muestra el plan, no ejecuta

In [None]:
# Trigger la ejecuci√≥n con .compute()
print("Ejecutando .compute()...")
start_time = time.time()

result = df_demo.compute()

execution_time = time.time() - start_time
print(f"Ejecutado en {execution_time:.2f} segundos")
print(f"Forma del resultado: {result.shape}")
print(f"Tipo: {type(result)}")

print("\nPrimeras 5 filas:")
result.head()

## 4. CASO PR√ÅCTICO: DATASET DE VUELOS

### An√°lisis de Datos de Aviaci√≥n con Dask

Usaremos un dataset real de vuelos para demostrar el poder de Dask:

In [None]:
# URLs de datasets de vuelos (de diferentes tama√±os)
print("CONFIGURACI√ìN DE DATOS DE VUELOS")
print("=" * 40)

big_csv="https://github.com/ricardoahumada/Python_for_Data_Science/raw/refs/heads/master/data/2008.zip"
small_csv="https://github.com/ricardoahumada/Python_for_Data_Science/raw/refs/heads/master/data/2008_small.zip"
very_small_csv = 'https://github.com/ricardoahumada/data-for-auditors/raw/refs/heads/main/4.%20An%C3%A1lisis%20Masivo%20de%20Datos/Optimizacion/data/2008_very_small.csv'

print("Dataset disponible: vuelos peque√±os (~7MB) para demo")
print("\nPara archivos grandes, Dask necesita dependencias adicionales:")
print("# !pip install requests aiohttp")

In [None]:
# Cargar dataset con Dask (dataset muy peque√±o para demo)
print("Cargando dataset con Dask...")
start_time = time.time()

try:
    df_vuelos = dd.read_csv(small_csv, dtype={'CancellationCode': 'object'})
    load_time = time.time() - start_time
    
    print(f"Dataset cargado en {load_time:.2f} segundos")
    print(f"Tipo: {type(df_vuelos)}")
    print(f"Particiones: {df_vuelos.npartitions}")
    
    # Ver estructura sin ejecutar completamente
    print(f"\nPlan de ejecuci√≥n:")
    print(df_vuelos)
    
except Exception as e:
    print(f"Error cargando dataset: {e}")
    print("Usando dataset sint√©tico alternativo...")
    
    # Dataset sint√©tico alternativo
    df_vuelos = dd.from_pandas(
        pd.DataFrame({
            'Year': np.random.randint(2008, 2009, 10000),
            'Month': np.random.randint(1, 13, 10000),
            'DayofMonth': np.random.randint(1, 32, 10000),
            'DayOfWeek': np.random.randint(1, 8, 10000),
            'DepDelay': np.random.randint(-30, 300, 10000),
            'ArrDelay': np.random.randint(-30, 300, 10000),
            'Origin': np.random.choice(['JFK', 'LAX', 'ORD', 'ATL', 'DFW'], 10000),
            'Dest': np.random.choice(['JFK', 'LAX', 'ORD', 'ATL', 'DFW'], 10000),
            'Distance': np.random.randint(100, 3000, 10000)
        }),
        npartitions=4
    )
    print("Dataset sint√©tico de vuelos creado")

In [None]:
# Verificar estructura del DataFrame
print("ESTRUCTURA DEL DATASET DE VUELOS")
print("=" * 40)

# Mostrar las primeras filas (ejecuta el plan)
print("\nPrimeras 5 filas:")
df_vuelos.head()

In [None]:
# Informaci√≥n de columnas
print("\nColumnas disponibles:")
print(df_vuelos.columns.tolist())

print("\nTipos de datos:")
print(df_vuelos.dtypes)

### An√°lisis de Vuelos con Dask

In [None]:
# An√°lisis de retrasos de vuelos
print("AN√ÅLISIS DE VUELOS CON DASK")
print("=" * 40)

# 1. Filtrar vuelos con retraso
print("\n1. Vuelos con retraso de salida > 3 minutos:")
start = time.time()
vuelos_retrasados = df_vuelos[df_vuelos['DepDelay'] > 3]
resultado = vuelos_retrasados.compute()
print(f"Tiempo: {time.time() - start:.3f} segundos")
print(f"Vuelos con retraso: {len(resultado):,} de {len(df_vuelos.compute()):,} total")
print(f"Porcentaje: {(len(resultado)/len(df_vuelos.compute()))*100:.1f}%")

# 2. Seleccionar columnas espec√≠ficas
print("\n2. Seleccionar columnas de fecha:")
fecha_cols = df_vuelos[['Year', 'Month', 'DayofMonth', 'DayOfWeek']]
print("Columnas seleccionadas: Year, Month, DayofMonth, DayOfWeek")
fecha_cols.head()

In [None]:
# 3. Calcular promedios de retraso
print("\n3. An√°lisis de retrasos:")
start = time.time()

promedio_dep_delay = df_vuelos['DepDelay'].mean().compute()
promedio_arr_delay = df_vuelos['ArrDelay'].mean().compute()

print(f"Tiempo: {time.time() - start:.3f} segundos")
print(f"Retraso promedio salida: {promedio_dep_delay:.2f} minutos")
print(f"Retraso promedio llegada: {promedio_arr_delay:.2f} minutos")

# 4. Agrupamiento por aeropuerto de origen
print("\n4. Retrasos por aeropuerto de origen:")
start = time.time()
retrasos_origen = df_vuelos.groupby('Origin')['DepDelay'].mean().compute()
print(f"Tiempo: {time.time() - start:.3f} segundos")
print("\nRetrasos promedio por aeropuerto:")
for aeropuerto, retraso in retrasos_origen.sort_values(ascending=False).items():
    print(f"   {aeropuerto}: {retraso:.2f} minutos")

## 5. COMPARACI√ìN PR√ÅCTICA: PANDAS VS DASK

### Performance en Dataset Real

Vamos a comparar el rendimiento en el mismo dataset:

In [None]:
# Comparaci√≥n directa Pandas vs Dask
print("COMPARACI√ìN DE PERFORMANCE: PANDAS VS DASK")
print("=" * 55)

# Convertir a pandas para comparaci√≥n
print("Convirtiendo a pandas para comparaci√≥n...")
df_pandas = df_vuelos.compute()
print(f"Dataset pandas: {df_pandas.shape}")

print("\nComparaci√≥n de operaciones b√°sicas:")

# Operaci√≥n 1: Filtrado
print("\n1. FILTRADO: Vuelos con DepDelay > 15")

# Pandas
start = time.time()
pandas_filtro = df_pandas[df_pandas['DepDelay'] > 15]
pandas_time = time.time() - start
pandas_result_count = len(pandas_filtro)

# Dask
start = time.time()
dask_filtro = df_vuelos[df_vuelos['DepDelay'] > 15].compute()
dask_time = time.time() - start
dask_result_count = len(dask_filtro)

print(f"   Pandas: {pandas_time:.4f} segundos - {pandas_result_count:,} resultados")
print(f"   Dask:   {dask_time:.4f} segundos - {dask_result_count:,} resultados")
print(f"   Ganador: {'Dask' if dask_time < pandas_time else 'Pandas'}")

# Operaci√≥n 2: GroupBy
print("\n2. GROUPBY: Retrasos por aeropuerto")

# Pandas
start = time.time()
pandas_groupby = df_pandas.groupby('Origin')['DepDelay'].mean()
pandas_time = time.time() - start

# Dask
start = time.time()
dask_groupby = df_vuelos.groupby('Origin')['DepDelay'].mean().compute()
dask_time = time.time() - start

print(f"   Pandas: {pandas_time:.4f} segundos")
print(f"   Dask:   {dask_time:.4f} segundos")
print(f"   Ganador: {'Dask' if dask_time < pandas_time else 'Pandas'}")

## 6. OPTIMIZACI√ìN AVANZADA

### T√©cnicas para Maximizar el Rendimiento de Dask

In [None]:
# Optimizaci√≥n 1: Tipos de datos eficientes
print("OPTIMIZACI√ìN: TIPOS DE DATOS")
print("=" * 35)

print("\nTipos de datos originales:")
print(df_vuelos.dtypes)

# Optimizar tipos de datos
print("\nOptimizando tipos de datos...")
start = time.time()

# Convertir columnas categ√≥ricas
df_optimized = df_vuelos.copy()
if 'Origin' in df_optimized.columns:
    df_optimized['Origin'] = df_optimized['Origin'].astype('category')
if 'Dest' in df_optimized.columns:
    df_optimized['Dest'] = df_optimized['Dest'].astype('category')

# Convertir enteros grandes a tipos m√°s peque√±os
int_columns = ['Year', 'Month', 'DayofMonth', 'DayOfWeek']
for col in int_columns:
    if col in df_optimized.columns:
        df_optimized[col] = df_optimized[col].astype('int8')

# Convertir delays a float32 para ahorrar memoria
float_columns = ['DepDelay', 'ArrDelay']
for col in float_columns:
    if col in df_optimized.columns:
        df_optimized[col] = df_optimized[col].astype('float32')

optimization_time = time.time() - start
print(f"Optimizaci√≥n completada en {optimization_time:.3f} segundos")

print("\nTipos de datos optimizados:")
print(df_optimized.dtypes)

## 7. DEMOSTRACI√ìN PR√ÅCTICA: DATASET DE 1GB

### Objetivo: Procesar un dataset realista de ~1GB

Vamos a:
1. **Generar** un dataset de 1GB de datos de e-commerce
2. **Analizar** patrones de comportamiento de usuarios
3. **Optimizar** queries usando las mejores pr√°cticas de Dask

In [None]:
# Funci√≥n para generar dataset grande - VERSI√ìN CORREGIDA
def generar_dataset_ecommerce(tama√±o_gb=0.5):
    """
    Genera un dataset de e-commerce del tama√±o especificado - VERSI√ìN SIN ERRORES
    Estimaci√≥n: ~100MB por mill√≥n de filas
    """
    print(f"üöÄ Generando dataset de {tama√±o_gb}GB...")
    
    # Calcular n√∫mero de filas basado en tama√±o deseado
    filas_por_mb = 10000  # Estimaci√≥n
    total_filas = int(tama√±o_gb * 1000 * filas_por_mb)  # 100MB por mill√≥n de filas
    
    print(f"Generando {total_filas:,} filas...")
    
    # Crear datos sint√©ticos realistas
    np.random.seed(42)  # Para reproducibilidad
    
    start_time = time.time()
    
    # Generar en chunks para memoria eficiente
    chunk_size = 100000
    chunks = []
    
    productos = ['Laptop', 'Smartphone', 'Tablet', 'Auriculares', 'Monitor', 
                'Teclado', 'Mouse', 'Impresora', 'Webcam', 'Micr√≥fono',
                'Smartwatch', 'C√°mara', 'Parlantes', 'Disco Duro', 'RAM']
    
    categorias = ['Electr√≥nicos', 'Accesorios', 'Computadoras', 'Audio', 'Video']
    
    usuarios = [f'usuario_{i}' for i in range(1, 100001)]  # 100k usuarios √∫nicos
    
    for i in range(0, total_filas, chunk_size):
        current_size = min(chunk_size, total_filas - i)
        
        # ‚úÖ CORRECCI√ìN: Generar fechas directamente sin shift()
        # En lugar de usar shift() que causaba problemas con arrays
        fecha_base = pd.Timestamp('2023-01-01')
        # Generar offsets aleatorios en minutos
        offsets_minutos = np.random.randint(-365*24*60, 0, current_size)
        fechas_compra = pd.to_datetime(fecha_base + pd.to_timedelta(offsets_minutos, unit='m'))
        
        chunk = pd.DataFrame({
            'user_id': np.random.choice(usuarios, current_size),
            'producto': np.random.choice(productos, current_size),
            'categoria': np.random.choice(categorias, current_size),
            'precio': np.random.uniform(20, 2000, current_size).round(2),
            'cantidad': np.random.poisson(2, current_size) + 1,  # Poisson para naturalidad
            'descuento': np.random.uniform(0, 0.3, current_size).round(2),  # 0-30% descuento
            'fecha_compra': fechas_compra,  # ‚úÖ SOLUCI√ìN: Fechas generadas directamente
            'pais': np.random.choice(['Espa√±a', 'Francia', 'Alemania', 'Italia', 'Portugal'], current_size),
            'metodo_pago': np.random.choice(['Tarjeta', 'PayPal', 'Transferencia', 'Bizum'], current_size),
            'rating': np.random.randint(1, 6, current_size)  # 1-5 estrellas
        })
        
        # Calcular precio final con descuento
        chunk['precio_final'] = (chunk['precio'] * (1 - chunk['descuento']) * chunk['cantidad']).round(2)
        
        chunks.append(chunk)
        
        if i % 1000000 == 0 and i > 0:
            print(f"  Generadas {i:,} filas...")
    
    # Combinar chunks
    df_completo = pd.concat(chunks, ignore_index=True)
    
    # Calcular tama√±o real
    tama√±o_mb = df_completo.memory_usage(deep=True).sum() / 1024 / 1024
    
    print(f"‚úÖ Dataset generado en {time.time() - start_time:.2f} segundos")
    print(f"üìä Filas: {len(df_completo):,}")
    print(f"üíæ Tama√±o en memoria: {tama√±o_mb:.1f} MB")
    
    return df_completo

print("‚úÖ Funci√≥n corregida lista - Ya no hay errores de array ambiguity")

In [None]:
# Generar dataset (AHORA SIN ERRORES)
print("üî• GENERANDO DATASET...")
df_ecommerce = generar_dataset_ecommerce(tama√±o_gb=0.5)  # 500MB por tiempo del curso
print(f"\nDataset listo para an√°lisis: {df_ecommerce.shape}")
print(f"üìã Columnas: {list(df_ecommerce.columns)}")
print(f"\nüîç Primeras 3 filas:")
df_ecommerce.head(3)

In [None]:
# Convertir a DataFrame de Dask
print("üîÑ Convirtiendo a DataFrame de Dask...")
start_time = time.time()

# Dividir en particiones basadas en el n√∫mero de CPUs
import os
n_cores = os.cpu_count() or 4
n_partitions = min(n_cores * 2, 8)  # Doble n√∫mero de cores, m√°ximo 8

print(f"Usando {n_partitions} particiones en {n_cores} cores")

df_dask_ecommerce = dd.from_pandas(df_ecommerce, npartitions=n_partitions)

print(f"‚úÖ Conversi√≥n completada en {time.time() - start_time:.2f} segundos")
print(f"Forma: {df_dask_ecommerce.shape}")
print(f"Particiones: {df_dask_ecommerce.npartitions}")

### An√°lisis 1: Performance Comparison

**Compararemos la velocidad entre Pandas y Dask:**

In [None]:
# Comparaci√≥n de performance: Pandas vs Dask
print("‚ö° COMPARACI√ìN DE PERFORMANCE")
print("=" * 50)

# Operaci√≥n 1: Filtrado simple
print("\n1. Filtrado de compras > $100:")

# Pandas
start = time.time()
pandas_result = df_ecommerce[df_ecommerce['precio_final'] > 100]
pandas_time = time.time() - start
print(f"   Pandas: {pandas_time:.2f} segundos - {len(pandas_result):,} resultados")

# Dask
start = time.time()
dask_result = df_dask_ecommerce[df_dask_ecommerce['precio_final'] > 100].compute()
dask_time = time.time() - start
print(f"   Dask:   {dask_time:.2f} segundos - {len(dask_result):,} resultados")

print(f"   üöÄ Dask es {pandas_time/dask_time:.1f}x m√°s r√°pido" if dask_time < pandas_time else f"   üêå Pandas es {dask_time/pandas_time:.1f}x m√°s r√°pido")

# Operaci√≥n 2: GroupBy complejo
print("\n2. Ventas por categor√≠a y pa√≠s:")

# Pandas
start = time.time()
pandas_groupby = df_ecommerce.groupby(['categoria', 'pais'])['precio_final'].agg(['sum', 'mean', 'count'])
pandas_time = time.time() - start
print(f"   Pandas: {pandas_time:.2f} segundos")

# Dask
start = time.time()
dask_groupby = df_dask_ecommerce.groupby(['categoria', 'pais'])['precio_final'].agg(['sum', 'mean', 'count']).compute()
dask_time = time.time() - start
print(f"   Dask:   {dask_time:.2f} segundos")

print(f"   üöÄ Dask es {pandas_time/dask_time:.1f}x m√°s r√°pido" if dask_time < pandas_time else f"   üêå Pandas es {dask_time/pandas_time:.1f}x m√°s r√°pido")

### An√°lisis 2: Insights de Negocio

**Vamos a extraer insights √∫tiles del dataset:**

In [None]:
# An√°lisis de negocio con Dask
print("üìà AN√ÅLISIS DE NEGOCIO")
print("=" * 50)

# 1. Top productos por ingresos
print("\nüèÜ Top 5 productos por ingresos totales:")
start = time.time()
top_productos = df_dask_ecommerce.groupby('producto')['precio_final'].sum().nlargest(5).compute()
print(f"Tiempo: {time.time() - start:.2f} segundos")
for i, (producto, ingresos) in enumerate(top_productos.items(), 1):
    print(f"   {i}. {producto}: ${ingresos:,.2f}")

# 2. An√°lisis temporal
print("\nüìÖ Ingresos por mes:")
start = time.time()
df_dask_ecommerce['mes'] = df_dask_ecommerce['fecha_compra'].dt.to_period('M')
ingresos_mes = df_dask_ecommerce.groupby('mes')['precio_final'].sum().compute()
print(f"Tiempo: {time.time() - start:.2f} segundos")
print("Primeros 5 meses:")
print(ingresos_mes.head())

# 3. Segmentaci√≥n de clientes
print("\nüë• Segmentaci√≥n por gasto total:")
start = time.time()
gasto_usuarios = df_dask_ecommerce.groupby('user_id')['precio_final'].sum().compute()
gasto_usuarios = gasto_usuarios.reset_index()
gasto_usuarios['segmento'] = pd.cut(gasto_usuarios['precio_final'], 
                                   bins=[0, 100, 500, 1000, float('inf')], 
                                   labels=['Bajo', 'Medio', 'Alto', 'VIP'])
segmentos = gasto_usuarios['segmento'].value_counts()
print(f"Tiempo: {time.time() - start:.2f} segundos")
print("Distribuci√≥n de segmentos:")
for segmento, cantidad in segmentos.items():
    porcentaje = (cantidad / len(gasto_usuarios)) * 100
    print(f"   {segmento}: {cantidad:,} usuarios ({porcentaje:.1f}%)")

## 8. EJERCICIO FINAL: TU TURNO

### **Tiempo: 10 minutos**

**Objetivo**: Analizar patrones de comportamiento de usuarios usando Dask

**Dataset**: Usa el mismo `df_dask_ecommerce` que hemos estado trabajando

**Tareas**:
1. **Identifica** el top 3 de usuarios m√°s rentables
2. **Calcula** el valor promedio de transacci√≥n por m√©todo de pago
3. **Encuentra** la correlaci√≥n entre rating y precio final
4. **Determina** qu√© d√≠a de la semana genera m√°s ventas

**Instrucciones**:
- Escribe el c√≥digo completo en la celda siguiente
- Usa `.compute()` solo cuando sea necesario
- Muestra los resultados de forma clara
- Explica qu√© insights obtienes

In [27]:
# üìù EJERCICIO FINAL - Completa el c√≥digo

print("üéØ EJERCICIO FINAL: An√°lisis de Comportamiento de Usuarios")
print("=" * 60)

# Tu c√≥digo aqu√≠:

# 1. TOP 3 USUARIOS M√ÅS RENTABLES
print("\n1. üèÜ TOP 3 USUARIOS M√ÅS RENTABLES:")
# Hint: usa groupby('user_id')['precio_final'].sum() y .nlargest(3)




# 2. VALOR PROMEDIO POR M√âTODO DE PAGO
print("\n2. üí≥ VALOR PROMEDIO POR M√âTODO DE PAGO:")
# Hint: usa groupby('metodo_pago')['precio_final'].mean()




# 3. CORRELACI√ìN ENTRE RATING Y PRECIO
print("\n3. ‚≠ê CORRELACI√ìN RATING-PRECIO:")
# Hint: usa .corr() entre las columnas 'rating' y 'precio_final'




# 4. D√çA DE LA SEMANA CON M√ÅS VENTAS
print("\n4. üìÖ MEJOR D√çA DE LA SEMANA:")
# Hint: extrae day_name() de fecha_compra y agrupa por ese campo




# üí° INSIGHTS ADICIONALES
print("\n5. üí° TUS INSIGHTS:")
# ¬øQu√© patrones interesante encuentras?
# ¬øQu√© recomendaciones har√≠as al negocio?




print("\n‚úÖ ¬°Ejercicio completado!")

üéØ EJERCICIO FINAL: An√°lisis de Comportamiento de Usuarios

1. üèÜ TOP 3 USUARIOS M√ÅS RENTABLES:

2. üí≥ VALOR PROMEDIO POR M√âTODO DE PAGO:

3. ‚≠ê CORRELACI√ìN RATING-PRECIO:

4. üìÖ MEJOR D√çA DE LA SEMANA:

5. üí° TUS INSIGHTS:

‚úÖ ¬°Ejercicio completado!


## 9. RESUMEN Y CASOS DE USO

### Lo que has aprendido en este curso:

1. **Lazy Evaluation**: Dask construye planes de ejecuci√≥n, no ejecuta inmediatamente
2. **Particiones**: C√≥mo Dask divide los datos para paralelizaci√≥n eficiente
3. **API Familiar**: Sintaxis similar a Pandas pero distribuida y escalable
4. **Performance**: Cu√°ndo usar Dask vs Pandas seg√∫n el tama√±o del dataset
5. **Optimizaciones**: Tipos de datos, particionamiento y limpieza de datos
6. **Casos Pr√°cticos**: An√°lisis real de vuelos con datasets grandes

### Casos de uso ideales para Dask:

- Datasets de 1GB+ en laptop personal
- An√°lisis de logs y datos de sensores
- Procesamiento ETL distribuido
- Machine Learning con datasets grandes
- An√°lisis financiero en tiempo real
- Procesamiento de datos cient√≠ficos

### Cu√°ndo usar Dask vs Pandas:

| Situaci√≥n | Recomendaci√≥n |
|-----------|---------------|
| Dataset < 100MB | Pandas (m√°s r√°pido) |
| Dataset 100MB - 1GB | Dask (si hay m√∫ltiples n√∫cleos) |
| Dataset > 1GB | Dask (necesario) |
| Datasets que no caben en RAM | Dask (lazy loading) |
| An√°lisis simple de una vez | Pandas |
| Pipeline complejo distribuido | Dask |


## 8. RECURSOS ADICIONALES

### Documentaci√≥n y Aprendizaje

- Documentaci√≥n oficial: https://docs.dask.org/en/stable/
- Tutorial interactivo: https://tutorial.dask.org
- Comunidad: https://stackoverflow.com/questions/tagged/dask
- Ejemplos reales: https://github.com/dask/dask-examples
- Gu√≠a de migraci√≥n de Pandas: https://docs.dask.org/en/stable/dataframe-api.html

### Pr√≥ximos Pasos

1. **Practica** con tus propios datasets
2. **Experimenta** con diferentes n√∫meros de particiones
3. **Aprende** Dask-ML para machine learning
4. **Explora** Dask-Delayed para funciones personalizadas
5. **Considera** clusters distribuidos para datasets masivos