# Q1: Top 10 Fechas con M√°s Tweets

## Objetivo

Encontrar las **top 10 fechas** (por conteo de tweets) y para cada una, el **usuario con m√°s tweets ese d√≠a**.

**Output esperado:** `List[Tuple[datetime.date, str]]`

## Enfoque Experimental: Comparaci√≥n TIME vs MEMORY

Este notebook eval√∫a **cuatro enfoques diferentes** para resolver Q1, divididos en dos categor√≠as:

### üöÄ TIME-OPTIMIZED (In-Memory)
Prioridad: **m√°xima velocidad de ejecuci√≥n**

#### üîµ Approach 1: Polars In-Memory
- Biblioteca moderna escrita en Rust
- Columnar storage (Apache Arrow)
- **Carga completa en memoria con `scan_ndjson().collect()`**
- Lazy evaluation + eager collection
- Operaciones vectorizadas y paralelizadas

#### üü† Approach 2: Pandas In-Memory  
- Biblioteca tradicional de Python
- Basada en NumPy
- **Carga completa en memoria con `read_json(lines=True)`**
- Eager evaluation
- Ampliamente usada en la industria

### üíæ MEMORY-OPTIMIZED (Streaming)
Prioridad: **m√≠nimo consumo de memoria**

#### üîµ Approach 3: Polars Streaming
- Lazy evaluation sin materializaci√≥n temprana
- Streaming aggregations
- Solo materializa resultados finales
- Procesa datos sin cargar todo en RAM

#### üü† Approach 4: Pandas Chunked Processing
- Procesamiento por chunks con `chunksize`
- Contadores incrementales
- Evita DataFrames intermedios grandes
- Trade-off memoria por tiempo

---

## Objetivos de la Comparaci√≥n

1. **Performance**: Medir tiempo de ejecuci√≥n de cada enfoque
2. **Memory**: Medir consumo de memoria (RSS delta)
3. **Profiling**: Identificar bottlenecks con cProfile
4. **Trade-offs**: Evaluar cu√°ndo usar cada estrategia
5. **Correctitud**: Verificar que todos producen resultados id√©nticos

---

## Setup

Imports y configuraci√≥n inicial.

In [2]:
import polars as pl
import pandas as pd
from datetime import datetime, date
from typing import List, Tuple
import time
import psutil
import os
import gc
from pathlib import Path

In [3]:
DATASET_PATH = "../../data/raw/farmers-protest-tweets-2021-2-4.json"

dataset_path = Path(DATASET_PATH)

if not dataset_path.exists():
    print(f"ERROR: Dataset not found at {DATASET_PATH}")
    print("Run: python src/dataset/download_dataset.py")
else:
    file_size_mb = dataset_path.stat().st_size / (1024 * 1024)
    print(f"Dataset found: {file_size_mb:.2f} MB")

Dataset found: 388.83 MB


---

## Implementaci√≥n 1: Polars (TIME-optimized, In-Memory)

In [None]:
def q1_time_polars(file_path: str) -> List[Tuple[date, str]]:
    # Leer el archivo JSON en modo lazy (no se carga en memoria a√∫n).
    # Solo se seleccionan las columnas necesarias para Q1:
    # - date_only: fecha truncada a nivel d√≠a (YYYY-MM-DD)
    # - username: nombre de usuario del autor del tweet
    df = (
        pl.scan_ndjson(file_path)
        .select([
            pl.col("date").str.slice(0, 10).alias("date_only"),
            pl.col("user").struct.field("username").alias("username")
        ])
        # Filtrar registros inv√°lidos de forma expl√≠cita
        .filter(
            pl.col("username").is_not_null() &
            pl.col("date_only").is_not_null()
        )
        # Materializar el DataFrame completo en memoria
        .collect()
    )

    # Calcular el top 10 de fechas con mayor n√∫mero de tweets
    # Se agrupa por fecha, se cuentan tweets y se ordena:
    # - Primero por n√∫mero de tweets (descendente)
    # - Luego por fecha (ascendente) para desempates determin√≠sticos
    top_dates = (
        df
        .group_by("date_only")
        .agg(pl.len().alias("tweet_count"))
        .sort(["tweet_count", "date_only"], descending=[True, False])
        .head(10)
    )

    results = []

    # Para cada una de las fechas top, se identifica el usuario m√°s activo
    for row in top_dates.iter_rows(named=True):
        date_str = row["date_only"]

        # Filtrar los tweets correspondientes a la fecha actual
        date_df = df.filter(pl.col("date_only") == date_str)

        # Agrupar por usuario y contar tweets por usuario en ese d√≠a
        # Se ordena por:
        # - n√∫mero de tweets del usuario (descendente)
        # - username (ascendente) para desempates determin√≠sticos
        top_user = (
            date_df
            .group_by("username")
            .agg(pl.len().alias("user_tweet_count"))
            .sort(["user_tweet_count", "username"], descending=[True, False])
            .head(1)
        )

        # Extraer el username ganador
        username = top_user["username"][0]

        # Convertir la fecha de string a datetime.date
        date_obj = datetime.strptime(date_str, "%Y-%m-%d").date()

        # Agregar la tupla (fecha, username) al resultado final
        results.append((date_obj, username))

    # Retornar la lista de resultados en el formato solicitado
    return results

In [5]:
result_polars = q1_time_polars(str(dataset_path))

print("Polars - Top 10 Dates:")
print("=" * 60)
for i, (date_obj, username) in enumerate(result_polars, 1):
    print(f"{i:2d}. {date_obj} -> @{username}")

Polars - Top 10 Dates:
 1. 2021-02-12 -> @RanbirS00614606
 2. 2021-02-13 -> @MaanDee08215437
 3. 2021-02-17 -> @RaaJVinderkaur
 4. 2021-02-16 -> @jot__b
 5. 2021-02-14 -> @rebelpacifist
 6. 2021-02-18 -> @neetuanjle_nitu
 7. 2021-02-15 -> @jot__b
 8. 2021-02-20 -> @MangalJ23056160
 9. 2021-02-23 -> @Surrypuria
10. 2021-02-19 -> @Preetm91


Los resultados muestran las top 10 fechas ordenadas por n√∫mero de tweets. El 2021-02-12 tiene el mayor volumen con 12,347 tweets, y el usuario m√°s activo ese d√≠a fue @RanbirS00614606 con 176 tweets (1.4% del total del d√≠a).

In [6]:
df_verify_polars = pl.scan_ndjson(str(dataset_path)).select([
    pl.col("date").str.slice(0, 10).alias("date_only"),
    pl.col("user").struct.field("username").alias("username")
]).filter(
    pl.col("username").is_not_null() & 
    pl.col("date_only").is_not_null()
).collect()

print("\nPolars - Verification (Tweet Counts):")
print("=" * 80)
print(f"{'#':<3} {'Date':<12} {'Top User':<20} {'Total Tweets':>15} {'User Tweets':>15}")
print("-" * 80)

for i, (date_obj, username) in enumerate(result_polars, 1):
    date_str = date_obj.strftime("%Y-%m-%d")
    total_tweets = df_verify_polars.filter(pl.col("date_only") == date_str).height
    user_tweets = df_verify_polars.filter(
        (pl.col("date_only") == date_str) & (pl.col("username") == username)
    ).height
    print(f"{i:<3} {date_str:<12} @{username:<19} {total_tweets:>15,} {user_tweets:>15,}")


Polars - Verification (Tweet Counts):
#   Date         Top User                Total Tweets     User Tweets
--------------------------------------------------------------------------------
1   2021-02-12   @RanbirS00614606              12,347             176
2   2021-02-13   @MaanDee08215437              11,296             178
3   2021-02-17   @RaaJVinderkaur               11,087             185
4   2021-02-16   @jot__b                       10,443             133
5   2021-02-14   @rebelpacifist                10,249             119
6   2021-02-18   @neetuanjle_nitu               9,625             195
7   2021-02-15   @jot__b                        9,197             134
8   2021-02-20   @MangalJ23056160               8,502             108
9   2021-02-23   @Surrypuria                    8,417             135
10  2021-02-19   @Preetm91                      8,204             267


---

## Implementaci√≥n 2: Pandas (TIME-optimized, In-Memory)

In [None]:
def q1_time_pandas(file_path: str) -> List[Tuple[date, str]]:
    # Leer el archivo JSON Lines completo en memoria usando Pandas
    # Cada l√≠nea se convierte en una fila del DataFrame
    df = pd.read_json(file_path, lines=True)

    # Extraer la fecha a nivel d√≠a (YYYY-MM-DD) a partir del campo 'date'
    # Se fuerza a string para asegurar slicing consistente
    df['date_only'] = df['date'].astype(str).str[:10]

    # Extraer el username desde el campo anidado 'user'
    # Se usa apply con lambda porque 'user' es un diccionario por fila
    df['username'] = df['user'].apply(
        lambda x: x.get('username') if isinstance(x, dict) else None
    )

    # Conservar solo las columnas necesarias y eliminar registros inv√°lidos
    df = df[['date_only', 'username']].dropna()

    # Calcular el top 10 de fechas con m√°s tweets
    # Agrupar por fecha, contar filas y ordenar:
    # - tweet_count descendente
    # - date_only ascendente para desempates determin√≠sticos
    top_dates = (
        df.groupby('date_only')
        .size()
        .reset_index(name='tweet_count')
        .sort_values(['tweet_count', 'date_only'], ascending=[False, True])
        .head(10)
    )

    results = []

    # Para cada fecha top, encontrar el usuario con m√°s tweets ese d√≠a
    for _, row in top_dates.iterrows():
        date_str = row['date_only']

        # Filtrar tweets correspondientes a la fecha actual
        date_df = df[df['date_only'] == date_str]

        # Agrupar por username y contar tweets por usuario en esa fecha
        # Ordenar por:
        # - n√∫mero de tweets (descendente)
        # - username (ascendente) para desempates determin√≠sticos
        top_user = (
            date_df.groupby('username')
            .size()
            .reset_index(name='user_tweet_count')
            .sort_values(['user_tweet_count', 'username'], ascending=[False, True])
            .head(1)
        )

        # Extraer el username ganador
        username = top_user['username'].iloc[0]

        # Convertir la fecha a objeto datetime.date
        date_obj = datetime.strptime(date_str, "%Y-%m-%d").date()

        # Agregar la tupla (fecha, username) al resultado final
        results.append((date_obj, username))

    # Retornar la lista de resultados en el formato solicitado
    return results


In [8]:
result_pandas = q1_time_pandas(str(dataset_path))

print("Pandas - Top 10 Dates:")
print("=" * 60)
for i, (date_obj, username) in enumerate(result_pandas, 1):
    print(f"{i:2d}. {date_obj} -> @{username}")

Pandas - Top 10 Dates:
 1. 2021-02-12 -> @RanbirS00614606
 2. 2021-02-13 -> @MaanDee08215437
 3. 2021-02-17 -> @RaaJVinderkaur
 4. 2021-02-16 -> @jot__b
 5. 2021-02-14 -> @rebelpacifist
 6. 2021-02-18 -> @neetuanjle_nitu
 7. 2021-02-15 -> @jot__b
 8. 2021-02-20 -> @MangalJ23056160
 9. 2021-02-23 -> @Surrypuria
10. 2021-02-19 -> @Preetm91


Pandas produce exactamente los mismos resultados que Polars: mismas 10 fechas, mismos usuarios top, mismo orden. La verificaci√≥n de counts confirma que ambas implementaciones procesan el dataset de forma id√©ntica.

---

## Verificaci√≥n: Resultados Id√©nticos

In [9]:
df_verify_pandas = pd.read_json(str(dataset_path), lines=True)

df_verify_pandas['date_only'] = df_verify_pandas['date'].astype(str).str[:10]
df_verify_pandas['username'] = df_verify_pandas['user'].apply(
    lambda x: x.get('username') if isinstance(x, dict) else None
)

df_verify_pandas = df_verify_pandas[['date_only', 'username']].dropna()

print("\nPandas - Verification (Tweet Counts):")
print("=" * 80)
print(f"{'#':<3} {'Date':<12} {'Top User':<20} {'Total Tweets':>15} {'User Tweets':>15}")
print("-" * 80)

for i, (date_obj, username) in enumerate(result_pandas, 1):
    date_str = date_obj.strftime("%Y-%m-%d")
    total_tweets = len(df_verify_pandas[df_verify_pandas['date_only'] == date_str])
    user_tweets = len(df_verify_pandas[
        (df_verify_pandas['date_only'] == date_str) & 
        (df_verify_pandas['username'] == username)
    ])
    print(f"{i:<3} {date_str:<12} @{username:<19} {total_tweets:>15,} {user_tweets:>15,}")


Pandas - Verification (Tweet Counts):
#   Date         Top User                Total Tweets     User Tweets
--------------------------------------------------------------------------------
1   2021-02-12   @RanbirS00614606              12,347             176
2   2021-02-13   @MaanDee08215437              11,296             178
3   2021-02-17   @RaaJVinderkaur               11,087             185
4   2021-02-16   @jot__b                       10,443             133
5   2021-02-14   @rebelpacifist                10,249             119
6   2021-02-18   @neetuanjle_nitu               9,625             195
7   2021-02-15   @jot__b                        9,197             134
8   2021-02-20   @MangalJ23056160               8,502             108
9   2021-02-23   @Surrypuria                    8,417             135
10  2021-02-19   @Preetm91                      8,204             267


In [10]:
if result_polars == result_pandas:
    print("‚úÖ Polars and Pandas produce IDENTICAL results")
    print(f"   {len(result_polars)} tuples match perfectly")
else:
    print("‚ùå WARNING: Results differ!")
    for i, (pol, pan) in enumerate(zip(result_polars, result_pandas), 1):
        if pol != pan:
            print(f"   Position {i}: Polars={pol}, Pandas={pan}")

‚úÖ Polars and Pandas produce IDENTICAL results
   10 tuples match perfectly


In [None]:
print("Verification: Comparing Results")
print("=" * 80)

if result_polars == result_pandas:
    print("‚úÖ Results are IDENTICAL")
    print(f"   {len(result_polars)} tuples match perfectly")
else:
    print("‚ùå WARNING: Results differ!")
    for i, (pol, pan) in enumerate(zip(result_polars, result_pandas), 1):
        if pol != pan:
            print(f"   Position {i}: Polars={pol}, Pandas={pan}")

print("\n‚úÖ Verifying tweet counts match...")
counts_match = True

for i, (date_obj, username) in enumerate(result_polars, 1):
    date_str = date_obj.strftime("%Y-%m-%d")
    
    polars_total = df_verify_polars.filter(pl.col("date_only") == date_str).height
    polars_user = df_verify_polars.filter(
        (pl.col("date_only") == date_str) & (pl.col("username") == username)
    ).height
    
    pandas_total = len(df_verify_pandas[df_verify_pandas['date_only'] == date_str])
    pandas_user = len(df_verify_pandas[
        (df_verify_pandas['date_only'] == date_str) & 
        (df_verify_pandas['username'] == username)
    ])
    
    if polars_total != pandas_total or polars_user != pandas_user:
        counts_match = False
        print(f"‚ùå Counts mismatch at position {i}:")
        print(f"   Polars: total={polars_total}, user={polars_user}")
        print(f"   Pandas: total={pandas_total}, user={pandas_user}")

if counts_match:
    print("‚úÖ All tweet counts match between Polars and Pandas")
    
print("=" * 80)

Verification: Comparing Results
‚úÖ Results are IDENTICAL
   10 tuples match perfectly

‚úÖ Verifying tweet counts match...
‚úÖ All tweet counts match between Polars and Pandas


---

## Comparaci√≥n Experimental: Tiempo de Ejecuci√≥n

Se ejecutan 3 runs de cada implementaci√≥n para obtener m√©tricas confiables. Se reportan min, avg y max para capturar variabilidad por estado del sistema (cach√©, GC, etc.).

In [None]:
n_runs = 3

print("Time Comparison: Polars vs Pandas")
print("=" * 80)

print(f"\nRunning Polars implementation {n_runs} times...")
polars_times = []
for i in range(n_runs):
    start = time.time()
    _ = q1_time_polars(str(dataset_path))
    end = time.time()
    elapsed = end - start
    polars_times.append(elapsed)
    print(f"  Run {i+1}: {elapsed:.3f}s")

polars_avg = sum(polars_times) / len(polars_times)
polars_min = min(polars_times)
polars_max = max(polars_times)

print(f"\nRunning Pandas implementation {n_runs} times...")
pandas_times = []
for i in range(n_runs):
    start = time.time()
    _ = q1_time_pandas(str(dataset_path))
    end = time.time()
    elapsed = end - start
    pandas_times.append(elapsed)
    print(f"  Run {i+1}: {elapsed:.3f}s")

pandas_avg = sum(pandas_times) / len(pandas_times)
pandas_min = min(pandas_times)
pandas_max = max(pandas_times)

print(f"\n{'RESULTS':<40}")
print("=" * 80)
print(f"\n{'Library':<15} {'Min':>10} {'Avg':>10} {'Max':>10}")
print("-" * 80)
print(f"{'Polars':<15} {polars_min:>9.3f}s {polars_avg:>9.3f}s {polars_max:>9.3f}s")
print(f"{'Pandas':<15} {pandas_min:>9.3f}s {pandas_avg:>9.3f}s {pandas_max:>9.3f}s")

speedup = pandas_avg / polars_avg if polars_avg > 0 else float('inf')
diff = abs(pandas_avg - polars_avg)

print(f"\n{'Speedup:':<15} {speedup:.2f}x (Polars is {speedup:.2f}x faster)")
print(f"{'Difference:':<15} {diff:.3f}s")
print("=" * 80)

Time Comparison: Polars vs Pandas

Running Polars implementation 3 times...
  Run 1: 0.348s
  Run 2: 0.303s
  Run 3: 0.325s

Running Pandas implementation 3 times...
  Run 1: 2.796s
  Run 2: 2.765s
  Run 3: 2.749s

RESULTS                                 

Library                Min        Avg        Max
--------------------------------------------------------------------------------
Polars              0.303s     0.325s     0.348s
Pandas              2.749s     2.770s     2.796s

Speedup:        8.51x (Polars is 8.51x faster)
Difference:     2.445s


Polars es **8.51x m√°s r√°pido** que Pandas (0.325s vs 2.770s en promedio). La diferencia es significativa: 2.445 segundos absolutos. El primer run de Polars (0.348s) muestra un warm-up m√≠nimo, estabiliz√°ndose r√°pidamente en ~0.32s. Pandas mantiene consistencia entre runs (~2.77s) pero con overhead significativo en parsing JSON.

---

## Profiling Detallado: cProfile

An√°lisis de latencia funci√≥n por funci√≥n usando cProfile para identificar bottlenecks.

In [None]:
import cProfile
import pstats

print("Profiling POLARS implementation...")
print("=" * 80)

profiler = cProfile.Profile()
profiler.enable()
_ = q1_time_polars(str(dataset_path))
profiler.disable()

stats = pstats.Stats(profiler)
stats.strip_dirs()
stats.sort_stats('cumulative')

print("\nTop 20 funciones por tiempo acumulado (cumulative time):")
print("-" * 80)
stats.print_stats(20)

stats.sort_stats('tottime')
print("\n" + "=" * 80)
print("Top 20 funciones por tiempo total (total time):")
print("-" * 80)
stats.print_stats(20)

Profiling POLARS implementation...

Top 20 funciones por tiempo acumulado (cumulative time):
--------------------------------------------------------------------------------
         5046 function calls (5003 primitive calls) in 0.700 seconds

   Ordered by: cumulative time
   List reduced from 329 to 20 due to restriction <20>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
       33    0.000    0.000    0.494    0.015 opt_flags.py:312(wrapper)
       33    0.000    0.000    0.494    0.015 frame.py:2198(collect)
       33    0.494    0.015    0.494    0.015 {method 'collect' of 'builtins.PyLazyFrame' objects}
        4    0.000    0.000    0.200    0.050 base_events.py:1962(_run_once)
        4    0.000    0.000    0.198    0.050 selectors.py:540(select)
        4    0.198    0.050    0.198    0.050 {method 'control' of 'select.kqueue' objects}
       11    0.000    0.000    0.007    0.001 group_by.py:190(agg)
       11    0.000    0.000    0.005    0.000 fram

<pstats.Stats at 0x10f4e7490>

El profiling de Polars muestra que el mayor tiempo acumulado est√° en `collect()` que ejecuta toda la query lazy. Las funciones de Rust (via FFI) dominan el total time - `scan_ndjson`, `select`, `filter` son muy r√°pidas. El overhead de Python es m√≠nimo: la mayor√≠a del tiempo est√° en operaciones nativas compiladas.

In [None]:
print("Profiling PANDAS implementation...")
print("=" * 80)

profiler = cProfile.Profile()
profiler.enable()
_ = q1_time_pandas(str(dataset_path))
profiler.disable()

stats = pstats.Stats(profiler)
stats.strip_dirs()
stats.sort_stats('cumulative')

print("\nTop 20 funciones por tiempo acumulado (cumulative time):")
print("-" * 80)
stats.print_stats(20)

stats.sort_stats('tottime')
print("\n" + "=" * 80)
print("Top 20 funciones por tiempo total (total time):")
print("-" * 80)
stats.print_stats(20)

Profiling PANDAS implementation...

Top 20 funciones por tiempo acumulado (cumulative time):
--------------------------------------------------------------------------------
         991834 function calls (990882 primitive calls) in 3.812 seconds

   Ordered by: cumulative time
   List reduced from 905 to 20 due to restriction <20>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
      3/2    0.000    0.000    3.811    1.905 interactiveshell.py:3665(run_code)
        2    0.000    0.000    3.811    1.905 {built-in method builtins.exec}
        1    0.007    0.007    3.811    3.811 1676788238.py:1(<module>)
        1    0.288    0.288    3.803    3.803 3429205578.py:1(q1_time_pandas)
        1    0.019    0.019    3.062    3.062 _json.py:505(read_json)
        1    0.000    0.000    2.545    2.545 _json.py:991(read)
        1    0.001    0.001    2.248    2.248 _json.py:1022(_get_object_parser)
        1    0.000    0.000    2.248    2.248 _json.py:1174(parse)
  

<pstats.Stats at 0x15b5cbbf0>

El profiling de Pandas revela que `read_json()` consume ~60-70% del tiempo total - parsing completo del archivo es el bottleneck principal. `.apply()` con lambda para extraer username es costoso (operaci√≥n row-by-row). `.astype(str)` tambi√©n aparece en el top. Los groupby/sort son relativamente eficientes gracias a NumPy, pero el overhead de Python en parsing y transformaciones es evidente.

### Conclusiones del Profiling: Polars vs Pandas

**Diferencias arquitecturales clave:**

1. **Bottleneck principal:**
   - **Polars**: Tiempo distribuido eficientemente. `collect()` ejecuta query optimizada (0.494s de 0.700s totales = 70%), operaciones Rust dominan
   - **Pandas**: `read_json()` es el cuello de botella (3.062s de 3.812s totales = 80%). Parsing eager sin optimizaci√≥n

2. **Overhead de Python:**
   - **Polars**: M√≠nimo (5046 llamadas totales). La mayor√≠a del tiempo en c√≥digo nativo (Rust via FFI). Python solo orquesta
   - **Pandas**: Significativo (991,834 llamadas). `.apply()` con lambdas es row-by-row en Python puro. `.astype()` requiere conversiones costosas

3. **Estrategia de ejecuci√≥n:**
   - **Polars**: Lazy evaluation permite optimizar query plan antes de ejecutar. Solo procesa columnas necesarias
   - **Pandas**: Eager evaluation. Lee TODO el JSON (ujson_loads: 1.251s), luego transforma. No puede optimizar hasta tener todos los datos

4. **Implicaciones para TIME-optimization:**
   - La ventaja de **8.51x** de Polars se explica principalmente por:
     - Parsing selectivo (solo date, user.username)
     - Operaciones vectorizadas en Rust (33 collect() = 0.494s)
     - Query optimization autom√°tica
   - El tiempo de Pandas est√° dominado por parsing completo (80% del tiempo) + overhead Python en transformaciones

**Trade-off identificado:** Polars requiere pensar en lazy queries, pero el beneficio en performance es sustancial para datasets grandes.

---

## Comparaci√≥n Experimental: Consumo de Memoria

Se mide el RSS (Resident Set Size) antes y despu√©s de cada ejecuci√≥n. El delta indica cu√°nta memoria adicional consume cada implementaci√≥n. Se ejecuta `gc.collect()` entre mediciones para limpiar memoria residual.

In [None]:
process = psutil.Process(os.getpid())

print("Memory Comparison: Polars vs Pandas")
print("=" * 80)

gc.collect()
mem_before_polars = process.memory_info().rss / (1024 * 1024)
_ = q1_time_polars(str(dataset_path))
mem_after_polars = process.memory_info().rss / (1024 * 1024)
delta_polars = mem_after_polars - mem_before_polars

print(f"\nPOLARS:")
print(f"  Memory before: {mem_before_polars:>10.2f} MB")
print(f"  Memory after:  {mem_after_polars:>10.2f} MB")
print(f"  Delta:         {delta_polars:>10.2f} MB")

gc.collect()
mem_before_pandas = process.memory_info().rss / (1024 * 1024)
_ = q1_time_pandas(str(dataset_path))
mem_after_pandas = process.memory_info().rss / (1024 * 1024)
delta_pandas = mem_after_pandas - mem_before_pandas

print(f"\nPANDAS:")
print(f"  Memory before: {mem_before_pandas:>10.2f} MB")
print(f"  Memory after:  {mem_after_pandas:>10.2f} MB")
print(f"  Delta:         {delta_pandas:>10.2f} MB")

print(f"\n{'RESULTS':<40}")
print("=" * 80)
print(f"  Polars delta:  {delta_polars:>10.2f} MB")
print(f"  Pandas delta:  {delta_pandas:>10.2f} MB")
print(f"  Difference:    {abs(delta_pandas - delta_polars):>10.2f} MB")

if delta_polars < delta_pandas:
    ratio = delta_pandas / delta_polars if delta_polars > 0 else float('inf')
    print(f"  Winner:        Polars ({ratio:.2f}x more efficient)")
else:
    ratio = delta_polars / delta_pandas if delta_pandas > 0 else float('inf')
    print(f"  Winner:        Pandas ({ratio:.2f}x more efficient)")

print("=" * 80)

Memory Comparison: Polars vs Pandas

POLARS:
  Memory before:    2366.48 MB
  Memory after:     2495.33 MB
  Delta:             128.84 MB

PANDAS:
  Memory before:    2495.33 MB
  Memory after:     3607.48 MB
  Delta:            1112.16 MB

RESULTS                                 
  Polars delta:      128.84 MB
  Pandas delta:     1112.16 MB
  Difference:        983.31 MB
  Winner:        Polars (8.63x more efficient)


Polars consume **128.84 MB** vs **1,112.16 MB** de Pandas (**8.63x m√°s eficiente**). La diferencia es dram√°tica: 983.31 MB menos (casi 1 GB de ahorro). Esto se debe al storage columnar de Arrow y a que Polars solo extrae los campos necesarios durante el parsing. Pandas carga todas las columnas del JSON con overhead de Python objects, mientras Polars mantiene representaci√≥n compacta en Arrow format.

---

# Q1 - MEMORY-Optimized Experiments

Los experimentos anteriores (TIME-optimized) cargaban el dataset completo en memoria para m√°xima velocidad. Ahora evaluamos **enfoques streaming** que priorizan m√≠nimo consumo de memoria a costa de mayor tiempo de ejecuci√≥n.

## Objetivo

Validar el trade-off memoria vs tiempo:
- ¬øCu√°nta memoria se ahorra con streaming?
- ¬øCu√°nto tiempo adicional toma?
- ¬øLos resultados son id√©nticos?


## Experiment 3: Polars Streaming (MEMORY-optimized)

Estrategia: usar lazy evaluation de Polars sin collect() temprano. Las agregaciones se procesan en streaming sin materializar todo el dataset.

In [None]:
def q1_memory_polars(file_path: str) -> List[Tuple[date, str]]:
    # Crear un LazyFrame a partir del archivo JSON Lines.
    # No se carga el dataset completo en memoria.
    # Solo se seleccionan los campos estrictamente necesarios:
    # - date_only: fecha truncada a nivel d√≠a
    # - username: nombre de usuario del autor del tweet
    lazy_df = (
        pl.scan_ndjson(file_path)
        .select([
            pl.col("date").str.slice(0, 10).alias("date_only"),
            pl.col("user").struct.field("username").alias("username")
        ])
        # Filtrar registros inv√°lidos de forma expl√≠cita
        .filter(
            pl.col("username").is_not_null() &
            pl.col("date_only").is_not_null()
        )
    )

    # Primera pasada sobre el dataset (streaming):
    # Se agrupa por fecha y se cuentan los tweets por d√≠a.
    # Se ordena para obtener el top 10 de fechas m√°s activas.
    # El collect() materializa solo este resultado agregado,
    # no el DataFrame completo.
    top_dates = (
        lazy_df
        .group_by("date_only")
        .agg(pl.len().alias("tweet_count"))
        .sort(["tweet_count", "date_only"], descending=[True, False])
        .head(10)
        .collect()
    )

    results = []

    # Para cada una de las fechas top, se ejecuta una pasada adicional
    # sobre el dataset para encontrar el usuario m√°s activo ese d√≠a.
    for row in top_dates.iter_rows(named=True):
        date_str = row["date_only"]

        # Filtrar por fecha espec√≠fica y agrupar por usuario.
        # Cada collect() ejecuta un scan independiente del archivo,
        # priorizando bajo uso de memoria sobre velocidad.
        top_user = (
            lazy_df
            .filter(pl.col("date_only") == date_str)
            .group_by("username")
            .agg(pl.len().alias("user_tweet_count"))
            .sort(["user_tweet_count", "username"], descending=[True, False])
            .head(1)
            .collect()
        )

        # Extraer el username ganador
        username = top_user["username"][0]

        # Convertir la fecha de string a datetime.date
        date_obj = datetime.strptime(date_str, "%Y-%m-%d").date()

        # Agregar el resultado final
        results.append((date_obj, username))

    # Retornar la lista de resultados en el formato solicitado
    return results

## Experiment 4: Pandas Chunked Processing (MEMORY-optimized)

Estrategia: procesar el dataset por chunks usando `chunksize`. Mantener contadores incrementales sin crear DataFrames intermedios grandes.

In [None]:
def q1_memory_pandas(file_path: str) -> List[Tuple[date, str]]:
    # Importar estructuras eficientes para conteos incrementales
    # - Counter: conteo simple (fecha -> #tweets)
    # - defaultdict(Counter): conteo anidado (fecha -> (username -> #tweets))
    from collections import defaultdict, Counter

    # Conteo total de tweets por fecha (YYYY-MM-DD)
    date_counts = Counter()

    # Conteo de tweets por usuario dentro de cada fecha
    # date_user_counts[date_str][username] += 1
    date_user_counts = defaultdict(Counter)

    # Procesar el dataset en chunks para no cargar el archivo completo en memoria
    chunk_size = 10000

    # pd.read_json con chunksize permite iterar por DataFrames peque√±os
    for chunk in pd.read_json(file_path, lines=True, chunksize=chunk_size):
        # Extraer la fecha a nivel d√≠a
        chunk['date_only'] = chunk['date'].astype(str).str[:10]

        # Extraer el username desde el diccionario en la columna 'user'
        # apply con lambda hace extracci√≥n row-by-row (costosa, pero simple)
        chunk['username'] = chunk['user'].apply(
            lambda x: x.get('username') if isinstance(x, dict) else None
        )

        # Mantener solo columnas necesarias y eliminar filas inv√°lidas
        chunk = chunk[['date_only', 'username']].dropna()

        # Actualizar conteos de forma incremental sin almacenar tweets completos
        # Nota: iterrows() es lento, pero minimiza memoria y evita DataFrames grandes persistentes
        for _, row in chunk.iterrows():
            date_str = row['date_only']
            username = row['username']

            # Conteo global por fecha
            date_counts[date_str] += 1

            # Conteo por fecha y usuario
            date_user_counts[date_str][username] += 1

    # Obtener top 10 fechas por n√∫mero de tweets
    # Orden determin√≠stico:
    # - conteo descendente
    # - fecha ascendente en empates
    top_dates = sorted(
        date_counts.items(),
        key=lambda x: (-x[1], x[0])
    )[:10]

    results = []

    # Para cada fecha top, seleccionar el usuario m√°s activo
    # Orden determin√≠stico:
    # - conteo descendente
    # - username ascendente en empates
    for date_str, _ in top_dates:
        user_counts = date_user_counts[date_str]
        top_user = sorted(
            user_counts.items(),
            key=lambda x: (-x[1], x[0])
        )[0][0]

        # Convertir la fecha a datetime.date
        date_obj = datetime.strptime(date_str, "%Y-%m-%d").date()

        # Agregar el resultado final
        results.append((date_obj, top_user))

    # Retornar lista de tuplas (fecha, username) en el formato solicitado
    return results

---

## Verificaci√≥n: MEMORY Implementations

Validar que los enfoques MEMORY producen resultados id√©nticos a los enfoques TIME.

In [None]:
result_memory_polars = q1_memory_polars(str(dataset_path))
result_memory_pandas = q1_memory_pandas(str(dataset_path))

print("Verification: Comparing All 4 Approaches")
print("=" * 80)

all_match = True

if result_memory_polars == result_polars:
    print("‚úÖ Polars MEMORY == Polars TIME")
else:
    print("‚ùå Polars MEMORY != Polars TIME")
    all_match = False

if result_memory_pandas == result_pandas:
    print("‚úÖ Pandas MEMORY == Pandas TIME")
else:
    print("‚ùå Pandas MEMORY != Pandas TIME")
    all_match = False

if result_memory_polars == result_memory_pandas:
    print("‚úÖ Polars MEMORY == Pandas MEMORY")
else:
    print("‚ùå Polars MEMORY != Pandas MEMORY")
    all_match = False

if result_memory_polars == result_polars and result_polars == result_pandas:
    print("‚úÖ All TIME approaches match")
else:
    print("‚ùå TIME approaches don't match")
    all_match = False

if all_match:
    print("\nüéâ ALL FOUR APPROACHES PRODUCE IDENTICAL RESULTS")
    print(f"   {len(result_memory_polars)} tuples verified across 4 implementations")
else:
    print("\n‚ö†Ô∏è  WARNING: Results differ between approaches!")
    
print("=" * 80)

### Importancia de la Verificaci√≥n

Esta verificaci√≥n es **cr√≠tica** porque valida que:

1. **Correctitud**: Todos los enfoques resuelven el problema correctamente
2. **Equivalencia**: La optimizaci√≥n (TIME vs MEMORY) no afecta los resultados
3. **Confianza**: Podemos elegir cualquier enfoque bas√°ndonos solo en performance/memoria

**¬øPor qu√© podr√≠an diferir?**:
- **Bugs en implementaci√≥n**: Errores l√≥gicos en streaming o chunking
- **Ordenamiento inconsistente**: Si hay empates y el orden de desempate difiere
- **Manejo de casos borde**: Null values, datos malformados, etc.

**Si la verificaci√≥n falla**:
1. Revisar l√≥gica de ordenamiento (empates en counts)
2. Verificar filtrado de nulls en todas las implementaciones
3. Comparar manualmente algunos resultados espec√≠ficos

La verificaci√≥n exitosa nos da **confianza** para proceder con benchmarking y an√°lisis de trade-offs.

---

## Benchmarks MEMORY: Tiempo de Ejecuci√≥n

Medici√≥n de performance de los enfoques MEMORY-optimized con 3 runs cada uno.

In [None]:
n_runs = 3

print("Time Comparison: MEMORY-Optimized Approaches")
print("=" * 80)

print(f"\nRunning Polars MEMORY implementation {n_runs} times...")
polars_memory_times = []
for i in range(n_runs):
    start = time.time()
    _ = q1_memory_polars(str(dataset_path))
    end = time.time()
    elapsed = end - start
    polars_memory_times.append(elapsed)
    print(f"  Run {i+1}: {elapsed:.3f}s")

polars_memory_avg = sum(polars_memory_times) / len(polars_memory_times)
polars_memory_min = min(polars_memory_times)
polars_memory_max = max(polars_memory_times)

print(f"\nRunning Pandas MEMORY implementation {n_runs} times...")
pandas_memory_times = []
for i in range(n_runs):
    start = time.time()
    _ = q1_memory_pandas(str(dataset_path))
    end = time.time()
    elapsed = end - start
    pandas_memory_times.append(elapsed)
    print(f"  Run {i+1}: {elapsed:.3f}s")

pandas_memory_avg = sum(pandas_memory_times) / len(pandas_memory_times)
pandas_memory_min = min(pandas_memory_times)
pandas_memory_max = max(pandas_memory_times)

print(f"\n{'RESULTS':<40}")
print("=" * 80)
print(f"\n{'Library':<15} {'Min':>10} {'Avg':>10} {'Max':>10}")
print("-" * 80)
print(f"{'Polars MEMORY':<15} {polars_memory_min:>9.3f}s {polars_memory_avg:>9.3f}s {polars_memory_max:>9.3f}s")
print(f"{'Pandas MEMORY':<15} {pandas_memory_min:>9.3f}s {pandas_memory_avg:>9.3f}s {pandas_memory_max:>9.3f}s")

speedup = pandas_memory_avg / polars_memory_avg if polars_memory_avg > 0 else float('inf')
diff = abs(pandas_memory_avg - polars_memory_avg)

print(f"\n{'Speedup:':<15} {speedup:.2f}x (Polars MEMORY is {speedup:.2f}x faster)")
print(f"{'Difference:':<15} {diff:.3f}s")
print("=" * 80)

Time Comparison: MEMORY-Optimized Approaches

Running Polars MEMORY implementation 3 times...
  Run 1: 3.738s
  Run 2: 3.241s
  Run 3: 3.270s

Running Pandas MEMORY implementation 3 times...
  Run 1: 4.002s
  Run 2: 4.017s
  Run 3: 3.957s

RESULTS                                 

Library                Min        Avg        Max
--------------------------------------------------------------------------------
Polars MEMORY       3.241s     3.417s     3.738s
Pandas MEMORY       3.957s     3.992s     4.017s

Speedup:        1.17x (Polars MEMORY is 1.17x faster)
Difference:     0.576s


### An√°lisis de Benchmarks MEMORY

Los resultados reales muestran una situaci√≥n **sorprendente**:

**Polars MEMORY (Streaming)**:
- **Tiempo real**: 3.417s (vs 0.325s TIME) ‚Üí **10.5x m√°s lento** que TIME
- **Raz√≥n**: 11 scans completos del archivo (1 para top dates + 10 para top users)
- Cada `collect()` ejecuta un full scan ‚Üí overhead de I/O masivo
- El query optimizer no puede evitar re-leer el archivo en cada collect()

**Pandas MEMORY (Chunked)**:
- **Tiempo real**: 3.992s (vs 2.770s TIME) ‚Üí Solo **1.44x m√°s lento** que TIME
- **Raz√≥n**: Procesamiento incremental es m√°s eficiente de lo esperado
- Chunking con 10k filas + `.iterrows()` tiene overhead, pero es predecible
- Solo lee el archivo UNA vez (vs 11 veces de Polars MEMORY)

**Comparaci√≥n MEMORY vs MEMORY**:
- Polars MEMORY es solo **1.17x m√°s r√°pido** que Pandas MEMORY (3.417s vs 3.992s)
- ¬°Pandas MEMORY es competitivo! A diferencia de TIME donde Polars domina 8.51x

**Insight clave**: 
- **Polars MEMORY**: El streaming con m√∫ltiples collect() tiene costo ALTO en I/O
- **Pandas MEMORY**: Single-pass chunking es m√°s eficiente que esperado
- Trade-off invertido: Pandas MEMORY tiene mejor ratio tiempo/memoria que Polars MEMORY

---

## cProfile MEMORY: An√°lisis de Latencia

Profiling detallado de los enfoques MEMORY-optimized para identificar bottlenecks.

In [None]:
print("Profiling POLARS MEMORY implementation...")
print("=" * 80)

profiler = cProfile.Profile()
profiler.enable()
_ = q1_memory_polars(str(dataset_path))
profiler.disable()

stats = pstats.Stats(profiler)
stats.strip_dirs()
stats.sort_stats('cumulative')

print("\nTop 20 funciones por tiempo acumulado (cumulative time):")
print("-" * 80)
stats.print_stats(20)

stats.sort_stats('tottime')
print("\n" + "=" * 80)
print("Top 20 funciones por tiempo total (total time):")
print("-" * 80)
stats.print_stats(20)

Profiling POLARS MEMORY implementation...

Top 20 funciones por tiempo acumulado (cumulative time):
--------------------------------------------------------------------------------
         4048 function calls (4027 primitive calls) in 3.649 seconds

   Ordered by: cumulative time
   List reduced from 314 to 20 due to restriction <20>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
       11    0.000    0.000    3.444    0.313 opt_flags.py:312(wrapper)
       11    0.000    0.000    3.444    0.313 frame.py:2198(collect)
       11    3.444    0.313    3.444    0.313 {method 'collect' of 'builtins.PyLazyFrame' objects}
        4    0.000    0.000    0.200    0.050 base_events.py:1962(_run_once)
        4    0.000    0.000    0.199    0.050 selectors.py:540(select)
        4    0.199    0.050    0.199    0.050 {method 'control' of 'select.kqueue' objects}
        1    0.000    0.000    0.002    0.002 history.py:1025(writeout_cache)
        1    0.000    0.000    0

<pstats.Stats at 0x10f4bf570>

### An√°lisis cProfile: Polars MEMORY vs Polars TIME

**Datos reales del profiling**:

1. **M√∫ltiples llamadas a `collect()`**:
   - **Polars TIME**: 33 `collect()` tomando 0.494s (materializaci√≥n √∫nica del DataFrame)
   - **Polars MEMORY**: 11 `collect()` tomando **3.444s** (94.4% del tiempo total de 3.649s)
   - Cada `collect()` en MEMORY toma ~0.313s (promedio) vs 0.015s en TIME
   - **Raz√≥n**: Cada collect() escanea TODO el archivo (389 MB) ‚Üí 11 √ó 389 MB = ~4.3 GB le√≠dos

2. **Total function calls**:
   - **Polars TIME**: 5,046 llamadas
   - **Polars MEMORY**: 4,048 llamadas (menos overhead Python, pero m√°s I/O)

3. **Implicaciones medidas**:
   - **Tiempo**: 11 scans del archivo domina el tiempo (3.444s / 3.649s = 94%)
   - **Memoria**: Cada collect() materializa solo el resultado peque√±o (~7 MB total)
   - **I/O**: Bottleneck confirmado - leer archivo 11 veces vs 1 vez

**Conclusi√≥n real**: 
- Polars MEMORY sacrifica **10.5x en tiempo** para ahorrar **94.4% de memoria**
- El streaming NO es gratis: m√∫ltiples pases sobre el archivo tienen costo real
- Para este tama√±o de dataset (389 MB), el overhead de I/O domina sobre el beneficio de memoria

In [None]:
print("Memory Comparison: MEMORY-Optimized Approaches")
print("=" * 80)

gc.collect()
mem_before_polars_memory = process.memory_info().rss / (1024 * 1024)
_ = q1_memory_polars(str(dataset_path))
mem_after_polars_memory = process.memory_info().rss / (1024 * 1024)
delta_polars_memory = mem_after_polars_memory - mem_before_polars_memory

print(f"\nPOLARS MEMORY:")
print(f"  Memory before: {mem_before_polars_memory:>10.2f} MB")
print(f"  Memory after:  {mem_after_polars_memory:>10.2f} MB")
print(f"  Delta:         {delta_polars_memory:>10.2f} MB")

gc.collect()
mem_before_pandas_memory = process.memory_info().rss / (1024 * 1024)
_ = q1_memory_pandas(str(dataset_path))
mem_after_pandas_memory = process.memory_info().rss / (1024 * 1024)
delta_pandas_memory = mem_after_pandas_memory - mem_before_pandas_memory

print(f"\nPANDAS MEMORY:")
print(f"  Memory before: {mem_before_pandas_memory:>10.2f} MB")
print(f"  Memory after:  {mem_after_pandas_memory:>10.2f} MB")
print(f"  Delta:         {delta_pandas_memory:>10.2f} MB")

print(f"\n{'RESULTS':<40}")
print("=" * 80)
print(f"  Polars MEMORY delta:  {delta_polars_memory:>10.2f} MB")
print(f"  Pandas MEMORY delta:  {delta_pandas_memory:>10.2f} MB")
print(f"  Difference:           {abs(delta_pandas_memory - delta_polars_memory):>10.2f} MB")

if delta_polars_memory < delta_pandas_memory:
    ratio = delta_pandas_memory / delta_polars_memory if delta_polars_memory > 0 else float('inf')
    print(f"  Winner:               Polars MEMORY ({ratio:.2f}x more efficient)")
else:
    ratio = delta_polars_memory / delta_pandas_memory if delta_pandas_memory > 0 else float('inf')
    print(f"  Winner:               Pandas MEMORY ({ratio:.2f}x more efficient)")

print("=" * 80)

print("\n" + "=" * 80)
print("COMPARISON: TIME vs MEMORY Approaches")
print("=" * 80)

print(f"\nPolars:")
print(f"  TIME approach:   {delta_polars:>10.2f} MB")
print(f"  MEMORY approach: {delta_polars_memory:>10.2f} MB")
if delta_polars_memory < delta_polars:
    savings = delta_polars - delta_polars_memory
    reduction = (savings / delta_polars) * 100 if delta_polars > 0 else 0
    print(f"  Savings:         {savings:>10.2f} MB ({reduction:.1f}% reduction)")
else:
    overhead = delta_polars_memory - delta_polars
    increase = (overhead / delta_polars) * 100 if delta_polars > 0 else 0
    print(f"  Overhead:        {overhead:>10.2f} MB ({increase:.1f}% increase)")

print(f"\nPandas:")
print(f"  TIME approach:   {delta_pandas:>10.2f} MB")
print(f"  MEMORY approach: {delta_pandas_memory:>10.2f} MB")
if delta_pandas_memory < delta_pandas:
    savings = delta_pandas - delta_pandas_memory
    reduction = (savings / delta_pandas) * 100 if delta_pandas > 0 else 0
    print(f"  Savings:         {savings:>10.2f} MB ({reduction:.1f}% reduction)")
else:
    overhead = delta_pandas_memory - delta_pandas
    increase = (overhead / delta_pandas) * 100 if delta_pandas > 0 else 0
    print(f"  Overhead:        {overhead:>10.2f} MB ({increase:.1f}% increase)")

print("=" * 80)

Memory Comparison: MEMORY-Optimized Approaches

POLARS MEMORY:
  Memory before:     865.84 MB
  Memory after:      873.06 MB
  Delta:               7.22 MB

PANDAS MEMORY:
  Memory before:     873.06 MB
  Memory after:      874.25 MB
  Delta:               1.19 MB

RESULTS                                 
  Polars MEMORY delta:        7.22 MB
  Pandas MEMORY delta:        1.19 MB
  Difference:                 6.03 MB
  Winner:               Pandas MEMORY (6.08x more efficient)

COMPARISON: TIME vs MEMORY Approaches

Polars:
  TIME approach:       128.84 MB
  MEMORY approach:       7.22 MB
  Savings:             121.62 MB (94.4% reduction)

Pandas:
  TIME approach:      1112.16 MB
  MEMORY approach:       1.19 MB
  Savings:            1110.97 MB (99.9% reduction)


### An√°lisis de Consumo de Memoria: MEMORY vs TIME (Resultados Reales)

**Resultados sorprendentes - Pandas MEMORY gana en memoria:**

#### Polars MEMORY vs Polars TIME:
- **Polars TIME**: 128.84 MB
- **Polars MEMORY**: 7.22 MB
- **Ahorro**: 121.62 MB (**94.4% de reducci√≥n**)
- **Raz√≥n**: No materializa DataFrame completo, solo mantiene agregados peque√±os

#### Pandas MEMORY vs Pandas TIME:
- **Pandas TIME**: 1,112.16 MB  
- **Pandas MEMORY**: 1.19 MB (!!)
- **Ahorro**: 1,110.97 MB (**99.9% de reducci√≥n**)
- **Raz√≥n**: Procesamiento por chunks descarta cada DataFrame inmediatamente, solo mantiene Counters

#### Comparaci√≥n Polars MEMORY vs Pandas MEMORY:
- **Ganador real**: ¬°PANDAS MEMORY! (1.19 MB vs 7.22 MB)
- **Pandas MEMORY es 6.08x m√°s eficiente** que Polars MEMORY
- **Raz√≥n 1**: Los Counters de Python son extremadamente compactos para este caso de uso
- **Raz√≥n 2**: Polars mantiene alguna estructura Arrow incluso en streaming
- **Raz√≥n 3**: El overhead de 10k rows por chunk en Pandas es despreciable vs diccionarios peque√±os

## Conclusiones Globales Q1 ‚Äì Comparaci√≥n TIME vs MEMORY (Polars vs Pandas)

Este an√°lisis consolida todos los experimentos realizados para Q1, comparando tiempo de ejecuci√≥n, uso de memoria y trade-offs arquitecturales entre Polars y Pandas bajo enfoques optimizados por tiempo y por memoria.  
Todos los enfoques producen resultados id√©nticos, por lo que la evaluaci√≥n se centra exclusivamente en performance y consumo de RAM.

---

### 1. Tiempo de Ejecuci√≥n

| Enfoque | Biblioteca | Tiempo promedio |
|--------|-----------|-----------------|
| TIME | **Polars** | **0.325 s** |
| TIME | Pandas | 2.770 s |
| MEMORY | **Polars** | **3.417 s** |
| MEMORY | Pandas | 3.992 s |

**Conclusiones clave**:
- Polars es consistentemente m√°s r√°pido que Pandas en ambos enfoques.
- En MEMORY, la diferencia entre Polars y Pandas es peque√±a (mismo orden de magnitud), pero Polars mantiene ventaja.
- El overhead del streaming es esperado y aceptable frente al beneficio de reducir memoria.

---

### 2. Uso de Memoria (Delta RSS)

| Enfoque | Biblioteca | Delta de memoria |
|--------|-----------|------------------|
| MEMORY | Pandas | **1.19 MB** |
| MEMORY | Polars | 7.22 MB |
| TIME | Polars | 128.84 MB |
| TIME | Pandas | 1112.16 MB |

**Interpretaci√≥n**:
- La diferencia de memoria entre Pandas MEMORY y Polars MEMORY es peque√±a en t√©rminos absolutos para este dataset.
- Dado el tama√±o relativamente reducido de los datos, **ambos enfoques MEMORY mantienen un footprint muy bajo**.
- A medida que el dataset crezca, **la memoria en ambos enfoques MEMORY deber√≠a crecer lentamente**, mientras que el tiempo se vuelve el factor dominante.

---

### 3. Escalabilidad Esperada

- En datasets mayores, el **costo relativo de memoria entre Pandas MEMORY y Polars MEMORY deja de ser decisivo**, ya que ambos evitan materializar grandes estructuras.
- En cambio, **la escalabilidad en tiempo s√≠ se vuelve cr√≠tica**:
  - Polars se beneficia de ejecuci√≥n en Rust, almacenamiento columnar Arrow y paralelizaci√≥n.
  - Pandas mantiene overhead en parsing y ejecuci√≥n en Python.

**Implicaci√≥n clave**: para datos grandes, la diferencia de tiempo entre Polars y Pandas tender√° a ampliarse, mientras que la diferencia de memoria seguir√° siendo acotada.

---

### 4. Trade-offs Arquitecturales

- **Polars TIME**: mejor balance general cuando la RAM permite cargar el dataset completo.
- **Polars MEMORY**: alternativa natural cuando la RAM no alcanza, con buena escalabilidad temporal.
- **Pandas MEMORY**: muy eficiente en memoria, pero sin ventajas claras en tiempo frente a Polars.
- **Pandas TIME**: no recomendable por consumo elevado de RAM y menor performance.

---

### 5. Recomendaci√≥n Final

Dado que:
- la diferencia de memoria entre enfoques MEMORY es peque√±a en t√©rminos pr√°cticos,
- Polars escala mejor en tiempo,
- y Polars ofrece ambos modos (TIME y MEMORY) con la misma sem√°ntica,

la recomendaci√≥n es clara:

**Usar Polars en todos los escenarios**:
- **Polars TIME** cuando la RAM permite cargar el dataset completo.
- **Polars MEMORY** cuando la RAM es el factor limitante.

Pandas queda relegado a escenarios de compatibilidad o restricci√≥n de stack, no por ventajas t√©cnicas.

---

### Conclusi√≥n Final

La elecci√≥n no debe basarse √∫nicamente en el consumo m√≠nimo de memoria observado en datasets peque√±os, sino en **c√≥mo escalan las soluciones**.  
En ese contexto, **Polars ofrece el mejor equilibrio presente y futuro**, tanto en tiempo como en memoria, y es la opci√≥n recomendada para Q1 en producci√≥n.
