# Data Challenge – Análisis y Comparación de Soluciones

**Autor:** Fernando  
**Fecha:** 2025-06-09  

Este notebook realiza el análisis y la comparación entre métodos optimizados por velocidad (`time`) y por eficiencia en memoria (`memory`) en el análisis del dataset de tweets sobre protestas.

## 🛠️ Configuración previa del entorno de trabajo

Antes de ejecutar este notebook, se ha configurado lo siguiente en Google Cloud Platform (GCP):

- **Proyecto GCP creado**
- **Bucket para datos:**
  - Nombre: `latam-data-challenge-data`
  - Archivo cargado: `farmers-protest-tweets-2021-2-4.json`
  - Ruta completa: 
    ```
    gs://latam-data-challenge-data/farmers-protest-tweets-2021-2-4.json
    ```

- **Bucket para Terraform state:**
gs://latam-data-challenge-terraform-state

- **Dataset BigQuery**:
- Nombre: `challenge_data`

- **Service Account**:
- Nombre: `sa-deployment`
- Permisos asignados para CI/CD y ejecución

- **Backend de Terraform**:
- Funcional y configurado con bloqueo del state.


In [None]:
pip install pandas memory_profiler google-cloud-storage

## 🔍 Exploración Inicial

Antes de resolver las preguntas principales, realizamos una exploración breve de los datos utilizando los siguientes scripts de la carpeta `exploration`:

- `explore_tweets_q1.py`: revisa fechas y usuarios activos (log: `tweet_explore_q1.log`)
- `explore_tweets_q2.py`: analiza contenido y emojis (log: `tweet_explore_q2.log`)
- `explore_tweets_q3.py`: identifica usuarios mencionados (log: `tweet_explore_q3.log`)

Cada script genera un archivo de log independiente con los hallazgos del análisis.


In [None]:
import subprocess

scripts = [
    "../exploration/explore_tweets_q1.py",
    "../exploration/explore_tweets_q2.py",
    "../exploration/explore_tweets_q3.py",
]

for script in scripts:
    result = subprocess.run(["python", script], capture_output=True, text=True)
    if result.returncode == 0:
        print(f"✅ Ejecución exitosa del script: {script}")
    else:
        print(f"❌ Error ejecutando el script: {script}")
        print(result.stderr)

print("\nRevisa los logs generados para más detalles:")
print("- tweet_explore_q1.log")
print("- tweet_explore_q2.log")
print("- tweet_explore_q3.log")

## ⚙️ Configuración Inicial

En esta sección configuramos el entorno de ejecución del notebook, importamos las librerías necesarias y definimos rutas importantes para acceder a nuestros datos y scripts específicos del análisis.


In [None]:
import sys

sys.path.append("../src")

from memory_profiler import memory_usage
from time import time

from utils import get_local_file_path
from q1_time import q1_time
from q1_memory import q1_memory
from q2_time import q2_time
from q2_memory import q2_memory
from q3_time import q3_time
from q3_memory import q3_memory

file_path = "gs://latam-data-challenge-data/farmers-protest-tweets-2021-2-4.json"
local_file = get_local_file_path(file_path)

## 📅 Pregunta 1 – Top 10 fechas con más tweets y usuarios activos

Comparamos dos métodos para resolver esta pregunta:

- **Método optimizado en tiempo (`time`):** utiliza `pandas` para análisis rápidos en memoria.
- **Método optimizado en memoria (`memory`):** procesa el archivo línea por línea para minimizar el uso de RAM.


In [None]:
start_time = time()

# Ejecuta una sola vez, midiendo memoria y obteniendo el resultado
mem_usage_time_q1, resultado_q1_time = memory_usage(
    (q1_time, (local_file,)), retval=True
)

print(f"⏱️ Tiempo método 'time': {time() - start_time:.2f} segundos")
print(f"💾 Memoria máxima método 'time': {max(mem_usage_time_q1):.2f} MiB")
print("📅 Resultados método 'time':", resultado_q1_time)

In [None]:
start_time = time()

mem_usage_q1, resultado_q1_memory = memory_usage(
    (q1_memory, (local_file,)), retval=True
)

print(f"⏱️ Tiempo método 'memory': {time() - start_time:.2f} segundos")
print(f"💾 Memoria máxima método 'memory': {max(mem_usage_q1):.2f} MiB")
print("📅 Resultados método 'memory':", resultado_q1_memory)

### 😊 Pregunta 2 – Emojis más usados

Evaluamos nuevamente ambos métodos.


In [None]:
start_time = time()

mem_usage_q2_time, resultado_q2_time = memory_usage(
    (q2_time, (local_file,)), retval=True
)

print(f"⏱️ Tiempo método 'time': {time() - start_time:.2f} segundos")
print(f"💾 Memoria máxima método 'time': {max(mem_usage_q2_time):.2f} MiB")
print("😊 Resultados método 'time':", resultado_q2_time)

In [None]:
start_time = time()

mem_usage_q2_memory, resultado_q2_memory = memory_usage(
    (q2_memory, (local_file,)), retval=True
)

print(f"⏱️ Tiempo método 'memory': {time() - start_time:.2f} segundos")
print(f"💾 Memoria máxima método 'memory': {max(mem_usage_q2_memory):.2f} MiB")
print("😊 Resultados método 'memory':", resultado_q2_memory)

### 📢 Pregunta 3 – Usuarios más mencionados

Se comparan también ambos métodos.


In [None]:
start_time = time()

mem_usage_q3_time, resultado_q3_time = memory_usage(
    (q3_time, (local_file,)), retval=True
)

print(f"⏱️ Tiempo método 'time': {time() - start_time:.2f} segundos")
print(f"💾 Memoria máxima método 'time': {max(mem_usage_q3_time):.2f} MiB")
print("📢 Resultados método 'time':", resultado_q3_time)

In [None]:
start_time = time()

mem_usage_q3_memory, resultado_q3_memory = memory_usage(
    (q3_memory, (local_file,)), retval=True
)

print(f"⏱️ Tiempo método 'memory': {time() - start_time:.2f} segundos")
print(f"💾 Memoria máxima método 'memory': {max(mem_usage_q3_memory):.2f} MiB")
print("📢 Resultados método 'memory':", resultado_q3_memory)

# 📝 Conclusiones Finales

**En resumen**, evaluamos dos maneras de analizar un dataset grande: una priorizando velocidad (`time`) y otra priorizando eficiencia en memoria (`memory`). Aquí te dejo los puntos claves observados:

## 📅 Pregunta 1 (Fechas con más tweets y usuarios activos)

* **Velocidad (`time`)**:

  * Tiempo: \~5 segundos.
  * Memoria usada: \~207 MiB.
* **Memoria (`memory`)**:

  * Tiempo similar (\~4.5 segundos).
  * Memoria apenas menor (\~205 MiB).

> Aca no hubo grandes diferencias entre ambos métodos, lo que indica que para datasets medianos como este, ambas opciones son prácticamente equivalentes.

## 📅 Pregunta 2 (Emojis más usados)

* **Velocidad (`time`)**:

  * Tiempo: súper rápido (\~5.65 segundos).
  * Memoria usada: \~211 MiB.
* **Memoria (`memory`)**:

  * Tiempo muy lento (\~70 segundos).
  * Memoria casi idéntica (\~210 MiB).

> 🔥 Claramente aquí tiene un mejor performance el método `time`. La opción `memory` fue considerablemente más lenta sin ningún beneficio adicional.

## 📅 Pregunta 3 (Usuarios más mencionados)

* **Velocidad (`time`)**:

  * Tiempo: rápido (\~5.49 segundos).
  * Memoria usada: \~210 MiB.
* **Memoria (`memory`)**:

  * Tiempo muy parecido (\~4.58 segundos).
  * Memoria también prácticamente igual (\~210 MiB).

> 👥 Aquí de nuevo, las diferencias fueron insignificantes. Usar un método u otro no cambia demasiado el resultado.

## 💡 ¿Cuál recomiendo?

En este caso específico, **no se nota una ventaja muy significativa** de usar el método `memory`. El método optimizado por `time` es generalmente más sencillo y rápido para este dataset particular.

## 🚀 ¿Qué podríamos mejorar más adelante?

* Probar con datasets más grandes, donde realmente se vean diferencias claras entre ambos métodos.
* Optimizar el procesamiento línea a línea para que no sea tan lento especialmente cuando se buscan emojis.
