# Challenge de Ingenier√≠a de Datos - Twitter Farmers Protest

## Descripci√≥n General

Este notebook documenta las soluciones implementadas para analizar un dataset de aproximadamente 398MB de tweets relacionados con las protestas de agricultores en India (2021). Se resuelven 3 problemas, cada uno con 2 enfoques: optimizaci√≥n de tiempo y optimizaci√≥n de memoria.

## Dataset

- **Archivo**: `farmers-protest-tweets-2021-2-4.json`
- **Tama√±o**: ~389MB
- **Formato**: JSONL (JSON Lines) - cada l√≠nea es un objeto JSON independiente
- **Estructura**: Basada en Twitter API v1 data dictionary

### Campos Relevantes Utilizados:
- `date`: Fecha del tweet (ISO 8601 format)
- `user.username`: Nombre de usuario del autor
- `content`: Contenido del tweet (texto con emojis)
- `mentionedUsers`: Lista de usuarios mencionados (@username)

## Supuestos y Consideraciones

1. **Formato de Datos**: Asumimos que el archivo es JSONL con un tweet por l√≠nea
2. **Encoding**: UTF-8 para soportar emojis y caracteres especiales
3. **Fechas**: Extraemos solo la fecha (sin hora) para Q1
4. **Emojis**: Utilizamos regex Unicode para capturar todos los rangos de emojis est√°ndar
5. **Menciones**: Usamos el campo `mentionedUsers` en lugar de parsear el contenido
6. **Datos Faltantes**: Manejamos casos donde campos pueden ser `null` o no existir

## Estrategias de Optimizaci√≥n

### Time-Optimized (q*_time.py)
- **Objetivo**: Minimizar tiempo de ejecuci√≥n
- **T√©cnicas**: 
  - Carga de datos en memoria
  - Uso de `Counter` para agregaciones O(1)
  - Estructuras de datos eficientes (dict, defaultdict)
  - Una sola pasada por el archivo cuando es posible

### Memory-Optimized (q*_memory.py)
- **Objetivo**: Minimizar uso de memoria
- **T√©cnicas**:
  - Procesamiento en streaming (line by line)
  - Uso de dict b√°sico en lugar de Counter
  - M√∫ltiples pasadas cuando es necesario para reducir datos en memoria
  - Liberaci√≥n temprana de datos innecesarios

In [1]:
# Configuraci√≥n e Importaci√≥n de Librer√≠as

import sys
import time
from datetime import datetime


from q1_time import q1_time
from q1_memory import q1_memory
from q2_time import q2_time
from q2_memory import q2_memory
from q3_time import q3_time
from q3_memory import q3_memory


file_path = "../farmers-protest-tweets-2021-2-4.json"


%load_ext memory_profiler

print("‚úì Librer√≠as importadas correctamente")
print(f"‚úì Archivo de datos: {file_path}")

‚úì Librer√≠as importadas correctamente
‚úì Archivo de datos: ../farmers-protest-tweets-2021-2-4.json


---

## Q1: Top 10 Fechas con M√°s Tweets

**Objetivo**: Encontrar las 10 fechas con mayor cantidad de tweets y el usuario con m√°s publicaciones en cada fecha.

### Enfoque Time-Optimized (q1_time.py)
- **Estrategia**: Una sola pasada por el archivo
- **Estructuras**: `Counter` para fechas, `defaultdict(Counter)` para usuarios por fecha
- **Complejidad**: O(n) tiempo, O(n) espacio en el peor caso

### Enfoque Memory-Optimized (q1_memory.py)
- **Estrategia**: Dos pasadas por el archivo
- **Primera pasada**: Contar tweets por fecha, identificar top 10
- **Segunda pasada**: Contar usuarios solo para las 10 fechas relevantes
- **Complejidad**: O(2n) tiempo, O(d + 10*u) espacio (d=fechas √∫nicas, u=usuarios promedio por fecha)

In [2]:
# Q1 Time-Optimized: Ejecuci√≥n y Medici√≥n

print("Q1 TIME-OPTIMIZED")
print("=" * 60)

start_time = time.time()
result_q1_time = q1_time(file_path)
elapsed_time = time.time() - start_time

print(f"Tiempo de ejecuci√≥n: {elapsed_time:.4f} segundos")
print(f"Top 10 Fechas con M√°s Tweets:\n")

for idx, (date, username) in enumerate(result_q1_time, 1):
    print(f"{idx:2d}. {date} - Usuario: @{username}")

q1_time_result = result_q1_time
q1_time_elapsed = elapsed_time

Q1 TIME-OPTIMIZED
Tiempo de ejecuci√≥n: 9.9888 segundos
Top 10 Fechas con M√°s Tweets:

 1. 2021-02-12 - Usuario: @RanbirS00614606
 2. 2021-02-13 - Usuario: @MaanDee08215437
 3. 2021-02-17 - Usuario: @RaaJVinderkaur
 4. 2021-02-16 - Usuario: @jot__b
 5. 2021-02-14 - Usuario: @rebelpacifist
 6. 2021-02-18 - Usuario: @neetuanjle_nitu
 7. 2021-02-15 - Usuario: @jot__b
 8. 2021-02-20 - Usuario: @MangalJ23056160
 9. 2021-02-23 - Usuario: @Surrypuria
10. 2021-02-19 - Usuario: @Preetm91


In [3]:
# Q1 Memory-Optimized: Ejecuci√≥n y Medici√≥n

print("Q1 MEMORY-OPTIMIZED")
print("=" * 60)

start_time = time.time()
result_q1_memory = q1_memory(file_path)
elapsed_time = time.time() - start_time

print(f"Tiempo de ejecuci√≥n: {elapsed_time:.4f} segundos")
print(f"Top 10 Fechas con M√°s Tweets:\n")

for idx, (date, username) in enumerate(result_q1_memory, 1):
    print(f"{idx:2d}. {date} - Usuario: @{username}")


q1_memory_result = result_q1_memory
q1_memory_elapsed = elapsed_time

Q1 MEMORY-OPTIMIZED

Tiempo de ejecuci√≥n: 16.9289 segundos

üìä Top 10 Fechas con M√°s Tweets:

 1. 2021-02-12 - Usuario: @RanbirS00614606
 2. 2021-02-13 - Usuario: @MaanDee08215437
 3. 2021-02-17 - Usuario: @RaaJVinderkaur
 4. 2021-02-16 - Usuario: @jot__b
 5. 2021-02-14 - Usuario: @rebelpacifist
 6. 2021-02-18 - Usuario: @neetuanjle_nitu
 7. 2021-02-15 - Usuario: @jot__b
 8. 2021-02-20 - Usuario: @MangalJ23056160
 9. 2021-02-23 - Usuario: @Surrypuria
10. 2021-02-19 - Usuario: @Preetm91


In [4]:
# Comparaci√≥n Q1

print(f"\nVerificaci√≥n: Resultados id√©nticos = {result_q1_time == result_q1_memory}")
print(f"Diferencia de tiempo: {abs(q1_time_elapsed - q1_memory_elapsed):.4f} segundos")


Verificaci√≥n: Resultados id√©nticos = True
Diferencia de tiempo: 6.9401 segundos


### An√°lisis Q1: Profiling con memory_profiler

Usamos `%memit` para medir el pico de memoria durante la ejecuci√≥n.

In [5]:
# Profiling de memoria para Q1

print("Midiendo memoria para q1_time...")
%memit q1_time(file_path)

print("\nMidiendo memoria para q1_memory...")
%memit q1_memory(file_path)

Midiendo memoria para q1_time...
peak memory: 77.01 MiB, increment: 0.00 MiB

Midiendo memoria para q1_memory...
peak memory: 77.01 MiB, increment: 0.00 MiB


---

## Q2: Top 10 Emojis M√°s Usados

**Objetivo**: Encontrar los 10 emojis m√°s frecuentes en los tweets con su conteo.

### Enfoque Time-Optimized (q2_time.py)
- **Estrategia**: Usar `Counter` para agregaci√≥n r√°pida
- **Extracci√≥n**: Regex Unicode compilado para encontrar todos los emojis
- **Rangos Unicode cubiertos**: Emoticons, s√≠mbolos, banderas, pictogramas, etc.

### Enfoque Memory-Optimized (q2_memory.py)
- **Estrategia**: Usar dict b√°sico en lugar de Counter
- **Mismo regex**: Pero con menor overhead de estructuras de datos
- **Trade-off**: Sorting manual vs Counter.most_common()

In [6]:
# Q2 Time-Optimized: Ejecuci√≥n y Medici√≥n


print("Q2 TIME-OPTIMIZED")
print("=" * 60)

start_time = time.time()
result_q2_time = q2_time(file_path)
elapsed_time = time.time() - start_time

print(f"Tiempo de ejecuci√≥n: {elapsed_time:.4f} segundos")
print(f"Top 10 Emojis M√°s Usados:\n")

for idx, (emoji, count) in enumerate(result_q2_time, 1):
    print(f"{idx:2d}. {emoji} - {count:,} veces")

q2_time_result = result_q2_time
q2_time_elapsed = elapsed_time

Q2 TIME-OPTIMIZED
Tiempo de ejecuci√≥n: 9.5493 segundos
Top 10 Emojis M√°s Usados:

 1. üôè - 7,286 veces
 2. üòÇ - 3,072 veces
 3. Ô∏è - 3,061 veces
 4. üöú - 2,972 veces
 5. ‚úä - 2,411 veces
 6. üåæ - 2,363 veces
 7. üáÆ - 2,096 veces
 8. üá≥ - 2,094 veces
 9. üèª - 2,080 veces
10. ‚ù§ - 1,779 veces


In [7]:
# Q2 Memory-Optimized: Ejecuci√≥n y Medici√≥n


print("Q2 MEMORY-OPTIMIZED")
print("=" * 60)

start_time = time.time()
result_q2_memory = q2_memory(file_path)
elapsed_time = time.time() - start_time

print(f"Tiempo de ejecuci√≥n: {elapsed_time:.4f} segundos")
print(f"Top 10 Emojis M√°s Usados:\n")

for idx, (emoji, count) in enumerate(result_q2_memory, 1):
    print(f"{idx:2d}. {emoji} - {count:,} veces")

q2_memory_result = result_q2_memory
q2_memory_elapsed = elapsed_time

Q2 MEMORY-OPTIMIZED
Tiempo de ejecuci√≥n: 9.0544 segundos
Top 10 Emojis M√°s Usados:

 1. üôè - 7,286 veces
 2. üòÇ - 3,072 veces
 3. Ô∏è - 3,061 veces
 4. üöú - 2,972 veces
 5. ‚úä - 2,411 veces
 6. üåæ - 2,363 veces
 7. üáÆ - 2,096 veces
 8. üá≥ - 2,094 veces
 9. üèª - 2,080 veces
10. ‚ù§ - 1,779 veces


In [8]:

print(f"Verificaci√≥n: Resultados id√©nticos = {result_q2_time == result_q2_memory}")
print(f"Diferencia de tiempo: {abs(q2_time_elapsed - q2_memory_elapsed):.4f} segundos")

Verificaci√≥n: Resultados id√©nticos = True
Diferencia de tiempo: 0.4949 segundos


In [9]:
# Profiling de memoria para Q2

print("Midiendo memoria para q2_time...")
%memit q2_time(file_path)

print("\nMidiendo memoria para q2_memory...")
%memit q2_memory(file_path)

Midiendo memoria para q2_time...
peak memory: 77.01 MiB, increment: 0.00 MiB

Midiendo memoria para q2_memory...
peak memory: 77.01 MiB, increment: 0.00 MiB


---

## Q3: Top 10 Usuarios M√°s Mencionados

**Objetivo**: Encontrar los 10 usuarios m√°s influyentes por cantidad de menciones (@username).

### Enfoque Time-Optimized (q3_time.py)
- **Estrategia**: Usar `Counter` para conteo r√°pido
- **Fuente de datos**: Campo `mentionedUsers` del JSON
- **Ventaja**: Una sola pasada, O(1) para inserci√≥n/actualizaci√≥n

### Enfoque Memory-Optimized (q3_memory.py)
- **Estrategia**: Dict b√°sico con `.get()` para minimizar overhead
- **Trade-off**: Sorting manual al final vs Counter.most_common()
- **Ahorro**: Menos overhead de objeto Counter

In [10]:
# Q3 Time-Optimized: Ejecuci√≥n y Medici√≥n

print("Q3 TIME-OPTIMIZED")
print("=" * 60)

start_time = time.time()
result_q3_time = q3_time(file_path)
elapsed_time = time.time() - start_time

print(f"Tiempo de ejecuci√≥n: {elapsed_time:.4f} segundos")
print(f"Top 10 Usuarios M√°s Mencionados:\n")

for idx, (username, count) in enumerate(result_q3_time, 1):
    print(f"{idx:2d}. @{username} - {count:,} menciones")

q3_time_result = result_q3_time
q3_time_elapsed = elapsed_time

Q3 TIME-OPTIMIZED
Tiempo de ejecuci√≥n: 7.9409 segundos
Top 10 Usuarios M√°s Mencionados:

 1. @narendramodi - 2,265 menciones
 2. @Kisanektamorcha - 1,840 menciones
 3. @RakeshTikaitBKU - 1,644 menciones
 4. @PMOIndia - 1,427 menciones
 5. @RahulGandhi - 1,146 menciones
 6. @GretaThunberg - 1,048 menciones
 7. @RaviSinghKA - 1,019 menciones
 8. @rihanna - 986 menciones
 9. @UNHumanRights - 962 menciones
10. @meenaharris - 926 menciones


In [11]:
# Q3 Memory-Optimized: Ejecuci√≥n y Medici√≥n

print("Q3 MEMORY-OPTIMIZED")
print("=" * 60)

start_time = time.time()
result_q3_memory = q3_memory(file_path)
elapsed_time = time.time() - start_time

print(f"Tiempo de ejecuci√≥n: {elapsed_time:.4f} segundos")
print(f"Top 10 Usuarios M√°s Mencionados:\n")

for idx, (username, count) in enumerate(result_q3_memory, 1):
    print(f"{idx:2d}. @{username} - {count:,} menciones")

q3_memory_result = result_q3_memory
q3_memory_elapsed = elapsed_time

Q3 MEMORY-OPTIMIZED
Tiempo de ejecuci√≥n: 8.0370 segundos
Top 10 Usuarios M√°s Mencionados:

 1. @narendramodi - 2,265 menciones
 2. @Kisanektamorcha - 1,840 menciones
 3. @RakeshTikaitBKU - 1,644 menciones
 4. @PMOIndia - 1,427 menciones
 5. @RahulGandhi - 1,146 menciones
 6. @GretaThunberg - 1,048 menciones
 7. @RaviSinghKA - 1,019 menciones
 8. @rihanna - 986 menciones
 9. @UNHumanRights - 962 menciones
10. @meenaharris - 926 menciones


In [12]:
# Comparaci√≥n Q3

print(f"Verificaci√≥n: Resultados id√©nticos = {result_q3_time == result_q3_memory}")
print(f"Diferencia de tiempo: {abs(q3_time_elapsed - q3_memory_elapsed):.4f} segundos")

Verificaci√≥n: Resultados id√©nticos = True
Diferencia de tiempo: 0.0960 segundos


In [13]:
# Profiling de memoria para Q3

print("Midiendo memoria para q3_time...")
%memit q3_time(file_path)

print("\nMidiendo memoria para q3_memory...")
%memit q3_memory(file_path)

Midiendo memoria para q3_time...
peak memory: 77.01 MiB, increment: 0.00 MiB

Midiendo memoria para q3_memory...
peak memory: 77.01 MiB, increment: 0.00 MiB


---

## Resumen Comparativo de Performance

Esta tabla resume el rendimiento de cada implementaci√≥n.

In [14]:
# Tabla comparativa de tiempos

import pandas as pd

comparison_data = {
    'Pregunta': ['Q1', 'Q1', 'Q2', 'Q2', 'Q3', 'Q3'],
    'Versi√≥n': ['Time-Optimized', 'Memory-Optimized', 'Time-Optimized', 'Memory-Optimized', 'Time-Optimized', 'Memory-Optimized'],
    'Tiempo (s)': [
        q1_time_elapsed, q1_memory_elapsed,
        q2_time_elapsed, q2_memory_elapsed,
        q3_time_elapsed, q3_memory_elapsed
    ]
}

df = pd.DataFrame(comparison_data)
df['Tiempo (s)'] = df['Tiempo (s)'].round(4)

print("=" * 60)
print("COMPARACI√ìN DE TIEMPOS DE EJECUCI√ìN")
print("=" * 60)
print(df.to_string(index=False))
print("=" * 60)

COMPARACI√ìN DE TIEMPOS DE EJECUCI√ìN
Pregunta          Versi√≥n  Tiempo (s)
      Q1   Time-Optimized      9.9888
      Q1 Memory-Optimized     16.9289
      Q2   Time-Optimized      9.5493
      Q2 Memory-Optimized      9.0544
      Q3   Time-Optimized      7.9409
      Q3 Memory-Optimized      8.0370


---

## Oportunidades de Mejora

### Q1: Top 10 Fechas
**Mejoras Posibles:**
1. **Procesamiento paralelo**: Dividir el archivo en chunks y procesar en m√∫ltiples threads/procesos
2. **Uso de pandas**: Cargar datos con `pd.read_json(lines=True)` y usar operaciones vectorizadas
3. **Bases de datos**: Para datasets mayores, usar SQLite o DuckDB para queries SQL eficientes
4. **Optimizaci√≥n de memoria extrema**: Usar generators y yield para no mantener estructuras completas
5. **Cach√© de parsing de fechas**: Cachear conversiones de fecha repetidas

### Q2: Top 10 Emojis
**Mejoras Posibles:**
1. **Librer√≠a especializada**: Usar `emoji` library en lugar de regex custom
2. **Compilaci√≥n JIT**: Usar PyPy o Numba para acelerar loops de procesamiento de texto
3. **Lazy evaluation**: Usar generators para procesar emojis bajo demanda
4. **Multiprocessing**: Dividir archivo y procesar chunks en paralelo
5. **Optimizar regex**: Usar caracteres Unicode m√°s espec√≠ficos para reducir b√∫squedas

### Q3: Top 10 Usuarios Mencionados
**Mejoras Posibles:**
1. **√çndice invertido**: Para consultas repetidas, mantener √≠ndice de menciones
2. **Streaming con l√≠mite**: Mantener solo top-K en memoria (heap-based approach)
3. **Procesamiento incremental**: Actualizar resultados en tiempo real con nuevos datos
4. **Compresi√≥n**: Usar IDs num√©ricos en lugar de strings para usernames
5. **Apache Spark/Dask**: Para escalabilidad a datasets multi-GB

### Mejoras Generales
1. **Formato de archivo**: Usar Parquet en lugar de JSON para lectura m√°s r√°pida
2. **Monitoreo**: Agregar logging detallado para identificar cuellos de botella
3. **Testing**: Agregar unit tests y property-based testing
4. **Validaci√≥n**: Agregar validaci√≥n de datos de entrada y manejo robusto de errores
5. **Configuraci√≥n**: Hacer configurable el tama√±o de chunks, n√∫mero de workers, etc.

---

## Conclusiones

### Principales Hallazgos

1. **Trade-offs Tiempo vs Memoria**: 
   - Las versiones time-optimized usan estructuras m√°s complejas (Counter, defaultdict) que son m√°s r√°pidas pero consumen m√°s memoria
   - Las versiones memory-optimized usan dict b√°sicos y m√∫ltiples pasadas cuando es necesario

2. **Patrones de Optimizaci√≥n**:
   - **Q1**: Dos pasadas (memory) vs una pasada (time)
   - **Q2 y Q3**: Mismo algoritmo, diferente estructura de datos

3. **Escalabilidad**:
   - Para datasets de cientos de MB, las soluciones actuales son adecuadas
   - Para datasets de GB/TB, se necesitar√≠a procesamiento distribuido (Spark, Dask)

4. **Calidad de C√≥digo**:
   - C√≥digo limpio y modular en archivos separados
   - Tipo hints para mejor mantenibilidad
   - Manejo de casos edge (datos faltantes, None values)

### Lecciones Aprendidas

- El formato JSONL es eficiente para procesamiento streaming
- Python collections (Counter, defaultdict) son muy √∫tiles para agregaciones
- El profiling es esencial para identificar verdaderos cuellos de botella
- No siempre existe un claro ganador: depende del contexto (hardware, tama√±o de datos, frecuencia de ejecuci√≥n)

### Pr√≥ximos Pasos

Si este an√°lisis se llevara a producci√≥n:
1. Implementar logging y monitoreo
2. Agregar tests unitarios e integraci√≥n
3. Configurar CI/CD para validaci√≥n autom√°tica
4. Considerar migraci√≥n a formato columnar (Parquet)
5. Evaluar soluciones cloud (BigQuery, Redshift, Snowflake) para escalabilidad