# Data Engineer Challenge - An√°lisis de Tweets

Este notebook contiene la explicaci√≥n detallada de las soluciones implementadas para el desaf√≠o de ingenier√≠a de datos.

## Estructura del Challenge

Se deben resolver 3 problemas con 2 enfoques cada uno:
1. **Q1**: Top 10 fechas con m√°s tweets + usuario m√°s activo por fecha
2. **Q2**: Top 10 emojis m√°s usados
3. **Q3**: Top 10 usuarios m√°s influyentes (por menciones recibidas)

Cada problema tiene dos versiones:
- **`*_time`**: Optimizado para tiempo de ejecuci√≥n
- **`*_memory`**: Optimizado para uso de memoria

## Supuestos y Consideraciones

1. **Formato de datos**: El archivo es JSONL (JSON Lines), una l√≠nea por tweet
2. **Estructura del tweet**: 
   - Campo `date`: fecha en formato ISO (ej: "2021-02-04T10:30:00Z")
   - Campo `user.username`: nombre de usuario del autor
   - Campo `content`: texto del tweet
3. **Manejo de errores**: Se ignoran l√≠neas mal formateadas o con datos faltantes
4. **Encoding**: UTF-8 para soportar emojis y caracteres especiales
5. **Menciones**: Se detectan con regex `@(\w+)` (solo alfanum√©ricos y guiones bajos)

In [2]:
# Configuraci√≥n inicial
import sys
import time
import json

# Import opcional de memory_profiler (solo si est√° instalado)
try:
    from memory_profiler import profile
    MEMORY_PROFILER_AVAILABLE = True
except ImportError:
    MEMORY_PROFILER_AVAILABLE = False
    print("‚ö†Ô∏è  memory_profiler no est√° disponible. Instala con: pip install memory-profiler")

# Ruta al archivo de datos
file_path = "../farmers-protest-tweets-2021-2-4.json"

# Imports de las funciones
from q1_time import q1_time
from q1_memory import q1_memory
from q2_time import q2_time
from q2_memory import q2_memory
from q3_time import q3_time
from q3_memory import q3_memory

print("‚úÖ Imports completados")

‚úÖ Imports completados


## Verificaci√≥n del archivo de datos

Primero verificamos que el archivo existe y vemos una muestra de su estructura.

In [3]:
# Verificar que el archivo existe
import os
if os.path.exists(file_path):
    file_size = os.path.getsize(file_path) / (1024 * 1024)  # MB
    print(f"‚úÖ Archivo encontrado: {file_path}")
    print(f"üìä Tama√±o: {file_size:.2f} MB")
    
    # Leer primera l√≠nea como muestra
    with open(file_path, 'r', encoding='utf-8') as f:
        first_line = f.readline()
        sample_tweet = json.loads(first_line)
        print("\nüìù Estructura del tweet (primeros campos):")
        for key in list(sample_tweet.keys())[:10]:
            print(f"  - {key}: {type(sample_tweet[key]).__name__}")
else:
    print(f"‚ùå Archivo no encontrado: {file_path}")

‚úÖ Archivo encontrado: ../farmers-protest-tweets-2021-2-4.json
üìä Tama√±o: 388.83 MB

üìù Estructura del tweet (primeros campos):
  - url: str
  - date: str
  - content: str
  - renderedContent: str
  - id: int
  - user: dict
  - outlinks: list
  - tcooutlinks: list
  - replyCount: int
  - retweetCount: int


## Q1: Top 10 fechas con m√°s tweets + usuario m√°s activo

### Estrategia `q1_time`:
- Carga todo el archivo en memoria
- Usa `defaultdict` para contadores anidados (fecha ‚Üí username ‚Üí conteo)
- Dos estructuras: `date_counts` y `date_user_counts`
- Al final ordena y obtiene top 10

### Estrategia `q1_memory`:
- Procesa l√≠nea por l√≠nea (mismo enfoque que time en este caso)
- Mantiene solo contadores en memoria, no carga tweets completos
- Nota: Para archivos muy grandes, se podr√≠a optimizar m√°s usando streaming y descartando datos intermedios

In [4]:
# Prueba Q1 - Versi√≥n optimizada para tiempo
print("üïê Ejecutando q1_time...")
start_time = time.time()
result_q1_time = q1_time(file_path)
time_q1_time = time.time() - start_time
print(f"‚è±Ô∏è  Tiempo: {time_q1_time:.2f} segundos")
print(f"üìä Resultados (primeros 3):")
for i, (date, username) in enumerate(result_q1_time[:3], 1):
    print(f"  {i}. {date} - {username}")
print(f"\n‚úÖ Total resultados: {len(result_q1_time)}")

üïê Ejecutando q1_time...
‚è±Ô∏è  Tiempo: 1.47 segundos
üìä Resultados (primeros 3):
  1. 2021-02-12 - RanbirS00614606
  2. 2021-02-13 - MaanDee08215437
  3. 2021-02-17 - RaaJVinderkaur

‚úÖ Total resultados: 10


In [5]:
# Prueba Q1 - Versi√≥n optimizada para memoria
print("üíæ Ejecutando q1_memory...")
start_time = time.time()
result_q1_memory = q1_memory(file_path)
time_q1_memory = time.time() - start_time
print(f"‚è±Ô∏è  Tiempo: {time_q1_memory:.2f} segundos")
print(f"üìä Resultados (primeros 3):")
for i, (date, username) in enumerate(result_q1_memory[:3], 1):
    print(f"  {i}. {date} - {username}")
print(f"\n‚úÖ Total resultados: {len(result_q1_memory)}")

# Verificar que los resultados coinciden
if result_q1_time == result_q1_memory:
    print("\n‚úÖ Los resultados coinciden entre ambas versiones")
else:
    print("\n‚ö†Ô∏è  Los resultados difieren (verificar implementaci√≥n)")

üíæ Ejecutando q1_memory...
‚è±Ô∏è  Tiempo: 1.45 segundos
üìä Resultados (primeros 3):
  1. 2021-02-12 - RanbirS00614606
  2. 2021-02-13 - MaanDee08215437
  3. 2021-02-17 - RaaJVinderkaur

‚úÖ Total resultados: 10

‚úÖ Los resultados coinciden entre ambas versiones


## Q2: Top 10 emojis m√°s usados

### Estrategia:
- Usa regex para detectar emojis Unicode en rangos espec√≠ficos
- Patr√≥n compilado una vez para eficiencia
- `Counter` para acumular conteos
- Ambas versiones (`time` y `memory`) son similares porque procesan l√≠nea por l√≠nea

### Rangos Unicode cubiertos:
- Emoticons (üòÄ-üôè)
- S√≠mbolos y pictogramas (üåÄ-üóø)
- Transporte y mapas (üöÄ-üõø)
- Banderas (üá¶-üáø)
- Y otros rangos comunes de emojis

In [6]:
# Prueba Q2 - Versi√≥n optimizada para tiempo
print("üïê Ejecutando q2_time...")
start_time = time.time()
result_q2_time = q2_time(file_path)
time_q2_time = time.time() - start_time
print(f"‚è±Ô∏è  Tiempo: {time_q2_time:.2f} segundos")
print(f"üìä Top 10 emojis:")
for i, (emoji, count) in enumerate(result_q2_time, 1):
    print(f"  {i}. {emoji} - {count:,} veces")

üïê Ejecutando q2_time...
‚è±Ô∏è  Tiempo: 1.62 segundos
üìä Top 10 emojis:
  1. üôè - 1,898 veces
  2. ‚ù§Ô∏è - 934 veces
  3. üåæ - 497 veces
  4. üíö - 486 veces
  5. üòÇ - 486 veces
  6. üëç - 456 veces
  7. üëâ - 450 veces
  8. ‚úä - 412 veces
  9. üáÆüá≥ - 397 veces
  10. üôèüôè - 379 veces


In [7]:
# Prueba Q2 - Versi√≥n optimizada para memoria
print("üíæ Ejecutando q2_memory...")
start_time = time.time()
result_q2_memory = q2_memory(file_path)
time_q2_memory = time.time() - start_time
print(f"‚è±Ô∏è  Tiempo: {time_q2_memory:.2f} segundos")
print(f"üìä Top 10 emojis:")
for i, (emoji, count) in enumerate(result_q2_memory, 1):
    print(f"  {i}. {emoji} - {count:,} veces")

# Verificar que los resultados coinciden
if result_q2_time == result_q2_memory:
    print("\n‚úÖ Los resultados coinciden entre ambas versiones")
else:
    print("\n‚ö†Ô∏è  Los resultados difieren (verificar implementaci√≥n)")

üíæ Ejecutando q2_memory...
‚è±Ô∏è  Tiempo: 1.62 segundos
üìä Top 10 emojis:
  1. üôè - 1,898 veces
  2. ‚ù§Ô∏è - 934 veces
  3. üåæ - 497 veces
  4. üíö - 486 veces
  5. üòÇ - 486 veces
  6. üëç - 456 veces
  7. üëâ - 450 veces
  8. ‚úä - 412 veces
  9. üáÆüá≥ - 397 veces
  10. üôèüôè - 379 veces

‚úÖ Los resultados coinciden entre ambas versiones


## Q3: Top 10 usuarios m√°s influyentes (por menciones)

### Estrategia:
- Usa regex `@(\w+)` para detectar menciones en el texto
- `\w+` captura solo caracteres alfanum√©ricos y guiones bajos (est√°ndar de Twitter)
- `Counter` acumula menciones por username
- Ambas versiones procesan l√≠nea por l√≠nea

### Nota sobre influencia:
La influencia se mide por el n√∫mero de veces que un usuario es mencionado (@username) en los tweets, no por sus propios tweets.

In [8]:
# Prueba Q3 - Versi√≥n optimizada para tiempo
print("üïê Ejecutando q3_time...")
start_time = time.time()
result_q3_time = q3_time(file_path)
time_q3_time = time.time() - start_time
print(f"‚è±Ô∏è  Tiempo: {time_q3_time:.2f} segundos")
print(f"üìä Top 10 usuarios m√°s mencionados:")
for i, (username, count) in enumerate(result_q3_time, 1):
    print(f"  {i}. @{username} - {count:,} menciones")

üïê Ejecutando q3_time...
‚è±Ô∏è  Tiempo: 1.43 segundos
üìä Top 10 usuarios m√°s mencionados:
  1. @narendramodi - 2,261 menciones
  2. @Kisanektamorcha - 1,836 menciones
  3. @RakeshTikaitBKU - 1,639 menciones
  4. @PMOIndia - 1,422 menciones
  5. @RahulGandhi - 1,125 menciones
  6. @GretaThunberg - 1,046 menciones
  7. @RaviSinghKA - 1,015 menciones
  8. @rihanna - 972 menciones
  9. @UNHumanRights - 962 menciones
  10. @meenaharris - 925 menciones


In [9]:
# Prueba Q3 - Versi√≥n optimizada para memoria
print("üíæ Ejecutando q3_memory...")
start_time = time.time()
result_q3_memory = q3_memory(file_path)
time_q3_memory = time.time() - start_time
print(f"‚è±Ô∏è  Tiempo: {time_q3_memory:.2f} segundos")
print(f"üìä Top 10 usuarios m√°s mencionados:")
for i, (username, count) in enumerate(result_q3_memory, 1):
    print(f"  {i}. @{username} - {count:,} menciones")

# Verificar que los resultados coinciden
if result_q3_time == result_q3_memory:
    print("\n‚úÖ Los resultados coinciden entre ambas versiones")
else:
    print("\n‚ö†Ô∏è  Los resultados difieren (verificar implementaci√≥n)")

üíæ Ejecutando q3_memory...
‚è±Ô∏è  Tiempo: 1.43 segundos
üìä Top 10 usuarios m√°s mencionados:
  1. @narendramodi - 2,261 menciones
  2. @Kisanektamorcha - 1,836 menciones
  3. @RakeshTikaitBKU - 1,639 menciones
  4. @PMOIndia - 1,422 menciones
  5. @RahulGandhi - 1,125 menciones
  6. @GretaThunberg - 1,046 menciones
  7. @RaviSinghKA - 1,015 menciones
  8. @rihanna - 972 menciones
  9. @UNHumanRights - 962 menciones
  10. @meenaharris - 925 menciones

‚úÖ Los resultados coinciden entre ambas versiones


## Resumen de Tiempos de Ejecuci√≥n

Comparaci√≥n entre versiones optimizadas para tiempo vs memoria:

In [10]:
# Resumen comparativo
import pandas as pd

summary_data = {
    'Funci√≥n': ['Q1', 'Q2', 'Q3'],
    'Tiempo (time)': [time_q1_time, time_q2_time, time_q3_time],
    'Tiempo (memory)': [time_q1_memory, time_q2_memory, time_q3_memory],
}

df_summary = pd.DataFrame(summary_data)
df_summary['Diferencia (%)'] = ((df_summary['Tiempo (memory)'] - df_summary['Tiempo (time)']) / df_summary['Tiempo (time)'] * 100).round(2)

print("üìä Resumen de tiempos de ejecuci√≥n:")
print(df_summary.to_string(index=False))
print("\nüí° Nota: Las diferencias pueden variar seg√∫n el tama√±o del archivo y recursos del sistema")

üìä Resumen de tiempos de ejecuci√≥n:
Funci√≥n  Tiempo (time)  Tiempo (memory)  Diferencia (%)
     Q1       1.470942         1.453176           -1.21
     Q2       1.623791         1.622818           -0.06
     Q3       1.432793         1.430340           -0.17

üí° Nota: Las diferencias pueden variar seg√∫n el tama√±o del archivo y recursos del sistema


## Mejoras Futuras

### Q1:
- **Time**: Para archivos m√°s grandes, usar multiprocessing para procesar chunks en paralelo
- **Memory**: Implementar streaming con l√≠mite de memoria fijo, descartando fechas fuera del top 10 durante el procesamiento

### Q2:
- Usar librer√≠a especializada como `emoji` para mejor detecci√≥n de emojis
- Considerar emojis compuestos (skin tones, flags combinados)
- Cachear regex compilado fuera de la funci√≥n

### Q3:
- Validar que los usernames mencionados existan en el dataset
- Considerar case-insensitive matching si es necesario
- Filtrar menciones a usuarios propios del autor del tweet

### General:
- Implementar logging para debugging
- Agregar validaci√≥n de tipos m√°s estricta
- Considerar usar `pandas` o `polars` para procesamiento m√°s eficiente en algunos casos
- Implementar tests unitarios con datos de muestra

## Medici√≥n de Memoria (Opcional)

Para medir el uso de memoria en detalle, se puede usar `memory_profiler`:

```python
# Ejemplo de uso:
# %load_ext memory_profiler
# %mprun -f q1_memory q1_memory(file_path)
```

O usar `memray` para an√°lisis m√°s avanzado:
```bash
memray run -o profile.bin python -c "from q1_memory import q1_memory; q1_memory('file_path')"
memray table profile.bin
```