# Data Engineer Challenge - An√°lisis de Tweets

Este notebook contiene la implementaci√≥n y an√°lisis de las tres tareas del desaf√≠o, con enfoques optimizados para tiempo y memoria.

## Supuestos y Consideraciones

1. **Estructura de datos**: Los tweets est√°n en formato JSON, uno por l√≠nea (JSONL)
2. **Codificaci√≥n**: Todos los archivos utilizan codificaci√≥n UTF-8
4. **Manejo de errores**: Se ignoran tweets con formato inv√°lido o campos faltantes
5. **Emojis**: Se utilizan tanto variantes base como con modificadores de tono de piel

## Instalaci√≥n de Dependencias

In [62]:
%pip install memory-profiler==0.61

Python(36009) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49m/usr/local/opt/python@3.11/bin/python3.11 -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [63]:
%pip install setuptools

Python(36010) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49m/usr/local/opt/python@3.11/bin/python3.11 -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [64]:
%pip install emoji


Python(36011) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49m/usr/local/opt/python@3.11/bin/python3.11 -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [65]:
file_path = "farmers-protest-tweets-2021-2-4.json"

# Tarea 1: Top 10 fechas con m√°s tweets y usuario m√°s activo por fecha

## Objetivo
Encontrar las 10 fechas con mayor cantidad de tweets y, para cada una de esas fechas, identificar el usuario (username) que m√°s publicaciones tiene.

## Enfoque Optimizado para Tiempo (q1_time)

**Estrategia:**
- Utiliza Counter y defaultdict de collections para operaciones r√°pidas
- Almacena todos los datos en memoria para acceso r√°pido
- Usa most_common() que es altamente optimizado en C

**Ventajas:**
- Operaciones de conteo muy r√°pidas
- Menos overhead en el procesamiento
- Ideal para datasets que caben en memoria

In [None]:
import time  # Recargar el m√≥dulo para obtener la versi√≥n m√°s reciente
from q1_time import q1_time, q1_time_fast
from q1_memory import q1_memory

### Medici√≥n de Tiempo


In [None]:
# Medici√≥n de memoria
print("=== Medici√≥n de Memoria (q1_) ===")
%memit q1_time(file_path)


=== Medici√≥n de Tiempo (q1_time) ===
Tiempo de ejecuci√≥n: 4.8036 segundos


In [99]:
# Medici√≥n de tiempo
print("\n=== Medici√≥n de Tiempo (q1_memory.py) ===")
start = time.perf_counter()
result_q1_memory = q1_memory(file_path)
end = time.perf_counter()

print(f"Tiempo de ejecuci√≥n: {end - start:.4f} segundos")


=== Medici√≥n de Tiempo (q1_memory.py) ===
Tiempo de ejecuci√≥n: 5.3529 segundos


## Enfoque Optimizado para Memoria (q1_memory)

**Estrategia:**
- Utiliza diccionarios simples en lugar de Counter para reducir overhead
- Procesa l√≠nea por l√≠nea sin cargar todo en memoria
- Elimina referencias expl√≠citamente con del para liberar memoria
- Ordena manualmente solo al final

**Ventajas:**
- Menor consumo de memoria
- Ideal para datasets muy grandes o sistemas con memoria limitada
- Procesamiento streaming eficiente


### Medici√≥n de Memoria


In [100]:
# Medici√≥n de memoria
print("=== Medici√≥n de Memoria (q1_memory) ===")
%memit q1_memory(file_path)

=== Medici√≥n de Memoria (q1_memory) ===


Python(47444) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


peak memory: 85.69 MiB, increment: 0.43 MiB


In [102]:
# Medici√≥n de tiempo
print("\n=== Medici√≥n de Tiempo (q1_memory) ===")
start = time.perf_counter()
result_q1_memory = q1_memory(file_path)
end = time.perf_counter()

print(f"Tiempo de ejecuci√≥n: {end - start:.4f} segundos")
print(f"\nTop 10 fechas con m√°s tweets y usuario m√°s activo por fecha:")
for i, (date, username) in enumerate(result_q1_memory, 1):
    print(f"{i}. {date}: {username}")


=== Medici√≥n de Tiempo (q1_memory) ===
Tiempo de ejecuci√≥n: 4.8331 segundos

Top 10 fechas con m√°s tweets y usuario m√°s activo por fecha:
1. 2021-02-12: RanbirS00614606
2. 2021-02-13: MaanDee08215437
3. 2021-02-17: RaaJVinderkaur
4. 2021-02-16: jot__b
5. 2021-02-14: rebelpacifist
6. 2021-02-18: neetuanjle_nitu
7. 2021-02-15: jot__b
8. 2021-02-20: MangalJ23056160
9. 2021-02-23: Surrypuria
10. 2021-02-19: Preetm91


# Tarea 2: Top 10 emojis m√°s usados

## Objetivo
Identificar los 10 emojis m√°s utilizados en los tweets junto con su conteo.

## Enfoque Optimizado para Tiempo (q2_time)

**Estrategia:**
- Utiliza Counter para conteo eficiente
- Filtro r√°pido de l√≠neas inv√°lidas antes de parsear JSON
- Actualizaci√≥n directa del contador sin loops adicionales
- Usa most_common() optimizado

**Ventajas:**
- Procesamiento muy r√°pido
- Menos operaciones intermedias
- Ideal cuando la memoria no es limitante


In [76]:
from q2_time import q2_time
from q2_memory import q2_memory

In [95]:
# Medici√≥n de memoria
print("=== Medici√≥n de Memoria (q2_) ===")
%memit q2_time(file_path)

=== Medici√≥n de Memoria (q2_) ===


Python(45070) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


peak memory: 82.65 MiB, increment: 1.62 MiB


In [96]:
# Medici√≥n de tiempo
print("\n=== Medici√≥n de Tiempo (q2_time) ===")
start = time.perf_counter()
result_q2_time = q2_time(file_path)
end = time.perf_counter()

print(f"Tiempo de ejecuci√≥n: {end - start:.4f} segundos")


=== Medici√≥n de Tiempo (q2_time) ===
Tiempo de ejecuci√≥n: 23.3917 segundos


## Enfoque Optimizado para Memoria (q2_memory)

**Estrategia:**
- Utiliza diccionario simple en lugar de Counter
- Elimina referencias expl√≠citamente despu√©s de procesar cada tweet
- Ordena solo al final cuando es necesario
- Procesamiento streaming l√≠nea por l√≠nea

**Ventajas:**
- Menor consumo de memoria
- Liberaci√≥n inmediata de objetos procesados
- Ideal para sistemas con restricciones de memoria


In [98]:
# Medici√≥n de memoria
print("=== Medici√≥n de Memoria (q2_memory) ===")
%memit q2_memory(file_path)

=== Medici√≥n de Memoria (q2_memory) ===


Python(46011) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


peak memory: 82.31 MiB, increment: 0.31 MiB


In [103]:
# Medici√≥n de tiempo
print("\n=== Medici√≥n de Tiempo (q2_memory) ===")
start = time.perf_counter()
result_q2_memory = q2_memory(file_path)
end = time.perf_counter()

print(f"Tiempo de ejecuci√≥n: {end - start:.4f} segundos")
print(f"\nTop 10 emojis m√°s usados:")
for i, (emoji_char, count) in enumerate(result_q2_memory, 1):
    print(f"{i}. {emoji_char}: {count} veces")


=== Medici√≥n de Tiempo (q2_memory) ===
Tiempo de ejecuci√≥n: 18.8801 segundos

Top 10 emojis m√°s usados:
1. üôè: 5049 veces
2. üòÇ: 3072 veces
3. üöú: 2972 veces
4. üåæ: 2182 veces
5. üáÆüá≥: 2086 veces
6. ü§£: 1668 veces
7. ‚úä: 1651 veces
8. ‚ù§Ô∏è: 1382 veces
9. üôèüèª: 1317 veces
10. üíö: 1040 veces


# Tarea 3: Top 10 usuarios m√°s influyentes por menciones

## Objetivo
Identificar los 10 usuarios (username) m√°s influyentes bas√°ndose en el n√∫mero de menciones (@) que reciben en los tweets.

## Enfoque Optimizado para Tiempo (q3_time)

**Estrategia:**
- Utiliza Counter para conteo eficiente
- Prioriza el campo mentionedUsers cuando est√° disponible (m√°s confiable)
- Fallback a extracci√≥n por regex del contenido cuando no est√° disponible
- Usa most_common() optimizado

**Ventajas:**
- Procesamiento r√°pido con estructuras optimizadas
- Manejo eficiente de ambos casos (campo disponible o no)
- Ideal cuando la memoria no es limitante


In [89]:
from q3_time import q3_time
from q3_memory import q3_memory

In [90]:

# Medici√≥n de memoria
print("=== Medici√≥n de Memoria (q3_time) ===")
%memit q3_time(file_path)


=== Medici√≥n de Memoria (q3_time) ===


Python(44424) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


peak memory: 83.95 MiB, increment: 1.12 MiB


In [93]:
# Medici√≥n de tiempo
print("\n=== Medici√≥n de Tiempo (q3_time) ===")
start = time.perf_counter()
result_q3_time = q3_time(file_path)
end = time.perf_counter()

print(f"Tiempo de ejecuci√≥n: {end - start:.4f} segundos")
print(f"\nTop 10 usuarios m√°s mencionados:")
for i, (username, count) in enumerate(result_q3_time, 1):
    print(f"{i}. @{username}: {count} menciones")



=== Medici√≥n de Tiempo (q3_time) ===
Tiempo de ejecuci√≥n: 5.5041 segundos

Top 10 usuarios m√°s mencionados:
1. @narendramodi: 2265 menciones
2. @Kisanektamorcha: 1840 menciones
3. @RakeshTikaitBKU: 1644 menciones
4. @PMOIndia: 1427 menciones
5. @RahulGandhi: 1146 menciones
6. @GretaThunberg: 1048 menciones
7. @RaviSinghKA: 1019 menciones
8. @rihanna: 986 menciones
9. @UNHumanRights: 962 menciones
10. @meenaharris: 926 menciones


## Enfoque Optimizado para Memoria (`q3_memory`)

**Estrategia:**
- Utiliza diccionario simple en lugar de `Counter`
- Elimina referencias expl√≠citamente despu√©s de procesar cada tweet
- Mismo enfoque de priorizaci√≥n: `mentionedUsers` primero, regex como fallback
- Ordena solo al final cuando es necesario

**Ventajas:**
- Menor consumo de memoria
- Liberaci√≥n inmediata de objetos procesados
- Ideal para sistemas con restricciones de memoria


In [91]:
from q3_memory import q3_memory

# Medici√≥n de memoria
print("=== Medici√≥n de Memoria (q3_memory) ===")
%memit q3_memory(file_path)


=== Medici√≥n de Memoria (q3_memory) ===


Python(44467) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


peak memory: 84.29 MiB, increment: 0.32 MiB


In [94]:
# Medici√≥n de tiempo
print("\n=== Medici√≥n de Tiempo (q3_memory) ===")
start = time.perf_counter()
result_q3_memory = q3_memory(file_path)
end = time.perf_counter()

print(f"Tiempo de ejecuci√≥n: {end - start:.4f} segundos")
print(f"\nTop 10 usuarios m√°s mencionados:")
for i, (username, count) in enumerate(result_q3_memory, 1):
    print(f"{i}. @{username}: {count} menciones")

# Verificaci√≥n de consistencia
print(f"\n=== Verificaci√≥n ===")
print(f"¬øResultados id√©nticos? {result_q3_time == result_q3_memory}")



=== Medici√≥n de Tiempo (q3_memory) ===
Tiempo de ejecuci√≥n: 5.9873 segundos

Top 10 usuarios m√°s mencionados:
1. @narendramodi: 2265 menciones
2. @Kisanektamorcha: 1840 menciones
3. @RakeshTikaitBKU: 1644 menciones
4. @PMOIndia: 1427 menciones
5. @RahulGandhi: 1146 menciones
6. @GretaThunberg: 1048 menciones
7. @RaviSinghKA: 1019 menciones
8. @rihanna: 986 menciones
9. @UNHumanRights: 962 menciones
10. @meenaharris: 926 menciones

=== Verificaci√≥n ===
¬øResultados id√©nticos? True


#Mejores propuestas

- Uso de GCS para almacenar el archivo y hacer lectura desde bucket
- Exportar informaci√≥n a dos tablas de BigQuery, una de tweets y otra con los usuarios para q1 y q2
- Uso de Dataflow
- Excepciones de lectura del bucket 