# LATAM Challenge: Data Engineer

## Supuestos

1) Se asume que las personas evaluadoras cuentan con el dataset de *tweets* que se pide utilizar, por lo que no se subirá al repositorio.
   
   *Nota*: El archivo "farmers-protest-tweets-2021-2-4.json" debe estar ubicado dentro de la carpeta src

2) Se asume que cuando se refiere al Top 10 de cualquier concepto, nos referimos al orden descendente de cantidades y ascendente de puestos; es decir:
   
   TOP 10: 
    - Puesto 1: `Cantidad máxima (Ejemplo: 10.000)`
    - Puesto 2: `Cantidad X (Ejemplo: 9.000)`
    - Puesto 3: `Cantidad Y (Ejemplo: 8.000)`
    - ...
    - Puesto 10: `Cantidad mínima (Ejemplo: 1.000)`

## Instrucciones

1) Ejecutar la siguiente celda primero, pues define la ruta al archivo de *tweets* para todas las funciones que se llaman más abajo.
2) Luego de eso se recomienda ejecutar el notebook completo celda por celda. 

In [1]:
import time
file_path = "farmers-protest-tweets-2021-2-4.json"

## Q1: Top 10 Fechas

### Optimización de Memoria

El código recibe un archivo JSON con tweets y devuelve una lista con las 10 fechas con más tweets y el usuario que más publicó en cada una de ellas. Para optimizar la memoria, se utilizó un diccionario para almacenar el conteo de tweets por fecha y otro diccionario para almacenar el conteo de tweets por usuario por fecha. En lugar de almacenar todos los tweets en memoria, se procesan uno a uno y se actualizan los conteos en los diccionarios correspondientes. Al final, se encuentran las 10 fechas con más tweets y se obtiene el usuario con más publicaciones en cada una de ellas.

In [2]:
from q1_memory import q1_memory

initial_time_q1_m = time.time()
q1_memory_result = q1_memory(file_path)
print(f"Tiempo de ejecución: {time.time() - initial_time_q1_m} segundos")
print("Top 10 Fechas con más tweets (Fecha, Usuario):")
q1_memory_result

Tiempo de ejecución: 8.74439787864685 segundos
Top 10 Fechas con más tweets (Fecha, Usuario):


[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

### Optimización de Tiempo

El código recibe un archivo JSON con tweets y devuelve una lista con las 10 fechas con más tweets y el usuario que más publicó en cada una de ellas. Para optimizar el tiempo de ejecución, se utilizó la función nlargest de la librería heapq para encontrar las 10 fechas con más tweets de manera eficiente. Se evitó ordenar toda la lista de fechas, lo cual sería menos eficiente, y se seleccionaron directamente las 10 fechas con más tweets. Luego, se obtiene el usuario con más publicaciones en cada una de las fechas seleccionadas y se ordena la lista final por cantidad de tweets en orden descendente.

In [3]:
from q1_time import q1_time

initial_time_q1_t = time.time()
q1_time_result = q1_time(file_path)
print(f"Tiempo de ejecución: {time.time() - initial_time_q1_t} segundos")
print("Top 10 Fechas con más tweets (Fecha, Usuario):")
q1_time_result

Tiempo de ejecución: 4.0836029052734375 segundos
Top 10 Fechas con más tweets (Fecha, Usuario):


[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

## Q2: Top 10 Emojis

### Optimización de Memoria

El código recibe un archivo con tweets en formato JSON y retorna una lista con los 10 emojis más comunes en los tweets. Para lograr esto, se inicializa un contador de emojis y se recorre cada tweet del archivo. Para cada tweet, se extrae el contenido del tweet y se verifica que no esté vacío. Si el tweet no está vacío, se utilizan los emojis de la librería `emoji` para extraer los emojis del texto y se actualiza el contador de emojis. Finalmente, se retornan los 10 emojis más comunes. Para optimizar la memoria, se utiliza un contador de emojis en lugar de almacenar todos los emojis en una lista o conjunto. Esto permite contar la frecuencia de cada emoji sin almacenar todos los emojis en memoria. Además, se procesa un tweet a la vez, lo que reduce la cantidad de datos almacenados en memoria en cada iteración.

In [4]:
from q2_memory import q2_memory

initial_time_q2_m = time.time()
q2_memory_result = q2_memory(file_path)
print(f"Tiempo de ejecución: {time.time() - initial_time_q2_m} segundos")
print ("Top 10 emojis más usados (Emoji, Cantidad de veces usado), ordenados de mayor a menor:")
q2_memory_result

Tiempo de ejecución: 17.74793291091919 segundos
Top 10 emojis más usados (Emoji, Cantidad de veces usado), ordenados de mayor a menor:


[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

### Optimización de Tiempo

El código es muy similar al de la versión q2_memory.py, con la diferencia de que se utiliza la función `heapq.nlargest` en lugar de `Counter.most_common` para mejorar el tiempo de ejecución al obtener los 10 emojis más comunes. `heapq.nlargest` emplea una estructura de datos de cola de prioridad (Heap Queue) para encontrar los elementos más grandes en una lista de manera eficiente. Esto evita ordenar toda la lista, lo cual sería menos eficiente. Usar un heap permite obtener directamente los 10 emojis más comunes, reduciendo significativamente el tiempo de ejecución.

In [5]:
from q2_time import q2_time

initial_time_q2_t = time.time()
q2_time_result = q2_time(file_path)
print(f"Tiempo de ejecución: {time.time() - initial_time_q2_t} segundos")
print ("Top 10 emojis más usados (Emoji, Cantidad de veces usado), ordenados de mayor a menor:")
q2_time_result

Tiempo de ejecución: 16.944166898727417 segundos
Top 10 emojis más usados (Emoji, Cantidad de veces usado), ordenados de mayor a menor:


[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

## Q3: Top 10 Histórico de Usuarios

### Optimización de Memoria

La función recibe un archivo JSON con tweets y cuenta las menciones de usuarios en ellos. En lugar de almacenar todos los usuarios mencionados en una lista y luego contar las menciones, se utiliza un objeto Counter, que permite contar las menciones de usuarios de forma eficiente sin necesidad de almacenar todos los usuarios mencionados en memoria. Esto optimiza el uso de memoria al evitar almacenar duplicados de los usuarios mencionados. Al final, se retorna una lista con los 10 usuarios más mencionados en los tweets.

In [6]:
from q3_memory import q3_memory

initial_time_q3_m = time.time()
q3_memory_result = q3_memory(file_path)
print(f"Tiempo de ejecución: {time.time() - initial_time_q3_m} segundos")
print ("Top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones:")
q3_memory_result

Tiempo de ejecución: 4.598323106765747 segundos
Top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones:


[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

### Optimización de Tiempo

Esta solución aplica la misma lógica de optimización de tiempo de ejecución que en Q2. La función procesa un archivo JSON línea por línea para contar las menciones de usuarios de manera eficiente, utilizando un defaultdict para almacenar los conteos. Se maneja cualquier error de formato JSON para asegurar que el procesamiento continúe. Al final, se usa heapq.nlargest para obtener los 10 usuarios más mencionados, optimizando el tiempo de ejecución al evitar ordenar toda la lista de usuarios.

In [7]:
from q3_time import q3_time

initial_time_q3_t = time.time()
q3_time_result = q3_time(file_path)
print(f"Tiempo de ejecución: {time.time() - initial_time_q3_t} segundos")
print ("Top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones:")
q3_time_result

Tiempo de ejecución: 4.206908226013184 segundos
Top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones:


[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]