# **Data Engineer Challenge LATAM**

En este Notebook encontraremos los resultados para el desafio Latam

Como primera parte comentaremos que se deben instalar todas las librerías agregadas en el archivo requirements.txt, luego de esto son llamadas para se utilizadas.

In [1]:
!pip install -r requirements.txt



In [2]:
%load_ext memory_profiler

In [3]:
from time import time
from zipfile import ZipFile
import os
from memory_profiler import profile

Luego de importar las librerías contiuamos con la lectura del archivo necesario para procesar los datos.

In [4]:
file_path = "farmers-protest-tweets-2021-2-4.json"

if not os.path.exists(file_path):
    with ZipFile("tweets.json.zip", 'r') as zObject:
        zObject.extractall('.')

In [5]:
from q1_memory import q1_memory

Ahora inicializamos el tiempo de ejecución y utilizamos la función desarrollada para el primer desafío, enfocado en un tiempo de ejecución menor pero dejando de lado la memoria que se pueda llegar a utilizar, por otro lado la siguiente función se trato de ejecutar con un menor uso de memoría sin considerar el tiempo que podría tomarle.
Considerar que la ejecución se realiza dos veces solamente para medir la memoría utilizada mediante %memit.

1. Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.

Para realizar esto el primer ejercicio llamado q1_memory, considera la lectura de manera de optimizar el uso de memoria, se intentará procesar el archivo línea por línea sin almacenar todos los datos en memoria al mismo tiempo. Esto puede hacer que la ejecución sea más lenta.

Para la función que llamamos q1_time, se considera mejor el tiempo de ejecución intentando reducir las iteraciones al mínimo y utilizando estructuras de datos eficientes.

In [6]:
initial_time = time()
result = q1_memory(file_path=file_path)
print(f"---- TIEMPO TOTAL EJECUCION: {time() - initial_time} ----")
%memit -r 1 q1_memory(file_path=file_path)
print("---- RESULTADO ----")
print(result)

-- TIEMPO DE EJECUCION: 90.80253219604492 --
peak memory: 96.26 MiB, increment: 0.79 MiB
RESULTADO: 
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


In [7]:
from q1_time import q1_time

In [8]:
initial_time = time()
result = q1_time(file_path=file_path)
print(f"---- TIEMPO TOTAL EJECUCION: {time() - initial_time} ----")
%memit -r 1 q1_time(file_path=file_path)
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 11.823351860046387 --
peak memory: 109.09 MiB, increment: 5.33 MiB
RESULTADO: 
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


In [9]:
pip install emoji




Ahora continuamos con el desafio n° 2 el que al igual que el anterior conlleva una ejecución de 2 veces solamente para monitoreo de memoría y tiempo, esto no es necesario en la ejecución oficial del código.

2. Los top 10 emojis más usados con su respectivo conteo.

La función para ejecutar el tiempo optimizado es q2_time, esta función recorrerá todos los tweets una vez, extrayendo y contando los emojis encontrados, esto lo realizará mediante la librería Emoji, que justamente tiene una función para contar emojis incorporada.

Por otro lado la función q2_memory, Este método es prácticamente el mismo que el optimizado para tiempo, porque el procesamiento y la identificación de emojis no requiere cargar grandes estructuras de datos en memoria; el principal consumo de memoria vendría de cargar el archivo de tweets completo en memoria, lo cual evitamos leyendo línea por línea.

In [10]:
from q2_time import q2_time

In [11]:
initial_time = time()
result = q2_time(file_path=file_path)
print(f"---- TIEMPO TOTAL EJECUCION: {time() - initial_time} ----")
%memit -r 1 q2_time(file_path=file_path)
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 28.784366846084595 --
peak memory: 113.09 MiB, increment: 0.69 MiB
RESULTADO: 
[('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


In [12]:
from q2_memory import q2_memory

In [13]:
initial_time = time()
result = q2_memory(file_path=file_path)
print(f"---- TIEMPO TOTAL EJECUCION: {time() - initial_time} ----")
%memit -r 1 q2_memory(file_path=file_path)
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 27.836110830307007 --
peak memory: 120.24 MiB, increment: 0.09 MiB
RESULTADO: 
[('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


Finalmente el último ejecicio a realizar es bastante similar al primero, no es necesario importar librerías externas a python.

3. El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.

El caso para q3_time, se extrae las listas de usuarios mencionados de cada tweet. Aquí, se toma precaución para manejar casos donde 'mentionedUsers' podría no estar presente o ser None.

Para el caso de q3_memory, para hacer el código más eficiente en términos de uso de memoria, especialmente para manejar archivos grandes, podemos ajustar la forma en que leemos y procesamos el archivo. En lugar de cargar todas las líneas del archivo en memoria de una vez con f.readlines(), podemos iterar sobre el archivo línea por línea. Además, podemos ajustar el procesamiento de los datos para reducir el uso de memoria intermedia.

In [14]:
from q3_time import q3_time

In [15]:
initial_time = time()
result = q3_time(file_path=file_path)
print(f"---- TIEMPO TOTAL EJECUCION: {time() - initial_time} ----")
%memit -r 1 q3_time(file_path=file_path)
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 5.448221683502197 --
peak memory: 128.68 MiB, increment: 1.88 MiB
RESULTADO: 
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


In [16]:
from q3_memory import q3_memory

In [17]:
initial_time = time()
result = q3_memory(file_path=file_path)
print(f"---- TIEMPO TOTAL EJECUCION: {time() - initial_time} ----")
%memit -r 1 q3_memory(file_path=file_path)
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 5.7294511795043945 --
peak memory: 128.71 MiB, increment: 0.00 MiB
RESULTADO: 
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]
