# LATAM Challenge

*Nota*: Correr el siguiente bloque, que sirve para todos los métodos:

In [16]:
from time import time
from zipfile import ZipFile
import os

file_path = "farmers-protest-tweets-2021-2-4.json"

if not os.path.exists(file_path):
    with ZipFile("../tweets/tweets.json.zip", 'r') as zObject: 
        zObject.extractall('.') 

## Q1: Fechas y Usuarios

### 1. Optimización de tiempo de ejecución

Para optimizar el tiempo de ejecución se decidió cargar todos los datos de fecha y username de una vez, para después analizar los datos de forma compacta. A continuación se define la función con comentarios explicativos, junto con overhead necesario para medir el tiempo de ejecución.

Este método es mas lento que el realizado para optimizar memoria. Sin embargo, si el archivo fuera de menor tamaño y estuviera en un formato sin tanto nesting, se podría utilizar una librería como Pandas para optimizar el enfoque de tiempo haciendo uso de vectorización. Para mejorarlo en este caso habría que dividir el set de datos en trozos mas pequeños y hacer uso de threading, pero escapa de mis capacidades actuales. 

In [6]:
from q1_time import q1_time

initial_time = time()
result = q1_time(file_path=file_path)
print(f"-- TIEMPO DE EJECUCION: {time() - initial_time} --")
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 5.1851818561553955 --
RESULTADO: 
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


### 2. Optimización de uso de memoria

Para este enfoque, se decidió analizar el archivo línea a línea, lo cual usa considerablemente menos memoria que el otro enfoque, y que, en este caso, también resulta ser mas rápido, posiblemente dado el gran tamaño del archivo analizado.

In [7]:
from q1_memory import q1_memory

initial_time = time()
result = q1_memory(file_path=file_path)
print(f"-- TIEMPO DE EJECUCION: {time() - initial_time} --")
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 3.128476858139038 --
RESULTADO: 
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


## Q2: Contador de emojis

### 1. Optimización de tiempo de ejecución

Para este problema se utilizó la librería [emoji](https://pypi.org/project/emoji/), la cual permite analizar strings para listar los emojis presentes. Con esta libreria, se decidió obtener el contenido de todos los tweets para formar un gran string, y analizar dicho string para obtener todos los emojis de una sóla vez. 

Como se ve mas adelante, este método también resultó ser mas lento que con el enfoque línea a línea, y sospecho que tiene que ver el tamaño del archivo `.json`. La estrategia propuesta para seguir optimizando el tiempo es la misma: compartimentalizar y usar threads.

In [9]:
from q2_time import q2_time

initial_time = time()
result = q2_time(file_path=file_path)
print(f"-- TIEMPO DE EJECUCION: {time() - initial_time} --")
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 12.93245005607605 --
RESULTADO: 
[('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


### 2. Optimización de uso de memoria

Para el código en este enfoque se utilizó la misma lógica que para el enfoque de optimización de tiempo, solo que analizando línea a línea en vez de armar un gran string con todos los datos.

In [10]:
from q2_memory import q2_memory

initial_time = time()
result = q2_memory(file_path=file_path)
print(f"-- TIEMPO DE EJECUCION: {time() - initial_time} --")
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 12.900729179382324 --
RESULTADO: 
[('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


## Q3: Contador de menciones

### 1. Optimización de tiempo de ejecución

Este problema fue el mas sencillo de los tres. Lo único que se debe hacer es obtener eficientemente datos nesteados del archivo `.json`. La manera mas eficiente que encontré para realizar esto fue usar _list comprehension_ para iterar sobre los usuarios dentro de cada elemento `mentionedUsers`, y a su vez obtener el elemento `username` de cada `user`.

Para mejorar la eficiencia de este método, sería mejor modificar la estructura de datos para no tener que ir tan abajo en la estructura del json.

In [11]:
from q3_time import q3_time

initial_time = time()
result = q3_time(file_path=file_path)
print(f"-- TIEMPO DE EJECUCION: {time() - initial_time} --")
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 3.2523353099823 --
RESULTADO: 
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


### 2. Optimización de uso de memoria

Para optimizar el uso de memoria, se utilizó el mismo método que para optimizar el tiempo de ejecución, solo que línea a línea. 

In [12]:
from q3_memory import q3_memory

initial_time = time()
result = q3_memory(file_path=file_path)
print(f"-- TIEMPO DE EJECUCION: {time() - initial_time} --")
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 3.1960067749023438 --
RESULTADO: 
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]
