# Latam Challenge

## 1. Exploracion de los datos

Antes de empezar a desarrollar los ejercicios, se realizó una exploración de los datos donde se leyó la documentación oficial del API de twitter para entender mejor la estructura de los datos. Además, también se extrajo unos ejemplos de los datos a analizar. Finalmente, como se muestra abajo, se extrajeron algunos datos como la cantidad de filas, columnas, y el tipo de cada variable.

Se identificó que, a raiz de los problemas presentados, las columnas de interes serían "date", "user", "content", y "mentioned_users".

In [1]:
import pandas as pd

file_path = "../farmers-protest-tweets-2021-2-4.json"
df = pd.read_json(file_path, lines=True)
print(df.shape)
df.dtypes

(117407, 21)


url                             object
date               datetime64[ns, UTC]
content                         object
renderedContent                 object
id                               int64
user                            object
outlinks                        object
tcooutlinks                     object
replyCount                       int64
retweetCount                     int64
likeCount                        int64
quoteCount                       int64
conversationId                   int64
lang                            object
source                          object
sourceUrl                       object
sourceLabel                     object
media                           object
retweetedTweet                 float64
quotedTweet                     object
mentionedUsers                  object
dtype: object

In [2]:

from typing import List, Tuple
import re
import json
from collections import Counter
from typing import List, Tuple
import json
from heapq import heappush, heappop
from q1_memory import q1_memory
from q1_time import q1_time
from q2_memory import q2_memory
from q2_time import q2_time
from q3_memory import q3_memory
from q3_time import q3_time
import json
import cProfile
from datetime import datetime
from collections import defaultdict
file_path = "../farmers-protest-tweets-2021-2-4.json"


## 2.1 Challenge 1



Para el reto 1 en optimización de tiempo, se usó la libreria Pandas. Esta libreria es reconocida por su facilidad de uso y optimización para casos de manejo y transformación de datos en python. Es por ello que nos permite usar métodos similares a los usados por estructuras de tablas, que fácilita el trabajo en este problema. 

Usando funciones de gropyby, se extrajeron las diez fechas con más posts. Luego, con esta misma función, se extrajeron los posts por usuario por día.
Teniendo ambas cosas, es posible sacar la respuesta al challenge usando la función idxmax, que nos da el indice del usuario con más posts en cada uno de los 10 días con más posts. 

In [3]:
res_1_time = q1_time(file_path)
res_1_time

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

En cuanto a la optimización por memoria, se decidió uno usar pandas para, en su reemplazo, usar estructuras de datos nativas y así bajar el consumo de memoria. Adicionalmente, se hace la lectura de los datos línea por línea y solo guardando en variables permanentes las variables que nos interesan, permitiendo así mayores ahorros de memoria.

Las estructuras de datos usadas fueron principalmente diccionarios, donde a medida que se leía cada JSON del archivo, se iba llevando la cuenta de cuántos posts tenía el día en específico y cuántos posts tenía cada usuario en cada día. De esta manera, mientras se leían los datos también se iba procesando la iformación al mismo tiempo. 

También se hace uso de la mayor cantidad de operaciones in-place para poder ahorrar en memoria de variables.

In [4]:
res_1_mem = q1_memory(file_path)
res_1_mem

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

## 2.2 Análisis de resultados

Despues de correr los dos métodos, como se ve en las siguientes dos celdas (hay que presionar en View as a scrollable element para ver el reporte completo), se puede apreciar que las optimizaciones para ambos están funcionando. Para el de tiempo, su tiempo de ejecución en promedio fue de 6.5 segundos, mientras que para el de espacio fue de 55 segundos.

Por otro lado, para el de memoria su uso fue de aproximadamente 139 MiB, mientras que para el de tiempo el uso fue de aproximadamente 1600 MiB

In [3]:
cProfile.run('q1_time(file_path=file_path)')

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q1_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7    107.0 MiB    107.0 MiB           1   @profile
     8                                         def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
     9                                         
    10                                             # Data loading
    11   1553.1 MiB   1446.2 MiB           1       df = pd.read_json(file_path, lines=True)
    12                                             
    13                                             # Create a date column using the datetime provided
    14   1558.7 MiB      5.6 MiB           1       df['date_t'] = pd.to_datetime(df['date']).dt.date
    15                                             
    16                                             # Compute the top 10 days with the most posts
    17   1559.1 MiB      0.3 MiB           1       max_days = df.groupby

In [4]:
cProfile.run('q1_memory(file_path=file_path)')

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     9    134.7 MiB    134.7 MiB           1   @profile
    10                                         def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    11                                             # Dictionaries to store the information
    12    134.7 MiB      0.0 MiB           1       date_list = defaultdict(int) # Dict with number of posts on that day
    13    134.7 MiB      0.0 MiB           1       user_date_list = defaultdict(int) # Dict with number of posts per user on that day
    14                                             
    15                                             # Date format to use
    16    134.7 MiB      0.0 MiB           1       format = '%Y-%m-%d'
    17    139.3 MiB     -0.1 MiB           2       with open(file_path) as f:
    18    139.4 MiB  -1843.5 MiB      117408           for j

## 3.1 Challenge 2
Para el challenge 2, se decidió hacer una aproximación usando dos estructuras de datos distintas para cada uno de los escenarios. Para la optimización de tiempo, se uso la estructura Counter. Es una sublcase del diccionario, y permite acceso a métodos que normalmente no están disponibles en su clase base. 

En específico, se usó el método most_common para evitar ordernar la lista con los resultados, evadiendo así dicha operación costosa (este método tiene complejidad O(n log k) que para nuestros valores es mejor que O(n log n), que es la complejidad del metodo sorted() en python).

Para el resto del problema, se recolecta y transforma la información a la par que se lee cada línea del archivo de datos, mejorando tanto la memoria como el tiempo. Además, los emojis se identifican y se van guardando mediante un regex en cada tweet. 

In [9]:
res_2_time = q2_time(file_path)
res_2_time

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q2_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     8    104.2 MiB    104.2 MiB           1   @profile
     9                                         def q2_time(file_path: str) -> List[Tuple[str, int]]:
    10                                                 
    11                                             # Regex pattern for emojis
    12    104.2 MiB      0.0 MiB           1       emoji_pattern = re.compile(r'[\U0001F300-\U0001F6FF\U0001F900-\U0001F9FF\u2600-\u26FF\u2700-\u27BF]', flags=re.UNICODE)
    13                                         
    14    104.2 MiB      0.0 MiB           1       emojis_dict = Counter()
    15    104.2 MiB      0.0 MiB           2       with open(file_path) as f:
    16    104.2 MiB      0.0 MiB      117408               for jsonObj in f:
    17    104.2 MiB      0.0 MiB      117407                   tweetDict = json.loads(jsonObj)
    18        

[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🏻', 2080),
 ('❤', 1779),
 ('🤣', 1668),
 ('🏽', 1218),
 ('👇', 1108)]

Para la optimización de memoria, se usaron los diccionarios en vez de la estructura counter. De esta forma, al ser una estructura de datos más simple, se ahorra en memoria, en especial cuando el volumen de datos crece más en el procesamiento. Esto provoca que tengamos que ordenar la lista para poder llegar al resultado.

In [10]:
res_2_mem = q2_memory(file_path)
res_2_mem

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7    104.2 MiB    104.2 MiB           1   @profile
     8                                         def q2_memory(file_path: str) -> List[Tuple[str, int]]:
     9                                             
    10    104.2 MiB      0.0 MiB           1       # Regex pattern for emojis
    11                                             emoji_pattern = re.compile(r'[\U0001F300-\U0001F6FF\U0001F900-\U0001F9FF\u2600-\u26FF\u2700-\u27BF]', flags=re.UNICODE)
    12    104.2 MiB      0.0 MiB           1   
    13    104.2 MiB      0.0 MiB           2       emojis_dict = Counter()
    14    104.2 MiB      0.0 MiB      117408       with open(file_path) as f:
    15    104.2 MiB      0.0 MiB      117407               for jsonObj in f:
    16                                                         tweetDict = json.loads(jsonObj)
    17    104.

## 3.2 Análisis de resultados

Teniendo en cuenta las dos celdas de abajo (hay que presionar en View as a scrollable element para ver el reporte completo), se evidenciaron buenos resultados para las optimizaciones. Hay menores tiempos de memoria para el método optimizado para memoria, y también menor tiempo para el método de tiempo. Aún así, en promedio la diferencia de ambas aun no es muy notable comparado con el método opuesto, pero a medida que crezca el volumen de datos las dos diferencias tendrán un mayor relevancia en su desempeño.

Se puede observar en promedio un consumo de memoria de q2_time de 110MiB vs 109.6 MiB para q2_memory en promedio. 
Por otro lado, para q2_time se ve un tiempo de 15.26 segundos vs 15.43 segundos para q2_memory en promedio.

In [5]:
cProfile.run('q2_time(file_path=file_path)')

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q2_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     8    104.1 MiB    104.1 MiB           1   @profile
     9                                         def q2_time(file_path: str) -> List[Tuple[str, int]]:
    10                                                 
    11                                             # Regex pattern for emojis
    12    104.1 MiB      0.0 MiB           1       emoji_pattern = re.compile(r'[\U0001F300-\U0001F6FF\U0001F900-\U0001F9FF\u2600-\u26FF\u2700-\u27BF]', flags=re.UNICODE)
    13                                         
    14    104.1 MiB      0.0 MiB           1       emojis_dict = Counter()
    15    104.2 MiB      0.0 MiB           2       with open(file_path) as f:
    16    104.2 MiB      0.1 MiB      117408               for jsonObj in f:
    17    104.2 MiB      0.0 MiB      117407                   tweetDict = json.loads(jsonObj)
    18        

In [6]:
cProfile.run('q2_memory(file_path=file_path)')

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7    104.2 MiB    104.2 MiB           1   @profile
     8                                         def q2_memory(file_path: str) -> List[Tuple[str, int]]:
     9                                             
    10                                             # Regex pattern for emojis
    11    104.2 MiB      0.0 MiB           1       emoji_pattern = re.compile(r'[\U0001F300-\U0001F6FF\U0001F900-\U0001F9FF\u2600-\u26FF\u2700-\u27BF]', flags=re.UNICODE)
    12                                         
    13    104.2 MiB      0.0 MiB           1       emojis_dict = {}
    14    104.2 MiB      0.0 MiB           2       with open(file_path) as f:
    15    104.2 MiB      0.0 MiB      117408               for jsonObj in f:
    16    104.2 MiB      0.0 MiB      117407                   tweetDict = json.loads(jsonObj)
    17               

## 4.1 Challenge 3
Para el challenge 3, se decidió hacer una aproximación parecida a la del challenge 2. Se probaron y usaron dos estructuras de datos distintas para cada uno de los escenarios. Para la optimización de tiempo, se usaron diccionarios para el almacenaje y procesamiento de los datos. Al igual que en challenges pasados, se usó la estrategia leer e ir procesando la información simultaneamente, tanto en optimización de tiempo como en la de memoria.

Dentro de los diccionarios se almacenaban como llaves los diferentes nombres de usuario y como valores las veces que son mecionados. Se asumió que los nombres de usuario son únicos (en caso de que no lo fueran tendría que usarse el id number que también está en los datos provistos). También se asumió que solo contaban las menciones directas, y no aquellas contenidas en los quote tweets.

Con dichos diccionario ya lleno después de la lectura de los datos, se ordena para poder encontrar a los usuarios más mencionados.

In [5]:
res_3_time = q3_time(file_path)
res_3_time

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q3_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     6    113.7 MiB    113.7 MiB           1   @profile
     7                                         def q3_time(file_path: str) -> List[Tuple[str, int]]:
     8    113.7 MiB      0.0 MiB           1       mentioned_users_dict = {}
     9    115.8 MiB      0.0 MiB           2       with open(file_path) as f:
    10    115.8 MiB      0.5 MiB      117408               for jsonObj in f:
    11    115.8 MiB      0.8 MiB      117407                   tweetDict = json.loads(jsonObj)
    12                                                         # We only need the mentioned users JSON part
    13                                                         # ASSUMPTION: it is assumed that the mentioned users inside the quotedTweet part should not be counted for this
    14                                                         # (In case that it 

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

Para la optimización de memoria, se usaron estructuras heap de datos. Ello nos permite tener una estructura un poco más simple de manejar que los diccionarios. El inicio de la optimización de memoria es igual al de tiempo, la diferencia va en la forma en la que se calcula el resultado. En vez de usar el método sorted() se usan los heaps para ir organizando la lista a medida que se lee el diccionario original. De esta forma, solo se va calculando si hay un elemento menor que el mínimo del heap y, si existe, se reemplaza. De esta forma, se calculan los usuarios con más menciones. 

In [4]:
res_3_mem = q3_memory(file_path)
res_3_mem

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q3_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     6    105.7 MiB    105.7 MiB           1   @profile
     7                                         def q3_memory(file_path: str) -> List[Tuple[str, int]]:
     8                                             
     9                                             # Dictionary to store the count of each mentioned user
    10    105.7 MiB      0.0 MiB           1       mentioned_users_dict = {}
    11    105.8 MiB      0.0 MiB           2       with open(file_path) as f:
    12    105.8 MiB  -3242.8 MiB      117408               for jsonObj in f:
    13    105.8 MiB  -3242.7 MiB      117407                   tweetDict = json.loads(jsonObj)
    14                                                         # We only need the mentioned users JSON part
    15                                                         # ASSUMPTION: it is assumed that

[(926, 'meenaharris'),
 (962, 'UNHumanRights'),
 (1048, 'GretaThunberg'),
 (1427, 'PMOIndia'),
 (986, 'rihanna'),
 (1840, 'Kisanektamorcha'),
 (1146, 'RahulGandhi'),
 (2265, 'narendramodi'),
 (1644, 'RakeshTikaitBKU'),
 (1019, 'RaviSinghKA')]

## 4.2 Análisis de resultados

Teniendo en cuenta las dos celdas de abajo (hay que presionar en View as a scrollable element para ver el reporte completo), se evidenciaron buenos resultados para las optimizaciones. Hay menores tiempos de memoria para el método optimizado para memoria, y también menor tiempo para el método de tiempo. Aún así, como sucede en el challenge 2, en promedio la diferencia de ambas aun no es muy notable comparado con el método opuesto (en especial en espacio). Dicha diferencia será más notable con un mayor volumen de datos.

Se puede observar en promedio un consumo de memoria de q3_time de 105.4 MiB vs 105.3 MiB para q3_memory en promedio. 
Por otro lado, para q3_time se ve un tiempo de 20.05 segundos vs 21.01 segundos para q3_memory en promedio.

In [5]:
cProfile.run('q3_time(file_path=file_path)')

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q3_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     5    105.8 MiB    105.8 MiB           1   @profile
     6                                         def q3_time(file_path: str) -> List[Tuple[str, int]]:
     7    105.8 MiB      0.0 MiB           1       mentioned_users_dict = {}
     8    105.9 MiB      0.0 MiB           2       with open(file_path) as f:
     9    105.9 MiB      0.0 MiB      117408               for jsonObj in f:
    10    105.9 MiB      0.1 MiB      117407                   tweetDict = json.loads(jsonObj)
    11                                                         # We only need the mentioned users JSON part
    12                                                         # ASSUMPTION: it is assumed that the mentioned users inside the quotedTweet part should not be counted for this
    13                                                         # (In case that it 

In [3]:
cProfile.run('q3_memory(file_path=file_path)')

Filename: c:\Users\sestupinan\Documents\latam\latam-challenge-sestupinan\src\q3_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     6    102.8 MiB    102.8 MiB           1   @profile
     7                                         def q3_memory(file_path: str) -> List[Tuple[str, int]]:
     8                                             
     9                                             # Dictionary to store the count of each mentioned user
    10    102.8 MiB      0.0 MiB           1       mentioned_users_dict = {}
    11    105.6 MiB      0.0 MiB           2       with open(file_path) as f:
    12    105.6 MiB      0.6 MiB      117408               for jsonObj in f:
    13    105.6 MiB      1.2 MiB      117407                   tweetDict = json.loads(jsonObj)
    14                                                         # We only need the mentioned users JSON part
    15                                                         # ASSUMPTION: it is assumed that