# Desaf√≠o LATAM Airlines para Ingenieros de Datos

## Instrucctiones

1. Instalar las dependencias con: pip install -r requirements.txt en la terminal, desde la ra√≠z del proyecto
2. Correr todas las celdas del notebook

Se resuelve el primer requerimiento con  funci√≥n ```q1``` que servir√° de l√≠nea base para luego hacer las optimizaciones por tiempo de ejecucci√≥n y uso de memoria: 

> Requerimiento: Obtener las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as.

### Nota:

#### El desafio est√° desarrollado de manera funcional y por completo. Quiero mencionar que el reto dice que da 5 d√≠as, pero me informaron de tener 4. Debido a mis compromisos laborales durante la semana, no pude sino hasta hoy dedicar tiempo a la soluci√≥n de este. Por lo anterior, solicito respetuosamente que eval√∫en el resultado de este reto hasta ma√±ana (17 de enero de 2026) a las 10 AM COT, que ser√≠an los 5 d√≠as que realmente da la prueba, ya que me enviaron el reto aproximadamente a las 10 AM COT el lunes 12 de enero de 2026.

#### Mi intenci√≥n es desarrollar los To-Do que est√°n en el CHANGELOG.md, a√±adiendo el despliegue de este c√≥digo en GCP y mejor documentaci√≥n.

#### La documentaci√≥n est√° bien estructurada, pero no es la calidad a la que estoy acostumbrado. Envio la soluci√≥n de esta manera para cumplir con el deadline.

In [1]:
#!pip install -r requirements.txt

### q1 (Linea Base)

La funci√≥n definida en q1.py crea dos diccionarios diferentes que se utilizan para obtener el conteo de tweets por fecha y luego el conteo de tweets por username por cada fecha.

In [2]:
%load_ext memory_profiler

from src.q1 import q1
from memory_profiler import profile

file_path = "./data/farmers-protest-tweets-2021-2-4-2.json"

In [3]:
q1(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

In [4]:
%timeit q1(file_path)

2.81 s ¬± 98 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [5]:
%memit q1(file_path)

peak memory: 73.91 MiB, increment: 2.23 MiB


### q1_time (Optimizaci√≥n del tiempo de ejecuci√≥n)

Optimiza el tiempo de ejecuci√≥n usando Counter que est√° hecho en C y est√°n precisamente dise√±ados para este tipo de tareas.

In [6]:
from src.q1_time import q1_time

In [7]:
q1_time(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

In [8]:
%timeit q1_time(file_path)

3.05 s ¬± 135 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [9]:
%memit q1_time(file_path)

peak memory: 72.11 MiB, increment: 0.67 MiB


### q1_memoria (Optimizando el uso de memoria)

In [10]:
from src.q1_memory import q1_memory

In [11]:
q1_memory(file_path)

[('2021-02-12', 'RanbirS00614606'),
 ('2021-02-13', 'MaanDee08215437'),
 ('2021-02-17', 'RaaJVinderkaur'),
 ('2021-02-16', 'jot__b'),
 ('2021-02-14', 'rebelpacifist'),
 ('2021-02-18', 'neetuanjle_nitu'),
 ('2021-02-15', 'jot__b'),
 ('2021-02-20', 'MangalJ23056160'),
 ('2021-02-23', 'Surrypuria'),
 ('2021-02-19', 'Preetm91')]

In [12]:
%memit q1_memory(file_path)

peak memory: 72.66 MiB, increment: 0.03 MiB


In [13]:
%timeit q1_memory(file_path)

2.88 s ¬± 137 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


### q2, q2_time y q2_memory

Se usa la librer√≠a emoji y Counter de collections para crear un c√≥digo eficiente tanto en tiempo como en memoria. Las variaciones son pocas entre un c√≥digo a otro. Sin embargo, en cuanto a la optimizaci√≥n de tiempo, esta tarea se puede paralelizar, lo que reduce drasticamente el tiempo de ejecuci√≥n. El trade-off es el consumo de memoria, el cual incrementa al paralelizar la tarea.

In [14]:
from src.q2 import q2

In [15]:
q2(file_path)

[('üôè', 5049),
 ('üòÇ', 3072),
 ('üöú', 2972),
 ('üåæ', 2182),
 ('üáÆüá≥', 2086),
 ('ü§£', 1668),
 ('‚úä', 1651),
 ('‚ù§Ô∏è', 1382),
 ('üôèüèª', 1317),
 ('üíö', 1040)]

In [16]:
%timeit q2(file_path)

13.4 s ¬± 337 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [17]:
%memit q2(file_path)

peak memory: 70.50 MiB, increment: 0.53 MiB


In [18]:
from src.q2_time import q2_time
from src.q2_memory import q2_memory

In [19]:
q2_time(file_path)

[('üôè', 5049),
 ('üòÇ', 3072),
 ('üöú', 2972),
 ('üåæ', 2182),
 ('üáÆüá≥', 2086),
 ('ü§£', 1668),
 ('‚úä', 1651),
 ('‚ù§Ô∏è', 1382),
 ('üôèüèª', 1317),
 ('üíö', 1040)]

In [20]:
%timeit q2_time(file_path)

4.82 s ¬± 540 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [21]:
%memit q2_time(file_path)

peak memory: 905.25 MiB, increment: 297.61 MiB


In [22]:
q2_memory(file_path)

[('üôè', 5049),
 ('üòÇ', 3072),
 ('üöú', 2972),
 ('üåæ', 2182),
 ('üáÆüá≥', 2086),
 ('ü§£', 1668),
 ('‚úä', 1651),
 ('‚ù§Ô∏è', 1382),
 ('üôèüèª', 1317),
 ('üíö', 1040)]

In [23]:
%timeit q2_memory(file_path)

13.4 s ¬± 614 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [24]:
%memit q2_memory(file_path)

peak memory: 71.12 MiB, increment: 2.12 MiB


### q3_time, q3_memory.

Igual que en el ejercicio anterior, paralelizar la funci√≥n optimiza el tiempo de ejecuci√≥n, pero el uso de memoria se dispara. No se crea una funci√≥n q3 ya que realmente no tendr√≠a diferencia notable.

In [25]:
from src.q3_time import q3_time

In [26]:
q3_time(file_path)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

In [27]:
%timeit q3_time(file_path)

1.66 s ¬± 241 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [28]:
%memit q3_time(file_path)

peak memory: 965.20 MiB, increment: 7.00 MiB


In [29]:
from src.q3_memory import q3_memory

In [30]:
q3_memory(file_path)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

In [31]:
%timeit q3_memory(file_path)

2.89 s ¬± 160 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [32]:
%memit q3_memory(file_path)

peak memory: 75.05 MiB, increment: 2.02 MiB
