## LATAM DATA ENGINEER CHALLENGE

**Mateo Castellanos**

**Configuración global del notebook**

- Importación de librerías globales para la lectura de los datos
- Definición de la fuente de los datos
- Verificación de la existencia de los datos


In [1]:
# Configuración inicial
import os
from typing import List, Tuple
from datetime import datetime
import json
from collections import defaultdict, Counter
import time
from memory_profiler import memory_usage

# Definir la ruta del archivo de datos
data_dir = os.path.join('..', 'data')
file_name = 'farmers-protest-tweets-2021-2-4.json'
file_path = os.path.join(data_dir, file_name)

# Verificar si el archivo existe
if not os.path.exists(file_path):
    raise FileNotFoundError(f"The file {file_path} does not exist.")

# Verificamos el archivo fuente
print(f"Using data file: {file_path}")

Using data file: ..\data\farmers-protest-tweets-2021-2-4.json


## q1_memory

**Enfoque de Optimización de Memoria:**

La función `q1_memory` está diseñada para identificar las 10 fechas con más tweets y el usuario más activo en cada una de esas fechas. El enfoque principal es minimizar el uso de memoria mediante la lectura del archivo línea por línea en lugar de cargar todo el archivo en la memoria a la vez. Se utiliza un `defaultdict` anidado para contar los tweets por usuario para cada fecha. Esto permite mantener los datos en una estructura compacta y eficiente. La función finaliza seleccionando las 10 fechas con más tweets y encontrando el usuario más activo en cada una de esas fechas.

In [2]:
# Llamamos a la función optimizada en memoria
from q1_memory import q1_memory

# Medir memoria y tiempo de ejecución
mem_usage, result = memory_usage((q1_memory, (file_path,)), retval=True)

# Imprimimos resultados
print("Memory usage (in MiB):", mem_usage)
print("Results (Memory Optimized):", result)

Time taken by q1_memory: 2.7666 seconds
Memory usage (in MiB): [73.17578125, 73.23046875, 73.84375, 74.39453125, 74.578125, 74.70703125, 74.96484375, 75.0859375, 75.22265625, 75.453125, 75.65234375, 75.8046875, 75.9609375, 76.1171875, 76.453125, 76.71484375, 76.8515625, 77.01953125, 77.27734375, 77.51171875, 77.6171875, 77.90234375, 78.04296875, 78.1484375, 78.28125, 78.44921875, 78.7265625, 77.21484375]
Results (Memory Optimized): [(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


## q1_time

**Enfoque de Optimización de Tiempo:**

La función `q1_time` busca las 10 fechas con más tweets y el usuario más activo en esas fechas, pero está optimizada para tiempo de ejecución. Se lee el archivo de tweets y se almacenan los datos en una lista. Se utiliza la clase `Counter` para identificar rápidamente las fechas más comunes y los usuarios más activos en esas fechas. Este enfoque permite procesar grandes volúmenes de datos rápidamente al aprovechar estructuras de datos eficientes para contar y clasificar.

In [3]:
# Llamamos a la función optimizada en memoria
from q1_time import q1_time

# Medimos memoria y tiempo de ejecución
mem_usage, result = memory_usage((q1_time, (file_path,)), retval=True)

# Imprimimos resultados
print("Memory usage (in MiB):", mem_usage)
print("Results (Time Optimized):", result)

Time taken by q1_time: 2.6702 seconds
Memory usage (in MiB): [77.21875, 77.22265625, 77.87890625, 77.9375, 78.02734375, 78.1015625, 78.1015625, 78.31640625, 78.35546875, 78.41796875, 78.41796875, 78.41796875, 78.453125, 78.515625, 78.515625, 78.515625, 78.58203125, 78.58203125, 78.58203125, 78.7578125, 78.80859375, 78.80859375, 78.80859375, 78.80859375, 78.9609375, 78.9609375, 77.390625]
Results (Time Optimized): [(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


## q2_time

**Enfoque de Optimización de Tiempo:**

La función `q2_time` identifica los 10 emojis más comunes en los tweets, optimizada para tiempo de ejecución. En lugar de leer y procesar cada línea individualmente, la función carga todos los tweets en la memoria y crea un solo string con todo el contenido. Luego, `emoji_list` se utiliza para extraer los emojis de este gran string. Finalmente, se utiliza un `Counter` para contar los emojis y devolver los más comunes. Este enfoque minimiza el tiempo de procesamiento al reducir las operaciones repetitivas.

In [4]:
# Llamamos a la función optimizada en memoria
from q2_time import q2_time

# Ejecutamos la función y medimos el uso de memoria y tiempo de ejecución
mem_usage, result = memory_usage((q2_time, (file_path,)), retval=True)

# Imprimimos resultados
print("Memory usage (in MiB):", mem_usage)
print("Results (Memory Optimized):", result)

Time taken by q2_time: 9.5151 seconds
Memory usage (in MiB): [82.89453125, 82.89453125, 84.625, 84.63671875, 84.671875, 84.8515625, 84.91015625, 84.953125, 84.96875, 84.97265625, 84.98046875, 84.9921875, 84.99609375, 85.0390625, 85.04296875, 85.04296875, 85.04296875, 85.046875, 85.05078125, 85.05078125, 85.05078125, 85.05078125, 85.05078125, 85.0546875, 85.0546875, 85.0546875, 85.05859375, 85.05859375, 85.11328125, 85.19140625, 85.19140625, 85.2109375, 85.2109375, 85.21484375, 85.21875, 85.21875, 85.21875, 85.21875, 85.21875, 85.22265625, 85.30859375, 85.3671875, 85.3671875, 85.37890625, 85.37890625, 85.37890625, 85.38671875, 85.38671875, 85.38671875, 85.38671875, 85.38671875, 85.39453125, 85.3984375, 85.3984375, 85.3984375, 85.41796875, 85.41796875, 85.44921875, 85.44921875, 85.46875, 85.47265625, 85.47265625, 85.4765625, 85.4765625, 85.48828125, 85.48828125, 85.48828125, 85.48828125, 85.48828125, 85.5234375, 85.5234375, 85.5234375, 85.5234375, 85.5234375, 85.5234375, 85.5234375, 85.5

## q2_memory

**Enfoque de Optimización de Memoria:**

La función `q2_memory` está diseñada para identificar los 10 emojis más comunes en los tweets. Para optimizar el uso de memoria, la función lee el archivo línea por línea y utiliza un `Counter` para contar los emojis encontrados en cada línea. La función `emoji_list` se utiliza para extraer los emojis de cada tweet, y el contador se actualiza incrementalmente. Este enfoque permite procesar el archivo de manera eficiente sin cargar todo el contenido en la memoria a la vez.

In [5]:
# Llamamos a la función optimizada en memoria
from q2_memory import q2_memory

# Ejecutamos la función y medimos el uso de memoria y tiempo de ejecución
mem_usage, result = memory_usage((q2_memory, (file_path,)), retval=True)

# Imprimimos resultados
print("Memory usage (in MiB):", mem_usage)
print("Results (Time Optimized):", result)

Time taken by q2_memory: 9.1118 seconds
Memory usage (in MiB): [85.609375, 85.609375, 119.91796875, 152.91796875, 186.81640625, 220.6640625, 253.72265625, 289.0625, 320.6640625, 353.359375, 391.5546875, 425.484375, 460.34765625, 494.53125, 498.7109375, 501.41015625, 504.67578125, 507.9453125, 511.09765625, 513.97265625, 516.82421875, 519.66796875, 522.78515625, 525.64453125, 528.6484375, 532.14453125, 535.37890625, 584.98046875, 584.98828125, 585.0, 585.0, 585.0, 585.0, 585.0, 585.0, 585.0, 585.046875, 585.328125, 585.6015625, 585.9140625, 586.16796875, 586.375, 586.57421875, 586.7890625, 587.01953125, 587.2265625, 587.42578125, 587.58203125, 587.77734375, 588.0546875, 588.30078125, 588.5390625, 588.7578125, 589.03125, 589.26171875, 589.53125, 589.75, 589.90625, 590.08984375, 590.31640625, 590.51171875, 590.6796875, 590.9140625, 591.08984375, 591.31640625, 591.53515625, 591.68359375, 591.95703125, 592.234375, 592.40625, 592.6328125, 592.90625, 593.11328125, 593.3984375, 593.6640625, 59

## q3_memory

**Enfoque de Optimización de Memoria:**

La función `q3_memory` busca identificar los 10 usuarios más mencionados en los tweets, optimizada para uso de memoria. La función lee el archivo línea por línea y utiliza un `Counter` para contar las menciones de usuarios. Al procesar cada línea individualmente, la función evita cargar todo el archivo en la memoria a la vez. Este enfoque es eficiente para manejar archivos grandes sin comprometer el rendimiento de la memoria.


In [6]:
# Llamamos a la función optimizada en memoria
from q3_memory import q3_memory

# Ejecutamos la función y medimos el uso de memoria y tiempo de ejecución
mem_usage, result = memory_usage((q3_memory, (file_path,)), retval=True)

# Imprimimos resultados
print("Memory usage (in MiB):", mem_usage)
print("Results (Memory Optimized):", result)

Time taken by q3_memory: 2.6948 seconds
Memory usage (in MiB): [91.99609375, 92.07421875, 92.9296875, 93.2421875, 93.54296875, 93.7421875, 93.9453125, 94.265625, 94.50390625, 94.640625, 94.7265625, 94.8203125, 94.796875, 94.80078125, 94.83203125, 94.921875, 94.94140625, 95.33984375, 95.33984375, 95.33984375, 95.48046875, 95.48046875, 95.48046875, 95.48828125, 95.4921875, 95.4921875, 95.50390625]
Results (Memory Optimized): [('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


## q3_time

**Enfoque de Optimización de Tiempo:**

La función `q3_time` está diseñada para identificar los 10 usuarios más mencionados en los tweets, optimizada para tiempo de ejecución. La función lee el archivo de tweets en una sola pasada y almacena las listas de usuarios mencionados. Luego, a través de una comprensión de listas, se extraen los usernames y se cuentan utilizando un `Counter`. Este enfoque reduce el tiempo de procesamiento al minimizar las operaciones redundantes y aprovechar estructuras de datos eficientes.


In [7]:
# Llamamos a la función optimizada en memoria
from q3_time import q3_time

# Ejecutamos la función y medimos el uso de memoria y tiempo de ejecución
mem_usage, result = memory_usage((q3_time, (file_path,)), retval=True)

# Imprimimos resultados
print("Memory usage (in MiB):", mem_usage)
print("Results (Memory Optimized):", result)

Time taken by q3_time: 2.6848 seconds
Memory usage (in MiB): [95.50390625, 95.50390625, 95.5078125, 95.51171875, 95.51171875, 95.54296875, 95.66015625, 95.66015625, 95.66015625, 95.66015625, 95.66015625, 95.66015625, 95.71484375, 95.80078125, 95.80078125, 95.8359375, 95.8359375, 95.8359375, 95.8359375, 95.8359375, 95.8359375, 95.8359375, 95.8359375, 95.8359375, 95.83984375, 95.83984375, 95.83984375, 95.83984375]
Results (Memory Optimized): [('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]
