## LATAM DATA ENGINEER CHALLENGE

**Mateo Castellanos**

**27 Julio 2024**

**Configuración global del notebook**

Este es un notebook con instrucciones de ejecución y explicación de los enfoques en las funciones

- Importación de librerías globales para la lectura de los datos
- Definición de la fuente de los datos
- Verificación de la existencia de los datos


In [14]:
# Configuración inicial
import os
from typing import List, Tuple
from datetime import datetime
import json
from collections import defaultdict, Counter
import time
from memory_profiler import memory_usage

# Definir la ruta del archivo de datos
data_dir = os.path.join('..', 'data')
file_name = 'farmers-protest-tweets-2021-2-4.json'
file_path = os.path.join(data_dir, file_name)

# Verificar si el archivo existe
if not os.path.exists(file_path):
    raise FileNotFoundError(f"The file {file_path} does not exist.")

print(f"Using data file: {file_path}")

Using data file: ..\data\farmers-protest-tweets-2021-2-4.json


## q1_memory

**Enfoque de Optimización de Memoria:**

La función `q1_memory` está diseñada para identificar las 10 fechas con más tweets y el usuario más activo en cada una de esas fechas. El enfoque principal es minimizar el uso de memoria mediante la lectura del archivo línea por línea en lugar de cargar todo el archivo en la memoria a la vez. Se utiliza un `defaultdict` anidado para contar los tweets por usuario para cada fecha. Esto permite mantener los datos en una estructura compacta y eficiente. La función finaliza seleccionando las 10 fechas con más tweets y encontrando el usuario más activo en cada una de esas fechas.

In [15]:
# Llamamos a la función optimizada en memoria
from q1_memory import q1_memory

# Medir memoria y tiempo de ejecución
mem_usage, result = memory_usage((q1_memory, (file_path,)), retval=True)

# Imprimir resultados
print("Memory usage (in MiB):", mem_usage)
print("Results (Memory Optimized):", result)

Time taken by q1_memory: 2.7662 seconds
Memory usage (in MiB): [93.3046875, 93.37109375, 93.875, 94.08984375, 94.18359375, 94.4140625, 94.51953125, 94.66015625, 94.6875, 94.84765625, 94.94140625, 95.0625, 95.09375, 95.19921875, 95.21484375, 95.3125, 95.3125, 95.42578125, 95.42578125, 95.57421875, 95.57421875, 95.625, 95.64453125, 95.6796875, 95.6875, 95.703125, 95.8203125, 93.546875]
Results (Memory Optimized): [(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


## q1_time

**Enfoque de Optimización de Tiempo:**

La función `q1_time` busca las 10 fechas con más tweets y el usuario más activo en esas fechas, pero está optimizada para tiempo de ejecución. Se lee el archivo de tweets y se almacenan los datos en una lista. Se utiliza la clase `Counter` para identificar rápidamente las fechas más comunes y los usuarios más activos en esas fechas. Este enfoque permite procesar grandes volúmenes de datos rápidamente al aprovechar estructuras de datos eficientes para contar y clasificar.


In [16]:
# Llamamos a la función optimizada en memoria
from q1_time import q1_time

# Medir memoria y tiempo de ejecución
mem_usage, result = memory_usage((q1_time, (file_path,)), retval=True)

# Imprimir resultados
print("Memory usage (in MiB):", mem_usage)
print("Results (Time Optimized):", result)

Time taken by q1_time: 2.7517 seconds
Memory usage (in MiB): [93.546875, 93.5625, 94.0, 94.1171875, 94.44921875, 94.5, 94.69921875, 94.80078125, 94.8359375, 94.96875, 94.96875, 95.0703125, 95.2109375, 95.22265625, 95.33984375, 95.36328125, 95.375, 95.48828125, 95.49609375, 95.64453125, 95.64453125, 95.8125, 95.83203125, 95.8671875, 95.8671875, 95.87109375, 95.9375, 93.78515625]
Results (Time Optimized): [(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
