# Data Engineer Challenge

Autor: Johan Vargas

El objetivo de este notebook es proporcionar soluciones al desafío de Ingeniero de Datos presentado. En este desafío, se abordarán una serie de problemas relacionados con el procesamiento de datos utilizando Python y diferentes enfoques para optimizar tanto el tiempo de ejecución como la memoria en uso. Como participante, mi tarea será resolver estos desafíos aplicando mis habilidades y conocimientos en el manejo eficiente de grandes conjuntos de datos, así como implementando soluciones creativas y modulares.

In [1]:
%load_ext autoreload
%autoreload 2
%cd ../

D:\Johan\repositorios\data_engineer_challenge


En este notebook, el código está organizado en módulos para mejorar la estructura y la legibilidad del proyecto. Se utiliza una estructura de carpetas que incluye un directorio llamado "metadata", donde se define una clase "Path" que contiene las rutas necesarias para el proyecto. Además, hay un módulo llamado "utils" que contiene dos scripts: "readers" para leer los archivos JSON y "filters" con funciones útiles para filtrar datos.

La utilización de módulos permite separar distintas funcionalidades de manera lógica y coherente, lo que facilita la gestión del código y su reutilización en diferentes partes del proyecto. La clase "Path" proporciona un acceso centralizado a las rutas del proyecto, lo que hace que sea más fácil modificarlas en un solo lugar si es necesario. Los scripts en el módulo "utils" contienen funciones genéricas que pueden ser útiles en varias partes del proyecto, como leer archivos JSON y aplicar filtros a los datos.

Esta organización modular contribuye a mantener un código más ordenado, modular y fácil de mantener, lo que es fundamental en proyectos de análisis de datos de gran escala como este desafío de Ingeniero de Datos.

## Librerias

In [2]:
# External libraries
import cProfile

# Own libraries
from src.metadata.path import Path

from src.q1_memory import q1_memory
from src.q1_time import q1_time
from src.q2_memory import q2_memory
from src.q2_time import q2_time
from src.q3_memory import q3_memory
from src.q3_time import q3_time

1. Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días. Debe incluir las siguientes funciones:
```python
def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
```
```python
def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
```
```python
Returns: 
[(datetime.date(1999, 11, 15), "LATAM321"), (datetime.date(1999, 7, 15), "LATAM_CHI"), ...]
```

Esta solución optimiza el uso de memoria al procesar los datos de manera eficiente y almacenar solo la información necesaria para calcular el usuario más activo para cada fecha. En lugar de crear estructuras de datos adicionales para almacenar conteos de usuarios, se utiliza un diccionario date_user para mapear cada fecha a un diccionario de usuarios y sus respectivos conteos. Esto permite realizar los cálculos necesarios con una cantidad mínima de memoria, ya que no se necesita almacenar información redundante. Además, la función profile se utiliza para realizar la profilización de la memoria y optimizar aún más el uso de recursos durante la ejecución del script.

In [3]:
result = q1_memory(Path.tweets)

Filename: D:\Johan\repositorios\data_engineer_challenge\src\q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    12    117.5 MiB    117.5 MiB           1   @profile
    13                                         def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    14                                             """Lee un archivo JSON y devuelve una lista de tuplas que contiene la
    15                                              fecha y el usuario más activo para cada día.
    16                                         
    17                                             Args:
    18                                                 file_path (str): Ruta del archivo JSON.
    19                                         
    20                                             Returns:
    21                                                 List[Tuple[datetime.date, str]]: Lista de tuplas donde cada tupla
    22                                          

In [4]:
result

[(datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 24), 'preetysaini321'),
 (datetime.date(2021, 2, 22), 'preetysaini321'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 21), 'Surrypuria'),
 (datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 19), 'Preetm91'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437')]

Esta solución optimiza el tiempo de ejecución al aprovechar la eficiencia y las capacidades de la biblioteca pandas para el procesamiento de datos. En lugar de utilizar bucles manuales para realizar cálculos y manipulaciones de datos, se utiliza el método groupby de pandas para agrupar los datos por fecha y calcular el usuario más activo para cada día de manera eficiente. Además, se aprovecha la función agg para aplicar múltiples funciones de agregación en una sola operación, lo que reduce el tiempo de procesamiento. Esta solución es especialmente eficaz para conjuntos de datos grandes, ya que pandas está optimizado para el manejo de datos tabulares y puede realizar operaciones de manera vectorizada, lo que resulta en una mayor velocidad de ejecución.

In [5]:
cProfile.run('q1_time(Path.tweets)')

         729265 function calls (728465 primitive calls) in 5.271 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        4    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(all)
        2    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(amax)
        2    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(append)
        3    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(argsort)
        2    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(array_equal)
        3    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(atleast_2d)
        1    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(bincount)
       29    0.000    0.000    0.061    0.002 <__array_function__ internals>:177(concatenate)
       82    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(copyto)
        1  

2. Los top 10 emojis más usados con su respectivo conteo. Debe incluir las siguientes funciones:
```python
def q2_time(file_path: str) -> List[Tuple[str, int]]:
```
```python
def q2_memory(file_path: str) -> List[Tuple[str, int]]:
```
```python
Returns: 
[("✈️", 6856), ("❤️", 5876), ...]
```

Esta solución optimiza el uso de memoria al utilizar eficientemente la estructura de datos Counter de la biblioteca estándar de Python. En lugar de almacenar todos los emojis y sus frecuencias en estructuras de datos adicionales, se utiliza un objeto Counter para realizar un recuento eficiente de los emojis mientras se recorren los datos. Esto reduce significativamente la cantidad de memoria necesaria, ya que solo se almacenan los emojis y sus conteos, en lugar de los datos completos de los emojis. Además, la función profile se utiliza para realizar la profilización de la memoria y optimizar aún más el uso de recursos durante la ejecución del script.

In [6]:
result = q2_memory(Path.tweets)

Filename: D:\Johan\repositorios\data_engineer_challenge\src\q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    12    160.8 MiB    160.8 MiB           1   @profile
    13                                         def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    14                                             """Lee un archivo JSON y devuelve una lista de tuplas con los 10 emojis
    15                                              más frecuentes y su conteo.
    16                                         
    17                                             Args:
    18                                                 file_path (str): Ruta del archivo JSON que contiene los datos.
    19                                         
    20                                             Returns:
    21                                                 List[Tuple[str, int]]: Lista de tuplas donde cada tupla contiene un
    22                                          

In [7]:
result

[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]


Esta solución optimiza el tiempo de ejecución al aprovechar las capacidades de procesamiento eficiente de la biblioteca pandas. En lugar de utilizar bucles manuales para contar la frecuencia de cada emoji, se utiliza el método explode de pandas para expandir una serie que contiene listas de emojis en una serie donde cada elemento es un emoji individual. Luego, se utiliza el método value_counts para contar la frecuencia de cada emoji de manera eficiente. Esto aprovecha las operaciones vectorizadas de pandas, lo que resulta en un tiempo de ejecución más rápido en comparación con los bucles manuales. Además, esta solución es escalable y puede manejar grandes conjuntos de datos de manera eficiente gracias a la optimización interna de pandas para el procesamiento de datos tabulares.

In [8]:
cProfile.run('q2_time(Path.tweets)')

         9603855 function calls (9603779 primitive calls) in 8.556 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        2    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(amax)
        2    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(argsort)
        2    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(atleast_2d)
        8    0.000    0.000    0.033    0.004 <__array_function__ internals>:177(concatenate)
       56    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(copyto)
        2    0.000    0.000    0.033    0.016 <__array_function__ internals>:177(vstack)
        3    0.000    0.000    0.000    0.000 <frozen importlib._bootstrap>:1053(_handle_fromlist)
  1759998    0.376    0.000    0.629    0.000 <string>:1(<lambda>)
        1    0.000    0.000    8.556    8.556 <string>:1(<module>)
       22    0.000    0.000    0.000    0.000 _


KeyboardInterrupt



3. El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos. Debe incluir las siguientes funciones:
```python
def q3_time(file_path: str) -> List[Tuple[str, int]]:
```
```python
def q3_memory(file_path: str) -> List[Tuple[str, int]]:
```
```python
Returns: 
[("LATAM321", 387), ("LATAM_CHI", 129), ...]
```

Esta solución optimiza el uso de memoria al procesar los datos de manera eficiente y almacenar solo la información necesaria para calcular las menciones de usuarios más frecuentes. Utiliza operaciones vectorizadas de pandas para dividir el contenido de los tweets en palabras, luego extrae las menciones de usuario utilizando expresiones regulares y finalmente cuenta la frecuencia de cada mención de usuario. Al utilizar estas operaciones, se evita la necesidad de crear estructuras de datos adicionales para almacenar datos intermedios, lo que reduce significativamente la cantidad de memoria necesaria. Además, la función profile se utiliza para realizar la profilización de la memoria y optimizar aún más el uso de recursos durante la ejecución del script.

In [None]:
result = q3_memory(Path.tweets)

In [None]:
result

Esta solución optimiza el tiempo de ejecución al aprovechar las capacidades de procesamiento eficiente de la biblioteca pandas. En lugar de utilizar bucles manuales para encontrar y contar las menciones de usuarios en cada tweet, se utiliza el método apply de pandas para aplicar la función find_mentions a cada elemento del DataFrame de manera eficiente. Luego, se utiliza el método explode para expandir las listas de menciones de usuarios en una serie donde cada elemento es una mención de usuario individual. Finalmente, se utiliza el método value_counts para contar la frecuencia de cada mención de usuario de manera eficiente y se seleccionan las 10 menciones más frecuentes. Esto aprovecha las operaciones vectorizadas de pandas, lo que resulta en un tiempo de ejecución más rápido en comparación con los bucles manuales. Además, esta solución es escalable y puede manejar grandes conjuntos de datos de manera eficiente gracias a la optimización interna de pandas para el procesamiento de datos tabulares.

In [None]:
cProfile.run('q3_time(Path.tweets)')