# DE Challenge
## Introducción
### Acerca del Challenge y la Solución

Este desafío me ha resultado muy interesante. Tambien estimulante por el hecho de tener abierta la elección de las librerias con las cual escribir la solución.

### Spark, Dask o Data Structures Core de Python?
Para completar este challenge consideré usar tecnologias distribuídas o cloud, lo cual creo que hubiera introducido complejidad en el acceso y/o ejecución de la solución. 

Por otro lado, tras evaluar el contenido y tamaño del dataset, decidí que usar solución distribuída como Dask o Spark sería un "overkill" para la tarea.

Dicho esto, he tratado de balancear estos puntos, inclinándome por uso de Pandas y estructuras de datos core de Python y a su vez, usar Spark primariamente como una forma de analizar y explorar los datos.

### Jupyter Notebook Complementario (Spark)
Como explico mas arriba, he realizado pruebas con Spark en un [jupyter notebook separado](./eda_spark.ipynb). El propósito de este, fué realizar exploración de los datos y validar resultados de las differentes funciones Q1, Q2 y Q3.

### Unit Tests
Se escribieron unit tests los cuales se pueden ejecutar de la siguiente manera:
```bash
pytest tests --capture=no --tb=line -v
```

### Notas de la Solución y Areas de Mejora
Durante el desarrollo de este proyecto, tomé algunas decisiones de implementación basadas en las limitaciones de tiempo y los objetivos del challenge. Aunque el proyecto creo que logra los objetivos principales, debo reconocer algunas áreas donde se podrían hacer mejoras y refinamientos.

- **Code Coverage**

    Aunque he implementado unit tests usando pytest, la code coverage podría ser mejorada.

- **Calidad del Código y Mantenibilidad**

    Mantener un equilibrio entre la velocidad de entrega y la calidad del código puede ser desafiante, y en este proyecto, puede que haya hecho algunos trade-offs.

- **Integración Continua (CI)**

    Creo mucho en los beneficios de CI/CD. Aunque este proyecto actualmente carece de una CI, una cosa que configuraría es un pipeline de Integración Continua (CI) usando GitHub Actions para automatizar la ejecución de unit tests e iniciar algunas verificaciones de calidad como linting.

## Project Setup

1. Crear virtual environment (`.venv`) en el root directory e instalar todas las project dependencies.
    ```sh
    python3 -m venv .venv
    source .venv/bin/activate
    pip install -r requirements.txt
    ```
1. Descargar y proveer los datos

    Descarga manualmente https://drive.google.com/file/d/1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis/view?usp=sharing, y extrae del archivo `.zip` el json file.
    El archivo extraído debe ser copiado a la carpeta `data/`.

## Initialization of Notebook and Variables

In [62]:
# enable the autoreload extension and configure it for automatic module's reload
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [63]:
import subprocess

file_path = "../data/farmers-protest-tweets-2021-2-4.json"
# file_path = "../data/farmers-protest-tweets-2021-2-4-small.json"
project_root = subprocess.check_output("git rev-parse --show-toplevel", shell=True).decode('utf-8').strip()

## Execution of Q1 Functions
Top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días. 

In [64]:
from q1_time import q1_time
from q1_memory import q1_memory

In [65]:
q1_time(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 19), 'Preetm91'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria')]

In [66]:
q1_memory(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

## Execution of Q2 Functions
Top 10 emojis más usados con su respectivo conteo.

In [67]:
from q2_time import q2_time
from q2_memory import q2_memory

In [68]:
q2_time(file_path)

[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

In [69]:
q2_memory(file_path)

[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

## Execution of Q3 Functions
Top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.

In [70]:
from q3_time import q3_time
from q3_memory import q3_memory

In [71]:
q3_time(file_path)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

In [72]:
q3_memory(file_path)

[('narendramodi', 2265.0),
 ('Kisanektamorcha', 1840.0),
 ('RakeshTikaitBKU', 1644.0),
 ('PMOIndia', 1427.0),
 ('RahulGandhi', 1146.0),
 ('GretaThunberg', 1048.0),
 ('RaviSinghKA', 1019.0),
 ('rihanna', 986.0),
 ('UNHumanRights', 962.0),
 ('meenaharris', 926.0)]

## Time Profiling with cProfile

El report de cProfile muestra la siguiente información:
1. Informacion general de la forma **`N` function calls in `S` seconds**. 
2. Información detallada en la Tabla de Perfil.
    - La información esta ordenada por tiempo acumulativo, `cumtime`, que es el tiempo total empleado en cada función, incluyendo el tiempo en todas las subfunciones que son llamadas.
    - Las unidades en las columnas `tottime`, `percall`, `cumtime` y `percall` están expresadas en segundos.

In [73]:
from profiling import time_profiling

In [74]:
time_profiling.run(q1_time, file_path, 15)

Sun Feb 18 20:12:21 2024    profiling/time_cprofile_results_q1_time.bin

         646060 function calls (645512 primitive calls) in 4.488 seconds

   Ordered by: cumulative time
   List reduced from 836 to 15 due to restriction <15>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    4.488    4.488 {built-in method builtins.exec}
        1    0.317    0.317    4.488    4.488 <string>:1(<module>)
        1    0.006    0.006    4.171    4.171 /Users/arllanos/repos/other/challenge_DE/src/q1_time.py:5(q1_time)
        1    0.023    0.023    4.052    4.052 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/pandas/io/json/_json.py:505(read_json)
        1    0.005    0.005    3.792    3.792 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/pandas/io/json/_json.py:991(read)
        1    0.000    0.000    3.442    3.442 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/

In [75]:
time_profiling.run(q1_memory, file_path, 15)

Sun Feb 18 20:12:25 2024    profiling/time_cprofile_results_q1_memory.bin

         4561048 function calls in 3.602 seconds

   Ordered by: cumulative time
   List reduced from 40 to 15 due to restriction <15>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    3.602    3.602 {built-in method builtins.exec}
        1    0.000    0.000    3.602    3.602 <string>:1(<module>)
        1    0.564    0.564    3.602    3.602 /Users/arllanos/repos/other/challenge_DE/src/q1_memory.py:6(q1_memory)
   117407    0.056    0.000    1.865    0.000 /Users/arllanos/.pyenv/versions/3.9.16/lib/python3.9/json/__init__.py:299(loads)
   117407    0.088    0.000    1.791    0.000 /Users/arllanos/.pyenv/versions/3.9.16/lib/python3.9/json/decoder.py:332(decode)
   117407    1.641    0.000    1.641    0.000 /Users/arllanos/.pyenv/versions/3.9.16/lib/python3.9/json/decoder.py:343(raw_decode)
   117407    0.033    0.000    1.119    0.000 {built-in method strptim

In [76]:
time_profiling.run(q2_time, file_path, 15)

Sun Feb 18 20:12:42 2024    profiling/time_cprofile_results_q2_time.bin

         86266926 function calls (86266560 primitive calls) in 16.960 seconds

   Ordered by: cumulative time
   List reduced from 476 to 15 due to restriction <15>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000   16.960   16.960 {built-in method builtins.exec}
        1    0.305    0.305   16.960   16.960 <string>:1(<module>)
        1    0.063    0.063   16.655   16.655 /Users/arllanos/repos/other/challenge_DE/src/q2_time.py:7(q2_time)
   117407    0.029    0.000   12.299    0.000 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/emoji/core.py:283(emoji_list)
   117407    2.090    0.000   12.270    0.000 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/emoji/core.py:290(<listcomp>)
 17140706    6.394    0.000    9.513    0.000 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/emoji/to

In [77]:
time_profiling.run(q2_memory, file_path, 15)

Sun Feb 18 20:12:57 2024    profiling/time_cprofile_results_q2_memory.bin

         87138385 function calls in 15.124 seconds

   Ordered by: cumulative time
   List reduced from 39 to 15 due to restriction <15>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000   15.124   15.124 {built-in method builtins.exec}
        1    0.000    0.000   15.124   15.124 <string>:1(<module>)
        1    0.563    0.563   15.124   15.124 /Users/arllanos/repos/other/challenge_DE/src/q2_memory.py:7(q2_memory)
   117407    0.039    0.000   12.557    0.000 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/emoji/core.py:283(emoji_list)
   117407    2.130    0.000   12.518    0.000 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/emoji/core.py:290(<listcomp>)
 17140706    6.547    0.000    9.705    0.000 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/emoji/tokenizer.py:158(tokeniz

In [78]:
time_profiling.run(q3_time, file_path, 15)

Sun Feb 18 20:13:02 2024    profiling/time_cprofile_results_q3_time.bin

         993863 function calls (993340 primitive calls) in 4.835 seconds

   Ordered by: cumulative time
   List reduced from 791 to 15 due to restriction <15>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    4.835    4.835 {built-in method builtins.exec}
        1    0.319    0.319    4.835    4.835 <string>:1(<module>)
        1    0.010    0.010    4.517    4.517 /Users/arllanos/repos/other/challenge_DE/src/q3_time.py:5(q3_time)
        1    0.029    0.029    4.361    4.361 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/pandas/io/json/_json.py:505(read_json)
        1    0.006    0.006    4.097    4.097 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/pandas/io/json/_json.py:991(read)
        1    0.000    0.000    3.727    3.727 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/

In [79]:
time_profiling.run(q3_memory, file_path, 15)

Sun Feb 18 20:13:12 2024    profiling/time_cprofile_results_q3_memory.bin

         11998762 function calls (11725552 primitive calls) in 9.619 seconds

   Ordered by: cumulative time
   List reduced from 862 to 15 due to restriction <15>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    9.619    9.619 {built-in method builtins.exec}
        1    0.001    0.001    9.619    9.619 <string>:1(<module>)
        1    0.554    0.554    9.618    9.618 /Users/arllanos/repos/other/challenge_DE/src/q3_memory.py:5(q3_memory)
      471    0.412    0.001    5.557    0.012 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/pandas/io/json/_json.py:1085(__next__)
      470    0.003    0.000    4.976    0.011 /Users/arllanos/repos/other/challenge_DE/.venv/lib/python3.9/site-packages/pandas/io/json/_json.py:1033(_get_object_parser)
      470    0.002    0.000    4.972    0.011 /Users/arllanos/repos/other/challenge_DE/.venv/lib

## Memory Profiling with Memray
Si bien Memray puede proporcionar diferentes tipos de reportes, por simplicidad en este challenge se utiliza `stats`, el cual provee high level stats del uso de memoria. Si se desea analizar el uso de memoria desde otra perspectiva se pueden generar otro tipos de reporte a partir del archivo generado en el directorio `profiling/`.

Ejemplo para generar `html` con representacion visual flamegraph:
1. Generar bin file para q1_memory
    ```bash
    FUNC=q1_memory
    FILE_PATH=data/farmers-protest-tweets-2021-2-4.json
    python3 -m memray run src/profiling/memory_profiling.py $FUNC $FILE_PATH
    ```
1. Generar flamegraph
    ```bash
    # reemplazar `path/to/bin/file` con el bin file generado en el punto anterior
    python3 -m memray flamegraph path/to/bin/file
    ```

El reporte `stats` generado incluye lo siguiente.

📏 **Total allocations**: Indica el número total de veces que se reservó memoria durante la ejecución del script.

📦 **Total memory allocated**: Muestra la cantidad total de memoria asignada durante la ejecución, lo cual es crucial para entender la demanda de memoria del script.

📊 **Histogram of allocation size**: Este histograma ofrece una vista rápida de los rangos de tamaño de las asignaciones de memoria, lo que ayuda a identificar si la mayoría de las asignaciones son grandes o pequeñas.

📂 **Allocator type distribution**: Esta sección desglosa el tipo de asignaciones de memoria (como MALLOC, MMAP, etc.) utilizadas en el script, proporcionando una idea de las operaciones de memoria subyacentes.

🥇 **Top 5 largest allocating locations (by size)** y 🥇 **Top 5 largest allocating locations (by number of allocations)**: Aquí se destacan las funciones o líneas de código que más memoria asignan, tanto en términos de tamaño como de cantidad de asignaciones, importante para identificar partes del código que pueden ser optimizadas en el uso de la memoria.

**NOTA**: Memray stats crea el reporte en profiling/memray_stats.ans. Este archivo incluye códigos ANSI, por lo tanto, opcionalmente, puedes usar una extensión compatible, como "ANSI Colors" en VSCode, para una mejor visualización.

In [80]:
output_file = f"{project_root}/src/profiling/memray-memory_profiling_stats.ans"

# Run the profiling scripts and direct output to the file
!{project_root}/src/profiling/memory_profiling.sh q1_time {file_path} > {output_file} 2>&1
!{project_root}/src/profiling/memory_profiling.sh q1_memory {file_path} >> {output_file} 2>&1
!{project_root}/src/profiling/memory_profiling.sh q2_time {file_path} >> {output_file} 2>&1
!{project_root}/src/profiling/memory_profiling.sh q2_memory {file_path} >> {output_file} 2>&1
!{project_root}/src/profiling/memory_profiling.sh q3_time {file_path} >> {output_file} 2>&1
!{project_root}/src/profiling/memory_profiling.sh q3_memory {file_path} >> {output_file} 2>&1

# Generate a clickable link to the output file
from IPython.display import display, HTML
link = f'<a href="{output_file}" target="_blank">Open Memray Profiling Output</a>'
display(HTML(link))