# DE Challenge
## Introduction

TODO: detallar tu solución y todas las suposiciones que estás considerando, etc ...

## Project Setup

1. Create a virtual environment (`.venv`) in the root directory and install all the project dependencies.
    ```sh
    python3 -m venv .venv
    source .venv/bin/activate
    pip install -r requirements.txt
    ```
1. Download the data

    Descarga manualmente https://drive.google.com/file/d/1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis/view?usp=sharing, y extrae el archivo contenido en la carpeta `data/`.

## Q1 function exucution
Top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días. 

In [None]:
import subprocess
from q1_time import q1_time
from q1_memory import q1_memory

In [None]:
file_path = "../data/farmers-protest-tweets-2021-2-4.json"
project_root = subprocess.check_output("git rev-parse --show-toplevel", shell=True).decode('utf-8').strip()

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
q1_time(file_path)

In [None]:
q1_memory(file_path)

## Memory Profiling with Memray
Si bien Memray puede proporcionar diferentes tipos de reportes, por simplicidad en este challenge se utiliza `stats`, el cual provee high level stats del uso de memoria. Si se desea analizar el uso de memoria desde otra perspectiva se pueden generar otro tipos de reporte a partir del archivo generado en el directorio `profiling/`.

Ejemplo para generar html con representacion visual flamegraph: 
```bash
python 3 -m memray src/profiling/memray-run_memray_profiling.py.2860.bin
```

El reporte `stats` proporcionado incluye lo siguiente.

📏 Total allocations: Indica el número total de veces que se reservó memoria durante la ejecución del script.

📦 Total memory allocated: Muestra la cantidad total de memoria asignada durante la ejecución, lo cual es crucial para entender la demanda de memoria del script.

📊 Histogram of allocation size: Este histograma ofrece una vista rápida de los rangos de tamaño de las asignaciones de memoria, lo que ayuda a identificar si la mayoría de las asignaciones son grandes o pequeñas.

📂 Allocator type distribution: Esta sección desglosa el tipo de asignaciones de memoria (como MALLOC, MMAP, etc.) utilizadas en el script, proporcionando una idea de las operaciones de memoria subyacentes.

🥇 Top 5 largest allocating locations (by size) y 🥇 Top 5 largest allocating locations (by number of allocations): Aquí se destacan las funciones o líneas de código que más memoria asignan, tanto en términos de tamaño como de cantidad de asignaciones, importante para identificar partes del código que pueden ser optimizadas en el uso de la memoria.

### q1_time profiling

In [None]:
!{project_root}/src/profiling/run_memray_profiling.sh q1_time {file_path}

### q1_memory profiling

In [None]:
!{project_root}/src/profiling/run_memray_profiling.sh q1_memory {file_path}

## Execution Profiling with cProfile

El report de cProfile muestra información general de la forma **`N` function calls in `S` seconds** e información mas detallada en la tabla de Perfil.

Esta última, se muestra ordenada por tiempo acumulativo, `cumtime`, que es el tiempo total empleado en cada función, incluyendo el tiempo en todas las subfunciones que son llamadas.

Las unidades en las columnas `tottime`, `percall`, `cumtime` y `percall` están expresadas en segundos.

In [None]:
import cProfile
import pstats

cProfile.run(f"q1_time('{file_path}')", "profiling/cprofile_results_q1_time.bin")
cProfile.run(f"q1_memory('{file_path}')", "profiling/cprofile_results_q1_memory.bin")

In [None]:
# prints summary and the top offending code where most time was spent by the function
top_offending = 15
p = pstats.Stats('profiling/cprofile_results_q1_time.bin')
p.sort_stats('cumulative').print_stats(top_offending)

In [None]:
# prints summary and the top offending code where most time was spent by the function
top_offending = 15
p = pstats.Stats('profiling/cprofile_results_q1_memory.bin')
p.sort_stats('cumulative').print_stats(top_offending)