# Introducción
En el presente documento se explicará el desarrollo de `Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.` En terminos de optimización de tiempo `(q1_time.py)` y memoria `(q1_memory.py)` en la ejecución del programa.

# Primeros Pasos
- Se debe crear el ambiente virtual con el siguiente comando

In [4]:
%%bash
cd ../
make env

Makefile:19: *** missing separator.  Stop.


## Desarrollos
En esta seccion se realizá la comparación entre el enfoque de optimizacion de memoria vs el enfoque de optimizacion de tiempo de ejecución del caso de uso. Para estas pruebas emplearemos la carga del archivo de tweets presente en este desafio, el cual, se encuentra almacenado en `./data/data.json`.
### Enfoque en Optimización de Memoria
Para este proceso ejecutaremos el archivo `src/q1_memory.py`. con el siguiente comando:

In [19]:
%%bash
cd ../
source ./venv/bin/activate
make memprofile file=q1_memory

rm -f output/q1_memory.dat
. venv/bin/activate && mprof run --output output/q1_memory.dat /Users/mac/Documents/challenge_DE/venv/bin/python3.8 src/q1_memory.py
mprof: Sampling memory every 0.1s
running new process
Filename: src/q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     9     44.5 MiB     44.5 MiB           1   @profile
    10                                         def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    11                                             # Función para procesar cada tweet y devolver la fecha y el nombre de usuario
    12                                             
    13     45.2 MiB      0.3 MiB      117408       def process_tweet(tweet):
    14     45.2 MiB      0.0 MiB      117407           fecha = datetime.fromisoformat(tweet["date"]).date()
    15     45.2 MiB      0.0 MiB      117407           usuario = tweet["user"]["username"]
    16     45.2 MiB      0.0 MiB      117407           return fecha, u

Obteniendo un resultado de memoria (esta información la encontrada en el archivo ./output/q1_memory.dat)
- 0.187500 MiB (Minimo)
- 45.234375 MiB (Maximo)

Resultado de Funcionalidad:
- `[(datetime.date(2021, 2, 12), 'Gurpreetd86'), (datetime.date(2021, 2, 13), 'rebelpacifist'), (datetime.date(2021, 2, 17), 'rebelpacifist'), (datetime.date(2021, 2, 16), 'MovimentoGhadar'), (datetime.date(2021, 2, 14), 'jot__b'), (datetime.date(2021, 2, 18), 'partLvis'), (datetime.date(2021, 2, 15), 'Farmer22006851'), (datetime.date(2021, 2, 20), 'Kamalbagga15'), (datetime.date(2021, 2, 23), 'KaurDosanjh1979'), (datetime.date(2021, 2, 19), 'jot__b')]`

Resultado de tiempo de ejecución: 
- `29.89084219932556 segundos.`

### Enfoque en Optimización de Tiempo
Para este proceso ejecutaremos el archivo `src/q1_time.py`. con el siguiente comando:

In [20]:
%%bash
cd ../
source ./venv/bin/activate
make memprofile file=q1_time

rm -f output/q1_time.dat
. venv/bin/activate && mprof run --output output/q1_time.dat /Users/mac/Documents/challenge_DE/venv/bin/python3.8 src/q1_time.py
mprof: Sampling memory every 0.1s
running new process


24/07/07 20:59:57 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


Filename: src/q1_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     9     60.7 MiB     60.7 MiB           1   @profile
    10                                         def q1_time(file_path: str):
    11                                               # Iniciar la sesión de Spark
    12     61.5 MiB      0.8 MiB           4       spark = SparkSession.builder \
    13     60.7 MiB      0.0 MiB           1           .appName("TwitterDataProcessing") \
    14     60.7 MiB      0.0 MiB           1           .config("spark.executor.memory", "2g") \
    15     60.7 MiB      0.0 MiB           1           .config("spark.python.profile.memory", True) \
    16                                                 .getOrCreate()
    17                                         
    18                                             # Leer el archivo JSON
    19     61.5 MiB      0.0 MiB           1       df = spark.read.json(file_path)
    20                                         
    

                                                                                

Obteniendo un resultado de memoria (esta información la encontrada en el archivo ./output/q1_time.dat)
- 0.203125 MiB (Minimo)
- 61.843750 MiB (Maximo)

Resultado de Funcionalidad:
- `[('2021-02-18', 'neetuanjle_nitu'), ('2021-02-13', 'MaanDee08215437'), ('2021-02-17', 'RaaJVinderkaur'), ('2021-02-16', 'jot__b'), ('2021-02-20', 'MangalJ23056160'), ('2021-02-14', 'Gurpreetd86'), ('2021-02-15', 'jot__b'), ('2021-02-23', 'preetysaini321'), ('2021-02-19', 'Preetm91'), ('2021-02-12', 'rebelpacifist')]`

Resultado de tiempo de ejecución: 
- `15.270632982254028 segundos`