En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [1]:
%load_ext memory_profiler

In [2]:
file_path = "farmers-protest-tweets-2021-2-4.json"

# Eficiencia
Primero se desarrollaron las funciones pensando en la facilidad de desarrollo y en el rendimiento del mismo.

Para ésto, se decidió utilizar la librería de python **polars** la cuál utiliza una estructura de datos llamada **DataFrame**. Los **DataFrames** permiten expresar transformaciones complejas de una manera eficiente y sencilla. A diferencia de **pandas**, **polars** intenta ejecutar las operaciones de forma paralela.

## Q1

In [3]:
from q1_time import q1_time

In [4]:
q1_time(file_path)

[(datetime.date(2021, 2, 19), 'Preetm91'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b')]

In [5]:
%%timeit 
q1_time(file_path)

7.62 s ± 375 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [6]:
%%memit
q1_time(file_path)

peak memory: 1900.14 MiB, increment: 1446.77 MiB


## Q2

In [8]:
from q2_time import q2_time

In [9]:
q2_time(file_path)

[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

In [10]:
%%timeit
q2_time(file_path)

18.4 s ± 492 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [11]:
%%memit
q2_time(file_path)

peak memory: 670.12 MiB, increment: 402.51 MiB


## Q3

In [12]:
from q3_time import q3_time

In [13]:
q3_time(file_path)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

In [14]:
%%timeit
q3_time(file_path)

9.85 s ± 374 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [15]:
%%memit
q3_time(file_path)

peak memory: 795.79 MiB, increment: 438.05 MiB


# Memoria
Luego se desarrollaron las funciones pensando en optimizar el uso de memoria.

Para ésto, se decidió utilizar la clase **Counter** de Python la cuál pertenece a la librería nativa **collections** sin utilizar ninguna librería que implemente **DataFrames** o similares. También, con el fin de ahorrar memoría, se decidio procesar el json linea a linea al momento de leero sin tenerlo completamente en memoría antes.

## Q1

In [17]:
from q1_memory import q1_memory

In [18]:
q1_memory(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

In [19]:
%%timeit 
q1_memory(file_path)

15.8 s ± 1.23 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [20]:
%%memit 
q1_memory(file_path)

peak memory: 363.84 MiB, increment: 0.00 MiB


## Q2

In [21]:
from q2_memory import q2_memory

In [22]:
q2_memory(file_path)

[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

In [23]:
%%timeit
q2_memory(file_path)

18.3 s ± 531 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [24]:
%%memit
q2_memory(file_path)

peak memory: 363.84 MiB, increment: 0.00 MiB


## Q3

In [25]:
from q3_memory import q3_memory

In [26]:
q3_memory(file_path)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

In [27]:
%%timeit
q3_memory(file_path)

7.72 s ± 188 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [28]:
%%memit
q3_memory(file_path)

peak memory: 363.84 MiB, increment: 0.00 MiB


## Comparación
A continuación se presenta un resumen de los resultados de las diferentes funciones.

| Function  | Time  | Peak Memory |
|-----------|-------|-------------|
| q1_time   | 7.62s | 1900MiB     |
| q1_memory | 15.8s | 363MiB      |
| q2_time   | 18.4s | 670MiB      |
| q2_memory | 18.3s | 363MiB      |
| q3_time   | 9.85s | 796MiB      |
| q3_memory | 7.72s | 363MiB      |

Los resultados obtenidos fueron variados en cada una de las pruebas.

Para la primera prueba se logró disminuir considerablemente el uso de memoria (se usó sólo el 20% de la memoria) duplicando el tiempo de ejecución. Se aprecia que para éste ejercicio donde la transformación exigida era la más compleja, el rendimiento ganado al usar polars es considerable además de que el código es mucho más fácil de entender.


Para la segunda prueba, se logró disminuir el uso de memoria a la mitad conservando el rendimiento. Debido a que ambas soluciones usan la librería de **emoji**, ésta debe ser la que gobierna el tiempo de ejecución. La transformación solicitada fue un simple conteo por lo que la clase **Counter** de Python puede alcanzar el rendimiento de polars.


En la tercera prueba tenemos un caso similar a la segunda, en donde el uso de memoria bajó a la mitad manteniendo el rendimiento (Incluso superandolo). Debido a que la transformación es simple, la diferencia entre polars y el **Counter** nativo de Python no es significativa.


## Conclusiones

* Pensar en optimizar un problema para disminuir el uso de memoria, puede ayudar también a mejorar el rendimiento.
* Aunque las librerías que proveen un api de **DataFrame** permiten expresar transformaciones complejas de una manera simple y a demás suelen poseer un buen rendimiento, algunas veces utilizar las librerías nativas de Python puede ser una mejora en el rendimiento de las operaciones.
* Mientras más complejas sean las transformaciones que se deben hacer a un conjunto de datos, mayor el beneficio de utilizar librerías especializadas en la transformación y exploración de datos. Si las pruebas no fueran simples agregaciones, sino que incluyeran operaciones más complejas como un **JOIN**, la implementación pensada en memoría sería muchísimo más compleja y probablemente habría una pérdida de rendimiento bastante considerable.