# Challenge LATAM

## Pre√°mbulo
Primero, solo con ver el archivo json en un editor de texto, ya se pueden notar algunas cosas:
1. La documentaci√≥n de las instrucciones no se corresponde con la versi√≥n de la API de los datos.
2. Cada linea del archivo corresponde a un entrada/objeto distinto, los cuales son tweets.

Luego, para poder visualizar y entender mejor la estructura de cada objeto json utilizo el comando de shell:

```Bash
cat farmers-protest-tweets-2021-2-4.json | jq
```

el cual realiza un "pretty print", es decir, imprime el json parseado y coloreado en la terminal.

## Respecto a los Datos

Se puede notar que el json tiene un peso considerable ($‚âà380$ mb) considerando que es solo un archivo de texto, por lo que podr√≠a ser una buena idea evitar tener el total de los datos en memoria a la hora de procesarlos.

Lo anterior, sumado a que por su tama√±o tampoco se puede subir a github (limite de 100mb por archivo), me hizo decidir dividir el archivo en partes.

La manera m√°s elegante de hacerlo ser√≠a leer el json como stream e ir manejando un buffer de tama√±o menor a $100$ mb, que al llenarse, escriba su contenido a un archivo json y luego se vac√≠e.

Sin embargo en este caso es mucho m√°s f√°cil dividir el archivo por lineas, en partes lo m√°s iguales posibles. Para esto, cree un script de shell ('../utils/file_split.sh') el cual divide el json en $N$ archivos de $\approx L/N$ lineas c/u donde $L$ es el n√∫mero de lineas del archivo y $N$ un argumento, el cual decid√≠ que fuera 5.

Finalmente se obtuvo 5 archivos de $\approx 77$ mb, y se pudieron subir a github.

## Soluciones

Por temas de comodidad y orden, estructur√© las soluciones de las 3 pruebas como m√≥dulos, cada uno en su propio directorio dentro de './src'. Adem√°s, los datos se ubicaron en la carpeta './data'.

En cada archivo '\__init__.py' de los m√≥dulos cree una "interfaz" o intermediario para la ejecuci√≥n de las funciones. Esto con el fin de ejecutarlas en paralelo, aprovechando la partici√≥n previa de los datos, y optimizando el tiempo de ejecuci√≥n para todas las funciones.

_Cada soluci√≥n est√° m√°s detalla en sus c√≥digos correspondientes._

### Imports

In [1]:
import os
import pandas as pd
from q1 import q1_time, q1_memory
from q2 import q2_time, q2_memory
from q3 import q3_time, q3_memory

data_dir = "../data"
json_files = [os.path.join(data_dir, f) for f in os.listdir(data_dir) if f.endswith('.json')]

%load_ext memory_profiler

### Problema 1

La idea principal para la resoluci√≥n de ambas versiones fue, comparar el rendimiento de el diccionario tradicional usado como contador, y otra versi√≥n donde adem√°s se agrega alguna otra estructura de datos que se ajuste bien al tipo de consultas que se hacen. En este caso, se utiliza el heap, con la idea de poder acceder a los elementos m√°ximos con mayor rapidez.

In [14]:
q1t = q1_time(json_files)
q1m = q1_memory(json_files)

#### Profiling

In [25]:
%timeit q1_time(json_files);
%timeit q1_memory(json_files);

2.52 s ¬± 34.8 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
2.37 s ¬± 8.21 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [29]:
%memit q1_time(json_files);
%memit q1_memory(json_files);

peak memory: 159.59 MiB, increment: 0.50 MiB
peak memory: 156.17 MiB, increment: 0.16 MiB


Para el tiempo, no se cumple lo predicho a trav√©s del an√°lisis te√≥rico. Esto se puede deber a varias cosas, entre ellas, que al paralelizar y crear m√°s ejecuciones, la construcci√≥n de los heaps produjo tiempo adicional. Esto se podr√≠a demostrar realizando una √∫nica ejecuci√≥n con el archivo json completo. 

La otra opci√≥n ser√≠a que, heapq, el m√≥dulo para utilizar heaps en python, sea m√°s una "emulaci√≥n" de la estructura, ya que necesita que se le entregue una lista de python para funcionar, lo que puede provocar que no se refleje el aporte de esta estructura debido a su construcci√≥n a tan alto nivel.

Finalmente, esta la opci√≥n que en la pr√°ctica, simplemente ocurren muchos procesos por debajo que hacen el usar un diccionario m√°s eficiente.

#### Resultados

In [15]:
df1 = pd.DataFrame(q1t, columns=['fecha', 'usuario'])
print("Top 10 fechas con m√°s tweets junto con el usuario que m√°s tweets hizo en esa fecha")
df1

Top 10 fechas con m√°s tweets junto con el usuario que m√°s tweets hizo en esa fecha


Unnamed: 0,fecha,usuario
0,2021-02-12,RanbirS00614606
1,2021-02-13,rebelpacifist
2,2021-02-17,RaaJVinderkaur
3,2021-02-16,jot__b
4,2021-02-14,rebelpacifist
5,2021-02-18,rebelpacifist
6,2021-02-15,jot__b
7,2021-02-20,MangalJ23056160
8,2021-02-23,Surrypuria
9,2021-02-19,Preetm91


In [16]:
df2 = pd.DataFrame(q1m, columns=['fecha', 'usuario'])
print("Top 10 fechas con m√°s tweets junto con el usuario que m√°s tweets hizo en esa fecha")
df2

Top 10 fechas con m√°s tweets junto con el usuario que m√°s tweets hizo en esa fecha


Unnamed: 0,fecha,usuario
0,2021-02-12,RanbirS00614606
1,2021-02-13,rebelpacifist
2,2021-02-17,RaaJVinderkaur
3,2021-02-16,jot__b
4,2021-02-14,rebelpacifist
5,2021-02-18,rebelpacifist
6,2021-02-15,jot__b
7,2021-02-20,MangalJ23056160
8,2021-02-23,Surrypuria
9,2021-02-19,Preetm91


_Considerar: Al utilizar distintos m√©todos para las soluciones, se puede afectar la consistencia de los resultados cuando hay empates en la frecuencia._

### Problema 2

In [2]:
q2t = q2_time(json_files)
q2m = q2_memory(json_files)

#### Profiling

In [3]:
%timeit q2_time(json_files);
%timeit q2_memory(json_files);

9.17 s ¬± 93.3 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
9.52 s ¬± 79.8 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [4]:
%memit q2_time(json_files);
%memit q2_memory(json_files);

peak memory: 178.09 MiB, increment: 12.03 MiB
peak memory: 171.72 MiB, increment: 0.16 MiB


La serializaci√≥n de los datos a dataframe, y la ejecuci√≥n de funciones a trav√©s del m√©todo ".apply()" no convierten la obtenci√≥n de resultados en un proceso m√°s lento que ir leyendo linea por linea e ir procesando los textos inmediatamente.

#### Results

In [5]:
print("Top 10 emojis m√°s utilizados")
df3 = pd.DataFrame(q2t, columns=['emoji', 'frecuencia'])
df3

Top 10 emojis m√°s utilizados


Unnamed: 0,emoji,frecuencia
0,üôè,5049
1,üòÇ,3072
2,üöú,2972
3,üåæ,2182
4,üáÆüá≥,2086
5,ü§£,1668
6,‚úä,1651
7,‚ù§Ô∏è,1382
8,üôèüèª,1317
9,üíö,1040


In [6]:
print("Top 10 emojis m√°s utilizados")
df4 = pd.DataFrame(q2m, columns=['emoji', 'frecuencia'])
df4

Top 10 emojis m√°s utilizados


Unnamed: 0,emoji,frecuencia
0,üôè,5049
1,üòÇ,3072
2,üöú,2972
3,üåæ,2182
4,üáÆüá≥,2086
5,ü§£,1668
6,‚úä,1651
7,‚ù§Ô∏è,1382
8,üôèüèª,1317
9,üíö,1040


### Problema 3
La similitud del problema con una red me dio la idea de crear una versi√≥n de la soluci√≥n como grafo, donde la soluci√≥n est√° en extraer los 10 nodos con mayor grado de entrada, y la otra soluci√≥n, simplemente contar la frecuencia con un diccionario.

In [21]:
q3t = q3_time(json_files)
q3m = q3_memory(json_files)

#### Profiling

In [30]:
%timeit q3_time(json_files);
%timeit q3_memory(json_files);

2.45 s ¬± 21.9 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
2.32 s ¬± 9.06 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [31]:
%memit q3_time(json_files);
%memit q3_memory(json_files);

peak memory: 161.94 MiB, increment: 0.20 MiB
peak memory: 161.95 MiB, increment: 0.16 MiB


El que los resultados sean tan similares es interesante por el hecho que tener los datos almacenados como grafos, da mayores ventajas en cuanto a la extracci√≥n de informaci√≥n valiosa, partiendo por que se podr√≠an utilizar otras medidas de centralidad o "importancia" como PageRank, betwenness, entre otros.

#### Results

In [22]:
df5 = pd.DataFrame(q3t, columns=['usuario', 'frecuencia'])
print("Top 10 usuarios con m√°s menciones")
df5

Top 10 usuarios con m√°s menciones


Unnamed: 0,usuario,frecuencia
0,narendramodi,2265
1,Kisanektamorcha,1840
2,RakeshTikaitBKU,1644
3,PMOIndia,1427
4,RahulGandhi,1146
5,GretaThunberg,1048
6,RaviSinghKA,1019
7,rihanna,986
8,UNHumanRights,962
9,meenaharris,926


In [23]:
df6 = pd.DataFrame(q3m, columns=['usuario', 'frecuencia'])
print("Top 10 usuarios con m√°s menciones")
df6

Top 10 usuarios con m√°s menciones


Unnamed: 0,usuario,frecuencia
0,narendramodi,2265
1,Kisanektamorcha,1840
2,RakeshTikaitBKU,1644
3,PMOIndia,1427
4,RahulGandhi,1146
5,GretaThunberg,1048
6,RaviSinghKA,1019
7,rihanna,986
8,UNHumanRights,962
9,meenaharris,926
