# Data Engineer Challenge

## Importaci√≥n de funciones

In [2]:
%load_ext memory_profiler

In [3]:
import os
from gcp import q1_bigquery
from q1_time import q1_time, q1_time_pandas
from q1_memory import q1_memory
from q2_time import q2_time, q2_time_pandas
from q2_memory import q2_memory
from q3_time import q3_time, q3_time_pandas
from q3_memory import q3_memory

# Enfoque general

A grandes rasgos por cada pregunta se realiza lo siguente:
 - Optimizaci√≥n de tiempo de ejecuci√≥n cargando los datos en un DataFrame
     - Se usa la librer√≠a Pandas.
     - Se usa librer√≠a Polars, dada su capacidad de procesar grandes vol√∫menes de datos de forma r√°pida y eficiente.
 - Optimizaci√≥n de uso de memor√≠a leyendo el JSON l√≠nea a l√≠nea.

La hip√≥tesis es que para optimizar la velocidad resulta mejor cargar los datos a un Dataframe, ya sea de Pandas o Polars, debido a que est√°n optimizados para trabajar de manera eficiente. De esta forma la manipulaci√≥n de los datos y la aplicaci√≥n de operaciones deber√≠a ser m√°s r√°pida.

Por otra parte, resulta evidente que para optimizar el uso de memoria cargar todos los datos a un Dataframe no es el camino correcto. Resulta mucho m√°s conveniente leer cada tweet, iterando el JSON linea a l√≠nea.

## Suposiciones
- Se presupone que se tiene el archivo JSON en la misma carpeta que este notebook.
- Se supone que el archivo ya est√° extraido del zip.
- Para ejecutar la funci√≥n basada en BigQuery se asume que ya se tiene un proyecto creado, con una cuenta de servicio con permisos de administrador de BigQuery y de objetos de storage (y disponemos de la key de la cuenta en formato JSON).
- Se asume que se tiene un dataset en BigQuery con una tabla con los datos del JSON cargados.
- Se asume que tenemos las variables de entorno *PROJECT_ID*, *KEYFILE_PATH*, *DATASET_ID* y *TABLE_NAME* en el entorno virtual para usar BigQuery.

> En el notebook **setup_gcp.ipynb** se explica m√°s en detalle el preparamiento para usar BigQuery

In [1]:
file_path = "farmers-protest-tweets-2021-2-4.json"

# Q1

Obtener las top 10 fechas con m√°s tweets y mencionar el usuario con m√°s publicaciones en cada uno de esos d√≠as.

## 1.1 Optimizaci√≥n de tiempo de ejecuci√≥n

### 1.1.0 Enfoque usando BigQuery de Google Cloud Platform


- Se crea objeto Client de BigQuery a partir del *project_id* y el path de la *keyfile*.
- Se arma la query SQL, reemplazando el *project_id*, *dataset_id* y *table_name* seg√∫n los argumentos entregados a la funci√≥n.
- Se crea un BigQuery Job para ejecutar la query.
- Se entrega resultado como lista de tuplas.

In [5]:
project_id = os.getenv("PROJECT_ID")
keyfile_path = os.getenv("KEYFILE_PATH")
dataset_id = os.getenv("DATASET_ID")
table_name = os.getenv("TABLE_NAME")

#### Resultado de la funci√≥n

In [6]:
print(q1_bigquery(keyfile_path, project_id, dataset_id, table_name))

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


#### C√°lculo de tiempo de ejecuci√≥n

In [7]:
%timeit q1_bigquery(keyfile_path, project_id, dataset_id, table_name)

2.62 s ¬± 117 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [9]:
%memit q1_bigquery(keyfile_path, project_id, dataset_id, table_name)

peak memory: 157.85 MiB, increment: 0.14 MiB


### 1.1.1 Enfoque usando librer√≠a Polars

- Se crea LazyFrame para leer el JSON.
- Se seleccionan de columnas a usar, tomando *date* y *username* (desde dentro de *user*).
- Se agrega columna *date_count* con conteo de tweets por d√≠a (usando l√≥gica *over* similar a funciones de venta en SQL).
- Se agrega columna *user_count* con conteo tweets por combinacion de d√≠a y username (usando l√≥gica *over*).
- Se ordena seg√∫n *user_count*, se agrupa seg√∫n *date* y se extrae el primer username por cada partici√≥n, junto con *date_count* asociada.
- Se ordena el resultado (una fila por d√≠a) por *date_count* descendiente y se extraen los primeros 10.
- Se materializa el LazyFrame a DataFrame.
- Se entrega resultado como lista de tuplas.

#### Resultado de la funci√≥n

In [10]:
print(q1_time(file_path))

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


#### C√°lculo de tiempo de ejecuci√≥n

In [11]:
%timeit q1_time(file_path)

4.91 s ¬± 120 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [7]:
%memit q1_time(file_path)

peak memory: 1675.81 MiB, increment: 1524.47 MiB


### 1.1.2 Enfoque usando librer√≠a Pandas

- Se cargan de datos del JSON en un Dataframe.
- Se seleccionan de columnas a usar, tomando date y username (desde dentro de user).
- Se obtienen indices de los 10 d√≠as con m√°s tweets y se filtran del dataframe.
- Se agrega columna *count* con conteo tweets por combinacion de d√≠a y username (usando *group_by*).
- Se obtienen los √≠ndices de usernames con m√°s tweets por d√≠a haciendo *group_by* por d√≠a y extrayendo el √≠ndice de la fila con mayor *count* de cada partici√≥n.
- Se extraen los usernames del Dataframe seg√∫n √≠ndices encontrados, se elimina columna con conteo y se entrega salida como lista de tuplas.

#### Resultado de la funci√≥n

In [13]:
print(q1_time_pandas(file_path))

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 19), 'Preetm91'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria')]


#### C√°lculo de tiempo de ejecuci√≥n

In [14]:
%timeit q1_time_pandas(file_path)

8.65 s ¬± 445 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [8]:
%memit q1_time_pandas(file_path)

peak memory: 3247.39 MiB, increment: 2039.49 MiB


## 1.2 Optimizaci√≥n de uso de memoria

### Enfoque leyendo l√≠nea a l√≠nea

- Se lee JSON entero l√≠nea por l√≠nea, creando diccionario con cada d√≠a distinto como *key* y el conteo de tweets del d√≠a como *value*.
- Se ordena diccionario seg√∫n conteo y se extraen los 10 d√≠as m√°ximos.
- Por cada uno de los 10 d√≠as m√°ximos:
    - Se lee JSON en l√≠nea por l√≠nea, creando diccionario con cada username como *key* y el conteo de tweets del user como *value*.
    - Se ordena diccionario y se extrae el username con m√°s publicaciones del d√≠a (se agrega como tupla a una lista de salida).
- Se entrega lista resultante.

> Cabe mencionar que se est√° leyendo el JSON l√≠nea por l√≠nea 11 veces, lo que obviamente es lento, pero se hace debido al enfoque en uso de memoria.

> La idea es evitar crear un diccionario con dias como keys y diccionario de usernames como values, ya que esta variable ocupar√≠a gran cantidad de memor√≠a.
> Se prefiere iterar d√≠a a d√≠a extrayendo el username m√°s mencionado, manteniendo en comparaci√≥n una variable de menor tama√±o que se sobreescribe en cada iteraci√≥n.

#### Resultado de la funci√≥n

In [16]:
print(q1_memory(file_path))

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


#### C√°lculo de tiempo de ejecuci√≥n

In [17]:
%timeit q1_memory(file_path)

1min 25s ¬± 818 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [4]:
%memit q1_memory(file_path)

peak memory: 148.39 MiB, increment: 1.01 MiB


## 1.3 An√°lisis de resultados

- En cuanto al tiempo de ejecuci√≥n se puede ver que usar Polars es un 1.7 veces m√°s r√°pido que Pandas y 17 veces m√°s r√°pido que el enfoque en optimizaci√≥n de memoria. Es 0.53 veces m√°s lento que BigQuery.
- En cuanto a uso de memoria, el enfoque leyendo l√≠nea a l√≠nea es 11 veces menor a usando Polars y 22 veces menor a usando Pandas. Ocupa aproximadamente la misma memoria que el enfoque usando BigQuery.

# Q2

Los top 10 emojis m√°s usados con su respectivo conteo.

Para la realizaci√≥n de esta pregunta se utiliza la librer√≠a *emojis*.   
Se consider√≥ la posibilidad de encontrar los emojis usando expresiones regulares debido a su mayor velocidad, pero se termina usando librer√≠a emojis para tener mayor precisi√≥n en los resultados.

> Se hace la suposici√≥n de que no se quieren agrupar emojis de la misma "forma" pero distinto color.
> Por ejemplo, coraz√≥n rojo y verde o *praying hands* de distinto tono de piel.

## 2.1 Optimizaci√≥n de tiempo de ejecuci√≥n

### 2.1.1 Enfoque usando librer√≠a Polars

- Se crea LazyFrame para leer el JSON.
- Se seleccionan las columnas a usar, tomando *content* y aplicando una funci√≥n para mapear *content* a una lista de emojis contenidos.
- Se filtran tweets sin emojis.
- Se materializa el LazyFrame a DataFrame.
- Se "abren" las filas creando una fila nueva por cada emoji en la lista.
- Se crea dataframe con conteo por emojis, se ordena de manera descendente y se extraen los 10 m√°s usados.
- Se entrega resultado como lista de tuplas.

#### Resultado de la funci√≥n

In [19]:
print(q2_time(file_path))

[('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('ü§£', 1668), ('‚úä', 1651), ('‚ù§Ô∏è', 1382), ('üôèüèª', 1317), ('üíö', 1040)]


#### C√°lculo de tiempo de ejecuci√≥n

In [20]:
%timeit q2_time(file_path)

21 s ¬± 181 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [21]:
%memit q2_time(file_path)

peak memory: 1034.31 MiB, increment: 386.59 MiB


### 2.1.2 Enfoque usando librer√≠a Pandas

- Se cargan de datos del JSON en un Dataframe.
- Se seleccionan las columnas a usar, tomando *content* y aplicando una funci√≥n para mapear *content* a una lista de emojis contenidos.
- Se "abren" las filas creando una fila nueva por cada emoji en la lista.
- Se crea dataframe con conteo por emojis, se ordena de manera descendente y se extraen los 10 m√°s usados.
- Se entrega resultado como lista de tuplas.

#### Resultado de la funci√≥n

In [22]:
print(q2_time_pandas(file_path))

[(5049, 'üôè'), (3072, 'üòÇ'), (2972, 'üöú'), (2182, 'üåæ'), (2086, 'üáÆüá≥'), (1668, 'ü§£'), (1651, '‚úä'), (1382, '‚ù§Ô∏è'), (1317, 'üôèüèª'), (1040, 'üíö')]


#### C√°lculo de tiempo de ejecuci√≥n

In [23]:
%timeit q2_time_pandas(file_path)

26.7 s ¬± 532 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [9]:
%memit q2_time_pandas(file_path)

peak memory: 3620.69 MiB, increment: 2596.27 MiB


## 2.2 Optimizaci√≥n de uso de memoria

### Enfoque leyendo l√≠nea a l√≠nea

- Se crea un contador *Counter()* para los emojis.
- Se lee JSON entero l√≠nea por l√≠nea y por cada una:
    - Se extrae campo *content* y se extrae lista de emojis con librer√≠a *emojis*.
    - Por cada emoji en la lista se actualiza el contador de emojis.
- Se encuentran los 10 emojis m√°s usados con m√©todo *most_common(10)* y se entregan como salida.

#### Resultado de la funci√≥n

In [25]:
print(q2_memory(file_path))

[('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('ü§£', 1668), ('‚úä', 1651), ('‚ù§Ô∏è', 1382), ('üôèüèª', 1317), ('üíö', 1040)]


#### C√°lculo de tiempo de ejecuci√≥n

In [26]:
%timeit q2_memory(file_path)

24.2 s ¬± 670 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [5]:
%memit q2_memory(file_path)

peak memory: 149.76 MiB, increment: 1.38 MiB


## 2.3 An√°lisis de resultados

- En cuanto al tiempo de ejecuci√≥n se puede ver que usar Polars es un 1.23 veces m√°s r√°pido que Pandas y 1.14 veces m√°s r√°pido que el enfoque en optimizaci√≥n de memoria.
- En cuanto a uso de memoria, el enfoque leyendo l√≠nea a l√≠nea es 6.9 veces menor a usando Polars y 24 veces menor a usando Pandas.

# Q3

Para la realizaci√≥n de esta pregunta se utiliza el campo *mentionedUsers* de los tweets.   
Se consider√≥ la posibilidad de usar expresiones regulares haciendo uso del @, pero se prefir√≠o usar el campo de usuarios mencionados, ya que probablemente entrega resultados m√°s precisos (en teor√≠a pueden haber @ no usados para referenciar a otros users, como en correos).

> Se hace la suposici√≥n de que por cada tweet se menciona m√°ximo una vez a cada *username* distinto (en teor√≠a se puede mencionar m√°s de una vez en un mismo tweet a alguien). Dado que es algo que no ocurre demasiado, probablemente no afecta los resultados finales.

## 3.1 Optimizaci√≥n de tiempo de ejecuci√≥n

### 3.1.1 Enfoque usando librer√≠a Polars

- Se crea LazyFrame para leer el JSON.
- Se seleccionan las columnas a usar, tomando *mentionedUsers* y aplicando una funci√≥n para mapear *mentionedUsers* a una lista de *usernames* contenidos.
- Se filtran tweets sin menciones a otros usurios.
- Se materializa el LazyFrame a DataFrame.
- Se "abren" las filas creando una fila nueva por cada *username* en la lista.
- Se crea dataframe con conteo por *usernames*, se ordena de manera descendente y se extraen los 10 m√°s mencionados.
- Se entrega resultado como lista de tuplas.

#### Resultado de la funci√≥n

In [28]:
print(q3_time(file_path))

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


#### C√°lculo de tiempo de ejecuci√≥n

In [12]:
%timeit q3_time(file_path)

8.91 s ¬± 320 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [10]:
%memit q3_time(file_path)

peak memory: 1398.32 MiB, increment: 461.33 MiB


### 3.1.2 Enfoque usando librer√≠a Pandas

- Se cargan de datos del JSON en un Dataframe.
- Se seleccionan las columnas a usar, tomando *mentionedUsers* y aplicando una funci√≥n para mapear *mentionedUsers* a una lista de *usernames* contenidos.
- Se "abren" las filas creando una fila nueva por cada *username* en la lista.
- Se crea dataframe con conteo por *usernames*, se ordena de manera descendente y se extraen los 10 m√°s usados.
- Se entrega resultado como lista de tuplas.

#### Resultado de la funci√≥n

In [31]:
print(q3_time_pandas(file_path))

[(2265, 'narendramodi'), (1840, 'Kisanektamorcha'), (1644, 'RakeshTikaitBKU'), (1427, 'PMOIndia'), (1146, 'RahulGandhi'), (1048, 'GretaThunberg'), (1019, 'RaviSinghKA'), (986, 'rihanna'), (962, 'UNHumanRights'), (926, 'meenaharris')]


#### C√°lculo de tiempo de ejecuci√≥n

In [13]:
%timeit q3_time_pandas(file_path)

8.1 s ¬± 156 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [11]:
%memit q3_time_pandas(file_path)

peak memory: 3311.57 MiB, increment: 2658.90 MiB


## 3.2 Optimizaci√≥n de uso de memoria

### Enfoque leyendo l√≠nea a l√≠nea

- Se crea un contador *Counter()* para los *usernames* mencionados.
- Se lee JSON entero l√≠nea por l√≠nea y por cada una:
    - Se extrae campo *mentionedUsers* y se extrae lista de *usernames*.
    - Por cada *username* en la lista se actualiza el contador de *usernames*.
- Se encuentran los 10 *usernames* m√°s usados con m√©todo *most_common(10)* y se entregan como salida.

#### Resultado de la funci√≥n

In [34]:
print(q3_memory(file_path))

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


#### C√°lculo de tiempo de ejecuci√≥n

In [35]:
%timeit q3_memory(file_path)

5.7 s ¬± 117 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


#### C√°lculo de uso de memor√≠a

In [6]:
%memit q3_memory(file_path)

peak memory: 151.32 MiB, increment: 1.56 MiB


## 3.3 An√°lisis de resultados

- En cuanto al tiempo de ejecuci√≥n se puede ver que el enfoque en optimizaci√≥n de memoria es 1.5 veces m√°s r√°pido que Polars y 1.4 veces m√°s r√°pido que Pandas.
- En cuanto a uso de memoria, el enfoque leyendo l√≠nea a l√≠nea es 9.2 veces menor a usando Polars y 22 veces menor a usando Pandas.

### 3.3.1 Conclusiones

- Se concluye que Polars es mucho m√°s r√°pido para leer JSON separados por lineas gracias a su funcion scan_ndjson. El uso de LazyFrames realmente hace una diferencia comparado con la carga directa a un Dataframe de Pandas.

- Se ve que el uso de memor√≠a usando Polars es significativamente menor al de Pandas.

- Se evidencia que cargar datos con estructura anidada y de un tama√±o importante a un Dataframe no es una operaci√≥n r√°pida.

- Resulta interesante que el enfoque para optimizar el uso de memoria, leyendo l√≠nea por linea resulta m√°s r√°pido en varios casos. Probablemente la raz√≥n es el tiempo de carga de los datos de Polars y sobre todo de Pandas.

- El enfoque basado en BigQuery resulta mucho m√°s r√°pido que el resto, pero la comparaci√≥n es injusta, puesto que no se considera el tiempo de la carga de datos.

- En cuanto a la optimizaci√≥n del uso de memoria se puede ver que leer l√≠nea por linea supera consistentemente a la carga de los datos en un dataset, como uno esperar√≠a te√≥ricamente.

- Se puede ver que incluso la ejecuci√≥n usando BigQuery (que deber√≠a ocupar muy poca memoria, ya que el trabajo lo hacen los servidores de Google) usa sobre 100MB, lo que indica que las funciones de optimizaci√≥n de memor√≠a son muy eficientes, puesto que ocupan una memor√≠a parecida.

- Se puede ver que los distintos enfoques entregan los mismos resultados, lo que hace probable que esten correctos.

### 3.3.2 Posibles mejoras

- Una posible mejora es preprocesar los datos para cargarlos m√°s r√°pidamente en los Dataframes de Pandas y Polars. Resulta interesante usar el formato parquet para guardar los Dataframes dada su eficiencia y velocidad. Puesto que la mayor parte del tiempo de ejecuci√≥n usando Pandas se gasta en la carga, resulta interesante esta opci√≥n para comparar en iguales condiciones con Polars.

- Una mejora ser√≠a usar librer√≠as m√°s completas (como cProfle) para evaluar el tiempo de ejecuci√≥n, con el fin de descubrir posibles cuello de botella en las funciones. Ser√≠a una buena forma de confirmar la sospecha de los tiempo de carga en los Dataframe.

- Otra posible mejora es agregar el tiempo de carga de los datos en el caso de BigQuery, ya que con Pandas y Polars es el factor que m√°s afecta.

- Tambi√©n ser√≠a bueno agregar mayor documentaci√≥n sobre el setup de Google Cloud Platform, con cada paso explicado m√°s detalladamente. 