# LATAM Challenge Data Engineer

## 1. Descripci√≥n del caso

El ejercicio de estudio del desaf√≠o consiste en el an√°lisis de datos provenientes de Twitter, actualmente X. El objetivo es rescatar informaci√≥n estad√≠stica de los tweets relacionados con las protestas de los granjeros en India. Este an√°lisis est√°n enfocados en dos m√©tricas: la utilizaci√≥n de memoria y el tiempo de cada una de las funciones que buscan responder a las preguntas planteadas.

## 2. Supuestos y consideraciones

Se realiz√≥ una revisi√≥n inicial de los datos proporcionados para identificar la existencia de tweets duplicados o de aquellos en los que existe m√°s de una menci√≥n a la misma persona en el mismo tweet de la siguiente manera:

In [39]:
#Carga inicial del archivo, los archivos siempre estaran en la ruta "../data/<archivo>.json"
file_path = "../data/farmers-protest-tweets-2021-2-4.json"

In [24]:
import polars as pl
import jsonlines

data = []
with jsonlines.open(file_path) as reader:
    for obj in reader:
        users = []
        users_dedup = []
        mentioned_users = obj.get('mentionedUsers', {})
        if mentioned_users:
            users.extend([item['username'] for item in mentioned_users])
            users_dedup.extend(list(set(item['username'] for item in mentioned_users)))
        tweet = {
            'date': obj.get('date'),
            'id': obj.get('id'),
            'username': obj.get('user', {}).get('username'),
            'mentionedUsers': users,
            'users_dedup': users_dedup
        }
        data.append(tweet)
df = pl.DataFrame(data)

In [25]:
id_count = df.group_by('id').len()
id_count = id_count.filter(pl.col('len')>1)
len(id_count)

0

El total de registros duplicados para el dataframe por el id del tweet generado es cero para el archivo de estudio.

La revisi√≥n de las m√∫ltiples menciones en el mismo tweet se verific√≥ de la siguiente manera:

In [26]:
mensiones_duplicadas = df.filter(pl.col('mentionedUsers').len() != pl.col('users_dedup').len())
len(mensiones_duplicadas)

0

### Supuestos generales

1. Los archivos para su ejecuci√≥n se encuentran en la ruta: "../data/farmers-protest-tweets-2021-2-4.json"
2. Los emojis con variaciones de tono de piel ser√°n tratados como emojis distintos.
3. Los datos que se extraen desde Twitter son √∫nicos y no tienen duplicados.


## 3. Explicaci√≥n de las funciones implementadas


### Ejercicio 1
Las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as.

#### Optimizaci√≥n de tiempo

Para responder a este requerimiento se opt√≥ por utilizar la librer√≠a *polars* de python, con la cual se busca cargar la informaci√≥n a procesar en memoria para posteriormente procesarla seg√∫n las necesidades del caso.

```Python
with jsonlines.open(file_path) as reader:
        for obj in reader:
            # Se rescata solo los campos que se analizaran
            filter_obj = {
                'date': obj.get('date'),
                'username': obj.get('user', {}).get('username')
            }
            data.append(filter_obj)
```

De la estructura de cada objeto json se obtiene la fecha y el username de qui√©n realiz√≥ el tweet.

Luego se procesa con polars, primero para obtener las fechas con m√°s tweets:

```Python
    top_fechas =( df
                    .group_by('date')
                    .len()
                    .sort('len',descending=True)
                    .head(10)['date']
                )
```

Luego se filtra el dataframe inicial por estas fechas:

```Python
result = (  df_filtrado.group_by(['date', 'username'])
            .len() # Se cuenta para cada usuario por fecha 
            .sort(by=['date', 'len'], descending=[False, True]) # Se ordena por fecha desendente false y largo true
            .group_by('date') # se agrupa por fechas
            .agg(
                    # Se agrega y se rescata le primer usuario por fecha
                    pl.col('username').first()
                )
     )
```

In [27]:
from q1_time import q1_time
result = q1_time(file_path)
print(result)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


#### Optimizaci√≥n de memoria

Para responder a este requerimiento se opt√≥ por la lectura secuencial del archivo, por cada linea nueva que se procesa se rescatan las estad√≠sticas necesarias para el c√°lculo final.

```Python
with jsonlines.open(file_path) as reader:
    for obj in reader:
        # Se obtiene la fecha de cada uno de los registros
        fecha_str = obj.get('date')[:10]
        # Se castea de string a datetime.date
        fecha = datetime.strptime(fecha_str, '%Y-%m-%d').date()
        # Se actualiza el contador de fechas
        fecha_counter[fecha] += 1
        # Se actualiza el contador de usuarios por fechas
        fecha_usuario_counter[fecha][obj.get('user', {}).get('username')] += 1
```

Se utiliza un  `fecha_usuario_counter = defaultdict(Counter)` para almacenar los totales por cada fecha y usuario.

Luego se itera por cada una de las fechas.

```Python
for fecha in top_fechas:
    usuarios = fecha_usuario_counter[fecha[0]]
    usuario_mas_repetido = usuarios.most_common(1)[0][0]
    result.append((fecha[0], usuario_mas_repetido))
```

In [28]:
from q1_memory import q1_memory
result = q1_memory(file_path)
print(result)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


### Comparaci√≥n de tiempo y uso de memoria para cada una de las funciones
#### Tiempo

In [32]:
import cProfile
import pstats
from io import StringIO
from q1_time import q1_time
from q1_memory import q1_memory

output_stream = StringIO()
profiler = cProfile.Profile()
profiler.enable()
q1_time(file_path)
profiler.disable()

stats = pstats.Stats(profiler)
stats.stream = output_stream
stats.strip_dirs()
stats.sort_stats('time')
stats.print_stats()

# Obtener el tottime final
tiempo_total_q1_time = stats.total_tt
tiempo_total_q1_time

output_stream = StringIO()
profiler = cProfile.Profile()
profiler.enable()
q1_memory(file_path)
profiler.disable()

stats = pstats.Stats(profiler)
stats.stream = output_stream
stats.strip_dirs()
stats.sort_stats('time')
stats.print_stats()
# Obtener el tottime final
tiempo_total_q1_memory = stats.total_tt
tiempo_total_q1_memory


3.2195897509999996

In [46]:
print(f'La funci√≥n que prioriza el tiempo tiene un consumo de: {tiempo_total_q1_time:.4f} segundos, \nmientras que la funci√≥n que prioriza el uso de memoria tiene un consumo de: {tiempo_total_q1_memory:.4f} segundos.')
diferencia_porcentual = (abs(tiempo_total_q1_time - tiempo_total_q1_memory)/((tiempo_total_q1_time + tiempo_total_q1_memory)/2)) * 100
print(f'Lo que representa una mejora de {diferencia_porcentual:.4f}%.')

La funci√≥n que prioriza el tiempo tiene un consumo de: 2.4169 segundos, 
mientras que la funci√≥n que prioriza el uso de memoria tiene un consumo de: 3.2196 segundos.
Lo que representa una mejora de 28.4803%.


#### Memoria

In [34]:
%reload_ext memory_profiler
%mprun -f q1_memory q1_memory(file_path)




Filename: /Users/hvera/Dev/DE_LATAM_challenge/LATAM-Data-Engineer-Challenge/src/q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     6    420.4 MiB    420.4 MiB           1   def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
     7                                             """
     8                                             Funcion que lee un archivo JSONL y encuentra las 10 fechas con mayor cantidad de tweets, para cada una de estas fechas entrega el usuario con mayor cantidad de tweets.
     9                                             
    10                                             Args:
    11                                                 file_path (str): Ruta del archivo JSONL que contiene los tweets para analizar.
    12                                             
    13                                             Returns:
    14                                                 List[Tuple[datetime.date, str]]: Lista de tupla

Total de memoria utilizada  344.0 MiB

In [10]:
%reload_ext memory_profiler
%mprun -f q1_time q1_time(file_path)




Filename: /Users/hvera/Dev/DE_LATAM_challenge/LATAM-Data-Engineer-Challenge/src/q1_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     6    344.0 MiB    344.0 MiB           1   def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
     7                                             """
     8                                             Funcion que lee un archivo JSONL y encuentra las 10 fechas con mayor cantidad de tweets, para cada una de estas fechas entrega el usuario con mayor cantidad de tweets, se prioriza el tiempo de ejecucion.
     9                                             Para esto se carga toda la informacion en memoria antes de procesarla.
    10                                             Args:
    11                                                 file_path (str): Ruta del archivo JSONL que contiene los tweets para analizar.
    12                                             
    13                                             Returns:


Total de memoria utilizada  343.1 MiB

### Ejercicio 2
Los top 10 emojis m√°s usados con su respectivo conteo.

#### Optimizaci√≥n de tiempo

Para responder a este requerimiento se opt√≥ por utilizar la librer√≠a *pandas* de python, a diferencia del resto de implementaciones se carg√≥ todo el archivo en memoria para luego procesarlo.

`df = pd.read_json(file_path, lines=True)`

Luego utilizando la librer√≠a *emot* se utiliza su implementaci√≥n para la lectura con multiprocesador en la siguiente l√≠nea:

`emojis = emot_obj.bulk_emoji(data)`

Para luego continuar con el procesamiento y terminar contando con *Counter*.

Como mejoras a este ejercicio se propone identificar emojis con cambio de tono de piel como un solo emoji, por ejemplo: üëçüèΩ y üëç, sean tratados como un solo emoji y no dos como est√° en la implementaci√≥n actual.


In [35]:
from q2_time import q2_time
result = q2_time(file_path)
print(result)

[('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('‚ù§', 1779), ('ü§£', 1668), ('‚úä', 1651), ('üôèüèª', 1317), ('üíö', 1040)]


#### Optimizaci√≥n de memoria

Para responder a este requerimiento se opt√≥ por la lectura secuencial del archivo utilizando la librer√≠a *jsonlines*.

`with jsonlines.open(file_path) as reader`

Por cada una de las lineas procesadas se utiliza el m√©todo *emoji* que retorna un diccionario con los emojis y su ubicaci√≥n en el texto.

`emojis = emot_obj.emoji(content)`

Ejemplo de salida:

` {'value': ['‚òÆ', 'üôÇ', '‚ù§'], 'location': [[14, 15], [16, 17], [18, 19]], 'mean': [':peace_symbol:',':slightly_smiling_face:', ':red_heart:'], 'flag': True}` 

De este resultado se utilza 'value' el que se agrega al contador:

`emojis = [item for item in emojis['value']]`

`contador.update(emojis)`

In [36]:
from q2_memory import q2_memory
result = q2_memory(file_path)
print(result)

[('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('‚ù§', 1779), ('ü§£', 1668), ('‚úä', 1651), ('üôèüèª', 1317), ('üíö', 1040)]


### Comparaci√≥n de tiempo y uso de memoria para cada una de las funciones
#### Tiempo

In [13]:
import cProfile
import pstats
from io import StringIO
from q2_time import q2_time
from q2_memory import q2_memory

output_stream = StringIO()
profiler = cProfile.Profile()
profiler.enable()
q2_time(file_path)
profiler.disable()

stats = pstats.Stats(profiler)
stats.stream = output_stream
stats.strip_dirs()
stats.sort_stats('time')
stats.print_stats()

# Obtener el tottime final
tiempo_total_q2_time = stats.total_tt

output_stream = StringIO()
profiler = cProfile.Profile()
profiler.enable()
q2_memory(file_path)
profiler.disable()

stats = pstats.Stats(profiler)
stats.stream = output_stream
stats.strip_dirs()
stats.sort_stats('time')
stats.print_stats()
# Obtener el tottime final
tiempo_total_q2_memory = stats.total_tt



In [45]:
print(f'La funci√≥n que prioriza el tiempo tiene un consumo de: {tiempo_total_q2_time:.4f} segundos, \nmientras que la funci√≥n que prioriza el uso de memoria tiene un consumo de: {tiempo_total_q2_memory:.4f} segundos.')
diferencia_porcentual = (abs(tiempo_total_q2_time - tiempo_total_q2_memory)/((tiempo_total_q2_time + tiempo_total_q2_memory)/2)) * 100
print(f'Lo que representa una mejora de {diferencia_porcentual:.4f}%.')

La funci√≥n que prioriza el tiempo tiene un consumo de: 8.6830 segundos, 
mientras que la funci√≥n que prioriza el uso de memoria tiene un consumo de: 19.5670 segundos.
Lo que representa una mejora de 77.0546%.


#### Memoria

In [15]:
%reload_ext memory_profiler
%mprun -f q2_memory q2_memory(file_path)




Filename: /Users/hvera/Dev/DE_LATAM_challenge/LATAM-Data-Engineer-Challenge/src/q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     6    557.0 MiB    557.0 MiB           1   def q2_memory(file_path: str) -> List[Tuple[str, int]]:
     7                                             """
     8                                             Funcion que lee un archivo JSONL y encuentra los 10 emojis mas usados, priorizando el uso de memoria.
     9                                             
    10                                             Args:
    11                                                 file_path (str): Ruta del archivo JSONL que contiene los tweets para analizar.
    12                                             
    13                                             Returns:
    14                                                 List[Tuple[str, int]]: Lista de tuplas, donde el primer elemento corresponde al emoji y el segundo a la cantidad de veces q

Total de memoria utilizada  557.1 MiB.

In [16]:
%reload_ext memory_profiler
%mprun -f q2_time q2_time(file_path)




Filename: /Users/hvera/Dev/DE_LATAM_challenge/LATAM-Data-Engineer-Challenge/src/q2_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     8    557.0 MiB    557.0 MiB           1   def q2_time(file_path: str) -> List[Tuple[str, int]]:
     9                                             """
    10                                             Funcion que lee un archivo JSONL y encuentra los 10 emojis mas usados, priorizando el uso de memoria.
    11                                         
    12                                             Args:
    13                                                 file_path (str): Ruta del archivo JSONL que contiene los tweets para analizar.
    14                                         
    15                                             Returns:
    16                                                 List[Tuple[str, int]]: Lista de tuplas, donde el primer elemento corresponde al emoji y el segundo a la cantidad de veces que se utiliz

Total de memoria utilizada  1944.8 MiB. 

### Ejercicio 3
El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos.

#### Optimizaci√≥n de tiempo

Para responder a este requerimiento se probaron varias formas: para la primera prueba se utiliz√≥ la misma aproximaci√≥n aplicada al ejercicio 1, con la combinaci√≥n de *polars* y *jsonlines*. Al momento de comparar esta soluci√≥n con aquella que optimiza memoria, no siempre se obtuvieron mejores resultados en cuanto a tiempo.

La segund aproximaci√≥n para este ejercici√≥ se realiz√≥ con el uso de *pandas* y cargar el archivo completo en memoria para procesar la columna que tiene los usuarios mencionados. Esta soluci√≥n entreg√≥ peores tiempos en comparaci√≥n con la primera propuesta de soluci√≥n, por lo que se descart√≥.

La opci√≥n por la que finalmente se opt√≥ fue una mezcla entre la soluci√≥n implementada para la optimizaci√≥n de memoria, con la diferencia que en esta se cargan todos los usuarios mencionados y luego se actualiza un contador.

```Python
with jsonlines.open(file_path) as reader:
        for obj in reader:
            # Se rescata solo el campo mentionedUsers
            mentioned_users = obj.get('mentionedUsers', {})
            # Si se tienen mensiones en el tweet
            if mentioned_users:
                # Se extraen todos los usuarios mensionados
                data.extend([item['username'] for item in mentioned_users])
    # Se actualiza el contador
    contador.update(data)
```


In [37]:
from q3_time import q3_time
result = q3_time(file_path)
print(result)

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


#### Optimizaci√≥n de memoria

Para responder a este requerimiento se opt√≥ por la lectura secuencial del archivo, al igual que en la implementaci√≥n del ejercicio 1 por cada l√≠nea nueva que se procesa se rescatan las l√≠nea necesarias para el c√°lculo final.


In [38]:
from q3_memory import q3_memory
result = q3_memory(file_path)
print(result)

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


### Comparaci√≥n de tiempo y uso de memoria para cada una de las funciones
#### Tiempo

In [19]:
import cProfile
import pstats
from io import StringIO
from q3_time import q3_time
from q3_memory import q3_memory

output_stream = StringIO()
profiler = cProfile.Profile()
profiler.enable()
q3_time(file_path)
profiler.disable()

stats = pstats.Stats(profiler)
stats.stream = output_stream
stats.strip_dirs()
stats.sort_stats('time')
stats.print_stats()

# Obtener el tottime final
tiempo_total_q3_time = stats.total_tt

output_stream = StringIO()
profiler = cProfile.Profile()
profiler.enable()
q3_memory(file_path)
profiler.disable()

stats = pstats.Stats(profiler)
stats.stream = output_stream
stats.strip_dirs()
stats.sort_stats('time')
stats.print_stats()
# Obtener el tottime final
tiempo_total_q3_memory = stats.total_tt



In [44]:
print(f'La funci√≥n que prioriza el tiempo tiene un consumo de: {tiempo_total_q3_time:.4f} segundos, \nmientras que la funci√≥n que prioriza el uso de memoria tiene un consumo de: {tiempo_total_q3_memory:.4f} segundos.')
diferencia_porcentual = (abs(tiempo_total_q3_time - tiempo_total_q3_memory)/((tiempo_total_q3_time + tiempo_total_q3_memory)/2)) * 100
print(f'Lo que representra una mejora de {diferencia_porcentual:.4f}%.')

La funci√≥n que prioriza el tiempo tiene un consumo de: 2.3206 segundos, 
mientras que la funci√≥n que prioriza el uso de memoria tiene un consumo de: 2.3770 segundos.
Lo que representra una mejora de 2.4005%.


#### Memoria

In [21]:
%reload_ext memory_profiler
%mprun -f q3_memory q3_memory(file_path)




Filename: /Users/hvera/Dev/DE_LATAM_challenge/LATAM-Data-Engineer-Challenge/src/q3_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     5    540.0 MiB    540.0 MiB           1   def q3_memory(file_path: str) -> List[Tuple[str, int]]:
     6                                             """
     7                                             Funcion que lee un archivo JSONL y encuentra los 10 usuarios con mayor numero de menciones.
     8                                             
     9                                             Args:
    10                                                 file_path (str): Ruta del archivo JSONL que contiene los tweets para analizar.
    11                                             
    12                                             Returns:
    13                                                 List[Tuple[str, int]]: Lista de tuplas, donde el primer elemento corresponde al nombre de usuario y el segundo a la cantidad de menci

Total de memoria utilizada  540.0 MiB.

In [22]:
%reload_ext memory_profiler
%mprun -f q3_time q3_time(file_path)




Filename: /Users/hvera/Dev/DE_LATAM_challenge/LATAM-Data-Engineer-Challenge/src/q3_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     5    540.0 MiB    540.0 MiB           1   def q3_time(file_path: str) -> List[Tuple[str, int]]:
     6                                             """
     7                                             Funcion que lee un archivo JSONL y encuentra los 10 usuarios con mayor numero de menciones, prioriza el tiempo de ejecucion.
     8                                             
     9                                             Args:
    10                                                 file_path (str): Ruta del archivo JSONL que contiene los tweets para analizar.
    11                                             
    12                                             Returns:
    13                                                 List[Tuple[str, int]]: Lista de tuplas, donde el primer elemento corresponde al nombre de usuario y el s

Total de memoria utilizada  540.0 MiB.

En pruebas realizadas fuera del contexto del notebook los resultados generales para cada una de las funciones implementadas son los siguientes:
1. Ejercicio 1

| M√©trica   | q1_time       | q1_memory      | Diff %   |
|-----------|---------------|--------------- |----------|
| Time      | 2.401 seconds | 3.150 seconds  | 26.986       |
| Memory    | 100.0 MiB     | 26.4 MiB      | 116.456       |


2. Ejercicio 2

| M√©trica   | q2_time       | q2_memory      | Diff %|
|-----------|---------------|----------------|---------|
| Time      | 9.249 seconds | 19.624 seconds | 71.866      |
| Memory    | 1660.4 MiB    | 26.2 MiB       | 193.786      |


3. Ejercicio 3

| M√©trica   | q3_time       | q3_memory      | Diff %   |
|-----------|---------------|--------------- |----------|
| Time      | 2.257 seconds | 2.621 seconds  | 14.924       |
| Memory    | 29.0 MiB      | 22.1 MiB       | 27.006      |
