# Data Engineer Latam Challenge


### Catalina Aliste Gonzalez

Bienvenido/a a la resolucion del desafio Data Engineer Latam Challenge. El presente documento tiene como objetivo presentar el desarrollo de las funciones solicitadas y mostrar su funcionamiento. Tambien, se incluye el analisis del tiempo de ejecucion y memoria en uso de cada version de las funciones. Adicionalmente, se incorporan los supuestos elegidos y las instrucciones correspondientes para mejor entendimiento del lector.

1. Configuraciones iniciales

- Instalar los requisitos especificados en el archivo requirements.txt, para poder utilizar las bibliotecas asociadas.

In [6]:
%pip install -r ../requirements.txt

1604.98s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


Collecting memory-profiler==0.61.0
  Using cached memory_profiler-0.61.0-py3-none-any.whl (31 kB)
Collecting emoji==2.10.1
  Using cached emoji-2.10.1-py2.py3-none-any.whl (421 kB)
Installing collected packages: memory-profiler, emoji
Successfully installed emoji-2.10.1 memory-profiler-0.61.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.2.2[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


- Definir una variable que contenga el path del archivo a evaluar.

In [11]:
file_path = "../farmers-protest-tweets-2021-2-4.json"

2. Supuestos y consideraciones

- Los nombres de usuarios se obtuvieron desde el atributo 'username' contenido en el 'user' de cada tweet.
- Se asume que la libreria "emoji" cuenta con todos los emojis actuales.
- Para encontar los top 10 emojis más usados se utilizo el contenido ('content') del tweet. NO se consideraron emojis en "quotedTweet".
- La cantidad de menciones (tags) se obtuvieron desde el contenido ('content') del tweet. NO se consideraron los tags en "quotedTweet".
- Las menciones (tags) siguen el formato "@...", es decir, un arroba y luego texto seguido, hasta encontrar el primer espacio.


3. Desarrollo de funciones

En esta seccion, por cada funcion, se presentara primero la funcion desarrollada, luego el resultado de la funcion al procesar el archivo "farmers-protest-tweets-2021-2-4.json" y luego la explicacion mas detallada de la logica utilizada. Posteriormente, se exponen las diferencias sustanciales entre las funciones que realizan lo mismo pero con enfoques diferentes (por ejemplo, q1_time y q1_memory).

1. **q1_time**: Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.

- Desarrollo de q1_time (q1_time.py)

In [30]:
from typing import List, Tuple
from datetime import datetime
import create_json_array
from collections import defaultdict

def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:

    # Obtener la lista de tweets del archivo
    tweet_list = create_json_array.create_json_array(file_path)

    # Inicializar diccionario para almacenar los recuentos de tweets por fecha y usuario
    tweet_counts = defaultdict(lambda: defaultdict(int))

    # Iterar los tweets y contar los tweets por fecha y usuario
    for tweet in tweet_list:
        # Obtener la fecha del tweet y el nombre de usuario
        date_element = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S+00:00').date()
        username_element = tweet['user']['username']

        # Actualizar el recuento de tweets para esta fecha y usuario
        tweet_counts[date_element][username_element] += 1

    # Obtener las top 10 fechas con más tweets
    sorted_dates = sorted(tweet_counts.items(), key=lambda x: sum(x[1].values()), reverse=True)[:10]

    # Obtener el usuario con más publicaciones para cada una de las top 10 fechas, iterando sobre las fechas
    top_10_result_list = []
    for date, user_counts in sorted_dates:
        top_user = max(user_counts, key=user_counts.get)
        top_10_result_list.append((date, top_user))

    return top_10_result_list

- Resultado de q1_time(file_path)

In [31]:
q1_time(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

- Explicacion detallada de la logica

1. Obtención de la lista de tweets del archivo: Utiliza una función llamada create_json_array, proveniente del archivo create_json_array, para obtener la lista de tweets. Cabe mencionar que se separo esta funcion para poder utilizarla en otras funciones tambien y no repetir codigo constantemente.

2. Inicialización del diccionario tweet_counts: Se inicializa un diccionario anidado utilizando defaultdict de Python. Este diccionario se utilizará para almacenar los recuentos de tweets por fecha y usuario. La estructura es: {fecha: {usuario: cantidad_de_tweets}}.

3. Iteración a través de los tweets: Itera sobre cada tweet en la lista obtenida. Para cada tweet, extrae la fecha y el nombre de usuario.

4. Actualización del recuento de tweets: Incrementa el recuento de tweets para la fecha y el usuario correspondientes en el diccionario tweet_counts.

5. Obtención de las 10 fechas principales: Ordena el diccionario tweet_counts según la suma de los valores (es decir, la cantidad total de tweets para cada fecha) en orden descendente y selecciona las primeras 10 fechas.

6. Obtención del usuario con más publicaciones para cada fecha seleccionada: Itera sobre las 10 fechas seleccionadas y para cada una encuentra el usuario con el mayor número de publicaciones.

7. Construcción de la lista de resultados: Construye una lista de tuplas donde cada tupla contiene una fecha y el usuario que más publicaciones realizó en esa fecha.

2. **q1_memory**: Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.

In [33]:
from typing import List, Tuple
from datetime import datetime
from collections import defaultdict
import create_json_array

def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    # Obtener la lista de tweets del archivo
    tweet_list = create_json_array.create_json_array(file_path)

    # Inicializar un diccionario para almacenar los recuentos de tweets por fecha y usuario
    tweet_counts = defaultdict(lambda: defaultdict(int))

    # Inicializar un diccionario para almacenar el recuento de tweets por fecha
    date_counts = defaultdict(int)

    # Iterar los tweets y contar los tweets por fecha y usuario
    for tweet in tweet_list:
        # Obtener la fecha del tweet y el nombre de usuario
        date_element = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S+00:00').date()
        username_element = tweet['user']['username']

        # Actualizar los recuentos de tweets para esta fecha y usuario
        tweet_counts[date_element][username_element] += 1
        date_counts[date_element] += 1

    # Obtener las top 10 fechas con más tweets
    sorted_dates = sorted(date_counts.items(), key=lambda x: x[1], reverse=True)[:10]

    # Obtener el usuario con más publicaciones para cada una de las top 10 fechas
    top_10_result_list = []
    for date, _ in sorted_dates:
        top_user = max(tweet_counts[date], key=tweet_counts[date].get)
        top_10_result_list.append((date, top_user))

    return top_10_result_list

- Resultado de q1_memory(file_path)

In [34]:
q1_memory(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

- Explicacion detallada de la logica

1. Obtención de la lista de tweets del archivo: Utiliza una función llamada create_json_array, proveniente del archivo create_json_array, para obtener la lista de tweets

2. Inicialización de los diccionarios: Se inicializan dos diccionarios utilizando defaultdict: tweet_counts para almacenar los recuentos de tweets por fecha y usuario, y date_counts para almacenar el recuento total de tweets por fecha.

3. Iteración sobre los tweets y conteo de tweets: Se itera sobre cada tweet en la lista obtenida. Para cada tweet, se extrae la fecha y el nombre de usuario, y se actualizan los recuentos de tweets tanto en tweet_counts como en date_counts.

4. Obtención de las top 10 fechas con más tweets: Se ordenan las fechas en el diccionario date_counts según el número total de tweets por fecha.

5. Obtención del usuario con más publicaciones para cada fecha seleccionada: Para cada una de las top 10 fechas, se encuentra el usuario con el mayor número de publicaciones utilizando el diccionario tweet_counts, y se agrega una tupla de fecha y usuario a la lista top_10_result_list.

- Diferencia entre q1_time y q1_memory

En q1_time, se cuentan todos los tweets primero y luego se procesan los resultados, lo que significa que todos los recuentos de tweets deben mantenerse en memoria antes de poder seleccionar las top 10 fechas y usuarios.

En cambio, en q1_memory, tambien se cuentan todos los tweets primero, pero no se almacenan todos los recuentos de tweets en un diccionario completo antes de procesar los resultados. En lugar de eso, se calculan los recuentos de tweets directamente mientras se itera sobre los tweets, lo que puede reducir la cantidad de memoria necesaria para almacenar los recuentos en comparación con q1_time.

***

3. **q2_time**: Los top 10 emojis más usados con su respectivo conteo.

Oportunidades de mejora
- Flexibilidad en el formato de fecha: Actualmente, la función asume que el formato de fecha en los tweets es específico ('%Y-%m-%dT%H:%M:%S+00:00'). Podría hacerse más flexible permitiendo que el formato de fecha sea configurable o detectado automáticamente

- Manejo de casos de empate: Si hay varios usuarios con el mismo número máximo de publicaciones en una fecha dada, la función actual solo devuelve uno de ellos. Podría modificarse para manejar casos de empate devolviendo todos los usuarios con el máximo número de publicaciones.

- Manejo de archivos grandes: Si el archivo de tweets es extremadamente grande, podría ser útil agregar algún tipo de mecanismo de lectura y procesamiento por lotes para evitar cargar todos los tweets en la memoria al mismo tiempo