# Data Engineer Latam Challenge


### Catalina Aliste Gonzalez

Bienvenido/a a la resolucion del desafio Data Engineer Latam Challenge. El presente documento tiene como objetivo presentar el desarrollo de las funciones solicitadas y mostrar su funcionamiento. Tambien, se incluye el analisis del tiempo de ejecucion y memoria en uso de cada version de las funciones. Adicionalmente, se incorporan los supuestos elegidos y las instrucciones correspondientes para mejor entendimiento del lector.

I. Configuraciones iniciales

- Instalar los requisitos especificados en el archivo requirements.txt, para poder utilizar las bibliotecas asociadas.

In [None]:
%pip install -r ../requirements.txt

- Definir una variable que contenga el path del archivo a evaluar. <br>
** Se debe agregar este archivo a la carpeta src. De esta manera, se podra definir la variable correctamente **

In [11]:
file_path = "farmers-protest-tweets-2021-2-4.json"

II. Supuestos y consideraciones

- Los nombres de usuarios se obtuvieron desde el atributo 'username' contenido en el 'user' de cada tweet.

- Se asume que la libreria "emoji" cuenta con todos los emojis actuales.

- Para encontar los top 10 emojis más usados se utilizo el contenido ('content') del tweet. NO se consideraron emojis en "quotedTweet".

- La cantidad de menciones (tags) se obtuvieron desde el contenido ('content') del tweet. NO se consideraron los tags en "quotedTweet", ni tampoco se accedieron a las menciones directamente ("mentionedUser") para poder evaluar directamente el contenido del tweet.

- Las menciones (tags) siguen el formato "@...", es decir, un arroba y luego texto seguido, hasta encontrar el primer espacio.


III. Desarrollo de funciones

En esta seccion, por cada funcion, se presentara primero la funcion desarrollada, luego el resultado de la funcion al procesar el archivo "farmers-protest-tweets-2021-2-4.json" y luego la explicacion mas detallada de la logica utilizada. Posteriormente, se exponen las diferencias sustanciales entre las funciones que realizan lo mismo pero con enfoques diferentes (por ejemplo, q1_time y q1_memory).

1. **q1_time**: Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.

- Desarrollo de q1_time (q1_time.py)

In [30]:
from typing import List, Tuple
from datetime import datetime
import create_json_array
from collections import defaultdict

def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:

    # Obtener la lista de tweets del archivo
    tweet_list = create_json_array.create_json_array(file_path)

    # Inicializar diccionario para almacenar los recuentos de tweets por fecha y usuario
    tweet_counts = defaultdict(lambda: defaultdict(int))

    # Iterar los tweets y contar los tweets por fecha y usuario
    for tweet in tweet_list:
        # Obtener la fecha del tweet y el nombre de usuario
        date_element = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S+00:00').date()
        username_element = tweet['user']['username']

        # Actualizar el recuento de tweets para esta fecha y usuario
        tweet_counts[date_element][username_element] += 1

    # Obtener las top 10 fechas con más tweets
    sorted_dates = sorted(tweet_counts.items(), key=lambda x: sum(x[1].values()), reverse=True)[:10]

    # Obtener el usuario con más publicaciones para cada una de las top 10 fechas, iterando sobre las fechas
    top_10_result_list = []
    for date, user_counts in sorted_dates:
        top_user = max(user_counts, key=user_counts.get)
        top_10_result_list.append((date, top_user))

    return top_10_result_list

- Resultado de q1_time(file_path)

In [31]:
q1_time(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

- Explicacion detallada de la logica

1. Obtención de la lista de tweets del archivo: Utiliza una función llamada create_json_array, proveniente del archivo create_json_array, para obtener la lista de tweets. Cabe mencionar que se separo esta funcion para poder utilizarla en otras funciones tambien y no repetir codigo constantemente.

2. Inicialización del diccionario tweet_counts: Se inicializa un diccionario anidado utilizando defaultdict de Python. Este diccionario se utilizará para almacenar los recuentos de tweets por fecha y usuario. La estructura es: {fecha: {usuario: cantidad_de_tweets}}.

3. Iteración a través de los tweets: Itera sobre cada tweet en la lista obtenida. Para cada tweet, extrae la fecha y el nombre de usuario.

4. Actualización del recuento de tweets: Incrementa el recuento de tweets para la fecha y el usuario correspondientes en el diccionario tweet_counts.

5. Obtención de las 10 fechas principales: Ordena el diccionario tweet_counts según la suma de los valores (es decir, la cantidad total de tweets para cada fecha) en orden descendente y selecciona las primeras 10 fechas.

6. Obtención del usuario con más publicaciones para cada fecha seleccionada: Itera sobre las 10 fechas seleccionadas y para cada una encuentra el usuario con el mayor número de publicaciones.

7. Construcción de la lista de resultados: Construye una lista de tuplas donde cada tupla contiene una fecha y el usuario que más publicaciones realizó en esa fecha.

2. **q1_memory**: Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.

In [33]:
from typing import List, Tuple
from datetime import datetime
from collections import defaultdict
import create_json_array

def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    # Obtener la lista de tweets del archivo
    tweet_list = create_json_array.create_json_array(file_path)

    # Inicializar un diccionario para almacenar los recuentos de tweets por fecha y usuario
    tweet_counts = defaultdict(lambda: defaultdict(int))

    # Inicializar un diccionario para almacenar el recuento de tweets por fecha
    date_counts = defaultdict(int)

    # Iterar los tweets y contar los tweets por fecha y usuario
    for tweet in tweet_list:
        # Obtener la fecha del tweet y el nombre de usuario
        date_element = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S+00:00').date()
        username_element = tweet['user']['username']

        # Actualizar los recuentos de tweets para esta fecha y usuario
        tweet_counts[date_element][username_element] += 1
        date_counts[date_element] += 1

    # Obtener las top 10 fechas con más tweets
    sorted_dates = sorted(date_counts.items(), key=lambda x: x[1], reverse=True)[:10]

    # Obtener el usuario con más publicaciones para cada una de las top 10 fechas
    top_10_result_list = []
    for date, _ in sorted_dates:
        top_user = max(tweet_counts[date], key=tweet_counts[date].get)
        top_10_result_list.append((date, top_user))

    return top_10_result_list

- Resultado de q1_memory(file_path)

In [34]:
q1_memory(file_path)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

- Explicacion detallada de la logica

1. Obtención de la lista de tweets del archivo: Utiliza una función llamada create_json_array, proveniente del archivo create_json_array, para obtener la lista de tweets

2. Inicialización de los diccionarios: Se inicializan dos diccionarios utilizando defaultdict: tweet_counts para almacenar los recuentos de tweets por fecha y usuario, y date_counts para almacenar el recuento total de tweets por fecha.

3. Iteración sobre los tweets y conteo de tweets: Se itera sobre cada tweet en la lista obtenida. Para cada tweet, se extrae la fecha y el nombre de usuario, y se actualizan los recuentos de tweets tanto en tweet_counts como en date_counts.

4. Obtención de las top 10 fechas con más tweets: Se ordenan las fechas en el diccionario date_counts según el número total de tweets por fecha.

5. Obtención del usuario con más publicaciones para cada fecha seleccionada: Para cada una de las top 10 fechas, se encuentra el usuario con el mayor número de publicaciones utilizando el diccionario tweet_counts, y se agrega una tupla de fecha y usuario a la lista top_10_result_list.

- Diferencia entre q1_time y q1_memory

En q1_time, se cuentan todos los tweets primero y luego se procesan los resultados, lo que significa que todos los recuentos de tweets deben mantenerse en memoria antes de poder seleccionar las top 10 fechas y usuarios.

En cambio, en q1_memory, tambien se cuentan todos los tweets primero, pero no se almacenan todos los recuentos de tweets en un diccionario completo antes de procesar los resultados. En lugar de eso, se calculan los recuentos de tweets directamente mientras se itera sobre los tweets, lo que puede reducir la cantidad de memoria necesaria para almacenar los recuentos en comparación con q1_time.

***

3. **q2_time**: Los top 10 emojis más usados con su respectivo conteo.

- Desarrollo de q2_time (q2_time.py)

In [35]:
from typing import List, Tuple
import json
from collections import Counter
import emoji

def q2_time(file_path: str) -> List[Tuple[str, int]]:
    # Inicializar contador para contar emojis
    emoji_counter = Counter()

    # Abrir archivo e iterar sobre cada linea
    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            try:
                # Decodificar el JSON a un objeto Python
                tweet = json.loads(line)
                # Verificar si hay un campo 'content' en el tweet y almacenar
                if 'content' in tweet:
                    content = tweet['content']
                    # Iterar sobre cada caracter del contenido del tweet y verificar si es emoji
                    for char in content:
                        if emoji.is_emoji(char):
                            emoji_counter[char] += 1
            except json.JSONDecodeError:
                print("Error al decodificar la línea:", line)

    # Obtener los top 10 emojis y sus recuentos
    top_10_emojis = emoji_counter.most_common(10)
    
    return top_10_emojis

- Resultado de q2_time(file_path)

In [36]:
q2_time(file_path)

[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🏻', 2080),
 ('❤', 1779),
 ('🤣', 1668),
 ('🏽', 1218),
 ('👇', 1108)]

- Explicacion detallada de la logica

1. Inicializacion del contador de emojis: Se crea un contador (emoji_counter) utilizando la clase Counter. Este contador se utilizará para contar la frecuencia de cada emoji encontrado en los tweets.

2. Lectura del archivo y procesamiento de cada linea: El archivo especificado por file_path se abre en modo de lectura ('r') y se itera sobre cada línea del archivo.

3. Decodificación del JSON y conteo de emojis: Para cada linea del archivo, se intenta decodificar el JSON a un objeto Python utilizando json.loads(). Si la decodificación es exitosa y el tweet contiene un campo 'content', se obtiene el contenido del tweet y se itera sobre cada caracter para verificar si es un emoji utilizando la función emoji.is_emoji(). Si se encuentra un emoji, se incrementa el contador correspondiente en emoji_counter.

4. Manejo de errores: Se manejan los errores de decodificacion JSON utilizando un bloque try-except, mostrando un mensaje de error en caso de que ocurra un error al decodificar una línea específica.

5. Obtencion de los top 10 emojis y sus recuentos: se utiliza el método most_common(10) del contador emoji_counter para obtener los 10 emojis mas comunes.

4. **q2_memory**: Los top 10 emojis más usados con su respectivo conteo.

- Desarrollo de q2_memory (q2_memory.py)

In [37]:
from typing import List, Tuple
import emoji
import heapq
import json


def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    # Inicializar contador para contar emojis
    emoji_counts = {}

    # Abrir archivo e iterar sobre cada linea
    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            try:
                # Decodificar el JSON a un objeto Python
                tweet = json.loads(line)
                # Verificar si hay un campo 'content' en el tweet
                if 'content' in tweet:
                    content = tweet['content']
                    # Iterar sobre cada caracter del contenido del tweet y verificar si es emoji
                    for char in content:
                        if emoji.is_emoji(char):
                            # Incrementar el recuento del emoji en el diccionario
                            emoji_counts[char] = emoji_counts.get(char, 0) + 1
            except json.JSONDecodeError:
                print("Error al decodificar la línea:", line)

    # Mantener solo los 10 emojis mas comunes utilizando un heap
    top_10_emojis = []
    for emoji_char, count in emoji_counts.items():
        # Si el heap aun no tiene 10 elementos, simplemente agregamos el emoji
        if len(top_10_emojis) < 10:
            heapq.heappush(top_10_emojis, (count, emoji_char))

        # Alternativamente, comparamos la cantidad del emoji actual con la del minimo en el heap
        else:
            # Usar la cuenta, descartar el emoji mientras
            min_count, _ = top_10_emojis[0]

            # Si la cantidad es mayor, eliminamos el emoji min y agregamos el emoji actual
            if count > int(min_count):
                heapq.heappop(top_10_emojis)
                heapq.heappush(top_10_emojis, (count, emoji_char))

    top_10_emojis.sort(reverse=True)

    # Revertir el orden (cantidad, emoji) a (emoji, cantidad)
    top_10_emojis = [(emoji_char, count) for count, emoji_char in top_10_emojis]


    return top_10_emojis

- Resultado de q2_memory(file_path)

In [38]:
q2_memory(file_path)

[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🏻', 2080),
 ('❤', 1779),
 ('🤣', 1668),
 ('🏽', 1218),
 ('👇', 1108)]

- Explicacion detallada de la logica

1. Inicializacion del diccionario de recuentos de emojis: Se crea un diccionario (emoji_counts) para almacenar los recuentos de emojis encontrados en los tweets.

2. Lectura del archivo y procesamiento de cada línea: Se abre el archivo especificado por file_path en modo de lectura y se itera sobre cada línea del archivo.

3. Decodificacion del JSON y conteo de emojis: Para cada línea del archivo, se intenta decodificar el JSON a un objeto Python. Si la decodificación es exitosa y el tweet contiene un campo 'content', se obtiene el contenido del tweet y se itera sobre cada caracter para verificar si es un emoji. Si se encuentra un emoji, se incrementa el recuento correspondiente en el diccionario emoji_counts.

4. Mantencion de los 10 emojis mas comunes utilizando un heap: Se utiliza una estructura de heap para mantener los 10 emojis mas comunes encontrados hasta el momento. Se mantienen los 10 emojis con los recuentos mas altos en el heap.

5. Ordenamiento: Después de completar el proceso de conteo, los emojis y sus recuentos se ordenan en orden descendente según la cantidad de ocurrencias. Finalmente, se invierte el orden de cada tupla de (cantidad, emoji) a (emoji, cantidad.

- Diferencia entre q1_time y q1_memory

Las funciones estan hechas con diferentes estructuras de datos. q2_time utiliza un objeto Counter para contar los emojis encontrados en los tweets. Este objeto facilita el conteo de elementos en una colección, mientras que q2_memory utiliza un diccionario estandar (emoji_counts) para almacenar los recuentos de emojis. Esto requiere manejar manualmente la logica de conteo y mantenimiento de los recuentos.

En q2_time se utiliza una estructura de datos mas conveniente pero potencialmente mas costosa en memoria (Counter), mientras que q2_memory optimiza el uso de memoria utilizando un enfoque mas manual basado en diccionario y un heap para mantener una lista de tamaño fijo.

***

5. **q3_time**: El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.

- Desarrollo de q3_time (q3_time.py)

In [44]:
from typing import List, Tuple
from collections import Counter
import create_json_array 
import re


def q3_time(file_path: str) -> List[Tuple[str, int]]:

    # Inicializar contador para contar tags
    user_counter = Counter()

    # RE para encontrar tags de usuarios
    re_tags = re.compile(r'@([^ ]+)')

    # Obtener los tweets del archivo y contar tags de usuarios
    tweet_list = create_json_array.create_json_array(file_path)
    for tweet in tweet_list:
        if 'content' in tweet:
            # Encontrar todos los tags en el contenido del tweet
            mentions = re_tags.findall(tweet['content'])
            # Aumentar el recuento de cada usuario
            user_counter.update(mentions)

    # Obtener los top 10 usuarios mencionados
    top_10_users = user_counter.most_common(10)
    
    return top_10_users

- Resultado de q3_time(file_path)

In [48]:
q3_time(file_path)

[('narendramodi', 2152),
 ('Kisanektamorcha', 1701),
 ('RakeshTikaitBKU', 1460),
 ('PMOIndia', 1335),
 ('RahulGandhi', 1058),
 ('RaviSinghKA', 984),
 ('GretaThunberg', 957),
 ('UNHumanRights', 900),
 ('rihanna', 880),
 ('meenaharris', 852)]

- Explicacion detallada de la logica

1. Inicializacion del contador de tags de usuarios: Se crea un objeto Counter llamado user_counter para contar las menciones de usuarios.

2. RE para encontrar tags de usuarios: Se crea una expresión regular (re_tags) que busca patrones de tags de usuarios en los tweets. En este caso, busca cualquier secuencia de caracteres que comience con @ seguido de uno o mas caracteres, hasta que encuentra un espacio.

3. Iteracion sobre los tweets y conteo de tags de usuarios: Se obtiene una lista de tweets del archivo utilizando la función auxiliar create_json_array. Luego, para cada tweet, se verifica si tiene un campo 'content'. Si lo tiene, se buscan todas las menciones de usuarios en el contenido del tweet, y se actualiza el contador user_counter con cada mencion encontrada.

4. Obtencion de los top 10 usuarios mencionados: Se utiliza el metodo most_common(10) de Counter para obtener los 10 usuarios mas mencionados, junto con la cantidad de veces que fueron mencionados.

6. **q3_memory**: El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.

- Desarrollo de q3_memory (q3_memory.py)

In [46]:
from typing import List, Tuple
from collections import Counter
import create_json_array 
import re

def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    # Inicializar listas vacias para almacenar tweets y contador de tags
    tweets_content = []
    user_counter = []
    flat_user_counter = []

    # Obtener los tweets del archivo y guardar contenido
    tweet_list = create_json_array.create_json_array(file_path)
    for tweet in tweet_list:
        tweets_content.append(tweet['content'])

    # RE para encontrar tags de usuarios
    re_tags = r'@[^ ]+'

    # Encontrar tags de usuarios en el contenido de los tweets y almacenarlos en user_counter
    for tweet in tweets_content:
        mentions = re.findall(re_tags, tweet)
        if mentions:
            user_counter.append([mention[1:] for mention in mentions])

    # Aplanar la lista de listas de tags de usuarios en una sola lista
    for sublist in user_counter:
        flat_user_counter.extend(sublist)

    # Contar la frecuencia de cada tag de usuario
    user_counter = Counter(flat_user_counter)

    # Obtener los top 10 usuarios mencionados
    top_10_users = user_counter.most_common(10)

    return top_10_users

- Resultado de q3_memory(file_path)

In [47]:
q3_memory(file_path)

[('narendramodi', 2152),
 ('Kisanektamorcha', 1701),
 ('RakeshTikaitBKU', 1460),
 ('PMOIndia', 1335),
 ('RahulGandhi', 1058),
 ('RaviSinghKA', 984),
 ('GretaThunberg', 957),
 ('UNHumanRights', 900),
 ('rihanna', 880),
 ('meenaharris', 852)]

- Explicacion detallada de la logica

1. Inicializacion de estructuras de datos: Se inicializan listas para almacenar el contenido de los tweets (tweets_content), los tags de usuarios encontrados en cada tweet (user_counter), y una lista plana que contendrá todas las menciones de usuarios (flat_user_counter).

2. Obtencion del contenido de los tweets: Se obtienen los tweets del archivo utilizando la función create_json_array y se guarda el contenido de cada tweet en la lista tweets_content.

3. Busqueda de menciones de usuarios: Se utiliza una RE (re_tags) para encontrar tags de usuarios en el contenido de los tweets. Se itera sobre el contenido de cada tweet para encontrar todas las menciones y se almacenan en user_counter.

4. Aplanamiento de la lista de menciones de usuarios: Se itera sobre la lista de listas user_counter para aplanarla en una sola lista (flat_user_counter), lo que facilita el conteo de las menciones de usuarios.

5. Conteo de la frecuencia de cada usuario mencionado: Se utiliza el objeto Counter para contar la frecuencia de cada usuario mencionado en la lista plana flat_user_counter.

6. Obtencion de los top 10 usuarios mencionados: Se utilizan el método most_common(10) del objeto Counter para obtener los 10 usuarios mas mencionados.

- Diferencia entre q3_time y q3_memory

En q3_time se simplifica el proceso de conteo utilizando estructuras de datos eficientes en el almacenamiento de los tweets, pero puede consumir mas memoria al cargarlos todos de una vez. En q3_memory, por otro lado, se utiliza un enfoque mas "manual" y es mas eficiente en cuanto a memoria al procesar los tweets de manera mas iterativa.

Por otra parte, en cuanto al uso de RE, q3_time utiliza una expresion regular (re.compile(r'@([^ ]+)')) para encontrar los tags de usuarios en el contenido de los tweets. Esto proporciona una forma más rápida y eficiente de buscar y extraer los tags de usuarios, mientras que q3_memory utiliza una expresion regular (re.findall(re_tags, tweet)) para encontrar los tags de usuarios en cada tweet. Esto implica una operacion de busqueda mas simple pero puede ser menos eficiente en cuanto a rendimiento en comparacion con el uso de una expresion regular compilada.


IV. Evaluacion de la memoria en uso y tiempo de ejecucion

A continuacion, se presenta la medicion de memoria en uso y tiempo de ejecucion de las funciones desarrolladas. Al finalizar las mediciones, se presentan conclusiones y analisis con respecto a los resultados.

1. Memoria en uso: Para evaluar la memoria en uso, se utilizo memory-profiler (https://pypi.org/project/memory-profiler/), el cual genera archivos por cada evaluacion. A continuacion, se presenta el codigo para la generacion de los archivos con las medidas y, al final, una tabla resumen de estas.

- q1_time vs q1_memory

In [104]:
import matplotlib

!mprof run q1_time.py
!mprof run q1_memory.py

17333.10s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


mprof: Sampling memory every 0.1s
running new process
running as a Python program...


17340.14s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


mprof: Sampling memory every 0.1s
running new process
running as a Python program...


***

- q2_time vs q2_memory

In [105]:
!mprof run q2_time.py
!mprof run q2_memory.py

17346.92s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


mprof: Sampling memory every 0.1s
running new process
running as a Python program...


17353.75s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


mprof: Sampling memory every 0.1s
running new process
running as a Python program...


***

- q3_time vs q3_memory

In [106]:
!mprof run q3_time.py
!mprof run q3_memory.py

17360.66s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


mprof: Sampling memory every 0.1s
running new process
running as a Python program...


17367.41s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


mprof: Sampling memory every 0.1s
running new process
running as a Python program...


* Tabla resumen de memoria en uso

| Problema  | Memoria en uso, enfoque time | Memoria en uso, enfoque memory |
| --------- | ---- | ---------- |
| q1      | 1.631 MB  | 1.631 MB    |
| q2    | 1.632 MB  | 1.632 MB |
| q3  | 1.633 MB  | 1.633 MB  |



<br>

2. Tiempo de ejecucion

Para medir el tiempo de ejecucion, se utilizaron Python Profilers (https://docs.python.org/3/library/profile.html). A continuacion, se presentan las estadisticas por funcion y, al final, una tabla resumen.

- q1_time 

In [86]:
import cProfile
profile = cProfile.Profile()
profile.enable()
q1_time(file_path)
profile.disable()
print("Estadisticas de tiempo de ejecucion q1_time")
profile.print_stats()


Estadisticas de tiempo de ejecucion q1_time
         4377165 function calls in 10.568 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 2386281714.py:1(<module>)
       13    0.000    0.000    0.000    0.000 3572717110.py:11(<lambda>)
       13    0.000    0.000    0.000    0.000 3572717110.py:27(<lambda>)
        1    0.247    0.247   10.568   10.568 3572717110.py:6(q1_time)
   117407    0.234    0.000    6.141    0.000 __init__.py:299(loads)
   117407    0.108    0.000    0.630    0.000 _strptime.py:26(_getlang)
   117407    1.650    0.000    2.637    0.000 _strptime.py:309(_strptime)
   117407    0.317    0.000    2.955    0.000 _strptime.py:565(_strptime_datetime)
        1    0.000    0.000    0.000    0.000 codecs.py:260(__init__)
        1    0.000    0.000    0.000    0.000 codecs.py:309(__init__)
    49772    0.071    0.000    0.136    0.000 codecs.py:319(decode)
        

- q1_memory

In [87]:
profile = cProfile.Profile()
profile.enable()
q1_memory(file_path)
profile.disable()
print("Estadisticas de tiempo de ejecucion q1_memory:")
profile.print_stats()

Estadisticas de tiempo de ejecucion q1_memory:
         4377165 function calls in 10.667 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 4243694485.py:1(<module>)
       13    0.000    0.000    0.000    0.000 545340298.py:11(<lambda>)
       13    0.000    0.000    0.000    0.000 545340298.py:27(<lambda>)
        1    0.239    0.239   10.667   10.667 545340298.py:6(q1_memory)
   117407    0.223    0.000    6.345    0.000 __init__.py:299(loads)
   117407    0.109    0.000    0.622    0.000 _strptime.py:26(_getlang)
   117407    1.643    0.000    2.620    0.000 _strptime.py:309(_strptime)
   117407    0.312    0.000    2.932    0.000 _strptime.py:565(_strptime_datetime)
        1    0.000    0.000    0.000    0.000 codecs.py:260(__init__)
        1    0.000    0.000    0.000    0.000 codecs.py:309(__init__)
    49772    0.068    0.000    0.129    0.000 codecs.py:319(decode)
      

***


* q2_time

In [88]:
profile = cProfile.Profile()
profile.enable()
q2_time(file_path)
profile.disable()
print("Estadisticas de tiempo de ejecucion q2_time:")
profile.print_stats()

Estadisticas de tiempo de ejecucion q2_time:
         18308404 function calls in 19.854 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1   12.316   12.316   19.853   19.853 1308603378.py:6(q2_time)
        1    0.000    0.000   19.853   19.853 1808460035.py:1(<module>)
   117407    0.239    0.000    3.621    0.000 __init__.py:299(loads)
        1    0.000    0.000    0.000    0.000 __init__.py:565(__init__)
      641    0.000    0.000    0.000    0.000 __init__.py:579(__missing__)
        1    0.000    0.000    0.000    0.000 __init__.py:588(most_common)
        1    0.000    0.000    0.000    0.000 __init__.py:640(update)
        1    0.000    0.000    0.000    0.000 codecs.py:260(__init__)
        1    0.000    0.000    0.000    0.000 codecs.py:309(__init__)
    49772    0.071    0.000    0.131    0.000 codecs.py:319(decode)
        2    0.000    0.000    0.000    0.000 codeop.py:117(__call__)
        4    0.000 

* q2_memory

In [89]:
profile = cProfile.Profile()
profile.enable()
q2_memory(file_path)
profile.disable()
print("Estadisticas de tiempo de ejecucion q2_memory:")
profile.print_stats()

Estadisticas de tiempo de ejecucion q2_memory:
         18354049 function calls in 19.495 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 1115872085.py:48(<listcomp>)
        1   12.071   12.071   19.493   19.493 1115872085.py:7(q2_memory)
        1    0.000    0.000    0.000    0.000 3561215337.py:1(<module>)
   117407    0.233    0.000    3.561    0.000 __init__.py:299(loads)
        1    0.000    0.000    0.000    0.000 codecs.py:260(__init__)
        1    0.000    0.000    0.000    0.000 codecs.py:309(__init__)
    49772    0.069    0.000    0.128    0.000 codecs.py:319(decode)
        2    0.000    0.000    0.000    0.000 codeop.py:117(__call__)
        4    0.000    0.000    0.000    0.000 compilerop.py:180(extra_flags)
        2    0.000    0.000    0.000    0.000 contextlib.py:102(__init__)
        2    0.000    0.000    0.000    0.000 contextlib.py:130(__enter__)
      

***

* q3_time

In [90]:
profile = cProfile.Profile()
profile.enable()
q3_time(file_path)
profile.disable()
print("Estadisticas de tiempo de ejecucion q3_time:")
profile.print_stats()

Estadisticas de tiempo de ejecucion q3_time:
         2146418 function calls in 8.372 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.174    0.174    7.926    7.926 3794401002.py:7(q3_time)
        1    0.443    0.443    8.370    8.370 723810342.py:1(<module>)
   117407    0.237    0.000    6.361    0.000 __init__.py:299(loads)
        1    0.000    0.000    0.000    0.000 __init__.py:565(__init__)
        1    0.000    0.000    0.004    0.004 __init__.py:588(most_common)
   117408    0.077    0.000    0.253    0.000 __init__.py:640(update)
   117407    0.031    0.000    0.058    0.000 abc.py:117(__instancecheck__)
        1    0.000    0.000    0.000    0.000 codecs.py:260(__init__)
        1    0.000    0.000    0.000    0.000 codecs.py:309(__init__)
    49772    0.073    0.000    0.138    0.000 codecs.py:319(decode)
        2    0.000    0.000    0.000    0.000 codeop.py:117(__call__)
        4    0.000   

* q3_memory

In [91]:
profile = cProfile.Profile()
profile.enable()
q2_memory(file_path)
profile.disable()
print("Estadisticas de tiempo de ejecucion q2_memory:")
profile.print_stats()

Estadisticas de tiempo de ejecucion q2_memory:
         18354049 function calls in 19.698 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.000    0.000 1115872085.py:48(<listcomp>)
        1   12.143   12.143   19.698   19.698 1115872085.py:7(q2_memory)
        1    0.000    0.000   19.698   19.698 3561215337.py:1(<module>)
   117407    0.238    0.000    3.637    0.000 __init__.py:299(loads)
        1    0.000    0.000    0.000    0.000 codecs.py:260(__init__)
        1    0.000    0.000    0.000    0.000 codecs.py:309(__init__)
    49772    0.070    0.000    0.130    0.000 codecs.py:319(decode)
        2    0.000    0.000    0.000    0.000 codeop.py:117(__call__)
        4    0.000    0.000    0.000    0.000 compilerop.py:180(extra_flags)
        2    0.000    0.000    0.000    0.000 contextlib.py:102(__init__)
        2    0.000    0.000    0.000    0.000 contextlib.py:130(__enter__)
      

* Tabla resumen de medidas de tiempo de ejecucion

| Problema  | Tiempo de ejecucion enfoque time | Tiempo de ejecucion enfoque memory |
| --------- | ---- | ---------- |
| q1      | 10.568  | 10.667    |
| q2    | 19.854  | 19.495  |
| q3  | 8.372  | 19.698   |


* Conclusiones de ambos analisis

Con relacion al uso de memoria, se puede concluir que ambas versiones de las funciones tienen un comportamiento similar y apenas presentan variaciones entre si. Sin embargo, es importante destacar que estas conclusiones se basan en pruebas realizadas sin tener en cuenta el archivo de tweets. Dado que este archivo es de gran tamaño y contiene una gran cantidad de datos, es posible que tenga un impacto significativo en el uso de memoria, lo que podria modificar las comparaciones realizadas.

En cuanto al analisis del tiempo de ejecucion, se observa que la función `q2_time` tarda más en ejecutarse que `q2_memory`, a pesar de lo esperado. Esta diferencia, aunque mínima, puede atribuirse al hecho de que, aunque `q2_time` es más eficiente en terminos de procesamiento interno, el manejo de grandes volúmenes de datos puede contrarrestar esta eficiencia y afectar el tiempo total de ejecucion, a pesar del enfoque inicial pensado.

V. Oportunidades de mejora

A continuacion, se enlistan algunas de las oportunidades de mejora a las funciones implementadas.


- Flexibilidad en el formato de fecha: Actualmente, la función asume que el formato de fecha en los tweets es especifico ('%Y-%m-%dT%H:%M:%S+00:00'). Podria hacerse mas flexible permitiendo que el formato de fecha sea configurable o detectado automaticamente.

- Manejo de casos de "empate": Si hay varios usuarios con el mismo numero maximo de publicaciones en una fecha dada, la funcion actual solo devuelve uno de ellos. Podria modificarse para manejar casos de empate devolviendo todos los usuarios con el maximo numero de publicaciones que sean iguales.

- Manejo de archivo grande: como el archivo de tweets es grande, podria ser util agregar algun tipo de mecanismo de lectura y procesamiento por lotes para evitar cargar todos los tweets en la memoria al mismo tiempo.
