# Challenge Data Engineer

Para la ejecuci√≥n del presente challenge tome en cuenta las instrucciones del archivo README.md y valide el uso de memoria y tiempo de ejecuci√≥n desde la ejecuci√≥n de cada archivo con el presente Notebook

## Top 10 fechas donde hay m√°s tweets.

### 1. Optimizaci√≥n de tiempo de ejecuci√≥n

Para resolver el problema planteado, se implementa la funci√≥n q1_time. Esta funci√≥n procesa el archivo de tweets en formato JSON l√≠nea por l√≠nea, contando la cantidad de tweets por fecha y, simult√°neamente, el n√∫mero de tweets por usuario en cada fecha espec√≠fica. Una vez recopilados los datos, utilice el m√©todo most_common de Counter para extraer las 10 fechas con m√°s actividad y, para cada una de ellas, identifica el usuario que m√°s tweets realiz√≥ ese d√≠a.

El c√≥digo optimiza el tiempo de ejecuci√≥n mediante el uso de estructuras de datos como Counter y defaultdict(Counter) para realizar conteos r√°pidos. Adem√°s, maneje las excepciones de forma selectiva y evite operaciones costosas dentro del bucle, como impresiones innecesarias. Al utilizar m√©todos optimizados como most_common y realizar una √∫nica pasada sobre los datos, el c√≥digo reduce significativamente el tiempo de procesamiento.

Adem√°s muestro en la impresion del resultado el tiempo de ejecuci√≥n y la memoria usada para el mismo.

In [2]:
import importlib
import q1_time
import time
import tracemalloc

importlib.reload(q1_time)

from q1_time import q1_time

file_path = "../tweets/farmers-protest-tweets-2021-2-4.json"
start_time = time.time()
tracemalloc.start()
result = q1_time(file_path)
current, peak = tracemalloc.get_traced_memory()
tracemalloc.stop()
end_time = time.time()
if result:
    print(result)
else:
    print("No se encontraron resultados.")
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
memory_used = peak / (1024 * 1024)
print(f"Memoria utilizada: {memory_used:.2f} MiB")


[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecuci√≥n: 9.86 segundos
Memoria utilizada: 4.45 MiB


### 2. Optimizaci√≥n de memoria

Para optimizar la memoria use estructuras de datos eficientescomo Counter y defaultdict(Counter), junto con el procesamiento iterativo l√≠nea por l√≠nea, asegura que el uso de memoria se mantenga bajo control incluso con archivos de gran tama√±o. Al filtrar y procesar selectivamente solo los datos necesarios en cada etapa, el c√≥digo logra un manejo eficiente de la memoria, permitiendo escalar para manejar grandes vol√∫menes de datos el rendimiento.

In [3]:
import importlib
import q1_memory
import time
import tracemalloc

importlib.reload(q1_memory)

from q1_memory import q1_memory

file_path = "../tweets/farmers-protest-tweets-2021-2-4.json"
start_time = time.time()
tracemalloc.start()
result = q1_memory(file_path)
current, peak = tracemalloc.get_traced_memory()
tracemalloc.stop()
end_time = time.time()

if result:
    print(result)
else:
    print("No se encontraron resultados.")
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
memory_used = peak / (1024 * 1024)
print(f"Memoria utilizada: {memory_used:.2f} MiB")


[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecuci√≥n: 20.46 segundos
Memoria utilizada: 3.77 MiB


## Top 10 emojis m√°s usados con su respectivo conteo

### 1. Optimizaci√≥n de tiempo de ejecuci√≥n

para la extracci√≥n de emojis utilice expresiones regulares compiladas, y collections.Counter para contar la frecuencia de cada emoji de manera optimizada. Compile la expresi√≥n regular previamente, mejore la velocidad de procesamiento al reutilizar el patr√≥n de b√∫squeda en cada iteraci√≥n. El uso de Counter me permiti√≥ manejar los conteos de forma eficiente y obtener r√°pidamente los emojis m√°s frecuentes. Asimismo, implemente un manejo selectivo de excepciones para asegurar el muestrepo de errores

In [5]:
import importlib
import q2_time
import time
import tracemalloc

importlib.reload(q2_time)

from q2_time import q2_time

file_path = "../tweets/farmers-protest-tweets-2021-2-4.json"
start_time = time.time()
tracemalloc.start()
result = q2_time(file_path)
current, peak = tracemalloc.get_traced_memory()
tracemalloc.stop()
end_time = time.time()
if result:
    print(result)
else:
    print("No se encontraron resultados.")
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
memory_used = peak / (1024 * 1024)
print(f"Memoria utilizada: {memory_used:.2f} MiB")


[('üôè', 1916), ('‚ù§Ô∏è', 952), ('üòÇ', 627), ('üåæ', 529), ('üíö', 493), ('üëç', 459), ('üëâ', 450), ('‚úä', 437), ('üáÆüá≥', 399), ('üëá', 387)]
Tiempo de ejecuci√≥n: 10.39 segundos
Memoria utilizada: 0.49 MiB


### 2. Optimizaci√≥n de memoria

En este caso optimice el uso de memoria al procesar el archivo de manera secuencial, utilice expresiones regulares compiladas y generadores eficientes como finditer.

In [6]:
import importlib
import q2_memory
import time
import tracemalloc

importlib.reload(q2_memory)

from q2_memory import q2_memory

file_path = "../tweets/farmers-protest-tweets-2021-2-4.json"
start_time = time.time()
tracemalloc.start()
result = q2_memory(file_path)
current, peak = tracemalloc.get_traced_memory()
tracemalloc.stop()
end_time = time.time()
if result:
    print(result)
else:
    print("No se encontraron resultados.")
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
memory_used = peak / (1024 * 1024)
print(f"Memoria utilizada: {memory_used:.2f} MiB")

[('üôè', 1916), ('‚ù§Ô∏è', 952), ('üòÇ', 627), ('üåæ', 529), ('üíö', 493), ('üëç', 459), ('üëâ', 450), ('‚úä', 437), ('üáÆüá≥', 399), ('üëá', 387)]
Tiempo de ejecuci√≥n: 10.58 segundos
Memoria utilizada: 0.51 MiB


## Top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos

### 1. Optimizaci√≥n de tiempo de ejecuci√≥n

En este caso utilice una expresi√≥n regular compilada (mention_pattern) para extraer menciones de cada l√≠nea del archivo, lo que mejora la velocidad de procesamiento al evitar recompilaciones repetidas. El uso de Counter de la biblioteca collections me ayuda a actualizar y contar las menciones de manera r√°pida y optimizada. Finalmente, obtuve 10 menciones m√°s comunes con most_common(10). 

In [None]:
import importlib
import q3_time
import time
import tracemalloc

importlib.reload(q3_time)

from q3_time import q3_time

file_path = "../tweets/farmers-protest-tweets-2021-2-4.json"
start_time = time.time()
tracemalloc.start()
result = q3_time(file_path)
current, peak = tracemalloc.get_traced_memory()
tracemalloc.stop()
end_time = time.time()
if result:
    print(result)
else:
    print("No se encontraron resultados.")
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
memory_used = peak / (1024 * 1024)
print(f"Memoria utilizada: {memory_used:.2f} MiB")

### 2. Optimizaci√≥n de memoria

Para solucionar este punto optimizo el uso de memoria mediante el uso de expresiones generadoras en lugar de listas para manejar las menciones extra√≠das. Al emplear una expresi√≥n generadora (mentions = (match.group(1) for match in mention_pattern.finditer(text))), el c√≥digo evita la creaci√≥n de estructuras de datos intermedias grandes. 

In [None]:
import importlib
import q3_memory
import time
import tracemalloc

importlib.reload(q3_memory)

from q3_memory import q3_memory

file_path = "../tweets/farmers-protest-tweets-2021-2-4.json"
start_time = time.time()
tracemalloc.start()
result = q3_memory(file_path)
current, peak = tracemalloc.get_traced_memory()
tracemalloc.stop()
end_time = time.time()
if result:
    print(result)
else:
    print("No se encontraron resultados.")
execution_time = end_time - start_time
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
memory_used = peak / (1024 * 1024)
print(f"Memoria utilizada: {memory_used:.2f} MiB")