# Challenge Data Engineer 

A continuaci√≥n se evidencia todo el desarrollo del challenge para el puesto Data Engineer. 

Como consideracones, vamos a suponer que solo teniamos al alcance el procesamiento en una m√°quina personal, ya que pudimos haber utilizado alguna plataforma cloud con mejor rendimiento como lambda functions en AWS o Cloud functions en GCP. 
Adem√°s, destacar que consideramos como alcance de procesamiento solo el archivo entregado por ustedes. Hablando de un procesamiento automatizado, debiesemos incluir una canalizaci√≥n para el procesamiento de futuros archivos que se incorporen al repositorio (directorio en este caso) y realizar tareas programadas para su ejecuci√≥n. En fin, estamos obviando que se trata de un procesamiento automatizado.
Por √∫ltimo, mencionar que consideramos el input del archivo como su formato entregado, es decir JSON. Es posible que un procesamiento previo a las transformaciones, pudiera entregar un mejor performance al momento de ejecutarlas. 

Los c√≥digos a continuaci√≥n presentan leve diferencia entre la optimizaci√≥n de memoria con el tiempo de ejecuci√≥n, si bien son dos variables que en la mayor√≠a de los casos, disminuian de forma directamente proporcional al optimizar cualquiera de las dos, en un ambiente BIG DATA, los cambios de c√≥digo podr√≠an mostrar un mayior cambio entre las variables.
Un ejemplo de lo anterior, es que nos dimos cuenta que al intentar mejorar el tiempo de ejecuci√≥n con la biblioteca orjson, esta mejor√≥ considerablemente tanto la memoria como el tiempo para todos los c√≥digos. 

Para finalizar, considerar ejecutar siempre el primer bloque de c√≥digo presente en este ipynb para que el resto de los c√≥digos corran correctamente.



In [15]:
from time import time
import zipfile
import os

# Nombre del archivo Python
file_path = "farmers-protest-tweets-2021-2-4.json"

# Ruta del archivo ZIP
archivo_zip = 'tweets.json.zip'

# Validamos si el archivo se encuentra en el directorio

if os.path.exists(file_path):
    print("El archivo existe en el directorio.")
else:
    print("El archivo no existe en el directorio.")
    
    # Descomprimir el archivo ZIP en el mismo directorio
    with zipfile.ZipFile(archivo_zip, 'r') as zip_ref:
        zip_ref.extractall(os.path.dirname(archivo_zip))
    print("Archivo descomprimido con √©xito.")


El archivo existe en el directorio.


# Q1 - TOP fechas - Memoria Optimizada: 

El siguiente c√≥digo, entrega las 10 fechas donde hay m√°s tweets y con su usuario que m√°s cantidad de tweet realiz√≥ optimizando la memoria. 

A diferencia del c√≥digo siguiente (Q1_TIME), este c√≥digo lo que hace es procesar el archivo json l√≠nea por l√≠nea. Esto hace que no carguemos todo el archivo al mismo tiempo, consumiendo m√°s memoria. Ademas, la pr√°ctica dice que pandas es una excelente forma de manejar grandes conjunto de datos, sin embargo, algunas operaciones consumen mucha memoria. Dado lo anterior, se procedi√≥ a utilizar la la clase defaultdict que permite contabilizar mientras el archivo se procesa l√≠nea por l√≠nea. Por √∫ltimo, se pod√≠a crear un bucle, pero la funci√≥n heapq.nlargest permite hacer una busqueda de los valores m√°s grandes de forma eficiente, ya que un bucle tendr√≠a que iterar varias veces sobre un mismo conjunto de datos. 

In [16]:
#Importamos la funcion de archivo python en el mismo directorio
from q1_memory import q1_memory

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q1_memory = q1_memory(file_path)

#Imprimimos
print(resultado_q1_memory)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecuci√≥n: 1.9971497058868408


# Q1 - TOP fechas - Tiempo Optimizado:

El siguiente c√≥digo, entrega las 10 fechas donde hay m√°s tweets y con su usuario que m√°s cantidad de tweet realiz√≥ optimizando el tiempo de ejecuci√≥n.

La diferencia en tiempo con respecto al c√≥digo anterior (optimizado por memoria) es m√≠nima, sin embargo, la diferencia radica en el conteo de apariciones en los datos. En vez de usar defaultdict, utilizamos un diccionario anidado. Adem√°s, en el procesamiento del archivo se eliminaron redundancias dentro del bucle y se determin√≥ que usando setdefault podiamos reducir levemente el tiempo de ejecuci√≥n debido a su capacidad de busqueda y asignaci√≥n en una √∫nica operaci√≥n para un diccionario.

Realmente es dificil que pudieramos llegar a un tiempo m√≠nimo drastico en comparaci√≥n al anterior, debido a que la memoria y el tiempo son variables que la mayor parte de las veces mejoran directamente proporcional. 

In [17]:
#Importamos la funcion de archivo python en el mismo directorio
from q1_time import q1_time

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q1_time = q1_time(file_path)

#Imprimimos
print(resultado_q1_time)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecuci√≥n: 1.9659302234649658


# Q2 - TOP Emojis - Memoria Optimizada: 

El siguiente c√≥digo entrega los 10 emojis m√°s utilizados junto con su conteo optimizando el uso de memoria. 

Fue un desaf√≠o bastante dificil por el hecho de utilizar la librer√≠a emoji. Seg√∫n la documentaci√≥n, se cambi√≥ la forma en obtener el listado de los emojis, lo que puede generar un problema seg√∫n la versi√≥n de la librer√≠a que se est√© utilizando. 

Para lograr el objetivo de optimizar la memoria, el c√≥digo siguiente hace un conteo de los emojis mientras se lee cada l√≠nea del archivo utilizando un diccionario. Esto evita que se almacenen todos los emojis en una lista, lo que consumir√≠a memoria adicional. 

Ademas, se utiliza el m√©todo most_common que result√≥ ser m√°s eficiente en memoria para obtener los 10 emojis m√°s utilizados. 

In [18]:
#Importamos la funcion de archivo python en el mismo directorio
from q2_memory import q2_memory

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q2_memory = q2_memory(file_path)

#Imprimimos
print(resultado_q2_memory)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üèª', 2080), ('‚ù§', 1779), ('ü§£', 1668), ('üèΩ', 1218), ('üëá', 1108)]
Tiempo de ejecuci√≥n: 2.873704433441162


# Q2 - TOP Emojis - Tiempo Optimizado: 

El siguiente c√≥digo entrega los 10 emojis m√°s utilizados junto con su conteo optimizando el tiempo de ejecuci√≥n.

Seg√∫n las pruebas que estuvimos realizando, se identific√≥ que el tiempo de ejecuci√≥n podr√≠a reducirse usando una expresi√≥n regular que reemplace el ciclo for para verificar si el texto que se est√° analizando corresponde a un emoji. Sin embargo, los resultados a diferencia del c√≥digo anterior, son algo distintos. 
La expresi√≥n regular usada es la siguiente "emoji_pattern = re.compile(r'[\U0001F300-\U0001F64F\U0001F680-\U0001F6FF\u2600-\u26FF\u2700-\u27BF]')".

El objetivo de dicha expresi√≥n es abarcar los rangos de c√≥digos unicode asignados a los emojis, sin embargo, podemos ver que no considera un emoji ('ü§£') en comparaci√≥n con la salida anterior. 
Luego de hacer un analisis, se pudo identificar que para usar esta opci√≥n de expresi√≥n regular, es necesario tener en consideraci√≥n posibles rangos de c√≥digos unicode que no est√©n inclu√≠dos, como el c√≥digo \U0001f600 que pertenece a ('ü§£').

Para finalizar, se dejar√° el c√≥digo con la expresi√≥n regular, para demostrar que el tiempo de ejecuci√≥n si puede optimizarse. 

In [19]:
#Importamos la funcion de archivo python en el mismo directorio
from q2_time import q2_time

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q2_time = q2_time(file_path)

#Imprimimos
print(resultado_q2_time)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üèª', 2080), ('‚ù§', 1779), ('üèΩ', 1218), ('üëá', 1108), ('üíö', 1040)]
Tiempo de ejecuci√≥n: 2.2064199447631836


# Q3 - TOP Usuarios - Memoria Optimizada:

El siguiente c√≥digo entrega el top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos optimizando la memoria.

El desarrollo del siguiente c√≥digo no fue tan complejo luego de haber realizado los dos anteriores. Para la optimizaci√≥n en memoria, se consider√≥ un procesamiento al mismo tiempo que se procesa l√≠nea por l√≠nea, lo que permite no cargar todo el archivo en memoria. 

El c√≥digo es eficiente en memoria ya que solo mantiene las cuentas de los nombres. 


In [20]:
#Importamos la funcion de archivo python en el mismo directorio
from q3_memory import q3_memory

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q3_memory = q3_memory(file_path)

#Imprimimos
print(resultado_q3_memory)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Iniciando test
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]
Tiempo de ejecuci√≥n: 2.0469696521759033


# Q3 - TOP Usuarios - Tiempo Optimizado:

El siguiente c√≥digo entrega el top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos optimizando el tiempo de ejecuci√≥n.

Se incorpor√≥ una funci√≥n particular para hacer una lectura en bloques y procesarlas con un buffer que se puede ajustar seg√∫n la memoria disponible en cada m√°quina. Esto puede ser modificable seg√∫n el equipo en ejecuci√≥n. 
Adem√°s, se puede utilizar herramientas como 'cProfile' para medir el rendimiento y ajustar dicho buffer seg√∫n los resultados.

Para este caso, la diferencia en tiempo comparado con la optimizaci√≥n de memoria es bastante leve.


In [21]:
#Importamos la funcion de archivo python en el mismo directorio
from q3_time import q3_time

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q3_time = q3_time(file_path)

#Imprimimos
print(resultado_q3_time)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]
Tiempo de ejecuci√≥n: 2.0743510723114014
