## Latam Challenge David Molina


Este cuaderno tiene como prop√≥sito abordar un challenge planteado mediante dos enfoques: uno que optimiza el uso de la memoria y otro que maximiza la eficiencia en el tiempo de ejecuci√≥n.

La base de datos a analizar consiste en un archivo de texto plano con registros en formato JSON separados por saltos de l√≠nea. Con un tama√±o aproximado de 400 MB, este archivo no representa un desaf√≠o significativo para su an√°lisis en una computadora personal, ya que la mayor√≠a de los equipos actuales cuentan con suficiente memoria para manejarlo sin inconvenientes.

Por lo antes mencionado, utilizar√© mi computadora personal para la experimentaci√≥n de este challenge, as√≠ como tambi√©n evitar un uso innecesario de recursos. No obstante, en escenarios donde los archivos sean considerablemente m√°s grandes, ser√≠a altamente recomendable emplear herramientas dise√±adas para el procesamiento distribuido, como un cl√∫ster de Spark con DataProc en GCP o Amazon Glue en AWS. Estas soluciones permiten distribuir autom√°ticamente los datos entre varios nodos en memoria o en disco, un principio que tambi√©n se aplicar√° en este challenge, aunque utilizando archivos en una m√°quina local, como explicar√© m√°s adelante.

### Optimizaci√≥n

Para el an√°lisis de datos, utilizaremos la biblioteca pandas, que nos permitir√° realizar agrupaciones y aplicar las transformaciones necesarias. Durante las pruebas de ejecuci√≥n, se identific√≥ que el principal cuello de botella en t√©rminos de tiempo y uso de memoria ocurr√≠a en la lectura y procesamiento del archivo JSON. Por esta raz√≥n, la optimizaci√≥n del c√≥digo se ha centrado en mejorar tanto el rendimiento como el consumo de memoria en esta etapa cr√≠tica.

A continuaci√≥n, se detallan las librer√≠as que se utilizar√°n en el desarrollo. Exceptuando pandas y emoji, todas las dem√°s son librer√≠as est√°ndar que vienen incluidas en Python por defecto.

Versi√≥n de Python: 3.10.6
Paquetes:

pandas==2.2.3
emoji==2.14.1

In [5]:
# Importamos librer√≠as
from datetime import datetime
from typing import List, Tuple
import emoji
import os
import pandas as pd
import json

#Definimos el nombre de nuestro archivo JSON
file_path = "farmers-protest-tweets-2021-2-4.json"

# Definimos los comandos magic para medir tiempo y memoria
%load_ext memory_profiler
%load_ext line_profiler

The memory_profiler extension is already loaded. To reload it, use:
  %reload_ext memory_profiler
The line_profiler extension is already loaded. To reload it, use:
  %reload_ext line_profiler


### 1. Las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene

Se determin√≥ que el principal factor limitante es el tiempo requerido para leer y transformar los datos. No obstante, dado que no es necesario procesar la totalidad de los campos para resolver nuestro problema, se decidi√≥ focalizar el an√°lisis √∫nicamente en aquellos elementos imprescindibles. Para lograr un ahorro considerable en el tiempo de ejecuci√≥n, se opt√≥ por cargar el archivo en su forma original y evitar el uso del m√©todo de lectura JSON de pandas, lo que permiti√≥ optimizar el rendimiento del proceso.

In [10]:
def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:

    # Abrimos el archivo y leemos todas las l√≠neas
    with open(file_path, 'r') as archivo:
        lineas = archivo.readlines()
    
    registros = []
    # Extraemos la informaci√≥n relevante de cada l√≠nea
    for entrada in lineas:
        dato = json.loads(entrada)
        # Convertimos la fecha (se toman los primeros 10 caracteres) a objeto date
        dia = datetime.strptime(dato["date"][:10], "%Y-%m-%d").date()
        nombre_usuario = dato["user"]["username"]
        id_tweet = dato["id"]
        registros.append({"date": dia, "user": nombre_usuario, "id": id_tweet})
    
    # Convertimos la lista de diccionarios en un DataFrame
    df = pd.DataFrame(registros)
    
    # Agrupamos por fecha para contar los tweets y extraemos los 10 d√≠as con m√°s actividad
    resumen_dias = df.groupby("date").count().sort_values("id", ascending=False).head(10)
    dias_destacados = list(resumen_dias.index)
    
    # Filtramos el DataFrame para incluir s√≥lo los registros de los 10 d√≠as (top)
    df_filtrado = df[df["date"].isin(dias_destacados)]
    
    # Agrupamos por fecha y usuario para contar publicaciones, y seleccionar el usuario con mayor n√∫mero de tweets en cada d√≠a
    df_agrupado = df_filtrado.groupby(["date", "user"]).count().reset_index()
    df_agrupado = df_agrupado.sort_values(["date", "id"], ascending=False)
    df_resultado = df_agrupado.groupby("date").first()
    
    # Convertimos el DataFrame resultante en una lista de tuplas (fecha, usuario)
    salida = [ (registro.Index, registro.user) for registro in df_resultado[["user"]].itertuples() ]
    return salida


In [76]:
# Ejemplo de ejecuci√≥n:
print(q1_time(file_path))

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 19), 'Preetm91'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria')]


In [11]:
def q1_memory(file_path: str) -> list:

    # Diccionario para contar cu√°ntos registros (tweets) hay por fecha.
    particiones = {}
    
    # Creamos un directorio temporal para almacenar los archivos particionados por fecha.
    dir_tmp = "tmp_q1"
    os.makedirs(dir_tmp, exist_ok=True)
    
    with open(file_path, 'r') as archivo_principal:
        # Procesamos cada l√≠nea individualmente
        for linea in archivo_principal:
            registro = json.loads(linea)
            fecha = registro.get("date")[:10]
            usuario = registro.get("user").get("username")
            id_tweet = registro.get("id")
            datos = {"usuario": usuario, "id": id_tweet}
            
            # Generamos la ruta del archivo temporal para la fecha actual.
            ruta_archivo_temp = os.path.join(dir_tmp, fecha)
            with open(ruta_archivo_temp, "a") as archivo_temp:
                archivo_temp.write(json.dumps(datos) + "\n")
            
            # Actualizamos el contador de registros para la fecha correspondiente.
            particiones[fecha] = particiones.get(fecha, 0) + 1
    
    # Convertimos el diccionario de particiones en un DataFrame para facilitar el ordenamiento.
    df_particiones = pd.DataFrame([{"fecha": f, "registros": c} for f, c in particiones.items()])
    # Seleccionamos los 10 d√≠as con mayor n√∫mero de tweets.
    df_top10 = df_particiones.sort_values("registros", ascending=False).head(10)
    fechas_top = list(df_top10["fecha"])
    
    # Listamos para almacenar el resultado final: (fecha, usuario con m√°s tweets ese d√≠a)
    salida = []
    for fecha in fechas_top:
        ruta_temp = os.path.join(dir_tmp, fecha)
        df_temp = pd.read_json(ruta_temp, lines=True)
        
        # Agrupamos por el campo 'usuario' y contar el n√∫mero de tweets de cada uno.
        # Ordenamos de forma descendente para identificar al usuario con mayor tweets.
        df_usuario = df_temp.groupby("usuario").count().sort_values("id", ascending=False)
        usuario_max = df_usuario.index[0]
        
        salida.append((fecha, usuario_max))
    
    # Limpiamos el directorio temporal eliminando todos los archivos generados.
    for nombre_archivo in os.listdir(dir_tmp):
        ruta_temp = os.path.join(dir_tmp, nombre_archivo)
        if os.path.isfile(ruta_temp):
            os.remove(ruta_temp)
    
    return salida


In [12]:
# Ejemplo de ejecuci√≥n:
print(q1_memory(file_path))

[('2021-02-12', 'RanbirS00614606'), ('2021-02-13', 'MaanDee08215437'), ('2021-02-17', 'RaaJVinderkaur'), ('2021-02-16', 'jot__b'), ('2021-02-14', 'rebelpacifist'), ('2021-02-18', 'neetuanjle_nitu'), ('2021-02-15', 'jot__b'), ('2021-02-20', 'MangalJ23056160'), ('2021-02-23', 'Surrypuria'), ('2021-02-19', 'Preetm91')]


In [13]:
%timeit q1_time(file_path)


2.69 s ¬± 17.9 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


In [14]:
%memit q1_time(file_path)

peak memory: 579.79 MiB, increment: 38.62 MiB


In [15]:
%timeit q1_memory(file_path)
%memit q1_memory(file_path)

4.34 s ¬± 265 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 547.50 MiB, increment: 0.00 MiB


| Funci√≥n   | Tiempo   | Memoria   |
|-----------|---------|-----------|
| q1_time   | 2.69s   | 579.79 MiB |
| q1_memory | 4.34s | 547.50 MiB  |


En este ejercicio, se implement√≥ el algoritmo de dividir y vencer para optimizar el uso de memoria durante la lectura del archivo. Es decir, en lugar de cargar el archivo completo en memoria, se procedi√≥ a fragmentarlo en partes m√°s peque√±as, permitiendo que cada segmento se procese de forma independiente. Esta estrategia facilit√≥ el manejo de grandes vol√∫menes de datos al evitar cuellos de botella y posibilitar un procesamiento m√°s eficiente, similar a las t√©cnicas utilizadas en entornos de computaci√≥n distribuida.

Para este caso, y aplicable tambi√©n a las funciones q2 y q3 de optimizaci√≥n de memoria, se opt√≥ por gestionar el procesamiento mediante archivos que actuaron como unidades independientes. En otras palabras, con la finalidad de generar un resumen diario del n√∫mero de tweets por usuario, se ley√≥ el archivo original de forma secuencial, dividi√©ndolo en distintos archivos separados por fecha, sobre los cuales se efectuaron los c√°lculos.

### 2. Los top 10 emojis m√°s usados con su respectivo conteo:
Para el an√°lisis de emojis, aplicaremos una estrategia similar: limitaremos la lectura del archivo √∫nicamente al campo relevante, en este caso, content. A partir de este campo, extraeremos los emojis utilizando la funci√≥n analyze de la biblioteca emoji. Los resultados se almacenar√°n en una lista, que luego consolidaremos en una estructura global para todo el archivo. Finalmente, organizaremos los datos y realizaremos el conteo utilizando un DataFrame.

In [18]:
def q2_time(file_path: str) -> List[Tuple[str, int]]:

    # Abrimos el archivo y leer todas las l√≠neas
    with open(file_path, 'r') as archivo:
        lineas = archivo.readlines()
    
    # Recopilamos el contenido de cada registro
    textos = []
    for linea in lineas:
        registro = json.loads(linea)
        textos.append(registro.get("content"))
    
    # Extraemos los emojis de cada texto y acumularlos en una lista
    todos_emojis = []
    for texto in textos:
        # Asumimos que emoji.analyze devuelve objetos con el atributo 'chars'
        todos_emojis.extend([item.chars for item in emoji.analyze(texto)])
    
    # Creamos un DataFrame con cada emoji y asignamos un contador inicial de 1
    df_emojis = pd.DataFrame({"emoji": todos_emojis})
    df_emojis["contador"] = 1
    
    # Agrupamos por emoji, sumamos los contadores y ordenamos de mayor a menor
    df_top = df_emojis.groupby("emoji").sum().sort_values("contador", ascending=False).head(10)
    
    # Reiniciamos √≠ndice para facilitar la conversi√≥n a lista de tuplas
    df_resultado = df_top.reset_index()
    # Convertimos a una lista de tuplas (emoji, cantidad)
    salida = [(fila["emoji"], fila["contador"]) for _, fila in df_resultado.iterrows()]
    
    return salida


In [19]:
# Ejemplo de ejecuci√≥n:
print(q2_time(file_path))

[('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('ü§£', 1668), ('‚úä', 1651), ('‚ù§Ô∏è', 1382), ('üôèüèª', 1317), ('üíö', 1040)]


In [20]:
import os
import json
import pandas as pd
import emoji

def q2_memory(file_path: str) -> list:

    # Definimos el directorio temporal donde se guardar√° el archivo con los emojis extra√≠dos.
    dir_aux = "tmp_q2"
    os.makedirs(dir_aux, exist_ok=True)  # Crea el directorio si no existe.

    ruta_aux = os.path.join(dir_aux, "emojis.txt")
    
    # Abrir el archivo de entrada y el archivo temporal para escritura.
    with open(file_path, 'r') as arch_in, open(ruta_aux, "a") as arch_out:
        for linea in arch_in:
            dato = json.loads(linea)
            # Extraer el contenido del campo 'content', si existe.
            texto = dato.get("content", "")
            # Obtenemos una lista de los emojis presentes en el texto.
            lista_emojis = [item["emoji"] for item in emoji.emoji_list(texto)]
            # Si hay emojis en la l√≠nea, escribimos en el archivo temporal.
            if lista_emojis:
                arch_out.write("\n".join(lista_emojis) + "\n")
    
    conteo_emojis = {}
    
    # Leemos el archivo temporal y contamos los emojis.
    with open(ruta_aux, "r") as aux:
        for linea in aux:
            car = linea.strip()  # Eliminamos espacios en blanco y saltos de l√≠nea.
            if car:  
                conteo_emojis[car] = conteo_emojis.get(car, 0) + 1  

    # Convertimos el diccionario de conteo a un DataFrame para facilitar el ordenamiento.
    df_emo = pd.DataFrame({"emoji": list(conteo_emojis.keys()),
                           "cuenta": list(conteo_emojis.values())})

    # Ordenamos los emojis por frecuencia de uso en orden descendente y tomar los 10 m√°s usados.
    df_top = df_emo.sort_values("cuenta", ascending=False).head(10)

    # Convertimos el DataFrame en una lista de tuplas (emoji, conteo).
    salida = [tuple(x) for x in df_top.set_index("emoji").itertuples()]

    # Eliminamos el archivo temporal despu√©s de procesar los datos.
    os.remove(ruta_aux)

    return salida


In [22]:
print(q2_memory(file_path))

[('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('ü§£', 1668), ('‚úä', 1651), ('‚ù§Ô∏è', 1382), ('üôèüèª', 1317), ('üíö', 1040)]


Para llevar a cabo la ejecuci√≥n con optimizaci√≥n de memoria, utilizamos archivos locales como paso previo en el procesamiento. Extraeremos los emojis de nuestra fuente de datos de manera secuencial, l√≠nea por l√≠nea, y procederemos a almacenarlos en un archivo local para luego agrupar.

In [23]:
%timeit q2_time(file_path)
%memit q2_time(file_path)

9.94 s ¬± 193 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 571.87 MiB, increment: 6.12 MiB


In [33]:
%timeit q2_memory(file_path)
%memit q2_memory(file_path)

9.37 s ¬± 225 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 567.81 MiB, increment: 0.00 MiB


| Funci√≥n   | Tiempo   | Memoria   |
|-----------|---------|-----------|
| q2_time   | 9.94s   | 571.87 MiB |
| q2_memory | 9.06s | 567.81 MiB  |

### 3. El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos.
En este problema, se tomar√° de igual manera los campos estrictamente necesarios, en este caso mentionedUsers el cual contiene un listado de usernames

In [38]:
def q3_time(file_path: str) -> List[Tuple[str, int]]:
    # Abrimos el archivo y leer todas las l√≠neas
    with open(file_path, 'r') as f:
        registros = f.readlines()
    
    # Lista para almacenar cada menci√≥n encontrada
    lista_menciones = []
    
    # Recorremos cada registro y extraer las menciones
    for linea in registros:
        datos = json.loads(linea)
        usuarios = datos.get("mentionedUsers")
        if usuarios:
            # Agregamos cada nombre de usuario mencionado a la lista
            for usuario in usuarios:
                lista_menciones.append(usuario["username"])
    
    # Creamos un DataFrame con las menciones para agrupar y sumar los conteos
    df_menciones = pd.DataFrame({"usuario": lista_menciones})
    df_menciones["conteo"] = 1
    # Agrupamos por 'usuario' y sumar los contadores
    resumen = df_menciones.groupby("usuario").sum()
    # Ordenamos de mayor a menor cantidad y obtener los 10 primeros
    top_10 = resumen.sort_values("conteo", ascending=False).head(10)
    
    # Convertimos el DataFrame a una lista de tuplas (username, conteo)
    salida = [(fila.Index, fila.conteo) for fila in top_10.itertuples()]
    
    return salida


In [37]:
# Ejemplo de ejecuci√≥n:
print(q3_time(file_path))

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


In [45]:
def q3_memory(file_path: str) -> list:
    
    menciones = []  # Lista para almacenar los nombres de usuarios mencionados.
    # Abrimos el archivo JSON y procesamos l√≠nea por l√≠nea.
    with open(file_path, "r") as arch:
        for linea in arch:
            dato = json.loads(linea)
            usuarios_mencionados = dato.get("mentionedUsers")

            if usuarios_mencionados:
                # Extraemos los nombres de usuario de las menciones y agregarlos a la lista.
                menciones.extend([u["username"] for u in usuarios_mencionados])
    
    # DataFrame con la lista de menciones.
    df_menc = pd.DataFrame({"usuario": menciones})
    # Agregamos una columna auxiliar para el conteo de menciones.
    df_menc["contador"] = 1
    # Agrupamos por usuario y para contar cu√°ntas veces aparece cada uno.
    df_agrup = df_menc.groupby("usuario").sum()
    # Ordenamos los usuarios por el n√∫mero de menciones en orden descendente y tomar el top 10.
    df_top = df_agrup.sort_values("contador", ascending=False).head(10)
    # Convertimos el DataFrame en una lista de tuplas (usuario, cantidad de menciones).
    salida = [tuple(x) for x in df_top.itertuples()]

    return salida


In [41]:
# Ejemplo de ejecuci√≥n:
print(q3_memory(file_path))

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


In [43]:
%timeit q3_time(file_path)
%memit q3_time(file_path)

2.1 s ¬± 65.6 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 567.81 MiB, increment: 0.00 MiB


In [44]:
%timeit q3_memory(file_path)
%memit q3_memory(file_path)

2.12 s ¬± 98.5 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 567.81 MiB, increment: 0.00 MiB


| Funci√≥n   | Tiempo   | Memoria   |
|-----------|---------|-----------|
| q3_time   | 2.1s   | 567.81 MiB |
| q3_memory | 2.12s | 567.81 MiB  |

### Conclusiones
Hemos logrado optimizar el proceso de ejecuci√≥n al identificar el cuello de botella en la lectura y el parseo de la informaci√≥n, lo que nos permiti√≥ abordar este paso crucial y ajustar la optimizaci√≥n seg√∫n el objetivo deseado.

Si bien la implementaci√≥n se realiz√≥ en una m√°quina √∫nica, se aplicaron principios fundamentales de la computaci√≥n distribuida, como el particionamiento y el procesamiento en lotes, que sientan las bases para una escalabilidad futura.

Si bien en ciertos ejercicios la diferencia no es tan grande, podemos notar que esto radica especificamente en la maquina local y la memoria asignada, as√≠ como tambi√©n el tama√±o del archivo.  

Para procesar archivos de mayor tama√±o, es recomendable utilizar clusters de procesamiento, como Spark, que permiten distribuir los datos de manera √≥ptima. Adem√°s, nuestros c√≥digos pueden adaptarse f√°cilmente para trabajar con DataFrames en PySpark.

