# Desafío Latam: Análisis y Optimización de Memoria en Procesamiento de Datos

## Descripción del Proyecto

El objetivo del proyecto es comparar diferentes librerías de procesamiento de datos en Python (`Modin`, `Polars`, `Dask`, `Ray`) para evaluar su rendimiento y uso de memoria al trabajar con un archivo JSONL que contiene datos de tweets.

El proyecto abarca tres tipos de análisis principales:
1. **Usuarios más mencionados en los tweets**.
2. **Emojis más utilizados en los tweets**.
3. **Fechas con más tweets y el usuario más activo por cada fecha**.

## Herramientas Utilizadas

### Modin
`Modin` se eligió por su capacidad para paralelizar y optimizar `pandas` utilizando `Ray` o `Dask` como backend distribuido, lo cual permite mejorar la eficiencia y reducir los tiempos de ejecución manteniendo la misma API de `pandas`.

### Polars
`Polars` es una librería de procesamiento en memoria que ofrece paralelización y un uso optimizado de la memoria, ideal para realizar operaciones de análisis en grandes volúmenes de datos. Se evaluó su rendimiento en comparación con `Modin` y `pandas`.

### Dask y Ray
Estas librerías se utilizaron como motores de ejecución distribuida para paralelizar las operaciones y simular un entorno distribuido. `Dask` y `Ray` permiten manejar tareas que requieren procesamiento paralelo y distribuyen la carga de trabajo entre múltiples núcleos de CPU o máquinas.

### Pandas
`Pandas` se usó como base de comparación, ya que es la librería más conocida para análisis de datos en Python. Se midió su rendimiento para observar cómo se comporta en comparación con `Modin` y `Polars`.

## Implementaciones

Se implementaron las tres tareas de análisis con cada una de las herramientas mencionadas. El objetivo fue comparar el rendimiento de cada implementación en términos de:

- **Tiempo de Ejecución**: Cuánto tarda cada herramienta en completar el procesamiento de datos.
- **Uso de Memoria**: Cuánta memoria utiliza cada implementación durante la ejecución.
- **Escalabilidad**: Cómo se comportan las herramientas al manejar grandes volúmenes de datos en un entorno distribuido o de múltiples núcleos.

### 1. Análisis de Usuarios Más Mencionados
- Se identificaron los usuarios más mencionados en los tweets.
- Comparación entre `Modin`, `Polars`, y `Pandas`.

### 2. Análisis de Emojis Más Utilizados
- Se extrajeron y contaron los emojis presentes en los tweets.
- Comparación de rendimiento entre `Modin`, `Polars`, y `Pandas`.

### 3. Análisis de Fechas con Más Tweets y Usuarios Activos
- Se identificaron las fechas con mayor cantidad de tweets y se determinó el usuario más activo por cada fecha.
- Comparación de tiempo y uso de memoria entre `Modin`, `Polars`, y `Pandas`.

## Problemas con la Implementación en la Nube

Inicialmente, se tenía planeado probar algunas implementaciones en la nube para evaluar el rendimiento en un entorno distribuido. Sin embargo, debido a problemas para crear cuentas en servicios de nube, como la limitación de IP y problemas con el equipo utilizado, se optó por realizar las pruebas en un entorno local.

A pesar de no contar con un entorno en la nube, `Ray` y `Dask` permitieron simular entornos distribuidos localmente, obteniendo buenos resultados.

## Oportunidades de mejora

- Se espera implementar el uso de `PySpark` en futuras versiones para evaluar su rendimiento en clústeres de datos distribuidos.
- Se recomienda realizar pruebas en un entorno de nube real para evaluar el rendimiento a gran escala.
- Explorar otras herramientas de big data como `Apache Spark` o servicios de análisis en la nube como `BigQuery`.

---



In [7]:
from typing import List, Tuple
from memory_profiler import memory_usage
import time
from q1_memory import q1_memory
from q1_time import q1_time 
from q2_memory import q2_memory 
from q2_time import q2_time 
from q3_memory import q3_memory 
from q3_time import q3_time
import ray  # Usar Ray como backend distribuido



In [5]:
def measure_performance_avg(file_path: str, func: callable, runs: int = 3) -> Tuple[float, float]:
    """Function to measure the average performance of the given function."""
    total_time = 0
    max_memory = []

    for _ in range(runs):
        start_time = time.time()
        mem_usage = memory_usage((func, (file_path,)), interval=0.1)
        end_time = time.time()
        
        total_time += (end_time - start_time)
        max_memory.append(max(mem_usage))

    avg_time = total_time / runs
    avg_memory = sum(max_memory) / runs

    return avg_time, avg_memory

In [6]:
# Ruta al archivo JSONL
file_path = r"C:\Users\Luci\Documents\GitHub\challenge_latam\src\farmers-protest-tweets-2021-2-4.json"


In [4]:

# Measure performance for each method
avg_time_q1_memory, avg_memory_q1_memory = measure_performance_avg(file_path, q1_memory)
avg_time_q1_time, avg_memory_q1_time= measure_performance_avg(file_path, q1_time)

# Print the results
print(f"modin - Average time: {avg_time_q1_memory:.2f} seconds, Average maximum memory usage: {avg_memory_q1_memory:.2f} MiB")
print(f"polars - Average time: {avg_time_q1_time:.2f} seconds, Average maximum memory usage: {avg_memory_q1_time:.2f} MiB")



2024-09-27 22:38:02,882	INFO worker.py:1786 -- Started a local Ray instance.


✅ JSONL file read successfully.
✅ JSONL file read successfully.
✅ JSONL file read successfully.
✅ Archivo JSONL leído exitosamente.
✅ Archivo JSONL leído exitosamente.
✅ Archivo JSONL leído exitosamente.
Dask - Average time: 8.22 seconds, Average maximum memory usage: 264.47 MiB
Polars - Average time: 1.41 seconds, Average maximum memory usage: 740.13 MiB


In [5]:
print(q1_memory(file_path))
print(q1_time(file_path))


✅ JSONL file read successfully.
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
✅ Archivo JSONL leído exitosamente.
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


In [6]:
 
# Measure performance for each method
avg_time_q2_memory, avg_memory_q2_memory = measure_performance_avg(file_path, q2_memory)
avg_time_q2_time, avg_memory_q2_time= measure_performance_avg(file_path, q2_time)

# Print the results
print(f"\n modin.pandas as mpd- Average time: {avg_time_q2_memory:.2f} seconds, Average maximum memory usage: {avg_memory_q2_memory:.2f} MiB")
print(f"modin.pandas - Average time: {avg_time_q2_time:.2f} seconds, Average maximum memory usage: {avg_memory_q2_time:.2f} MiB")


✅ JSONL file read successfully.


the groupby keys will be sorted anyway, although the 'sort=False' was passed. See the following issue for more details: https://github.com/modin-project/modin/issues/3571.


✅ JSONL file read successfully.
✅ JSONL file read successfully.
✅ JSONL file read successfully.
✅ JSONL file read successfully.
✅ JSONL file read successfully.

 modin.pandas as mpd- Average time: 3.95 seconds, Average maximum memory usage: 426.49 MiB
Dask - Average time: 7.87 seconds, Average maximum memory usage: 424.40 MiB


In [7]:
print(q2_memory(file_path))
print(q2_time(file_path))

✅ JSONL file read successfully.
[('🙏', 2123), ('😂', 633), ('🌾', 605), ('💚', 533), ('👍', 471), ('👉', 450), ('🇮🇳', 426), ('🙏🙏', 403), ('👇', 390), ('🏽', 332)]
✅ JSONL file read successfully.
[('🙏', 2123), ('😂', 633), ('🌾', 605), ('💚', 533), ('👍', 471), ('👉', 450), ('🇮🇳', 426), ('🙏🙏', 403), ('👇', 390), ('🏽', 332)]


In [8]:
# Measure performance for q3
avg_time_q3_time, avg_memory_q3_time = measure_performance_avg(file_path, q3_time)

# Measure performance for
avg_time_q3_time_standard, avg_memory_q3_time_standard = measure_performance_avg(file_path, q3_memory)
print(f"orjson Time Optimized - Average time: {avg_time_q3_time:.2f} seconds, Average maximum memory usage: {avg_memory_q3_time:.2f} MiB")
print(f"polars Time Optimized - Average time: {avg_time_q3_time_standard:.2f} seconds, Average maximum memory usage: {avg_memory_q3_time_standard:.2f} MiB")


✅ Archivo JSONL leído exitosamente.
✅ Archivo JSONL leído exitosamente.
✅ Archivo JSONL leído exitosamente.
Q3 Time Optimized - Average time: 1.52 seconds, Average maximum memory usage: 865.43 MiB
Q3 Time Optimized - Average time: 1.65 seconds, Average maximum memory usage: 497.21 MiB


In [9]:
print(q3_memory(file_path))
print(q3_time(file_path))

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]
✅ Archivo JSONL leído exitosamente.
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]
