En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [1]:
file_path = "../../farmers-protest-tweets-2021-2-4.json"

In [3]:
from profiler_utils import profile_time, profile_memory

# Q1

In [2]:
# Importamos las funciones
from q1_time import q1_time
from q1_memory import q1_memory

## q1_time

**Procesamiento de datos:**

La función carga todos los tweets desde el archivo JSON en una lista (tweets_data) y luego cuenta el número de tweets por fecha y usuario utilizando un diccionario anidado (defaultdict(Counter)).

In [8]:
# Probamos q1_time
result_time = q1_time(file_path)
print("Resultados de q1_time: ")
for date, user in result_time:
    print(f"Fecha: {date}, Usuario: {user}")

Resultados de q1_time: 
Fecha: 2021-02-12, Usuario: RanbirS00614606
Fecha: 2021-02-13, Usuario: MaanDee08215437
Fecha: 2021-02-17, Usuario: RaaJVinderkaur
Fecha: 2021-02-16, Usuario: jot__b
Fecha: 2021-02-14, Usuario: rebelpacifist
Fecha: 2021-02-18, Usuario: neetuanjle_nitu
Fecha: 2021-02-15, Usuario: jot__b
Fecha: 2021-02-20, Usuario: MangalJ23056160
Fecha: 2021-02-23, Usuario: Surrypuria
Fecha: 2021-02-19, Usuario: Preetm91


## q1_memory

**Procesamiento de datos**

Procesa cada línea del archivo JSON por separado para minimizar el uso de memoria, utilizando un diccionario anidado (defaultdict(lambda: defaultdict(int))) para contar los tweets por fecha y usuario.

In [48]:
# Probamos q1_memory
result_memory = q1_memory(file_path)
print("Resultados de q1_memory: ")
for date, user in result_memory:
    print(f"Fecha: {date}, Usuario: {user}")

Resultados de q1_time: 
Fecha: 2021-02-12, Usuario: RanbirS00614606
Fecha: 2021-02-13, Usuario: MaanDee08215437
Fecha: 2021-02-17, Usuario: RaaJVinderkaur
Fecha: 2021-02-16, Usuario: jot__b
Fecha: 2021-02-14, Usuario: rebelpacifist
Fecha: 2021-02-18, Usuario: neetuanjle_nitu
Fecha: 2021-02-15, Usuario: jot__b
Fecha: 2021-02-20, Usuario: MangalJ23056160
Fecha: 2021-02-23, Usuario: Surrypuria
Fecha: 2021-02-19, Usuario: Preetm91


## Evaluación:

### Evaluación - q1_time

**Uso de memoria:** 
Experimenta incrementos significativos en el uso de memoria durante la carga y procesamiento de datos debido a la carga completa de todos los tweets en memoria antes de realizar cualquier operación de conteo.

**Eficiencia:** Aunque es funcional, puede ser menos eficiente en términos de uso de memoria cuando se trabaja con grandes volúmenes de datos, lo que podría afectar el rendimiento en entornos con recursos limitados.

In [4]:
print("Perfilando tiempo de ejecución de q1_time:")
profile_time(q1_time, file_path)

Perfilando tiempo de ejecución de q1_time:
         1709430 function calls (1709408 primitive calls) in 3.897 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.863    0.863    3.517    3.517 q1_time.py:9(q1_time)
   117407    0.043    0.000    2.721    0.000 __init__.py:299(loads)
   117407    0.744    0.000    2.656    0.000 decoder.py:332(decode)
   117407    1.829    0.000    1.837    0.000 decoder.py:343(raw_decode)
   234814    0.045    0.000    0.045    0.000 {method 'match' of 're.Pattern' objects}
    49773    0.015    0.000    0.043    0.000 <frozen codecs>:319(decode)
    49773    0.028    0.000    0.028    0.000 {built-in method _codecs.utf_8_decode}
   234814    0.020    0.000    0.020    0.000 {method 'end' of 're.Match' objects}
   117407    0.015    0.000    0.015    0.000 {method 'startswith' of 'str' objects}
   117415    0.010    0.000    0.010    0.000 {method 'append' of 'list' objects}
  

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

In [6]:
print("Perfilando uso de memoria de q1_time:")
profile_memory(q1_time, file_path)

Perfilando uso de memoria de q1_time:
Filename: /Users/ignacioloyola/Desktop/Python/challenge_DE/src/profiler_utils.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    36     65.7 MiB     65.7 MiB           1       @profile
    37                                             def wrapper(*args, **kwargs):
    38     99.0 MiB     33.2 MiB           1           return func(*args, **kwargs)




[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

### Evaluacion - q1_memory

**Uso de memoria:**
Logra reducir significativamente el uso de memoria en comparación con q1_time al procesar cada línea de datos de forma incremental, manteniendo un manejo eficiente de la memoria.

**Eficiencia:**
Es más adecuada para manejar grandes volúmenes de datos debido a su enfoque en procesar datos línea por línea, lo que puede mejorar el rendimiento general y la escalabilidad del análisis.

In [5]:
print("Perfilando tiempo de ejecución de q1_memory:")
profile_time(q1_memory, file_path)

Perfilando tiempo de ejecución de q1_memory:
         1509500 function calls (1509468 primitive calls) in 1.968 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.395    0.395    1.739    1.739 q1_memory.py:7(q1_memory)
   117407    0.046    0.000    1.456    0.000 __init__.py:299(loads)
   117407    0.074    0.000    1.387    0.000 decoder.py:332(decode)
   117407    1.241    0.000    1.241    0.000 decoder.py:343(raw_decode)
   234814    0.044    0.000    0.044    0.000 {method 'match' of 're.Pattern' objects}
    49773    0.011    0.000    0.038    0.000 <frozen codecs>:319(decode)
    49773    0.027    0.000    0.027    0.000 {built-in method _codecs.utf_8_decode}
   234814    0.020    0.000    0.020    0.000 {method 'end' of 're.Match' objects}
      7/6    0.000    0.000    0.019    0.003 {method 'run' of '_contextvars.Context' objects}
       22    0.005    0.000    0.019    0.001 socket.py:621(send)
  

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

In [7]:
print('Perfilando el uso de memoria para q1_memory:')
profile_memory(q1_memory, file_path)

Perfilando el uso de memoria para q1_memory:
Filename: /Users/ignacioloyola/Desktop/Python/challenge_DE/src/profiler_utils.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    36    121.5 MiB    121.5 MiB           1       @profile
    37                                             def wrapper(*args, **kwargs):
    38     46.7 MiB    -74.8 MiB           1           return func(*args, **kwargs)




[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

## Escalabilidad

Para escalar estas funciones en el futuro y mejorar su rendimiento, propongo las siguientes alternativas de desarrollo.

**Parallel Processing:**
Evaluaría la posibilidad de introducir procesamiento paralelo para distribuir la carga de trabajo en múltiples núcleos, lo que puede mejorar significativamente la función **q1_time** escalando horizontalmente.

**Algoritmos de ordenación:**
Exploraría algoritmos de ordenación alternativos que puedan mejorar el rendimiento en la selección de las 10 fechas con más tweets, especialmente en conjuntos de datos más grandes.

**Uso de Servicios en la Nube:**
Consideraría la migración a servicios en la nube que proporcionen recursos escalables, como servicios de procesamiento de datos en tiempo real o almacenamiento distribuido, para manejar volúmenes masivos de datos de manera eficiente.

# Q2

In [9]:
from q2_time import q2_time
from q2_memory import q2_memory

## q2_time

**Descripción**

La función **q2_time** procesa los datos de un archivo JSON para realizar una operación de análisis específica. Carga los datos de tweets completos en memoria antes de realizar el análisis, lo que permite un acceso rápido a los datos una vez cargados.

**Procesamiento de datos**
Lee y carga todos los tweets desde un archivo JSON en una lista.


In [10]:
result_time = q2_time(file_path)

In [14]:
print("Perfilando tiempo de ejecución de q2_time:")
profile_time(q2_time, file_path)

Perfilando tiempo de ejecución de q2_time:
         1392628 function calls (1392607 primitive calls) in 2.686 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        6    0.000    0.000    2.685    0.447 base_events.py:1908(_run_once)
      2/1    1.034    0.517    2.475    2.475 q2_time.py:8(q2_time)
   117407    0.048    0.000    1.517    0.000 __init__.py:299(loads)
   117407    0.075    0.000    1.446    0.000 decoder.py:332(decode)
   117407    1.296    0.000    1.296    0.000 decoder.py:343(raw_decode)
   234814    0.046    0.000    0.046    0.000 {method 'match' of 're.Pattern' objects}
    49773    0.012    0.000    0.040    0.000 <frozen codecs>:319(decode)
    49773    0.028    0.000    0.028    0.000 {built-in method _codecs.utf_8_decode}
   234814    0.021    0.000    0.021    0.000 {method 'end' of 're.Match' objects}
   117407    0.016    0.000    0.016    0.000 {method 'startswith' of 'str' objects}
   1174

[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🏻', 2080),
 ('❤', 1779),
 ('🤣', 1668),
 ('🏽', 1218),
 ('👇', 1108)]

In [12]:
print('Perfilando el uso de memoria para q2_time:')
profile_memory(q2_time, file_path)

Perfilando el uso de memoria para q2_time:
Filename: /Users/ignacioloyola/Desktop/Python/challenge_DE/src/profiler_utils.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    36     35.2 MiB     35.2 MiB           1       @profile
    37                                             def wrapper(*args, **kwargs):
    38     20.8 MiB    -14.4 MiB           1           return func(*args, **kwargs)




[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🏻', 2080),
 ('❤', 1779),
 ('🤣', 1668),
 ('🏽', 1218),
 ('👇', 1108)]

## q2_memory

**Descripción**

Siguiendo la lógica del ejercicio anterior, la función **q2_memory** procesa los datos del archivo JSON línea por línea, minimizando el uso de memoria al no cargar todos los datos simultáneamente. Este enfoque es útil para trabajar con grandes volúmenes de datos.

In [11]:
result_memory = q2_memory(file_path)

In [15]:
print("Perfilando tiempo de ejecución de q2_memory:")
profile_time(q2_memory, file_path)

Perfilando tiempo de ejecución de q2_memory:
         1392672 function calls (1392645 primitive calls) in 2.584 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.959    0.959    2.355    2.355 q2_memory.py:6(q2_memory)
   117407    0.046    0.000    1.484    0.000 __init__.py:299(loads)
   117407    0.074    0.000    1.415    0.000 decoder.py:332(decode)
   117407    1.267    0.000    1.267    0.000 decoder.py:343(raw_decode)
   234814    0.046    0.000    0.046    0.000 {method 'match' of 're.Pattern' objects}
    49773    0.011    0.000    0.038    0.000 <frozen codecs>:319(decode)
    49773    0.027    0.000    0.027    0.000 {built-in method _codecs.utf_8_decode}
      7/6    0.000    0.000    0.026    0.004 {method 'run' of '_contextvars.Context' objects}
        7    0.000    0.000    0.025    0.004 events.py:86(_run)
        4    0.000    0.000    0.025    0.006 zmqstream.py:607(_handle_events)
       

[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🏻', 2080),
 ('❤', 1779),
 ('🤣', 1668),
 ('🏽', 1218),
 ('👇', 1108)]

In [13]:
print('Perfilando el uso de memoria para q2_memory:')
profile_memory(q2_memory, file_path)

Perfilando el uso de memoria para q2_memory:
Filename: /Users/ignacioloyola/Desktop/Python/challenge_DE/src/profiler_utils.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    36     36.7 MiB     36.7 MiB           1       @profile
    37                                             def wrapper(*args, **kwargs):
    38     20.2 MiB    -16.5 MiB           1           return func(*args, **kwargs)




[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🏻', 2080),
 ('❤', 1779),
 ('🤣', 1668),
 ('🏽', 1218),
 ('👇', 1108)]

## Evaluacion

**Tiempo de ejecución:**

Ambas funciones tienen tiempos de ejecución comparables, con q2_memory siendo ligeramente más rápida.

**Uso de memoria:**

**q2_memory** es significativamente más eficiente en términos de uso de memoria, lo que la hace más adecuada para trabajar con grandes volúmenes de datos en entornos con recursos limitados.

# Q3