En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [1]:
file_path = "../../farmers-protest-tweets-2021-2-4.json"

# Q1

In [2]:
# Importamos las funciones
from q1_time import q1_time
from q1_memory import q1_memory

## q1_time

### Procesamiento de datos:

La función carga todos los tweets desde el archivo JSON en una lista (tweets_data) y luego cuenta el número de tweets por fecha y usuario utilizando un diccionario anidado (defaultdict(Counter)).

In [40]:
# Probamos q1_time
result_time = q1_time(file_path)
print("Resultados de q1_time: ")
for date, user in result_time:
    print(f"Fecha: {date}, Usuario: {user}")

Resultados de q1_time: 
Fecha: 2021-02-12, Usuario: RanbirS00614606
Fecha: 2021-02-13, Usuario: MaanDee08215437
Fecha: 2021-02-17, Usuario: RaaJVinderkaur
Fecha: 2021-02-16, Usuario: jot__b
Fecha: 2021-02-14, Usuario: rebelpacifist
Fecha: 2021-02-18, Usuario: neetuanjle_nitu
Fecha: 2021-02-15, Usuario: jot__b
Fecha: 2021-02-20, Usuario: MangalJ23056160
Fecha: 2021-02-23, Usuario: Surrypuria
Fecha: 2021-02-19, Usuario: Preetm91


### Evaluación:

**Uso de memoria:** 
Experimenta incrementos significativos en el uso de memoria durante la carga y procesamiento de datos debido a la carga completa de todos los tweets en memoria antes de realizar cualquier operación de conteo.

**Eficiencia:** Aunque es funcional, puede ser menos eficiente en términos de uso de memoria cuando se trabaja con grandes volúmenes de datos, lo que podría afectar el rendimiento en entornos con recursos limitados.

In [5]:
%run test_q1_time.py

Filename: /Users/ignacioloyola/Desktop/Python/challenge_DE/src/q1_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     8     43.1 MiB     43.1 MiB           1   @profile
     9                                         def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    10                                             # leer los datos del archivo JSON
    11     43.1 MiB      0.0 MiB           1       tweets_data = []
    12    866.5 MiB   -132.8 MiB           2       with open(file_path, "r", encoding="utf-8") as file:
    13    999.3 MiB -1020568.1 MiB      117408           for line in file:
    14    999.3 MiB -1020460.5 MiB      117407               try:
    15    999.3 MiB -1019372.4 MiB      117407                   tweet = json.loads(line)
    16    999.3 MiB -1020349.9 MiB      117407                   tweets_data.append(tweet)
    17                                                     except json.JSONDecodeError as e:
    18                  

## q1_memory

### Procesamiento de datos:

Procesa cada línea del archivo JSON por separado para minimizar el uso de memoria, utilizando un diccionario anidado (defaultdict(lambda: defaultdict(int))) para contar los tweets por fecha y usuario.

In [48]:
# Probamos q1_memory
result_memory = q1_memory(file_path)
print("Resultados de q1_time: ")
for date, user in result_memory:
    print(f"Fecha: {date}, Usuario: {user}")

Resultados de q1_time: 
Fecha: 2021-02-12, Usuario: RanbirS00614606
Fecha: 2021-02-13, Usuario: MaanDee08215437
Fecha: 2021-02-17, Usuario: RaaJVinderkaur
Fecha: 2021-02-16, Usuario: jot__b
Fecha: 2021-02-14, Usuario: rebelpacifist
Fecha: 2021-02-18, Usuario: neetuanjle_nitu
Fecha: 2021-02-15, Usuario: jot__b
Fecha: 2021-02-20, Usuario: MangalJ23056160
Fecha: 2021-02-23, Usuario: Surrypuria
Fecha: 2021-02-19, Usuario: Preetm91


### Evaluación

**Uso de memoria:**
Logra reducir significativamente el uso de memoria en comparación con q1_time al procesar cada línea de datos de forma incremental, manteniendo un manejo eficiente de la memoria.

**Eficiencia:**
Es más adecuada para manejar grandes volúmenes de datos debido a su enfoque en procesar datos línea por línea, lo que puede mejorar el rendimiento general y la escalabilidad del análisis.

In [6]:
%run test_q1_memory.py

Filename: /Users/ignacioloyola/Desktop/Python/challenge_DE/src/q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7     94.4 MiB     94.4 MiB           1   @profile
     8                                         def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
     9                                             # Leer y procesar cada línea del archivo JSON por separado para minimizar el uso de memoria
    10     94.5 MiB    -81.8 MiB          27       date_user_count = defaultdict(lambda: defaultdict(int))
    11     94.4 MiB     -3.9 MiB           2       with open(file_path, "r", encoding="utf-8") as file:
    12     94.6 MiB -430706.0 MiB      117408           for line in file:
    13     94.6 MiB -430702.5 MiB      117407               try:
    14     94.6 MiB -430703.4 MiB      117407                   tweet = json.loads(line)
    15     94.6 MiB -430703.8 MiB      117407                   date = datetime.fromisoformat(tweet['date']).d

## Escalabilidad

Para escalar estas funciones en el futuro y mejorar su rendimiento, propongo las siguientes alternativas de desarrollo.

**Parallel Processing:**
Evaluaría la posibilidad de introducir procesamiento paralelo para distribuir la carga de trabajo en múltiples núcleos, lo que puede mejorar significativamente la función **q1_time** escalando horizontalmente.

**Algoritmos de ordenación:**
Exploraría algoritmos de ordenación alternativos que puedan mejorar el rendimiento en la selección de las 10 fechas con más tweets, especialmente en conjuntos de datos más grandes.

**Uso de Servicios en la Nube:**
Consideraría la migración a servicios en la nube que proporcionen recursos escalables, como servicios de procesamiento de datos en tiempo real o almacenamiento distribuido, para manejar volúmenes masivos de datos de manera eficiente.