En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

**CARGA DE LIBRERÍAS Y FUNCIONES EXTERNAS**

In [1]:
# Importar funciones para cargar datos JSON y realizar análisis de memoria y tiempo
from load_json import cargar_datos_json  # Función para cargar datos JSON en un DataFrame
from q1_memory import q1_memory         # Función para encontrar las fechas con más tweets y los usuarios con más publicaciones (Optimización de memoria en uso)
from q1_time import q1_time             # Función para encontrar las fechas con más tweets y los usuarios con más publicaciones (Optimización de tiempo en ejecución)
from q2_memory import q2_memory         # Función para encontrar los emojis más usados y usuarios que los usan (Optimización de memoria en uso)
from q2_time import q2_time             # Función para encontrar los emojis más usados y usuarios que los usan (Optimización de tiempo en ejecución)
from q3_memory import q3_memory         # Función para encontrar los usuarios más influyentes por conteo de menciones (Optimización de memoria en uso)
from q3_time import q3_time             # Función para encontrar los usuarios más influyentes por conteo de menciones (Optimización de tiempo en ejecución)

# Importar pandas para manejo de datos
import pandas as pd

# Importar cProfile para realizar análisis de rendimiento
import cProfile

**CARGA DEL ARCHIVO FUENTE Y TRANSFORMACIÓN EN DATAFRAME**

In [2]:
# Especificar la ruta del archivo JSON que se va a cargar en el DataFrame
file_path = "farmers-protest-tweets-2021-2-4.json"

# Cargar los datos del archivo JSON en un DataFrame utilizando la función cargar_datos_json
# y convertirlo en un DataFrame de pandas
df = pd.DataFrame(cargar_datos_json(file_path))

**1.- TOP FECHA DÓNDE HAY MÁS TWEETS Y EL USUARIO CON MÁS TWEETS**

**ENFOQUE OPTIMIZACIÓN DE MEMORIA**

In [3]:
# Llamamos a la función pasándole como parámetro el DataFrame y guardando los resultados en top_dates
top_dates = q1_memory(df)

Filename: /Users/renatorivera/Documents/Python_Projects/latam-challenge/latam_challenge/src/q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     8   1671.5 MiB   1671.5 MiB           1   @profile
     9                                         def q1_memory(df: pd.DataFrame) -> List[Tuple[datetime.date, str]]:
    10                                             """
    11                                             Encuentra las top 10 fechas con más tweets y el usuario con más tweets para cada una de esas fechas.
    12                                             
    13                                             Args:
    14                                             file_path (str): Ruta del archivo JSON.
    15                                             
    16                                             Returns:
    17                                             List[Tuple[datetime.date, str]]: Lista de tuplas que contiene la fecha y el usuario con más


El impacto en el uso de memoria es mayor después de la conversión de la columna 'date' a tipo datetime y la extracción de la fecha. Esto se refleja en un aumento de aproximadamente 4.7 MiB en el uso de memoria. Por otro lado, el cálculo de las 10 fechas con más tweets y la construcción de los resultados no tiene un impacto significativo en el uso de memoria, ya que el aumento es bastante pequeño (aproximadamente 0.1 MiB).

In [4]:
#Imprimimos el resultado
top_dates

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

**ENFOQUE DE OPTIMIZACIÓN EN TIEMPO**

In [5]:
#Creamos una función para controlar el tiempo de ejecución de la función q1_time
def profile_q1_time():
    cProfile.run('q1_time(df)', sort='cumulative')

# Ejecutar el profiler
profile_q1_time()

         114345 function calls (113921 primitive calls) in 0.153 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
       11    0.000    0.000    0.045    0.004 base.py:891(_map_values)
       11    0.019    0.002    0.045    0.004 algorithms.py:1667(map_array)
       10    0.000    0.000    0.041    0.004 common.py:62(new_method)
       10    0.000    0.000    0.040    0.004 arraylike.py:38(__eq__)
       10    0.000    0.000    0.040    0.004 series.py:6101(_cmp_method)
       10    0.000    0.000    0.040    0.004 array_ops.py:288(comparison_op)
       10    0.040    0.004    0.040    0.004 array_ops.py:113(comp_method_OBJECT_ARRAY)
       10    0.000    0.000    0.036    0.004 series.py:4780(apply)
       10    0.000    0.000    0.036    0.004 apply.py:1409(apply)
       10    0.000    0.000    0.036    0.004 apply.py:1482(apply_standard)
    44/43    0.000    0.000    0.026    0.001 take.py:59(take_nd)
       11    0.0

El tiempo de ejecución es menor a 0.16 s.

In [6]:
#Llamamos a la función e imprimimos el resultado
q1_time(df)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

**2.- TOP 10 EMOJIS MÁS USADOS Y SU RESPECTIVO CONTEO**

**ENFOQUE OPTIMIZACIÓN DE MEMORIA**

In [7]:
q2_memory(df)

Filename: /Users/renatorivera/Documents/Python_Projects/latam-challenge/latam_challenge/src/q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    10   1684.0 MiB   1684.0 MiB           1   @profile
    11                                         def q2_memory(df: pd.DataFrame) -> List[Tuple[str, int]]:
    12                                             """
    13                                             Encuentra los top 10 emojis más usados, la cantidad de veces que se utilizan y el nombre del usuario que lo utilizó.
    14                                             
    15                                             Args:
    16                                             df (pd.DataFrame): DataFrame que contiene los datos del archivo JSON.
    17                                             
    18                                             Returns:
    19                                             List[Tuple[str, int]]: Lista de tuplas que contiene el 

[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🇮', 2096),
 ('🇳', 2094),
 ('❤', 1779),
 ('🤣', 1668),
 ('👇', 1108)]

Se debe reemplazar el ciclo for por métodos vectorizados.

**ENFOQUE DE OPTIMIZACIÓN EN TIEMPO**

In [8]:
#Creamos una función para controlar el tiempo de ejecución de la función q2_time
def profile_q2_time():
    cProfile.run('q2_time(df)', sort='cumulative')

# Ejecutar el profiler
profile_q2_time()

         2818381 function calls (2818373 primitive calls) in 0.760 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.760    0.760 {built-in method builtins.exec}
        1    0.000    0.000    0.760    0.760 <string>:1(<module>)
        1    0.036    0.036    0.757    0.757 q2_time.py:7(q2_time)
   117407    0.033    0.000    0.628    0.000 extract_emojis.py:3(extract_emojis)
   117407    0.039    0.000    0.490    0.000 regex.py:349(compile)
   117407    0.149    0.000    0.451    0.000 regex.py:449(_compile)
   234821    0.106    0.000    0.216    0.000 enum.py:1541(__and__)
   117407    0.106    0.000    0.106    0.000 {method 'findall' of '_regex.Pattern' objects}
704526/704522    0.067    0.000    0.096    0.000 {built-in method builtins.isinstance}
   117408    0.027    0.000    0.094    0.000 __init__.py:668(update)
   234843    0.043    0.000    0.072    0.000 enum.py:713(__call__)
 

El tiempo de ejecución es menor a 0.7 s

In [9]:
q2_time(df)

[('🙏', 7286),
 ('😂', 3072),
 ('🚜', 2972),
 ('✊', 2411),
 ('🌾', 2363),
 ('🇮', 2096),
 ('🇳', 2094),
 ('❤', 1779),
 ('🤣', 1668),
 ('👇', 1108)]

**3.- TOP 10 USUARIOS MÁS MENCIONADOS Y SU RESPECTIVO NÚMERO DE VECES**

**ENFOQUE OPTIMIZACIÓN MEMORIA EN USO**

In [10]:
q3_memory(df)

Filename: /Users/renatorivera/Documents/Python_Projects/latam-challenge/latam_challenge/src/q3_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     5   1433.8 MiB   1433.8 MiB           1   @profile
     6                                         def q3_memory(df: pd.DataFrame) -> List[Tuple[str, int]]:
     7                                             # Inicializar un diccionario para almacenar el conteo de menciones de cada usuario
     8   1433.8 MiB      0.0 MiB           1       mention_count = {}
     9                                             
    10                                             # Iterar sobre cada fila del DataFrame
    11   1468.9 MiB -195354.3 MiB      117408       for index, row in df.iterrows():
    12                                                 # Obtener la lista de usuarios mencionados en el tweet
    13   1468.9 MiB -195357.6 MiB      117407           mentions = row['mentionedUsers']
    14   1468.9 MiB -195358.4 MiB      11

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

En instancias distribuidas es posible implementar el procesamiento en lotes.

**ENFOQUE OPTIMIZACIÓN EN TIEMPO**

In [11]:
#Creamos una función para controlar el tiempo de ejecución de la función q3_time
def profile_q3_time():
    cProfile.run('q3_time(df)', sort='cumulative')

# Ejecutar el profiler
profile_q3_time()

         104591 function calls (104537 primitive calls) in 0.096 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    0.086    0.086 {built-in method builtins.exec}
        1    0.001    0.001    0.086    0.086 <string>:1(<module>)
        1    0.001    0.001    0.085    0.085 q3_time.py:6(q3_time)
        1    0.000    0.000    0.059    0.059 series.py:4780(apply)
        1    0.001    0.001    0.059    0.059 apply.py:1409(apply)
        1    0.000    0.000    0.031    0.031 apply.py:1482(apply_standard)
        1    0.000    0.000    0.031    0.031 base.py:891(_map_values)
        1    0.020    0.020    0.031    0.031 algorithms.py:1667(map_array)
        1    0.000    0.000    0.026    0.026 series.py:5811(dropna)
        1    0.000    0.000    0.026    0.026 missing.py:718(remove_na_arraylike)
        3    0.000    0.000    0.026    0.009 base_events.py:1908(_run_once)
      4/2    0.000    0

El tiempo de ejecución es menor a 0.1 s

In [12]:
q3_time(df)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]