En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [99]:
# Enable automatic reloading of modules in Jupyter Notebook (improves development workflow)
%reload_ext autoreload

# Automatically restart the kernel whenever the source code changes
# (Provides a clean development environment)
%autoreload 2

print("IPython autoreload activated")


IPython autoreload activated


In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [116]:
# Librerías e infraestructura necesaria
!pip install gdown emoji memory-profiler line-profiler



In [55]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [56]:
!cd /content/drive/MyDrive/tw-latam-test

In [57]:
import gdown
import zipfile

# ID del archivo (extraído del enlace)
file_id = "1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis"
# URL de descarga
download_url = f"https://drive.google.com/uc?id={file_id}"
# Nombre del archivo descargado
zip_output = "tweets.json.zip"

# Descargar el archivo
gdown.download(download_url, zip_output, quiet=False)

# Descomprimir el archivo
with zipfile.ZipFile(zip_output, 'r') as zip_ref:
    zip_ref.extractall("tweets_extracted")

print("Archivo descomprimido en la carpeta 'tweets_extracted'")

Downloading...
From (original): https://drive.google.com/uc?id=1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis
From (redirected): https://drive.google.com/uc?id=1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis&confirm=t&uuid=4fe36d2e-5dac-441e-acac-726fd94eda0b
To: /content/drive/MyDrive/tw-latam-test/tweets.json.zip
100%|██████████| 60.4M/60.4M [00:01<00:00, 54.1MB/s]


Archivo descomprimido en la carpeta 'tweets_extracted'


Se importan los modulos python junto con sus funciones  

In [148]:
%run src/q1_memory.py
%run src/q1_time.py
%run src/q2_memory.py
%run src/q2_time.py
%run src/q3_memory.py
%run src/q3_time.py
%run src/utilidades.py


Se definen variables de entorno

In [107]:
# define la ruta
file_directory = '/content/tweets_extracted/'

# define nombre de archivo
file_name = 'farmers-protest-tweets-2021-2-4.json'

# concatenamos la ruta y el nombre del archivo
file_path = file_directory + file_name
print(file_path)

/content/tweets_extracted/farmers-protest-tweets-2021-2-4.json


Ejecución de la llamada de cantidad de twits en un periodo "q1_time"

In [139]:
# Usar line_profiler y memory_profiler
import line_profiler
from memory_profiler import profile  # Decorador para perfilar memoria
from memory_profiler import memory_usage

@time_it
def time_call(profiler, function, file_path):
    """
    Perfila la función q1_time usando line_profiler y devuelve su resultado.
    """
    # Agregar explícitamente la función al perfilador
    profiler.add_function(function)

    # Usar un diccionario para capturar las variables locales
    local_vars = {"file_path": file_path, "result": None}

    # Ejecutar y perfilar la función
    profiler.runctx("result = q1_time(file_path)", globals(), local_vars)

    # Mostrar estadísticas del perfilador
    print("=== Estadísticas de Line Profiler ===")
    profiler.print_stats()
    print("=== Fin de las Estadísticas ===")

    # Retornar el resultado de la función
    return local_vars["result"]

@time_it
def memory_call(function, file_path):
    """
    Perfila el uso de memoria de la función especificada y devuelve su resultado.

    Args:
        function_name (callable): Función a perfilar.
        file_path (str): Ruta del archivo que procesará la función.

    Returns:
        Any: Resultado de la función perfilada.
    """
    def wrapper():
        return function(file_path)

    # Perfilar memoria usando memory_usage
    mem_usage, result = memory_usage(wrapper, retval=True, interval=0.1)

    # Mostrar estadísticas de memoria
    print("=== Estadísticas de Memory Profiler ===")
    print(f"Uso máximo de memoria: {max(mem_usage):.2f} MiB")
    print(f"Uso inicial de memoria: {mem_usage[0]:.2f} MiB")
    print(f"Uso final de memoria: {mem_usage[-1]:.2f} MiB")
    print("=== Fin de las Estadísticas ===")

    return result


In [140]:
profiler = line_profiler.LineProfiler()

In [141]:
top_tweets_time = time_call(profiler, q1_time, file_path)
print(f"Resultado final: {top_tweets_time}")

=== Estadísticas de Line Profiler ===
Timer unit: 1e-09 s

Total time: 13.9729 s
File: /content/drive/MyDrive/tw-latam-test/src/q1_time.py
Function: q1_time at line 5

Line #      Hits         Time  Per Hit   % Time  Line Contents
     5                                           def q1_time(file_path: str) -> List[Tuple[datetime.date, str, int]]:
     6                                               # lee archivo usando pandas
     7         1        1e+10    1e+10     95.2      df = pd.read_json(file_path, lines=True)
     8                                               
     9                                               # asegura que la columna date esté en formato datetime
    10         1   72734661.0    7e+07      0.5      df['date'] = pd.to_datetime(df['date']).dt.date
    11                                               
    12                                               # extrae username de la columna user
    13         1  225901904.0    2e+08      1.6      df['username'] =

Ejecución de llamada top emojis - 10 mas usados

In [143]:
top_emojis_time = time_call(profiler, q2_time, file_path)
print(f"Resultado final: {top_emojis_time}")

=== Estadísticas de Line Profiler ===
Timer unit: 1e-09 s

Total time: 28.5891 s
File: /content/drive/MyDrive/tw-latam-test/src/q1_time.py
Function: q1_time at line 5

Line #      Hits         Time  Per Hit   % Time  Line Contents
     5                                           def q1_time(file_path: str) -> List[Tuple[datetime.date, str, int]]:
     6                                               # lee archivo usando pandas
     7         2        3e+10    1e+10     96.3      df = pd.read_json(file_path, lines=True)
     8                                               
     9                                               # asegura que la columna date esté en formato datetime
    10         2  112884894.0    6e+07      0.4      df['date'] = pd.to_datetime(df['date']).dt.date
    11                                               
    12                                               # extrae username de la columna user
    13         2  372956226.0    2e+08      1.3      df['username'] =

Ejecución de llamada de tweets con más reacciones

In [144]:
top_mentions_time = time_call(profiler, q3_time, file_path)
print(f"Resultado final: {top_mentions_time}")

=== Estadísticas de Line Profiler ===
Timer unit: 1e-09 s

Total time: 44.5508 s
File: /content/drive/MyDrive/tw-latam-test/src/q1_time.py
Function: q1_time at line 5

Line #      Hits         Time  Per Hit   % Time  Line Contents
     5                                           def q1_time(file_path: str) -> List[Tuple[datetime.date, str, int]]:
     6                                               # lee archivo usando pandas
     7         3        4e+10    1e+10     96.7      df = pd.read_json(file_path, lines=True)
     8                                               
     9                                               # asegura que la columna date esté en formato datetime
    10         3  152661894.0    5e+07      0.3      df['date'] = pd.to_datetime(df['date']).dt.date
    11                                               
    12                                               # extrae username de la columna user
    13         3  518090294.0    2e+08      1.2      df['username'] =

In [145]:
top_emojis_memory = memory_call(q1_memory, file_path)
print(f"Resultado final: {top_emojis_memory}")

=== Estadísticas de Memory Profiler ===
Uso máximo de memoria: 1496.52 MiB
Uso inicial de memoria: 1496.52 MiB
Uso final de memoria: 1496.52 MiB
=== Fin de las Estadísticas ===
⏱️ Tiempo de ejecución de memory_call: 0.4507 segundos
Resultado final: None


In [146]:
top_mentions_memory = memory_call(q2_memory, file_path)
print(f"Resultado final: {top_mentions_memory}")

=== Estadísticas de Memory Profiler ===
Uso máximo de memoria: 1496.52 MiB
Uso inicial de memoria: 1496.52 MiB
Uso final de memoria: 1496.52 MiB
=== Fin de las Estadísticas ===
⏱️ Tiempo de ejecución de memory_call: 0.4316 segundos
Resultado final: None


In [147]:
top_mentions_time = memory_call(q3_memory, file_path)
print(f"Resultado final: {top_mentions_time}")

=== Estadísticas de Memory Profiler ===
Uso máximo de memoria: 1493.57 MiB
Uso inicial de memoria: 1493.57 MiB
Uso final de memoria: 1493.57 MiB
=== Fin de las Estadísticas ===
⏱️ Tiempo de ejecución de memory_call: 0.6617 segundos
Resultado final: None
