En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [1]:
from time import time
import zipfile
import os

# Nombre del archivo Python
file_path = "farmers-protest-tweets-2021-2-4.json"

# Ruta del archivo ZIP
archivo_zip = 'tweets.json.zip'

# Validamos si el archivo se encuentra en el directorio

if os.path.exists(file_path):
    print("El archivo existe en el directorio.")
else:
    print("El archivo no existe en el directorio.")
    
    # Descomprimir el archivo ZIP en el mismo directorio
    with zipfile.ZipFile(archivo_zip, 'r') as zip_ref:
        zip_ref.extractall(os.path.dirname(archivo_zip))
    print("Archivo descomprimido con éxito.")


El archivo existe en el directorio.


Q1 Memoria Optimizada: El siguiente código, entrega las 10 fechas donde hay más tweets y con su usuario que más cantidad de tweet realizó optimizando la memoria. 

A diferencia del código siguiente (Q1_TIME), este código lo que hace es procesar el archivo json línea por línea. Esto hace que no carguemos todo el archivo al mismo tiempo, consumiendo más memoria. Ademas, la práctica dice que pandas es una excelente forma de manejar grandes conjunto de datos, sin embargo, algunas operaciones consumen mucha memoria. Dado lo anterior, se procedió a utilizar la la clase defaultdict que permite contabilizar mientras el archivo se procesa línea por línea. Por último, se podía crear un bucle, pero la función heapq.nlargest permite hacer una busqueda de los valores más grandes de forma eficiente, ya que un bucle tendría que iterar varias veces sobre un mismo conjunto de datos. 

In [2]:
#Importamos la funcion de archivo python en el mismo directorio
from q1_memory import q1_memory

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q1_memory = q1_memory(file_path)

#Imprimimos
print(resultado_q1_memory)
print(f"Tiempo de ejecución: {time() - initial_time}")

Inicio del proceso
[('2021-02-12', 'RanbirS00614606'), ('2021-02-13', 'MaanDee08215437'), ('2021-02-17', 'RaaJVinderkaur'), ('2021-02-16', 'jot__b'), ('2021-02-14', 'rebelpacifist'), ('2021-02-18', 'neetuanjle_nitu'), ('2021-02-15', 'jot__b'), ('2021-02-20', 'MangalJ23056160'), ('2021-02-23', 'Surrypuria'), ('2021-02-19', 'Preetm91')]
Tiempo de ejecución: 3.7404837608337402


Q1 Tiempo Optimizado: El siguiente código, entrega las 10 fechas donde hay más tweets y con su usuario que más cantidad de tweet realizó optimizando el tiempo de ejecución.

La diferencia en tiempo con respecto al código anterior (optimizado por memoria) es mínima, sin embargo, la diferencia radica en el conteo de apariciones en los datos. En vez de usar defaultdict, utilizamos un diccionario anidado. Además, en el procesamiento del archivo se eliminaron redundancias dentro del bucle y se determinó que usando setdefault podiamos reducir levemente el tiempo de ejecución debido a su capacidad de busqueda y asignación en una única operación para un diccionario.

Realmente es dificil que pudieramos llegar a un tiempo mínimo drastico en comparación al anterior, debido a que la memoria y el tiempo son variables que la mayor parte de las veces mejoran directamente proporcional. 

In [3]:
#Importamos la funcion de archivo python en el mismo directorio
from q1_time import q1_time

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q1_time = q1_time(file_path)

#Imprimimos
print(resultado_q1_time)
print(f"Tiempo de ejecución: {time() - initial_time}")

Inicio del proceso
[('2021-02-12', 'RanbirS00614606'), ('2021-02-13', 'MaanDee08215437'), ('2021-02-17', 'RaaJVinderkaur'), ('2021-02-16', 'jot__b'), ('2021-02-14', 'rebelpacifist'), ('2021-02-18', 'neetuanjle_nitu'), ('2021-02-15', 'jot__b'), ('2021-02-20', 'MangalJ23056160'), ('2021-02-23', 'Surrypuria'), ('2021-02-19', 'Preetm91')]
Tiempo de ejecución: 3.683811664581299
