En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [1]:
from time import time
import zipfile
import os

# Nombre del archivo Python
file_path = "farmers-protest-tweets-2021-2-4.json"

# Ruta del archivo ZIP
archivo_zip = 'tweets.json.zip'

# Validamos si el archivo se encuentra en el directorio

if os.path.exists(file_path):
    print("El archivo existe en el directorio.")
else:
    print("El archivo no existe en el directorio.")
    
    # Descomprimir el archivo ZIP en el mismo directorio
    with zipfile.ZipFile(archivo_zip, 'r') as zip_ref:
        zip_ref.extractall(os.path.dirname(archivo_zip))
    print("Archivo descomprimido con éxito.")


El archivo existe en el directorio.


# Q1 - TOP fechas - Memoria Optimizada: 

El siguiente código, entrega las 10 fechas donde hay más tweets y con su usuario que más cantidad de tweet realizó optimizando la memoria. 

A diferencia del código siguiente (Q1_TIME), este código lo que hace es procesar el archivo json línea por línea. Esto hace que no carguemos todo el archivo al mismo tiempo, consumiendo más memoria. Ademas, la práctica dice que pandas es una excelente forma de manejar grandes conjunto de datos, sin embargo, algunas operaciones consumen mucha memoria. Dado lo anterior, se procedió a utilizar la la clase defaultdict que permite contabilizar mientras el archivo se procesa línea por línea. Por último, se podía crear un bucle, pero la función heapq.nlargest permite hacer una busqueda de los valores más grandes de forma eficiente, ya que un bucle tendría que iterar varias veces sobre un mismo conjunto de datos. 

In [2]:
#Importamos la funcion de archivo python en el mismo directorio
from q1_memory import q1_memory

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q1_memory = q1_memory(file_path)

#Imprimimos
print(resultado_q1_memory)
print(f"Tiempo de ejecución: {time() - initial_time}")

Inicio del proceso
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecución: 3.8398187160491943


# Q1 - TOP fechas - Tiempo Optimizado:

El siguiente código, entrega las 10 fechas donde hay más tweets y con su usuario que más cantidad de tweet realizó optimizando el tiempo de ejecución.

La diferencia en tiempo con respecto al código anterior (optimizado por memoria) es mínima, sin embargo, la diferencia radica en el conteo de apariciones en los datos. En vez de usar defaultdict, utilizamos un diccionario anidado. Además, en el procesamiento del archivo se eliminaron redundancias dentro del bucle y se determinó que usando setdefault podiamos reducir levemente el tiempo de ejecución debido a su capacidad de busqueda y asignación en una única operación para un diccionario.

Realmente es dificil que pudieramos llegar a un tiempo mínimo drastico en comparación al anterior, debido a que la memoria y el tiempo son variables que la mayor parte de las veces mejoran directamente proporcional. 

In [3]:
#Importamos la funcion de archivo python en el mismo directorio
from q1_time import q1_time

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q1_time = q1_time(file_path)

#Imprimimos
print(resultado_q1_time)
print(f"Tiempo de ejecución: {time() - initial_time}")

Inicio del proceso
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecución: 3.8077526092529297


# Q2 - TOP Emojis - Memoria Optimizada: 

El siguiente código entrega los 10 emojis más utilizados junto con su conteo optimizando el uso de memoria. 

Fue un desafío bastante dificil por el hecho de utilizar la librería emoji. Según la documentación, se cambió la forma en obtener el listado de los emojis, lo que puede generar un problema según la versión de la librería que se esté utilizando. 

Para lograr el objetivo de optimizar la memoria, el código siguiente hace un conteo de los emojis mientras se lee cada línea del archivo utilizando un diccionario. Esto evita que se almacenen todos los emojis en una lista, lo que consumiría memoria adicional. 

Ademas, se utiliza el método most_common que resultó ser más eficiente en memoria para obtener los 10 emojis más utilizados. 

In [4]:
#Importamos la funcion de archivo python en el mismo directorio
from q2_memory import q2_memory

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q2_memory = q2_memory(file_path)

#Imprimimos
print(resultado_q2_memory)
print(f"Tiempo de ejecución: {time() - initial_time}")

Inicio del proceso
[('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🏻', 2080), ('❤', 1779), ('🤣', 1668), ('🏽', 1218), ('👇', 1108)]
Tiempo de ejecución: 4.530632972717285


# Q2 - TOP Emojis - Tiempo Optimizado: 

El siguiente código entrega los 10 emojis más utilizados junto con su conteo optimizando el tiempo de ejecución.

Según las pruebas que estuvimos realizando, se identificó que el tiempo de ejecución podría reducirse usando una expresión regular que reemplace el ciclo for para verificar si corresponde a un emoji, sin embargo, los resultados a diferencia del código anterior, eran algo distintos. La expresión regular es la siguiente "emoji_pattern = re.compile(r'[\U0001F300-\U0001F64F\U0001F680-\U0001F6FF\u2600-\u26FF\u2700-\u27BF]')".

Lo que hace dicha expresión es abarcar los rangos de códigos unicode asignados a los emojis, sin embargo, podemos ver que no considera un emoji en comparación con la salida anterior. Seguramente debe faltar algún rango en dicha expresión o se trata de un emoji especial.  

In [5]:
#Importamos la funcion de archivo python en el mismo directorio
from q2_time import q2_time

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q2_time = q2_time(file_path)

#Imprimimos
print(resultado_q2_time)
print(f"Tiempo de ejecución: {time() - initial_time}")

Inicio del proceso
[('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🏻', 2080), ('❤', 1779), ('🏽', 1218), ('👇', 1108), ('💚', 1040)]
Tiempo de ejecución: 3.7896575927734375
