En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu soluci√≥n y todas las suposiciones que est√°s considerando. Aqu√≠ puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [1]:
from time import time
import zipfile
import os

# Nombre del archivo Python
file_path = "farmers-protest-tweets-2021-2-4.json"

# Ruta del archivo ZIP
archivo_zip = 'tweets.json.zip'

# Validamos si el archivo se encuentra en el directorio

if os.path.exists(file_path):
    print("El archivo existe en el directorio.")
else:
    print("El archivo no existe en el directorio.")
    
    # Descomprimir el archivo ZIP en el mismo directorio
    with zipfile.ZipFile(archivo_zip, 'r') as zip_ref:
        zip_ref.extractall(os.path.dirname(archivo_zip))
    print("Archivo descomprimido con √©xito.")


El archivo existe en el directorio.


# Q1 - TOP fechas - Memoria Optimizada: 

El siguiente c√≥digo, entrega las 10 fechas donde hay m√°s tweets y con su usuario que m√°s cantidad de tweet realiz√≥ optimizando la memoria. 

A diferencia del c√≥digo siguiente (Q1_TIME), este c√≥digo lo que hace es procesar el archivo json l√≠nea por l√≠nea. Esto hace que no carguemos todo el archivo al mismo tiempo, consumiendo m√°s memoria. Ademas, la pr√°ctica dice que pandas es una excelente forma de manejar grandes conjunto de datos, sin embargo, algunas operaciones consumen mucha memoria. Dado lo anterior, se procedi√≥ a utilizar la la clase defaultdict que permite contabilizar mientras el archivo se procesa l√≠nea por l√≠nea. Por √∫ltimo, se pod√≠a crear un bucle, pero la funci√≥n heapq.nlargest permite hacer una busqueda de los valores m√°s grandes de forma eficiente, ya que un bucle tendr√≠a que iterar varias veces sobre un mismo conjunto de datos. 

In [2]:
#Importamos la funcion de archivo python en el mismo directorio
from q1_memory import q1_memory

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q1_memory = q1_memory(file_path)

#Imprimimos
print(resultado_q1_memory)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecuci√≥n: 3.8398187160491943


# Q1 - TOP fechas - Tiempo Optimizado:

El siguiente c√≥digo, entrega las 10 fechas donde hay m√°s tweets y con su usuario que m√°s cantidad de tweet realiz√≥ optimizando el tiempo de ejecuci√≥n.

La diferencia en tiempo con respecto al c√≥digo anterior (optimizado por memoria) es m√≠nima, sin embargo, la diferencia radica en el conteo de apariciones en los datos. En vez de usar defaultdict, utilizamos un diccionario anidado. Adem√°s, en el procesamiento del archivo se eliminaron redundancias dentro del bucle y se determin√≥ que usando setdefault podiamos reducir levemente el tiempo de ejecuci√≥n debido a su capacidad de busqueda y asignaci√≥n en una √∫nica operaci√≥n para un diccionario.

Realmente es dificil que pudieramos llegar a un tiempo m√≠nimo drastico en comparaci√≥n al anterior, debido a que la memoria y el tiempo son variables que la mayor parte de las veces mejoran directamente proporcional. 

In [3]:
#Importamos la funcion de archivo python en el mismo directorio
from q1_time import q1_time

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q1_time = q1_time(file_path)

#Imprimimos
print(resultado_q1_time)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecuci√≥n: 3.8077526092529297


# Q2 - TOP Emojis - Memoria Optimizada: 

El siguiente c√≥digo entrega los 10 emojis m√°s utilizados junto con su conteo optimizando el uso de memoria. 

Fue un desaf√≠o bastante dificil por el hecho de utilizar la librer√≠a emoji. Seg√∫n la documentaci√≥n, se cambi√≥ la forma en obtener el listado de los emojis, lo que puede generar un problema seg√∫n la versi√≥n de la librer√≠a que se est√© utilizando. 

Para lograr el objetivo de optimizar la memoria, el c√≥digo siguiente hace un conteo de los emojis mientras se lee cada l√≠nea del archivo utilizando un diccionario. Esto evita que se almacenen todos los emojis en una lista, lo que consumir√≠a memoria adicional. 

Ademas, se utiliza el m√©todo most_common que result√≥ ser m√°s eficiente en memoria para obtener los 10 emojis m√°s utilizados. 

In [4]:
#Importamos la funcion de archivo python en el mismo directorio
from q2_memory import q2_memory

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q2_memory = q2_memory(file_path)

#Imprimimos
print(resultado_q2_memory)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üèª', 2080), ('‚ù§', 1779), ('ü§£', 1668), ('üèΩ', 1218), ('üëá', 1108)]
Tiempo de ejecuci√≥n: 4.530632972717285


# Q2 - TOP Emojis - Tiempo Optimizado: 

El siguiente c√≥digo entrega los 10 emojis m√°s utilizados junto con su conteo optimizando el tiempo de ejecuci√≥n.

Seg√∫n las pruebas que estuvimos realizando, se identific√≥ que el tiempo de ejecuci√≥n podr√≠a reducirse usando una expresi√≥n regular que reemplace el ciclo for para verificar si corresponde a un emoji, sin embargo, los resultados a diferencia del c√≥digo anterior, eran algo distintos. La expresi√≥n regular es la siguiente "emoji_pattern = re.compile(r'[\U0001F300-\U0001F64F\U0001F680-\U0001F6FF\u2600-\u26FF\u2700-\u27BF]')".

Lo que hace dicha expresi√≥n es abarcar los rangos de c√≥digos unicode asignados a los emojis, sin embargo, podemos ver que no considera un emoji en comparaci√≥n con la salida anterior. Seguramente debe faltar alg√∫n rango en dicha expresi√≥n o se trata de un emoji especial.  

In [5]:
#Importamos la funcion de archivo python en el mismo directorio
from q2_time import q2_time

#Inicio del marcador para medir tiempo
initial_time = time()

#Guardamos el resultado
resultado_q2_time = q2_time(file_path)

#Imprimimos
print(resultado_q2_time)
print(f"Tiempo de ejecuci√≥n: {time() - initial_time}")

Inicio del proceso
[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üèª', 2080), ('‚ù§', 1779), ('üèΩ', 1218), ('üëá', 1108), ('üíö', 1040)]
Tiempo de ejecuci√≥n: 3.7896575927734375
