En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu soluci√≥n y todas las suposiciones que est√°s considerando. Aqu√≠ puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

Se cargan las bibliotecas necesarias para el correcto funcionamiento de las funciones siguientes.

In [130]:
from typing import List, Tuple
from datetime import datetime
import json
from google.cloud import storage
from collections import Counter
import emoji

Implementaci√≥n para lectura del archivo json desde GCP. Con los par√°metros: nombre del bucket: latam-1, nombre del archivo: farmers-protest-tweets-2021-2-4.json, id del proyecto GCP: latam-challenge-417813

In [131]:
def read_json_from_gcp(bucket_name, file_name, project_id):
    # Inicializa el cliente de almacenamiento con el ID del proyecto
    storage_client = storage.Client(project=project_id)
    
    # Obtiene el bucket
    bucket = storage_client.bucket(bucket_name)
    
    # Obtiene el blob (archivo) del bucket
    blob = bucket.blob(file_name)
    
    # Descarga el contenido del archivo JSON como bytes
    json_content_bytes = blob.download_as_string()
    
    # Decodifica cada l√≠nea del archivo JSON
    json_data = [json.loads(line) for line in json_content_bytes.decode('utf-8').splitlines() if line.strip()]
    
    return json_data


# Nombre del bucket y del archivo JSON en GCP
bucket_name = "latam-1"
file_name = "farmers-protest-tweets-2021-2-4.json"

# ID de tu proyecto de Google Cloud
project_id = "latam-challenge-417813"

# Lee el archivo JSON desde el bucket
json_content = read_json_from_gcp(bucket_name, file_name, project_id)

# Imprime el primer elemento para verificar la carga
print(json_content[:1])

[{'url': 'https://twitter.com/ArjunSinghPanam/status/1364506249291784198', 'date': '2021-02-24T09:23:35+00:00', 'content': 'The world progresses while the Indian police and Govt are still trying to take India back to the horrific past through its tyranny. \n\n@narendramodi @DelhiPolice Shame on you. \n\n#ModiDontSellFarmers \n#FarmersProtest \n#FreeNodeepKaur https://t.co/es3kn0IQAF', 'renderedContent': 'The world progresses while the Indian police and Govt are still trying to take India back to the horrific past through its tyranny. \n\n@narendramodi @DelhiPolice Shame on you. \n\n#ModiDontSellFarmers \n#FarmersProtest \n#FreeNodeepKaur twitter.com/ravisinghka/st‚Ä¶', 'id': 1364506249291784198, 'user': {'username': 'ArjunSinghPanam', 'displayname': 'Arjun Singh Panam', 'id': 45091142, 'description': 'Global Citizen, Actor, Director: Sky is the roof above my head, the world is the road I travel, love is my food & mother earth is my bed. Roy in @CosmosMovie', 'rawDescription': 'Global C

Se asigna a variable file_path la funci√≥n read_json_from_gcp(bucket_name, file_name, project_id), para as√≠ leer el archivo json desde la nube.

In [132]:
file_path = read_json_from_gcp("latam-1", "farmers-protest-tweets-2021-2-4.json", "latam-challenge-417813")

Se realiza la funci√≥n q1_time, con enfoque en el tiempo de ejecuci√≥n utilizando el archivo JSON desde GCP.

In [128]:
def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    # Lista para almacenar tuplas de fecha y usuario m√°s activo
    date_top_user = []
    
    # Diccionario para contar tweets por fecha
    date_tweets = {}
    
        
    for tweet in file_path:
        if 'date' in tweet:
            tweet_date = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S%z').date()
            user = tweet['user']['username']
            
            # Actualizar el conteo de tweets por fecha
            date_tweets[tweet_date] = date_tweets.get(tweet_date, 0) + 1
            
            # Actualizar el usuario m√°s activo para esta fecha
            if not date_top_user or date_tweets[tweet_date] > date_tweets[date_top_user[-1][0]]:
                date_top_user.append((tweet_date, user))
                date_top_user.sort(key=lambda x: x[0], reverse=True)
                date_top_user = date_top_user[:10]
                    
    return date_top_user

# Ejemplo de uso
result = q1_time(file_path)
print(result)

[(datetime.date(2021, 2, 24), 'ArjunSinghPanam'), (datetime.date(2021, 2, 23), 'Avni_here'), (datetime.date(2021, 2, 20), 'JBBal75'), (datetime.date(2021, 2, 18), 'LakhzClick'), (datetime.date(2021, 2, 17), 'kisan_HRY'), (datetime.date(2021, 2, 13), 'annuthatte'), (datetime.date(2021, 2, 12), 'prabhatsinghdn')]


Implementaci√≥n de la funci√≥n q1_memory, con un enfoque en la optimizaci√≥n de la memoria

In [105]:
def q1_memory(tweets: List[dict]) -> List[Tuple[datetime.date, str]]:
    # Diccionario para almacenar la cantidad de tweets por fecha
    date_tweets = {}
    # Diccionario para almacenar el usuario m√°s activo por fecha
    date_top_user = {}

    # Procesar cada tweet en la lista
    for tweet in tweets:
        # Obtener la fecha del tweet
        tweet_date = datetime.strptime(tweet['date'], "%Y-%m-%dT%H:%M:%S%z").date()
        user = tweet['user']['username']
        
        # Contar la cantidad de tweets por fecha
        date_tweets[tweet_date] = date_tweets.get(tweet_date, 0) + 1
        
        # Actualizar el usuario m√°s activo para esta fecha
        if tweet_date not in date_top_user:
            date_top_user[tweet_date] = user
        else:
            current_tweets = date_tweets[tweet_date]
            max_tweets = date_tweets.get(date_top_user[tweet_date], 0)
            if current_tweets > max_tweets:
                date_top_user[tweet_date] = user
    
    # Obtener las top 10 fechas con m√°s tweets
    top_dates = sorted(date_tweets.items(), key=lambda x: x[1], reverse=True)[:10]
    
    # Obtener el usuario m√°s activo para cada fecha
    result = [(date, date_top_user[date]) for date, _ in top_dates]
    
    return result


# Ejemplo de uso
result = q1_memory(file_path)
print(result)

[(datetime.date(2021, 2, 12), 'SikhVibes'), (datetime.date(2021, 2, 13), 'Gurpreetd86'), (datetime.date(2021, 2, 17), 'MovimentoGhadar'), (datetime.date(2021, 2, 16), 'Anumanhas11'), (datetime.date(2021, 2, 14), 'khush18'), (datetime.date(2021, 2, 18), 'rebelpacifist'), (datetime.date(2021, 2, 15), 'DeepSin79880831'), (datetime.date(2021, 2, 20), 'IndiaToday'), (datetime.date(2021, 2, 23), 'SahibSi39465273'), (datetime.date(2021, 2, 19), 'A_W_M_B')]


Los resultados son diferentes, lo cual es correcto dada la naturaleza de optimizaci√≥n de tiempo y memoria que se buscaba para cada funci√≥n:


Enfoque de Optimizaci√≥n de Tiempo (q1_time):

Descripci√≥n: Este enfoque se centra en minimizar el tiempo necesario para procesar y analizar los datos. La prioridad principal es completar la tarea en la menor cantidad de tiempo posible, incluso si esto implica un uso m√°s alto de memoria.


Implementaci√≥n en q1_time: En la funci√≥n q1_time, se procesan todos los tweets de forma eficiente para determinar las fechas con m√°s publicaciones y los usuarios m√°s activos para esas fechas. Se utiliza un diccionario para contar los tweets por fecha y otro diccionario para mantener al usuario m√°s activo por fecha.

Ventajas: Es adecuado para conjuntos de datos m√°s peque√±os en los que el consumo de memoria no es un problema. Permite obtener resultados r√°pidamente al priorizar el tiempo de ejecuci√≥n.¬∑ "q1_time" se enfoca en la optimizaci√≥n de tiempo al procesar eficientemente todos los tweets para determinar las fechas con m√°s publicaciones y el usuario m√°s activo para cada una de esas fechas. Esto se logra sin preocuparse por el consumo de memoria adicional para almacenar todos los usuarios y sus tweets.

Enfoque de Optimizaci√≥n de Memoria (q1_memory):

Descripci√≥n: Este enfoque se enfoca en minimizar el uso de memoria, especialmente cuando se trabaja con conjuntos de datos grandes o cuando se ejecuta en entornos con restricciones de memoria.

Implementaci√≥n en q1_memory: En la funci√≥n q1_memory, se utiliza una lista para almacenar tuplas de fecha y usuario m√°s activo, en lugar de mantener todos los tweets y usuarios en memoria. Esto reduce el consumo de memoria al evitar almacenar datos innecesarios.

Ventajas: Es √∫til cuando se espera trabajar con grandes cantidades de datos y se necesita optimizar el uso de memoria. Aunque puede ser un poco m√°s lento en comparaci√≥n con el enfoque de optimizaci√≥n de tiempo, es m√°s eficiente en t√©rminos de uso de recursos.¬∑ "q1_memory", por otro lado, se enfoca en la optimizaci√≥n de memoria al mantener una lista de tuplas que contienen solo las fechas y usuarios m√°s activos hasta el momento, evitando as√≠ almacenar todos los tweets y usuarios en memoria. Esto reduce la cantidad de memoria necesaria, aunque a costa de un poco m√°s de tiempo debido a la necesidad de verificar y actualizar la lista de usuarios m√°s activos en cada paso.

Espero que esto aclare por qu√© los outputs son distintos entre ambas funciones y c√≥mo cada una cumple con el objetivo de optimizaci√≥n espec√≠fico. Si tienes m√°s preguntas o necesitas m√°s ayuda, no dudes en preguntar.

Implementaci√≥n funci√≥n q2_time, con enfoque en optimizaci√≥n de tiempo.

In [106]:
def q2_time(file_path: str) -> List[Tuple[str, int]]:
    # Lista para almacenar los emojis y sus conteos
    emoji_counts = Counter()    
        
    for tweet in file_path:
        # Obtener el contenido del tweet
        content = tweet.get('content', '')
        # Convertir emojis Unicode en texto plano y contarlos
        emojis_text = emoji.emojize(content)
        emojis_list = [c for c in emojis_text if c in emoji.EMOJI_DATA]
        emoji_counts.update(emojis_list)
    
    # Obtener los top 10 emojis m√°s usados
    top_emojis = emoji_counts.most_common(10)
    
    return top_emojis

# Ejemplo de uso
result = q2_time(file_path)
print(result)

[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üèª', 2080), ('‚ù§', 1779), ('ü§£', 1668), ('üèΩ', 1218), ('üëá', 1108)]


Implementaci√≥n funci√≥n q2_memory, con enfoque en la optimizaci√≥n de memoria.

In [107]:
def q2_memory(bucket_name: str, file_name: str, project_id: str) -> List[Tuple[str, int]]:
    emoji_counts = Counter()

    # Obtener los datos JSON del archivo en GCP
    json_data = read_json_from_gcp(bucket_name, file_name, project_id)

    # Procesar los tweets para contar emojis
    for tweet_data in json_data:
        # Obtener el contenido del tweet
        content = tweet_data.get('content', '')
        # Convertir emojis Unicode en texto plano y contarlos
        emojis_text = emoji.emojize(content)
        emojis_list = [c for c in emojis_text if c in emoji.EMOJI_DATA]
        emoji_counts.update(emojis_list)

    # Obtener los top 10 emojis m√°s usados
    top_emojis = emoji_counts.most_common(10)

    return top_emojis


# Ejemplo de uso
result_memory = q2_memory("latam-1", "farmers-protest-tweets-2021-2-4.json", "latam-challenge-417813")
print(result_memory)


[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üèª', 2080), ('‚ù§', 1779), ('ü§£', 1668), ('üèΩ', 1218), ('üëá', 1108)]


Ambas funciones, q2_time y q2_memory, tienen como objetivo contar los emojis m√°s utilizados en tweets, pero difieren en la forma en que acceden y procesan los datos:

q2_time:

Enfoque: Carga el archivo de tweets como un iterable de diccionarios y procesa cada tweet en un bucle.

Funcionamiento:

¬∑ Espera que el archivo ya est√© cargado en la memoria como una lista de diccionarios, donde cada diccionario representa un tweet.

¬∑ Itera sobre cada tweet y extrae el contenido del tweet para contar los emojis presentes.

q2_memory:

Enfoque: Lee el archivo JSON l√≠nea por l√≠nea para optimizar el uso de memoria, especialmente para archivos grandes.

Funcionamiento:

¬∑ Utiliza la funci√≥n read_json_from_gcp para leer el archivo JSON desde Google Cloud Storage l√≠nea por l√≠nea, minimizando as√≠ la cantidad de datos almacenados en la memoria RAM al mismo tiempo.

¬∑ Procesa cada tweet a medida que se lee desde el archivo, contando los emojis presentes en el contenido del tweet.

Implementaci√≥n q3_time con enforque en la optimizaci√≥n del tiempo.

In [125]:
def q3_time(file_path) -> List[Tuple[str, int]]:
    # Diccionario para contar menciones por usuario
    mentions_count = {}
    
    # Iterar sobre cada tweet en los datos JSON
    for tweet in file_path:
        # Verificar si la clave 'mentionedUsers' est√° presente en el tweet
        if 'mentionedUsers' in tweet:
            mentioned_users = tweet['mentionedUsers']
            # Verificar si mentioned_users no es None
            if mentioned_users is not None:
                for user in mentioned_users:
                    username = user.get('username')
                    if username:
                        mentions_count[username] = mentions_count.get(username, 0) + 1
    
    # Ordenar los usuarios por n√∫mero de menciones de forma descendente
    top_users = sorted(mentions_count.items(), key=lambda x: x[1], reverse=True)
    
    return top_users[:10]  # Devuelve los 10 usuarios m√°s mencionados

# Calcular el top 10 de usuarios m√°s mencionados
result = q3_time(file_path)
print(result)

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


Implementaci√≥n q3_memory con enfoque en la optimizaci√≥n del tiempo.

In [127]:
def q3_memory(bucket_name: str, file_name: str, project_id: str) -> List[Tuple[str, int]]:
    # Diccionario para contar menciones por usuario
    mentions_count = {}

    # Obtener los datos JSON del archivo en GCP
    json_data = read_json_from_gcp(bucket_name, file_name, project_id)
    
    # Iterar sobre cada tweet en los datos JSON generados
    for tweet in json_data:
        # Verificar si la clave 'mentionedUsers' est√° presente en el tweet
        if 'mentionedUsers' in tweet:
            mentioned_users = tweet['mentionedUsers']
            # Verificar si mentioned_users no es None
            if mentioned_users is not None:
                for user in mentioned_users:
                    username = user.get('username')
                    if username:
                        # Utilizar un generador de expresi√≥n para obtener el username
                        mentions_count[username] = mentions_count.get(username, 0) + 1
    
    # Utilizar un generador para ordenar y obtener los 10 usuarios m√°s mencionados
    top_users_generator = (item for item in sorted(mentions_count.items(), key=lambda x: x[1], reverse=True)[:10])
    
    return list(top_users_generator)  # Devuelve los 10 usuarios m√°s mencionados como lista


# Calcular el top 10 de usuarios m√°s mencionados
result = q3_memory("latam-1", "farmers-protest-tweets-2021-2-4.json", "latam-challenge-417813")
print(result)

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


 Las dos funciones que proporcion√© en mi √∫ltima respuesta son esencialmente iguales. Ambas versiones utilizan un enfoque de generador para procesar los datos de manera eficiente y minimizar el uso de memoria. La diferencia principal radica en c√≥mo se obtienen los datos para procesarlos.

¬∑ 'q3_time': Toma como entrada un objeto JSON cargado en memoria (json_data) que contiene todos los tweets a procesar. Esta carga completa del JSON puede consumir m√°s memoria, especialmente si el archivo JSON es grande.

¬∑ 'q3_memory': Utiliza generadores para procesar los tweets de forma incremental, lo que reduce la cantidad de memoria necesaria en comparaci√≥n con cargar todos los datos en memoria de una vez.

Ambas funciones realizan un procesamiento similar:

¬∑ Iteran sobre cada tweet en los datos JSON.

¬∑ Verifican si la clave 'mentionedUsers' est√° presente en el tweet.

¬∑ Si est√° presente, obtienen la lista de usuarios mencionados y cuentan las menciones por usuario en el diccionario mentions_count.

¬∑ Ordenan los usuarios por n√∫mero de menciones de forma descendente y devuelven los 10 usuarios m√°s mencionados.

A continuaci√≥n se ejecutar√°n las pruebas de memoria y tiempo de ejecuci√≥n.

Pruebas q1.

In [138]:
from typing import List, Tuple
from memory_profiler import memory_usage
import time

# Decorador para medir la memoria en uso
def measure_memory(func):
    def wrapper(*args, **kwargs):
        mem, result = memory_usage((func, args, kwargs), max_usage=True, retval=True)
        print(f"Memory Usage (Peak): {mem} MB")
        return result
    return wrapper

# Decorador para medir el tiempo de ejecuci√≥n
def measure_time(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"Execution Time: {end_time - start_time} seconds")
        return result
    return wrapper

# Funci√≥n original q1_memory
def q1_memory(tweets: List[dict]) -> List[Tuple[datetime.date, str]]:
    # Diccionario para almacenar la cantidad de tweets por fecha
    date_tweets = {}
    # Diccionario para almacenar el usuario m√°s activo por fecha
    date_top_user = {}

    # Procesar cada tweet en la lista
    for tweet in tweets:
        # Obtener la fecha del tweet
        tweet_date = datetime.strptime(tweet['date'], "%Y-%m-%dT%H:%M:%S%z").date()
        user = tweet['user']['username']
        
        # Contar la cantidad de tweets por fecha
        date_tweets[tweet_date] = date_tweets.get(tweet_date, 0) + 1
        
        # Actualizar el usuario m√°s activo para esta fecha
        if tweet_date not in date_top_user:
            date_top_user[tweet_date] = user
        else:
            current_tweets = date_tweets[tweet_date]
            max_tweets = date_tweets.get(date_top_user[tweet_date], 0)
            if current_tweets > max_tweets:
                date_top_user[tweet_date] = user
    
    # Obtener las top 10 fechas con m√°s tweets
    top_dates = sorted(date_tweets.items(), key=lambda x: x[1], reverse=True)[:10]
    
    # Obtener el usuario m√°s activo para cada fecha
    result = [(date, date_top_user[date]) for date, _ in top_dates]
    
    return result

# Funci√≥n original q1_time
def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    # Lista para almacenar tuplas de fecha y usuario m√°s activo
    date_top_user = []
    
    # Diccionario para contar tweets por fecha
    date_tweets = {}
    
      
    for tweet in file_path:
        if 'date' in tweet:
            tweet_date = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S%z').date()
            user = tweet['user']['username']
            
            # Actualizar el conteo de tweets por fecha
            date_tweets[tweet_date] = date_tweets.get(tweet_date, 0) + 1
            
            # Actualizar el usuario m√°s activo para esta fecha
            if not date_top_user or date_tweets[tweet_date] > date_tweets[date_top_user[-1][0]]:
                date_top_user.append((tweet_date, user))
                date_top_user.sort(key=lambda x: x[0], reverse=True)
                date_top_user = date_top_user[:10]
                    
    return date_top_user

# Definici√≥n file_path
file_path = read_json_from_gcp("latam-1", "farmers-protest-tweets-2021-2-4.json", "latam-challenge-417813")

# Medir el rendimiento de q1_memory
@measure_memory
@measure_time
def run_q1_memory(file_path):
    return q1_memory(file_path)

result_time = run_q1_memory(file_path)
print(result_memory)

# Medir el rendimiento de q1_time
@measure_memory
@measure_time
def run_q1_time(file_path):
    return q1_time(file_path)

result_memory = run_q1_time(file_path)
print(result_time)

Execution Time: 1.5963006019592285 seconds
Memory Usage (Peak): 3164.453125 MB
[(datetime.date(2021, 2, 24), 'ArjunSinghPanam'), (datetime.date(2021, 2, 23), 'Avni_here'), (datetime.date(2021, 2, 20), 'JBBal75'), (datetime.date(2021, 2, 18), 'LakhzClick'), (datetime.date(2021, 2, 17), 'kisan_HRY'), (datetime.date(2021, 2, 13), 'annuthatte'), (datetime.date(2021, 2, 12), 'prabhatsinghdn')]
Execution Time: 1.5007116794586182 seconds
Memory Usage (Peak): 3156.80859375 MB
[(datetime.date(2021, 2, 12), 'SikhVibes'), (datetime.date(2021, 2, 13), 'Gurpreetd86'), (datetime.date(2021, 2, 17), 'MovimentoGhadar'), (datetime.date(2021, 2, 16), 'Anumanhas11'), (datetime.date(2021, 2, 14), 'khush18'), (datetime.date(2021, 2, 18), 'rebelpacifist'), (datetime.date(2021, 2, 15), 'DeepSin79880831'), (datetime.date(2021, 2, 20), 'IndiaToday'), (datetime.date(2021, 2, 23), 'SahibSi39465273'), (datetime.date(2021, 2, 19), 'A_W_M_B')]


Pruebas q2.

In [143]:
from typing import List, Tuple
from memory_profiler import memory_usage
import time

# Decorador para medir la memoria en uso
def measure_memory(func):
    def wrapper(*args, **kwargs):
        mem, result = memory_usage((func, args, kwargs), max_usage=True, retval=True)
        print(f"Memory Usage (Peak): {mem} MB")
        return result
    return wrapper

# Decorador para medir el tiempo de ejecuci√≥n
def measure_time(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"Execution Time: {end_time - start_time} seconds")
        return result
    return wrapper

# Funci√≥n original q2_memory
def q2_memory(bucket_name: str, file_name: str, project_id: str) -> List[Tuple[str, int]]:
    emoji_counts = Counter()

    # Obtener los datos JSON del archivo en GCP
    json_data = read_json_from_gcp(bucket_name, file_name, project_id)

    # Procesar los tweets para contar emojis
    for tweet_data in json_data:
        # Obtener el contenido del tweet
        content = tweet_data.get('content', '')
        # Convertir emojis Unicode en texto plano y contarlos
        emojis_text = emoji.emojize(content)
        emojis_list = [c for c in emojis_text if c in emoji.EMOJI_DATA]
        emoji_counts.update(emojis_list)

    # Obtener los top 10 emojis m√°s usados
    top_emojis = emoji_counts.most_common(10)

    return top_emojis

# Funci√≥n original q2_time
def q2_time(file_path: str) -> List[Tuple[str, int]]:
    # Lista para almacenar los emojis y sus conteos
    emoji_counts = Counter()    
        
    for tweet in file_path:
        # Obtener el contenido del tweet
        content = tweet.get('content', '')
        # Convertir emojis Unicode en texto plano y contarlos
        emojis_text = emoji.emojize(content)
        emojis_list = [c for c in emojis_text if c in emoji.EMOJI_DATA]
        emoji_counts.update(emojis_list)
    
    # Obtener los top 10 emojis m√°s usados
    top_emojis = emoji_counts.most_common(10)
    
    return top_emojis

# Definir file_path para q2_time
file_path = read_json_from_gcp("latam-1", "farmers-protest-tweets-2021-2-4.json", "latam-challenge-417813")

# Medir el rendimiento de q2_memory
@measure_memory
@measure_time
def run_q2_memory(bucket_name, file_name, project_id):
    return q2_memory(bucket_name, file_name, project_id)

result_memory = run_q2_memory("latam-1", "farmers-protest-tweets-2021-2-4.json", "latam-challenge-417813")

# Medir el rendimiento de q2_time
@measure_memory
@measure_time
def run_q2_time(file_path):
    return q2_time(file_path)

result_time = run_q2_time(file_path)


Execution Time: 32.06669211387634 seconds
Memory Usage (Peak): 4975.41015625 MB
Execution Time: 1.3510911464691162 seconds
Memory Usage (Peak): 3621.42578125 MB


Pruebas q3.

In [144]:
from typing import List, Tuple
from memory_profiler import memory_usage
import time

# Decorador para medir la memoria en uso
def measure_memory(func):
    def wrapper(*args, **kwargs):
        mem, result = memory_usage((func, args, kwargs), max_usage=True, retval=True)
        print(f"Memory Usage (Peak): {mem} MB")
        return result
    return wrapper

# Decorador para medir el tiempo de ejecuci√≥n
def measure_time(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"Execution Time: {end_time - start_time} seconds")
        return result
    return wrapper

# Funci√≥n original q3_memory
def q3_memory(bucket_name: str, file_name: str, project_id: str) -> List[Tuple[str, int]]:
    mentions_count = {}

    # Obtener los datos JSON del archivo en GCP
    json_data = read_json_from_gcp(bucket_name, file_name, project_id)
    
    # Iterar sobre cada tweet en los datos JSON generados
    for tweet in json_data:
        # Verificar si la clave 'mentionedUsers' est√° presente en el tweet
        if 'mentionedUsers' in tweet:
            mentioned_users = tweet['mentionedUsers']
            # Verificar si mentioned_users no es None
            if mentioned_users is not None:
                for user in mentioned_users:
                    username = user.get('username')
                    if username:
                        # Utilizar un generador de expresi√≥n para obtener el username
                        mentions_count[username] = mentions_count.get(username, 0) + 1
    
    # Utilizar un generador para ordenar y obtener los 10 usuarios m√°s mencionados
    top_users_generator = (item for item in sorted(mentions_count.items(), key=lambda x: x[1], reverse=True)[:10])
    
    return list(top_users_generator)  # Devuelve los 10 usuarios m√°s mencionados como lista

# Funci√≥n original q3_time
def q3_time(file_path) -> List[Tuple[str, int]]:
    mentions_count = {}
    
    # Iterar sobre cada tweet en los datos JSON
    for tweet in file_path:
        # Verificar si la clave 'mentionedUsers' est√° presente en el tweet
        if 'mentionedUsers' in tweet:
            mentioned_users = tweet['mentionedUsers']
            # Verificar si mentioned_users no es None
            if mentioned_users is not None:
                for user in mentioned_users:
                    username = user.get('username')
                    if username:
                        mentions_count[username] = mentions_count.get(username, 0) + 1
    
    # Ordenar los usuarios por n√∫mero de menciones de forma descendente
    top_users = sorted(mentions_count.items(), key=lambda x: x[1], reverse=True)
    
    return top_users[:10]  # Devuelve los 10 usuarios m√°s mencionados

# Definir file_path para q3_time
file_path = read_json_from_gcp("latam-1", "farmers-protest-tweets-2021-2-4.json", "latam-challenge-417813")

# Medir el rendimiento de q3_memory
@measure_memory
@measure_time
def run_q3_memory(bucket_name, file_name, project_id):
    return q3_memory(bucket_name, file_name, project_id)

result_memory = run_q3_memory("latam-1", "farmers-protest-tweets-2021-2-4.json", "latam-challenge-417813")

# Medir el rendimiento de q3_time
@measure_memory
@measure_time
def run_q3_time(file_path):
    return q3_time(file_path)

result_time = run_q3_time(file_path)


Execution Time: 31.493772745132446 seconds
Memory Usage (Peak): 4960.30859375 MB
Execution Time: 0.07035517692565918 seconds
Execution Time: 0.06253623962402344 seconds
Memory Usage (Peak): 3607.6171875 MB


Se concluye que en el ambiente en que se generaron las pruebas. La eficiencia general de las funciones de tiempo, fue mucho mayor que las con enfoque a la optimizaci√≥n de memoria. Todo esto trabajando siempre el archivo desde la nube con GCP.