Cargamos librerias y ruta en donde esta el archivo que necesitamos analizar

In [None]:
import zipfile #interactuar con archivos comprimidos
import json #interactuar con json
from typing import List, Tuple #resultados en listas o tuplas
from collections import Counter #contar ocurrencias
from datetime import datetime #trabajar con fechas
import pandas as pd #interactuar con la data
import emoji #interactuar con los emojis
from memory_profiler import profile #revisar consumo de memoria
import time #trabajar con tiempo
import cProfile #revisar consumo de tiempo

file_path = r"C:\Users\bastian\Downloads\tweets.json.zip"

# Ejercicio 1:  Las top 10 fechas donde hay más tweets. Mencionar el usuario que más publicaciones tiene por cada uno de esos días.

In [2]:
# =============================================================================
# Ejercicio 1: Función enfocada al tiempo
# =============================================================================

def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    start_time = time.time()  # Iniciar la medición de tiempo
    # Lista para almacenar los datos JSON
    data = []

    # Abre el archivo ZIP
    with zipfile.ZipFile(file_path, 'r') as zip_file:
        with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
            data = [json.loads(line.decode('utf-8')) for line in json_file]    

    
    # Convierte la lista de datos en un DataFrame de Pandas
    df = pd.DataFrame(data)
    
    # Agrupar por fecha y contar el número de tweets por fecha y usuario
    df['date'] = pd.to_datetime(df['date'])
    df['username'] = df['user'].apply(lambda x: x['username'])
    grouped = df.groupby([df['date'].dt.date, 'username']).size().reset_index(name='count')
    
    # Obtener las 10 fechas con más tweets
    top_dates = grouped.groupby('date')['count'].sum().nlargest(10).index
    
    # Obtener el usuario con más publicaciones para cada fecha
    result = []
    for date in top_dates:
        top_user = grouped[grouped['date'] == date].nlargest(1, 'count')
        result.append((date, top_user['username'].values[0]))

    end_time = time.time()  # Finalizar la medición de tiempo
    print(f"Tiempo de ejecución: {end_time - start_time} segundos")

    return result


In [3]:
# =============================================================================
# Resultados: Ejercicio 1 (tiempo)
# =============================================================================
if __name__ == "__main__":
    profiler = cProfile.Profile()
    result = profiler.runcall(q1_time, file_path)
    print(result)
    print("\n")
    profiler.print_stats()

Tiempo de ejecución: 13.558779001235962 segundos
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


         6861266 function calls (6860478 primitive calls) in 13.559 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.198    0.198   12.145   12.145 1746901351.py:13(<listcomp>)
   117407    0.030    0.000    0.030    0.000 1746901351.py:21(<lambda>)
        1    0.031    0.031   13.559   13.559 1746901351.py:5(q1_time)
        1    0.000    0.000    0.000    0.000 <__array_function__ internals>:177(all)
       

In [6]:
# =============================================================================
# Cargamos el modulo donde ejecutaremos las funciones de memoria
# =============================================================================
import modulo_funciones_latam #modulo creado para obtener los output de memoria

# =============================================================================
# Ejercicio 1: Función enfocada a la memoria
# =============================================================================

@profile
def q1_memory(file_path: str) -> List[Tuple[str, int]]:
    # Lista para almacenar los datos JSON
    data = []

    # Abre el archivo ZIP
    with zipfile.ZipFile(file_path, 'r') as zip_file:
        with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
            data = [json.loads(line.decode('utf-8')) for line in json_file]    

    
    # Convierte la lista de datos en un DataFrame de Pandas
    df = pd.DataFrame(data)  
    
    # Agrupar por fecha y contar el número de tweets por fecha y usuario
    df['date'] = pd.to_datetime(df['date'])
    df['username'] = df['user'].apply(lambda x: x['username'])
    grouped = df.groupby([df['date'].dt.date, 'username']).size().reset_index(name='count')
    
    # Obtener las 10 fechas con más tweets
    top_dates = grouped.groupby('date')['count'].sum().nlargest(10).index
    
    # Obtener el usuario con más publicaciones para cada fecha
    result = []
    for date in top_dates:
        top_user = grouped[grouped['date'] == date].nlargest(1, 'count')
        result.append((date, top_user['username'].values[0]))
    return result

In [6]:
# =============================================================================
# Resultados: Ejercicio 1 (memoria)
# =============================================================================
modulo_funciones_latam.q1_memory(file_path)

Filename: C:\Users\bastian\modulo_funciones_latam.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    17    167.6 MiB    167.6 MiB           1   @profile
    18                                         def q1_memory(file_path: str) -> List[Tuple[str, int]]:
    19                                             # Lista para almacenar los datos JSON
    20    167.6 MiB      0.0 MiB           1       data = []
    21                                         
    22                                             # Abre el archivo ZIP
    23   1171.9 MiB      0.0 MiB           2       with zipfile.ZipFile(file_path, 'r') as zip_file:
    24   1171.9 MiB      0.0 MiB           2           with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
    25   1171.9 MiB   1003.4 MiB      117410               data = [json.loads(line.decode('utf-8')) for line in json_file]    
    26                                         
    27                                            

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

# Ejercicio 2: Los top 10 emojis más usados con su respectivo conteo.

In [7]:
# =============================================================================
# Ejercicio 2: Función enfocada a extraer los emojis
# =============================================================================

def extract_emojis(text):
    emojis = set()
    for c in text:
        if c in emoji.EMOJI_DATA:
            emojis.add(c)
    return ''.join(emojis)


In [8]:
# =============================================================================
# Ejercicio 2: Función enfocada al tiempo
# =============================================================================

def q2_time(file_path: str) -> List[Tuple[str, int]]:
    # Lista para almacenar los emojis
    
    start_time = time.time()  # Iniciar la medición de tiempo
    emoji_counts = Counter()
    
    # Abre el archivo ZIP
    with zipfile.ZipFile(file_path, 'r') as zip_file:
        with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
            for line in json_file:
                tweet = json.loads(line.decode('utf-8'))
                tweet_text = tweet.get('content', '')
                emojis = extract_emojis(tweet_text)
                emoji_counts.update(emojis)
    
    # Obtener los 10 emojis más usados
    top_emojis = emoji_counts.most_common(10)
    end_time = time.time()  # Finalizar la medición de tiempo
    print(f"Tiempo de ejecución: {end_time - start_time} segundos")

    return top_emojis

In [9]:
# =============================================================================
# Resultados: Ejercicio 2 (tiempo)
# =============================================================================
if __name__ == "__main__":
    profiler = cProfile.Profile()
    result = profiler.runcall(q2_time, file_path)
    print(result)
    print("\n")
    profiler.print_stats()

Tiempo de ejecución: 11.879782915115356 segundos
[('🙏', 4529), ('✊', 1724), ('❤', 1471), ('😂', 1387), ('🌾', 1377), ('🚜', 1334), ('🏻', 1010), ('🏽', 938), ('🤣', 759), ('👇', 712)]


         7340558 function calls in 11.880 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
   117407    2.093    0.000    2.153    0.000 1120884137.py:5(extract_emojis)
        1    0.561    0.561   11.880   11.880 2312491106.py:5(q2_time)
   117408    0.045    0.000    0.097    0.000 <frozen abc>:117(__instancecheck__)
   117407    0.159    0.000    3.796    0.000 __init__.py:299(loads)
        1    0.000    0.000    0.000    0.000 __init__.py:585(__init__)
        1    0.000    0.000    0.000    0.000 __init__.py:608(most_common)
   117408    0.093    0.000    0.297    0.000 __init__.py:658(update)
        2    0.000    0.000    0.000    0.000 cp437.py:14(decode)
   117407    0.244    0.000    3.581    0.000 decoder.py:332(decode)
   117407    3.1

In [10]:
# =============================================================================
# Ejercicio 2: Función enfocada a la memoria
# =============================================================================

@profile
def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    # Diccionario para almacenar los emojis y sus conteos
    start_time = time.time()  # Iniciar la medición de tiempo
    emoji_counts = Counter()

    # Abre el archivo ZIP
    with zipfile.ZipFile(file_path, 'r') as zip_file:
        with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
            for line in json_file:
                tweet = json.loads(line.decode('utf-8'))
                tweet_text = tweet.get('content', '')
                emojis = extract_emojis(tweet_text)
                emoji_counts.update(emojis)
    
    # Obtener los 10 emojis más usados
    top_emojis = emoji_counts.most_common(10)
    end_time = time.time()  # Finalizar la medición de tiempo
    print(f"Tiempo de ejecución: {end_time - start_time} segundos")
    
    return top_emojis

In [11]:
# =============================================================================
# Resultados: Ejercicio 2 (memoria)
# =============================================================================
modulo_funciones_latam.q2_memory(file_path)

Tiempo de ejecución: 44.570900440216064 segundos
Filename: C:\Users\bastian\modulo_funciones_latam.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    61    181.2 MiB    181.2 MiB           1   @profile
    62                                         def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    63                                             # Diccionario para almacenar los emojis y sus conteos
    64    181.2 MiB      0.0 MiB           1       start_time = time.time()  # Iniciar la medición de tiempo
    65    181.2 MiB      0.0 MiB           1       emoji_counts = Counter()
    66                                         
    67                                             # Abre el archivo ZIP
    68    181.3 MiB      0.0 MiB           2       with zipfile.ZipFile(file_path, 'r') as zip_file:
    69    181.3 MiB     -0.0 MiB           2           with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
    70    181.3 MiB    -68.9 MiB    

[('🙏', 4529),
 ('✊', 1724),
 ('❤', 1471),
 ('😂', 1387),
 ('🌾', 1377),
 ('🚜', 1334),
 ('🏻', 1010),
 ('🏽', 938),
 ('🤣', 759),
 ('👇', 712)]

# Ejercicio 3: El top 10 histórico de usuarios más influyentes en función del conteo de las menciones que registra cada uno de ellos.

In [12]:
# =============================================================================
# Ejercicio 3: Función enfocada al timepo
# =============================================================================
from collections import defaultdict

def q3_time(file_path: str) -> List[Tuple[str, int]]:
    start_time = time.time()  # Iniciar la medición de tiempo
    user_mentions_count = defaultdict(int)

    # Abre el archivo ZIP y analiza el contenido JSON línea por línea
    with zipfile.ZipFile(file_path, 'r') as zip_file:
        with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
            for line in json_file:
                line
                # break
                tweet = json.loads(line.decode('utf-8'))
                username = tweet.get("user", {}).get("username", "")
                mentioned_users = tweet.get("mentionedUsers", [])
                if mentioned_users is not None:
                    user_mentions_count[username] += len(mentioned_users)

    # Obtener el top 10 de usuarios con más menciones
    top_users = sorted(user_mentions_count.items(), key=lambda x: x[1], reverse=True)[:10]

    end_time = time.time()  # Finalizar la medición de tiempo
    print(f"Tiempo de ejecución q3_time: {end_time - start_time} segundos")

    return top_users

In [13]:
# =============================================================================
# Resultados: Ejercicio 3 (tiempo)
# =============================================================================
if __name__ == "__main__":
    profiler = cProfile.Profile()
    result = profiler.runcall(q3_time, file_path)
    print(result)
    print("\n")
    profiler.print_stats()

Tiempo de ejecución q3_time: 10.359294891357422 segundos
[('loyal90901246', 2478), ('_gurviir', 1826), ('neetuanjle_nitu', 1792), ('JaiHind58236291', 1696), ('preetysaini321', 927), ('JoyJ69957841', 915), ('Gurpreetd86', 842), ('jot__b', 839), ('mani262002', 777), ('ScitaramSays', 762)]


         6756728 function calls in 10.359 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
    10823    0.001    0.000    0.001    0.000 237433633.py:22(<lambda>)
        1    0.602    0.602   10.359   10.359 237433633.py:5(q3_time)
        1    0.000    0.000    0.000    0.000 <frozen abc>:117(__instancecheck__)
   117407    0.171    0.000    4.129    0.000 __init__.py:299(loads)
        2    0.000    0.000    0.000    0.000 cp437.py:14(decode)
   117407    0.260    0.000    3.899    0.000 decoder.py:332(decode)
   117407    3.441    0.000    3.441    0.000 decoder.py:343(raw_decode)
        1    0.000    0.000    0.000    0.000 iostream.p

In [14]:
# =============================================================================
# Ejercicio 3: Función enfocada a la memoria
# =============================================================================
@profile
def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    start_time = time.time()  # Iniciar la medición de tiempo

    user_mentions_count = defaultdict(int)

    # Abre el archivo ZIP y analiza el contenido JSON línea por línea
    with zipfile.ZipFile(file_path, 'r') as zip_file:
        with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
            for line in json_file:
                tweet = json.loads(line.decode('utf-8'))
                username = tweet.get("user", {}).get("username", "")
                mentioned_users = tweet.get("mentionedUsers", [])
                if mentioned_users is not None:
                    user_mentions_count[username] += len(mentioned_users)

    # Obtener el top 10 de usuarios con más menciones
    top_users = sorted(user_mentions_count.items(), key=lambda x: x[1], reverse=True)[:10]
    end_time = time.time()  # Finalizar la medición de tiempo
    print(f"Tiempo de ejecución q3_time: {end_time - start_time} segundos")

    return top_users

In [4]:
# =============================================================================
# Resultados: Ejercicio 3 (memoria)
# =============================================================================
modulo_funciones_latam.q3_memory(file_path)

Tiempo de ejecución q3_time: 31.395042419433594 segundos
Filename: C:\Users\bastian\modulo_funciones_latam.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    88    138.9 MiB    138.9 MiB           1   @profile
    89                                         def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    90    138.9 MiB      0.0 MiB           1       start_time = time.time()  # Iniciar la medición de tiempo
    91                                         
    92    138.9 MiB      0.0 MiB           1       user_mentions_count = defaultdict(int)
    93                                         
    94                                             # Abre el archivo ZIP y analiza el contenido JSON línea por línea
    95    140.4 MiB      0.0 MiB           2       with zipfile.ZipFile(file_path, 'r') as zip_file:
    96    140.4 MiB      0.0 MiB           2           with zip_file.open('farmers-protest-tweets-2021-2-4.json') as json_file:
    97    140.4 MiB   -103.

[('loyal90901246', 2478),
 ('_gurviir', 1826),
 ('neetuanjle_nitu', 1792),
 ('JaiHind58236291', 1696),
 ('preetysaini321', 927),
 ('JoyJ69957841', 915),
 ('Gurpreetd86', 842),
 ('jot__b', 839),
 ('mani262002', 777),
 ('ScitaramSays', 762)]