In [4]:
from typing import List, Tuple
from datetime import datetime
import pandas as pd
import json

def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    # Leer el archivo JSON línea por línea y procesarlo
    data = []
    with open(file_path, 'r') as json_file:
        for line in json_file:
            try:
                item = json.loads(line.strip())
                # Verificar que los campos necesarios están presentes antes de agregar
                if 'date' in item and 'user' in item and 'id' in item:
                    data.append((item['date'], item['user']['username']))
            except json.JSONDecodeError:
                # Manejar errores de decodificación JSON
                continue
    
    # Convertir la lista de tuplas en un DataFrame de pandas
    df = pd.DataFrame(data, columns=['date', 'user'])
    
    # Convertir el campo 'date' a formato datetime directamente sin conversiones intermedias
    df['date'] = pd.to_datetime(df['date']).dt.date

    # Calcular la cantidad de tweets por fecha y encontrar las 10 fechas con más tweets
    tweet_counts = df['date'].value_counts().nlargest(10)
    top_10_dates = tweet_counts.index

    # Filtrar el DataFrame para incluir solo las fechas top 10
    df_top_10 = df[df['date'].isin(top_10_dates)]
    
    # Encontrar el usuario con más tweets para cada una de las fechas top 10
    top_users = df_top_10.groupby('date')['user'].agg(lambda x: x.value_counts().idxmax())

    # Convertir el resultado a una lista de tuplas con (fecha, usuario)
    result = [(date, user) for date, user in zip(top_10_dates, top_users)]
    
    return result

# Ruta del archivo JSON a procesar
file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4.json'
q1_memory(file_path)


[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'rebelpacifist'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'jot__b'),
 (datetime.date(2021, 2, 18), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 15), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 20), 'Preetm91'),
 (datetime.date(2021, 2, 23), 'MangalJ23056160'),
 (datetime.date(2021, 2, 19), 'Surrypuria')]

In [8]:
import psutil
import os
from typing import List, Tuple
from datetime import datetime
import pandas as pd
import json

# Función para obtener el uso de memoria en MB
def memory_usage():
    process = psutil.Process(os.getpid())
    mem_info = process.memory_info()
    return mem_info.rss / 1024 / 1024  # Convertir a MB

def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    print(f"Memory usage before loading data: {memory_usage()} MB")
    
    # Leer el archivo JSON línea por línea y procesarlo
    data = []
    with open(file_path, 'r') as json_file:
        for line in json_file:
            try:
                item = json.loads(line.strip())
                # Verificar que los campos necesarios están presentes antes de agregar
                if 'date' in item and 'user' in item and 'id' in item:
                    data.append((item['date'], item['user']['username']))
            except json.JSONDecodeError:
                continue
    
    print(f"Memory usage after reading JSON: {memory_usage()} MB")

    # Convertir la lista de tuplas en un DataFrame de pandas
    df = pd.DataFrame(data, columns=['date', 'user'])
    
    # Convertir el campo 'date' a formato datetime directamente
    df['date'] = pd.to_datetime(df['date']).dt.date
    
    print(f"Memory usage after creating DataFrame: {memory_usage()} MB")

    # Calcular la cantidad de tweets por fecha y encontrar las 10 fechas con más tweets
    tweet_counts = df['date'].value_counts().nlargest(10)
    top_10_dates = tweet_counts.index

    # Filtrar el DataFrame para incluir solo las fechas top 10
    df_top_10 = df[df['date'].isin(top_10_dates)]
    
    print(f"Memory usage after filtering top 10 dates: {memory_usage()} MB")

    # Encontrar el usuario con más tweets para cada una de las fechas top 10
    top_users = df_top_10.groupby('date')['user'].agg(lambda x: x.value_counts().idxmax())

    # Convertir el resultado a una lista de tuplas con (fecha, usuario)
    result = [(date, user) for date, user in zip(top_10_dates, top_users)]
    
    print(f"Memory usage after finalizing results: {memory_usage()} MB")

    return result


# Ruta del archivo JSON a procesar
# Short file
#file_path='/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4.json'
# Long file
file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4-large.json'
q1_memory(file_path)


Memory usage before loading data: 229.890625 MB
Memory usage after reading JSON: 114.78125 MB
Memory usage after creating DataFrame: 452.5625 MB
Memory usage after filtering top 10 dates: 488.953125 MB
Memory usage after finalizing results: 459.859375 MB


[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'rebelpacifist'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'jot__b'),
 (datetime.date(2021, 2, 18), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 15), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 20), 'Preetm91'),
 (datetime.date(2021, 2, 23), 'MangalJ23056160'),
 (datetime.date(2021, 2, 19), 'Surrypuria')]

In [6]:
def generate_large_file(original_file_path: str, new_file_path: str, multiplier: int):
    with open(original_file_path, 'r') as original_file:
        lines = original_file.readlines()
    
    with open(new_file_path, 'w') as new_file:
        for _ in range(multiplier):
            new_file.writelines(lines)

# Ruta del archivo original
original_file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4.json'
# Ruta del nuevo archivo
new_file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4-large.json'
# Multiplicador para duplicar los datos
multiplier = 10

generate_large_file(original_file_path, new_file_path, multiplier)
