In [3]:
from collections import Counter
from typing import List, Tuple
import re
import ujson as json  # Usar ujson para un análisis JSON más rápido

# Compilar la expresión regular una sola vez
pattern = re.compile(r'@(\w+)')

def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    usernames = Counter()
    
    # Leer el archivo línea por línea para evitar cargar todo en memoria
    with open(file_path, 'r') as file:
        for line in file:
            try:
                data = json.loads(line.strip())
                if 'content' in data:
                    content = data['content']
                    # Extraer los nombres de usuario
                    usernames.update(pattern.findall(content))
            except json.JSONDecodeError:
                continue
    
    # Top 10 nombres de usuario
    top_10_usernames = usernames.most_common(10)
    
    return top_10_usernames

file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4.json'
q3_memory(file_path)


[('narendramodi', 2261),
 ('Kisanektamorcha', 1836),
 ('RakeshTikaitBKU', 1639),
 ('PMOIndia', 1422),
 ('RahulGandhi', 1125),
 ('GretaThunberg', 1046),
 ('RaviSinghKA', 1015),
 ('rihanna', 972),
 ('UNHumanRights', 962),
 ('meenaharris', 925)]

In [5]:
import psutil
import os
from collections import Counter
from typing import List, Tuple
import re
import ujson as json  # Usar ujson para un análisis JSON más rápido

# Compilar la expresión regular una sola vez
pattern = re.compile(r'@(\w+)')

# Función para obtener el uso actual de memoria en MB
def memory_usage() -> float:
    process = psutil.Process(os.getpid())
    mem_info = process.memory_info()
    return mem_info.rss / 1024 / 1024  # Convertir a MB

def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    print(f"Uso de memoria antes de procesar los datos: {memory_usage()} MB")
    
    usernames = Counter()
    
    # Leer el archivo línea por línea para evitar cargar todo en memoria
    with open(file_path, 'r') as file:
        for line in file:
            try:
                data = json.loads(line.strip())
                if 'content' in data:
                    content = data['content']
                    # Extraer los nombres de usuario
                    usernames.update(pattern.findall(content))
            except json.JSONDecodeError:
                continue
    
    # Top 10 nombres de usuario
    top_10_usernames = usernames.most_common(10)
    
    print(f"Uso de memoria después de procesar los datos: {memory_usage()} MB")
    
    return top_10_usernames

# Short file
#file_path='/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4.json'
# Long file
# Ruta del archivo JSON a procesar
file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4-large.json'
q3_memory(file_path)


Uso de memoria antes de procesar los datos: 23.9375 MB
Uso de memoria después de procesar los datos: 30.96875 MB


[('narendramodi', 22610),
 ('Kisanektamorcha', 18360),
 ('RakeshTikaitBKU', 16390),
 ('PMOIndia', 14220),
 ('RahulGandhi', 11250),
 ('GretaThunberg', 10460),
 ('RaviSinghKA', 10150),
 ('rihanna', 9720),
 ('UNHumanRights', 9620),
 ('meenaharris', 9250)]

In [1]:
from collections import Counter
from typing import List, Tuple
import re
import ujson as json

# Compilar la expresión regular una sola vez
pattern = re.compile(r'@(\w+)')

def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    def process_file(file_path: str):
        # Leer el archivo línea por línea
        with open(file_path, 'r') as file:
            for line in file:
                try:
                    data = json.loads(line.strip())
                    if 'content' in data:
                        content = data['content']
                        # Extraer los nombres de usuario
                        yield from pattern.findall(content)
                except json.JSONDecodeError:
                    continue
    
    usernames = Counter(process_file(file_path))
    
    # Top 10 nombres de usuario
    top_10_usernames = usernames.most_common(10)
    
    return top_10_usernames


# Short file
file_path='/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4.json'
# Long file
# Ruta del archivo JSON a procesar
#file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4-large.json'
q3_memory(file_path)

[('narendramodi', 2261),
 ('Kisanektamorcha', 1836),
 ('RakeshTikaitBKU', 1639),
 ('PMOIndia', 1422),
 ('RahulGandhi', 1125),
 ('GretaThunberg', 1046),
 ('RaviSinghKA', 1015),
 ('rihanna', 972),
 ('UNHumanRights', 962),
 ('meenaharris', 925)]