In [None]:
from collections import Counter
from typing import List, Tuple
import emoji
import json

def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    emoji_counter = Counter()
    
    # Leer el archivo línea por línea para evitar cargar todo en memoria
    with open(file_path, 'r') as file_data:
        for line in file_data:
            try:
                data = json.loads(line)
                content = data.get("content", "")
                # Contar emojis directamente si hay contenido
                if content:
                    for value in emoji.analyze(content):
                        emoji_counter[value.chars] += 1
            except (json.JSONDecodeError, KeyError):
                # Manejar posibles errores en la carga de JSON
                continue
    
    # Rankear top 10 emojis más usados
    top_10_emojis = emoji_counter.most_common(10)
    
    return top_10_emojis

# Ruta del archivo JSON a procesar
file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4.json'
q2_memory(file_path)


In [2]:
import psutil
import os
from collections import Counter
from typing import List, Tuple
import emoji
import json

# Función para obtener el uso actual de memoria en MB
def memory_usage():
    process = psutil.Process(os.getpid())
    mem_info = process.memory_info()
    return mem_info.rss / 1024 / 1024  # Convertir a MB

def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    emoji_counter = Counter()
    
    # Imprimir uso de memoria antes de cargar el archivo
    print(f"Memory usage before processing data: {memory_usage()} MB")

    # Leer el archivo línea por línea para evitar cargar todo en memoria
    with open(file_path, 'r') as file_data:
        for line in file_data:
            try:
                data = json.loads(line)
                content = data.get("content", "")
                # Contar emojis directamente si hay contenido
                if content:
                    for value in emoji.analyze(content):
                        emoji_counter[value.chars] += 1
            except (json.JSONDecodeError, KeyError):
                # Manejar posibles errores en la carga de JSON
                continue
    
    # Imprimir uso de memoria después de procesar el archivo
    print(f"Memory usage after processing data: {memory_usage()} MB")
    
    # Rankear top 10 emojis más usados
    top_10_emojis = emoji_counter.most_common(10)
    
    # Imprimir uso de memoria después de contar emojis
    print(f"Memory usage after counting emojis: {memory_usage()} MB")
    
    return top_10_emojis

# Short file
#file_path='/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4.json'
# Long file
file_path = '/Users/juanignaciomagarinoscastro/Downloads/farmers-protest-tweets-2021-2-4-large.json'
q2_memory(file_path)


Memory usage before processing data: 29.71875 MB
Memory usage after processing data: 17.765625 MB
Memory usage after counting emojis: 19.578125 MB


[('🙏', 50490),
 ('😂', 30720),
 ('🚜', 29720),
 ('🌾', 21820),
 ('🇮🇳', 20860),
 ('🤣', 16680),
 ('✊', 16510),
 ('❤️', 13820),
 ('🙏🏻', 13170),
 ('💚', 10400)]