
## Challenge
En el [archivo](https://drive.google.com/file/d/1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis/view?usp=sharing) encontrarás un conjunto aproximado de 398MBs. Se pide resolver los siguientes problemas implementando funciones, usando **2 enfoques por cada problema**: Uno en el que se optimice el tiempo de ejecución, y otro en que se optimice la memoria en uso.

Tu desafío debe tener al menos 6 archivos python en la carpeta `src`. Cada uno de estos archivos correspondiente a la función del mismo nombre, con el mismo formato que se indica en las instrucciones de más abajo. Solo deja la función. Además de eso, debes tener un archivo `.ipynb` donde expliques con mayor claridad tu código. En este jupyter notebook puedes ejecutar tus funciones, medir el tiempo de ejecución, memoria en uso y explayarte según estimes conveniente. Te recomendamos fuertemente que utilices celdas markdown para que expliques el paso a paso de tu código.

**1. Esta función carga los datos desde un archivo JSON y procesa cada línea para extraer información clave sobre los usuarios más activos.**


In [None]:

from google.colab import drive
# Se monta para acceder a los archivos en google drive.
drive.mount('/content/drive')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:

!pip install emoji memory-profiler




**2. Configuración de rutas, descompresión de archivo `**



In [None]:
!pip install py7zr

In [113]:
import py7zr
import os
import shutil

# Ruta del 7z
seven_zip_path = '/content/drive/MyDrive/challengeLatam/tweetsjson/tweetsjson.7z'

# Ruta donde está el archivo 7z
extract_path = os.path.dirname(seven_zip_path)

# Extraer temporalmente en una carpeta oculta dentro del mismo path
temp_extract_path = os.path.join(extract_path, '__temp_extract__')
os.makedirs(temp_extract_path, exist_ok=True)

# Extraer el 7z en la carpeta temporal
with py7zr.SevenZipFile(seven_zip_path, mode='r') as archive:
    archive.extractall(path=temp_extract_path)

# Mover todos los archivos al directorio donde está el 7z
for root, dirs, files in os.walk(temp_extract_path):
    for file in files:
        source_file = os.path.join(root, file)
        dest_file = os.path.join(extract_path, file)
        shutil.move(source_file, dest_file)
        print(f'Movido: {source_file} -> {dest_file}')

# Eliminar la carpeta temporal después de mover
shutil.rmtree(temp_extract_path)


Movido: /content/drive/MyDrive/challengeLatam/tweetsjson/__temp_extract__/tweetsjson/farmers-protest-tweets-2021-2-4.json -> /content/drive/MyDrive/challengeLatam/tweetsjson/farmers-protest-tweets-2021-2-4.json
Archivos descomprimidos directamente en: /content/drive/MyDrive/challengeLatam/tweetsjson


In [114]:
# Define la ruta donde se encuentra guardado tu archivo JSON en Google Drive

file_path = '/content/drive/MyDrive/challengeLatam/tweetsjson/farmers-protest-tweets-2021-2-4.json'

import sys
# Agrega la carpeta '/src' al PATH del sistema para importar  los módulos Python guardados en esa ubicación
sys.path.append('/content/drive/MyDrive/challengeLatam/src')


**3. Importación de funciones para análisis**

In [115]:

from q1_time import q1_time
from q1_memory import q1_memory
from q2_time import q2_time
from q2_memory import q2_memory
from q3_time import q3_time
from q3_memory import q3_memory


**4. Extraer las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días. Debe incluir las siguientes funciones:**

In [116]:

import time
# Se guarda el tiempo de inicio antes de ejecutar la función
start = time.time()
# devuelve las 10 fechas con más tweets y el usuario más activo en cada una.
resultado_q1 = q1_time(file_path)
# se imprimen los resultados.
print("Resultado Q1 (Optimización Tiempo):", resultado_q1)
print(f'Tiempo ejecución: {time.time() - start:.2f} segundos')


Resultado Q1 (Optimización Tiempo): [(datetime.date(2021, 2, 12), {'username': 'RanbirS00614606', 'displayname': 'Ranbir Singh', 'id': 1332853294851530753, 'description': 'Seeking truth by the ancient technologies to attain boundless dimensions....', 'rawDescription': 'Seeking truth by the ancient technologies to attain boundless dimensions....', 'descriptionUrls': [], 'verified': False, 'created': '2020-11-29T01:06:31+00:00', 'followersCount': 159, 'friendsCount': 153, 'statusesCount': 17377, 'favouritesCount': 7365, 'listedCount': 0, 'mediaCount': 79, 'location': 'Sydney, New South Wales', 'protected': False, 'linkUrl': None, 'linkTcourl': None, 'profileImageUrl': 'https://pbs.twimg.com/profile_images/1357100282996396033/j-AFj9yS_normal.jpg', 'profileBannerUrl': 'https://pbs.twimg.com/profile_banners/1332853294851530753/1606867247', 'url': 'https://twitter.com/RanbirS00614606'}), (datetime.date(2021, 2, 13), {'username': 'MaanDee08215437', 'displayname': 'ਦੀਪ,ਮਾਨ', 'id': 133375710984

In [117]:
from memory_profiler import memory_usage

# Se registra el consumo de memoria antes de ejecutar la función
mem_before = memory_usage()[0]
#devuelve las 10 fechas con más tweets y el usuario más activo en cada una de esas fechas
resultado_q1_mem = q1_memory(file_path)
# se registra  el consumo de memoria después de ejecutar la función
mem_after = memory_usage()[0]
print("Resultado Q1 (Optimización Memoria):", resultado_q1_mem)
# Se calcula  y se muestra la diferencia de memoria utilizada durante la ejecución de la función
print(f'Memoria usada: {mem_after - mem_before:.2f} MB')


Resultado Q1 (Optimización Memoria): []
Memoria usada: 0.00 MB


**5. Los top 10 emojis más usados con su respectivo conteo. Debe incluir las siguientes funciones:**


In [None]:
# Se guarda el tiempo de inicio antes de ejecutar la función
start = time.time()
# devuelve los 10 emogis más usados con su respectivo conteo.
resultado_q2 = q2_time(file_path)
# se imprimen los resultados.
print("Resultado Q2 (Optimización Tiempo - Emojis):", resultado_q2)
print(f'Tiempo ejecución: {time.time() - start:.2f} segundos')

Resultado Q2 (Optimización Tiempo - Emojis): [('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]
Tiempo ejecución: 27.11 segundos


In [None]:
from memory_profiler import memory_usage
# Se registra el consumo de memoria antes de ejecutar la función
mem_before = memory_usage()[0]
#devuelve las 10 fechas con más tweets y el usuario más activo en cada una de esas fechas
resultado_q2_mem = q2_memory(file_path)
# se registra  el consumo de memoria después de ejecutar la función
mem_after = memory_usage()[0]
print("Resultado Q1 (Optimización Memoria):", resultado_q2_mem)
# Se calcula  y se muestra la diferencia de memoria utilizada durante la ejecución de la función
print(f'Memoria usada: {mem_after - mem_before:.2f} MB')

Resultado Q1 (Optimización Memoria): [('🙏', 1898), ('❤️', 934), ('🌾', 497), ('💚', 486), ('😂', 486), ('👍', 456), ('👉', 450), ('✊', 412), ('🇮🇳', 397), ('🙏🙏', 379)]
Memoria usada: 0.00 MB


**6. El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones que registra cada uno de ellos.**

In [None]:
start = time.time()
resultado_q3 = q3_time(file_path)
print("Resultado Q3 (Optimización Tiempo - top 10 histórico de usuarios):", resultado_q3)
print(f'Tiempo ejecución: {time.time() - start:.2f} segundos')

Resultado Q3 (Optimización Tiempo - top 10 histórico de usuarios): [('narendramodi', 2261), ('Kisanektamorcha', 1836), ('RakeshTikaitBKU', 1639), ('PMOIndia', 1422), ('RahulGandhi', 1125), ('GretaThunberg', 1046), ('RaviSinghKA', 1015), ('rihanna', 972), ('UNHumanRights', 962), ('meenaharris', 925)]
Tiempo ejecución: 12.56 segundos


In [None]:
from memory_profiler import memory_usage
# Se registra el consumo de memoria antes de ejecutar la función
mem_before = memory_usage()[0]
#devuelve las 10 fechas con más tweets y el usuario más activo en cada una de esas fechas
resultado_q3_mem = q3_memory(file_path)
# se registra  el consumo de memoria después de ejecutar la función
mem_after = memory_usage()[0]
print("Resultado Q1 (Optimización Memoria):", resultado_q3_mem)
# Se calcula  y se muestra la diferencia de memoria utilizada durante la ejecución de la función
print(f'Memoria usada: {mem_after - mem_before:.2f} MB')

Resultado Q1 (Optimización Memoria): [('narendramodi', 2261), ('Kisanektamorcha', 1836), ('RakeshTikaitBKU', 1639), ('PMOIndia', 1422), ('RahulGandhi', 1125), ('GretaThunberg', 1046), ('RaviSinghKA', 1015), ('rihanna', 972), ('UNHumanRights', 962), ('meenaharris', 925)]
Memoria usada: 0.00 MB
