# Desafío de Ingeniero de Datos

## Descripción del Proyecto
Este proyecto tiene como objetivo analizar un conjunto de datos de tweets para extraer información relevante optimizando tanto el tiempo de ejecución como el uso de memoria. A continuación, se detalla la implementación de cada función y su respectivo enfoque.

## Preparación del Entorno
Primero, instalaremos las dependencias necesarias y descargaremos el archivo de datos desde Google Drive.

In [4]:
%pip install -r ../requirements.txt
%pip install gdown
%pip install memory-profiler

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 24.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 24.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 24.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [5]:
import zipfile
import os
import sys
from typing import List, Tuple
import gdown
from memory_profiler import memory_usage

# Agregar el directorio src al sistema de rutas
sys.path.append(os.path.abspath("../src"))

from q1_time import q1_time
from q1_memory import q1_memory
from q2_time import q2_time
from q2_memory import q2_memory
from q3_time import q3_time
from q3_memory import q3_memory

In [6]:
def descargar_y_descomprimir(url, ruta_destino):
    local_filename = os.path.join(ruta_destino, 'tweets.zip')
    os.makedirs(ruta_destino, exist_ok=True)
    gdown.download(url, local_filename, quiet=False)
    with zipfile.ZipFile(local_filename, 'r') as zip_ref:
        zip_ref.extractall(ruta_destino)
    for file_name in os.listdir(ruta_destino):
        if file_name.endswith(".json"):
            return os.path.join(ruta_destino, file_name)
    return None

url = 'https://drive.google.com/uc?id=1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis'
ruta_destino = '../archivo/'
print("Descargando y descomprimiendo el archivo ZIP...")
archivo_json = descargar_y_descomprimir(url, ruta_destino)
if archivo_json is None:
    print("No se encontró un archivo JSON en el ZIP.")
else:
    print("Archivo JSON encontrado y descomprimido.")

Descargando y descomprimiendo el archivo ZIP...


Downloading...
From (original): https://drive.google.com/uc?id=1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis
From (redirected): https://drive.google.com/uc?id=1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis&confirm=t&uuid=84f654ec-51db-4902-9748-db05aa25e863
To: c:\Users\aaarellano\Desktop\latam\challenge_DE\archivo\tweets.zip
100%|██████████| 60.4M/60.4M [00:06<00:00, 9.29MB/s]


Archivo JSON encontrado y descomprimido.


## Problema 1: Top 10 fechas con más tweets
En este problema, se busca identificar las 10 fechas con mayor cantidad de tweets y mencionar el usuario con más publicaciones en cada una de esas fechas.

### Enfoque de Optimización del Tiempo (q1_time)
Esta función está diseñada para minimizar el tiempo de ejecución.

In [7]:
import time

# Medición de tiempo de ejecución para q1_time
start_time = time.time()
result_q1_time = q1_time(archivo_json)
end_time = time.time()
print("Tiempo de ejecución de q1_time: ", end_time - start_time)
print("Resultado de q1_time: ", result_q1_time)

Tiempo de ejecución de q1_time:  9.411396265029907
Resultado de q1_time:  [(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


### Enfoque de Optimización de la Memoria (q1_memory)
Esta función está diseñada para minimizar el uso de memoria.

In [8]:
# Medición de uso de memoria para q1_memory
mem_usage = memory_usage((q1_memory, (archivo_json,)))
print("Uso de memoria de q1_memory: ", max(mem_usage) - min(mem_usage))
result_q1_memory = q1_memory(archivo_json)
print("Resultado de q1_memory: ", result_q1_memory)

Uso de memoria de q1_memory:  2.26171875
Resultado de q1_memory:  [(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


## Problema 2: Top 10 emojis más usados
En este problema, se busca identificar los 10 emojis más usados y su respectivo conteo.

### Enfoque de Optimización del Tiempo (q2_time)
Esta función está diseñada para minimizar el tiempo de ejecución.

In [9]:
# Medición de tiempo de ejecución para q2_time
start_time = time.time()
result_q2_time = q2_time(archivo_json)
end_time = time.time()
print("Tiempo de ejecución de q2_time: ", end_time - start_time)
print("Resultado de q2_time: ", result_q2_time)

Tiempo de ejecución de q2_time:  8.86163854598999
Resultado de q2_time:  [('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🏻', 2080), ('❤', 1779), ('🤣', 1668), ('🏽', 1218), ('👇', 1108)]


### Enfoque de Optimización de la Memoria (q2_memory)
Esta función está diseñada para minimizar el uso de memoria.

In [10]:
# Medición de uso de memoria para q2_memory
mem_usage = memory_usage((q2_memory, (archivo_json,)))
print("Uso de memoria de q2_memory: ", max(mem_usage) - min(mem_usage))
result_q2_memory = q2_memory(archivo_json)
print("Resultado de q2_memory: ", result_q2_memory)

Uso de memoria de q2_memory:  1.453125
Resultado de q2_memory:  [('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🏻', 2080), ('❤', 1779), ('🤣', 1668), ('🏽', 1218), ('👇', 1108)]


## Problema 3: Top 10 usuarios más influyentes
En este problema, se busca identificar a los 10 usuarios más influyentes en función del conteo de menciones.

### Enfoque de Optimización del Tiempo (q3_time)
Esta función está diseñada para minimizar el tiempo de ejecución.

In [11]:
# Medición de tiempo de ejecución para q3_time
start_time = time.time()
result_q3_time = q3_time(archivo_json)
end_time = time.time()
print("Tiempo de ejecución de q3_time: ", end_time - start_time)
print("Resultado de q3_time: ", result_q3_time)

Tiempo de ejecución de q3_time:  8.970560073852539
Resultado de q3_time:  [('@narendramodi', 2201), ('@Kisanektamorcha', 1822), ('@RakeshTikaitBKU', 1599), ('@PMOIndia', 1387), ('@RahulGandhi', 1093), ('@RaviSinghKA', 1002), ('@GretaThunberg', 999), ('@UNHumanRights', 956), ('@rihanna', 944), ('@meenaharris', 911)]


### Enfoque de Optimización de la Memoria (q3_memory)
Esta función está diseñada para minimizar el uso de memoria.

In [12]:
# Medición de uso de memoria para q3_memory
mem_usage = memory_usage((q3_memory, (archivo_json,)))
print("Uso de memoria de q3_memory: ", max(mem_usage) - min(mem_usage))
result_q3_memory = q3_memory(archivo_json)
print("Resultado de q3_memory: ", result_q3_memory)

Uso de memoria de q3_memory:  2.171875
Resultado de q3_memory:  [('@narendramodi', 2201), ('@Kisanektamorcha', 1822), ('@RakeshTikaitBKU', 1599), ('@PMOIndia', 1387), ('@RahulGandhi', 1093), ('@RaviSinghKA', 1002), ('@GretaThunberg', 999), ('@UNHumanRights', 956), ('@rihanna', 944), ('@meenaharris', 911)]


## Conclusiones
En este notebook se ha mostrado la ejecución de las funciones que resuelven los problemas planteados en el desafío. Cada función ha sido evaluada en términos de tiempo de ejecución y uso de memoria, proporcionando una visión clara de su eficiencia. Las optimizaciones aplicadas en cada enfoque permiten manejar grandes volúmenes de datos de manera eficiente.