En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [1]:
file_path = "farmers-protest-tweets-2021-2-4.json"

# Data Engineer Challenge
### Procesamiento y análisis de datos de Twitter


Este notebook tiene como objetivo resolver el desafío de ingeniería de datos para procesar un conjunto de datos de tweets y extraer información clave utilizando Python. Se implementan soluciones optimizadas para tiempo y memoria.

In [2]:
!pip install -r ../requirements.txt



### Se descarga la base de datos a utilizar

In [18]:
import gdown

# Ahora puedes continuar con la descarga de archivos desde Google Drive
file_id = "1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis"
url = f"https://drive.google.com/uc?id={file_id}"

gdown.download(url, quiet=False)

Downloading...
From (original): https://drive.google.com/uc?id=1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis
From (redirected): https://drive.google.com/uc?id=1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis&confirm=t&uuid=c164bddb-122a-492f-a9d2-e470c187f4ef
To: c:\Users\Victor\Desktop\latam\latam-challenge\src\tweets.json.zip
100%|██████████| 60.4M/60.4M [00:02<00:00, 23.2MB/s]


'tweets.json.zip'

### Se descomprime

In [21]:
import zipfile
import os

# Ruta al archivo ZIP
zip_file_path = "tweets.json.zip"  # Reemplaza con la ruta de tu archivo ZIP
extract_folder = "/Users/Victor/Desktop/latam/latam-challenge/src"  # Carpeta donde se extraerán los archivos

# Asegúrate de que la carpeta de extracción exista
os.makedirs(extract_folder, exist_ok=True)

# Descomprimir el archivo ZIP
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    zip_ref.extractall(extract_folder)

print("Descompresión completa.")

Descompresión completa.


### Se cargan las librerias

In [22]:
#Librerias utiles para vizualizar la data y funciones a
import pandas as pd
import datetime
from q1_time import q1_time
from q1_memory import q1_memory
from q2_time import q2_time
from q2_memory import q2_memory
from q3_time import q3_time
from q3_memory import q3_memory
import time

#En caso de error al descargar alguna libreria restablecer el kernel o revisar el kernel correcto

In [23]:
# Cargar el archivo de datos
file_path = "farmers-protest-tweets-2021-2-4.json"

### -Se crea las funciones "medir_tiempo()" para calcular cuando dura el algoritmo en entregar el resultado.

### -Se crea las funciones "medir_memoria()" para calcular cuando dura memoria ocupa el algoritmo.

In [24]:
from memory_profiler import memory_usage

# Función para medir el tiempo de ejecución
def medir_tiempo(func, *args):
    inicio = time.time()
    resultado = func(*args)
    fin = time.time()
    print(f"Tiempo de ejecución: {fin - inicio} segundos")
    return resultado

# Función para medir el uso de memoria
def medir_memoria(func, *args):
    memoria_inicial = memory_usage(-1, interval=0.1, timeout=1)
    resultado = func(*args)
    memoria_final = memory_usage(-1, interval=0.1, timeout=1)
    print(f"Memoria usada: {memoria_final[0] - memoria_inicial[0]} MiB")
    return resultado

### Una muestra de los 10 primeras lineas, para ver el contenido en el json

In [25]:
import pandas as pd

# Abrir el archivo JSON en modo de lectura de líneas
with pd.read_json(file_path, lines=True, chunksize=10) as reader:
    for chunk in reader:
        # Mostrar solo las primeras 10 líneas
        print(chunk.head(10))
        break  # Para detener el streaming después de leer las primeras 10 líneas

                                                 url  \
0  https://twitter.com/ArjunSinghPanam/status/136...   
1  https://twitter.com/PrdeepNain/status/13645062...   
2  https://twitter.com/parmarmaninder/status/1364...   
3  https://twitter.com/anmoldhaliwal/status/13645...   
4  https://twitter.com/KotiaPreet/status/13645061...   
5  https://twitter.com/babli_708/status/136450612...   
6  https://twitter.com/Varinde17354019/status/136...   
7  https://twitter.com/BitnamSingh/status/1364505...   
8  https://twitter.com/anmoldhaliwal/status/13645...   
9  https://twitter.com/SatThiara/status/136450589...   

                       date  \
0 2021-02-24 09:23:35+00:00   
1 2021-02-24 09:23:32+00:00   
2 2021-02-24 09:23:22+00:00   
3 2021-02-24 09:23:16+00:00   
4 2021-02-24 09:23:10+00:00   
5 2021-02-24 09:23:05+00:00   
6 2021-02-24 09:22:54+00:00   
7 2021-02-24 09:22:35+00:00   
8 2021-02-24 09:22:34+00:00   
9 2021-02-24 09:22:11+00:00   

                                         

### A continuación, crea una sección para ejecutar cada una de las funciones que has desarrollado, utilizando las funciones para medir el tiempo y la memoria.

# a) Q1: Fechas con más tweets y usuario más activo

Se hace una desmotracion de las 2 funciones Q1 y mediciones de tiempo y memoria para cada una.

## Mejora tiempo

In [29]:
print("Q1 - Optimización en tiempo")
q1_time_result = medir_tiempo(q1_time, file_path)


q1_time_result2 = medir_memoria(q1_time, file_path)

print("Resultado de la funciones")
print(q1_time_result)
print(q1_time_result2)

Q1 - Optimización en tiempo
Tiempo de ejecución: 12.52292537689209 segundos
Memoria usada: -333.1875 MiB
Resultado de la función
{datetime.date(2021, 2, 12): {'count': 12347, 'top_user': 'RanbirS00614606'}, datetime.date(2021, 2, 13): {'count': 11296, 'top_user': 'MaanDee08215437'}, datetime.date(2021, 2, 17): {'count': 11087, 'top_user': 'RaaJVinderkaur'}, datetime.date(2021, 2, 16): {'count': 10443, 'top_user': 'jot__b'}, datetime.date(2021, 2, 14): {'count': 10249, 'top_user': 'rebelpacifist'}, datetime.date(2021, 2, 18): {'count': 9625, 'top_user': 'neetuanjle_nitu'}, datetime.date(2021, 2, 15): {'count': 9197, 'top_user': 'jot__b'}, datetime.date(2021, 2, 20): {'count': 8502, 'top_user': 'MangalJ23056160'}, datetime.date(2021, 2, 23): {'count': 8417, 'top_user': 'Surrypuria'}, datetime.date(2021, 2, 19): {'count': 8204, 'top_user': 'Preetm91'}}
{datetime.date(2021, 2, 12): {'count': 12347, 'top_user': 'RanbirS00614606'}, datetime.date(2021, 2, 13): {'count': 11296, 'top_user': 'Ma

## Mejora memoria

In [30]:
print("Q1 - Optimización en memoria")
q1_memory_result = medir_tiempo(q1_memory, file_path)



q1_memory_result2 = medir_memoria(q1_memory, file_path)
print("Resultado de la funciones")
print(q1_memory_result)
print(q1_memory_result2)

Q1 - Optimización en memoria
Tiempo de ejecución: 15.042899370193481 segundos
Memoria usada: 0.03125 MiB
Resultado de la función
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'

# b) Q2: Top 10 emojis más usados

Se hace una desmotracion de las 2 funciones Q2 y mediciones de tiempo y memoria para cada una.

## Mejora tiempo

In [31]:
print("Q2 - Optimización en tiempo")
q2_time_result = medir_tiempo(q2_time, file_path)


q2_time_result2 = medir_memoria(q2_time, file_path)

print("Resultado de la funciones")
print(q2_time_result)
print(q2_time_result2)

Q2 - Optimización en tiempo
Tiempo de ejecución: 16.017983436584473 segundos
Memoria usada: 14.71484375 MiB
Resultado de la funciones
[('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🏻', 2080), ('❤', 1779), ('🤣', 1668), ('🏽', 1218), ('👇', 1108)]
[('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🏻', 2080), ('❤', 1779), ('🤣', 1668), ('🏽', 1218), ('👇', 1108)]


## Mejora memoria

In [32]:
print("Q2 - Optimización en memoria")
q2_memory_result = medir_tiempo(q2_memory, file_path)



q2_memory_result2 = medir_memoria(q2_memory, file_path)
print("Resultado de la funciones")
print(q2_memory_result)
print(q2_memory_result2)

Q2 - Optimización en memoria
Tiempo de ejecución: 17.055907249450684 segundos
Memoria usada: 0.0 MiB
Resultado de la funciones
[('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🏻', 2080), ('❤', 1779), ('🤣', 1668), ('🏽', 1218), ('👇', 1108)]
[('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🏻', 2080), ('❤', 1779), ('🤣', 1668), ('🏽', 1218), ('👇', 1108)]


# c) Q3: Usuarios más influyentes
Se hace una desmotracion de las 2 funciones Q2 y mediciones de tiempo y memoria para cada una.

## Mejora tiempo

In [33]:
print("Q3 - Optimización en memoria")
q3_memory_result = medir_tiempo(q3_memory, file_path)



q3_memory_result2 = medir_memoria(q3_memory, file_path)
print("Resultado de la funciones")
print(q3_memory_result)
print(q3_memory_result2)

Q3 - Optimización en memoria
Tiempo de ejecución: 10.715787887573242 segundos
Memoria usada: 0.0 MiB
Resultado de la funciones
[('@narendramodi', 2261), ('@Kisanektamorcha', 1836), ('@RakeshTikaitBKU', 1639), ('@PMOIndia', 1422), ('@RahulGandhi', 1125), ('@GretaThunberg', 1046), ('@RaviSinghKA', 1015), ('@rihanna', 972), ('@UNHumanRights', 962), ('@meenaharris', 925)]
[('@narendramodi', 2261), ('@Kisanektamorcha', 1836), ('@RakeshTikaitBKU', 1639), ('@PMOIndia', 1422), ('@RahulGandhi', 1125), ('@GretaThunberg', 1046), ('@RaviSinghKA', 1015), ('@rihanna', 972), ('@UNHumanRights', 962), ('@meenaharris', 925)]


## Mejora memoria

In [34]:
print("Q1 - Optimización en memoria")
q3_memory_result = medir_tiempo(q3_memory, file_path)



q3_memory_result2 = medir_memoria(q3_memory, file_path)
print("Resultado de la funciones")
print(q3_memory_result)
print(q3_memory_result2)

Q1 - Optimización en memoria
Tiempo de ejecución: 12.000993013381958 segundos
Memoria usada: 0.0 MiB
Resultado de la funciones
[('@narendramodi', 2261), ('@Kisanektamorcha', 1836), ('@RakeshTikaitBKU', 1639), ('@PMOIndia', 1422), ('@RahulGandhi', 1125), ('@GretaThunberg', 1046), ('@RaviSinghKA', 1015), ('@rihanna', 972), ('@UNHumanRights', 962), ('@meenaharris', 925)]
[('@narendramodi', 2261), ('@Kisanektamorcha', 1836), ('@RakeshTikaitBKU', 1639), ('@PMOIndia', 1422), ('@RahulGandhi', 1125), ('@GretaThunberg', 1046), ('@RaviSinghKA', 1015), ('@rihanna', 972), ('@UNHumanRights', 962), ('@meenaharris', 925)]


# Conclusiones

- En términos de tiempo, la optimización de las funciones [Q1/Q2/Q3] utilizando [explicar técnicas] logró reducir el tiempo de ejecución en un 5- 15% aprox.
- En términos de memoria, las optimizaciones aplicadas permitieron reducir el uso de memoria en un 95% .

### Posibles mejoras
- Se podrían implementar soluciones en paralelo para procesar más eficientemente grandes volúmenes de datos.Como uso de gpu o multiples nucleos cpu.
- Una opción sería utilizar tecnologías cloud como GCP para distribuir el procesamiento.
