# Challengue LATAM

*Importante*: Ejecute la siguiente celda para instalar las dependencias necesarias.



In [1]:
pip install emoji

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


Ejecutar el siguiente bloque de código, que es necesario para el funcionamiento de todos los métodos posteriores.

In [9]:
from time import time
from zipfile import ZipFile
import os

file_path = "farmers-protest-tweets-2021-2-4.json"

if not os.path.exists(file_path):
    with ZipFile("../tweets/tweets.json.zip", 'r') as zObject: 
        zObject.extractall('.') 

### Problema 1: Top 10 fechas con mayor cantidad de tweets por usuario
### 1. Optimización de tiempo de ejecución
En este apartado para la optimización de tiempo de ejecución se va cargar todos los datos de fechas y usernames en una sola operación, esto simplifica el análisis y mejora el rendimiento general del proceso

Optimización Adicional:
Se observa que el tiempo de ejecución demora más que el realizado para optimización de memoria, se podría explorar la división del conjunto de datos en secciones más pequeñas y la implementación de técnicas de threading para procesamiento paralelo.

In [21]:
from q1_time import q1_time

start_time = time()
result = q1_time(file_path=file_path)
print(f"Tiempo de Ejecucion: {time() - start_time} ")
print("Resultados Obtenidos: ")
print(result)

Tiempo de Ejecucion: 7.991407155990601 
Resultados Obtenidos: 
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


### 2. Optimización de memoria en uso

Para este apartado, se optó por procesar el archivo de forma secuencial, analizando cada línea individualmente. Esta estrategia reduce significativamente el consumo de memoria en comparación con el primer apartado. Además resulta ser más eficiente en términos de tiempo de ejecución.

In [22]:
from q1_memory import q1_memory

start_time = time()
result = q1_memory(file_path=file_path)
print(f"Tiempo de Ejecucion: {time() - start_time} ")
print("Resultados Obtenidos: ")
print(result)

Tiempo de Ejecucion: 5.05846643447876 
Resultados Obtenidos: 
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


### Problema 2: Top 10 emojis más usados con su conteo correspondiente
### 1. Optimización de tiempo de ejecución
Para abordar este problema se empleó la librería emoji previamente instalada en el primer bloque de este notebook el cual permite extraer emojis de cadenas de texto. 
Utilizando esta librería, se agrupó el contenido de todos los tweets en un único string para analizarlo y obtener todos los emojis. Este enfoque resultó ser más lento que el procesamiento de optimización de uso de memoria, posiblemente debido al tamaño del archivo .json.

Optimización Adicional:

Para optimizar el tiempo de ejecución, se pueden implementar estrategias como procesar el archivo en lotes para reducir la carga en cada operación y aplicar multiprocesamiento para ejecutar análisis en paralelo.

In [23]:
from q2_time import q2_time

start_time = time()
result = q2_time(file_path=file_path)
print(f"Tiempo de Ejecucion: {time() - start_time} ")
print("Resultados Obtenidos: ")
print(result)

Tiempo de Ejecucion: 17.018301010131836 
Resultados Obtenidos: 
[('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


### 2. Optimización de memoria en uso

Para esta sección se utilizó la misma lógica de la optimización de tiempo de ejecución, procesando el archivo en forma secuencial, analizando cada línea individualmente.

In [24]:
from q2_memory import q2_memory

start_time = time()
result = q2_memory(file_path=file_path)
print(f"Tiempo de Ejecucion: {time() - start_time} ")
print("Resultados Obtenidos: ")
print(result)

Tiempo de Ejecucion: 17.377023935317993 
Resultados Obtenidos: 
[('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


### Problema 3: Top 10 usuarios más influyentes según el conteo de menciones (@)
### 1. Optimización de tiempo de ejecución
Para este problema se va implementar una función que cuenta los usernames mencionados en el archivo JSON de tweets. Utilizando la clase Counter de la biblioteca collections, se lee el archivo línea por línea para extraer la lista de usuarios dentro de mentionedUsers.

Optimización Adicional:

Utilizar formatos como CSV o Parquet podría mejorar el rendimiento, ya que son más eficientes en términos de lectura y procesamiento

In [25]:
from q3_time import q3_time

start_time = time()
result = q3_time(file_path=file_path)
print(f"Tiempo de Ejecucion: {time() - start_time} ")
print("Resultados Obtenidos: ")
print(result)

Tiempo de Ejecucion: 5.206971168518066 
Resultados Obtenidos: 
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


### 2. Optimización de memoria en uso

Para esta sección se utilizó la misma lógica de la optimización de tiempo de ejecución, procesando el archivo en forma secuencial, línea por línea.

In [26]:
from q3_memory import q3_memory

start_time = time()
result = q3_memory(file_path=file_path)
print(f"-- TIEMPO DE EJECUCION: {time() - start_time} ")
print("RESULTADO: ")
print(result)

-- TIEMPO DE EJECUCION: 5.28658390045166 
RESULTADO: 
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


### Comentario Final

Para optimizar el análisis de datos para estos problemas desde la perspectiva de Cloud, específicamente utilizando Azure, se podría utilizar Azure Data Lake Storage para almacenar los archivos de tweets, facilitando el acceso eficiente a grandes volúmenes de datos. Azure Data Factory podría emplearse para orquestar el flujo de datos, permitiendo la extracción, transformación y carga (ETL) de los datos desde diferentes fuentes. Además, implementar Azure Functions permitiría ejecutar el procesamiento en paralelo y en respuesta a eventos, mejorando la escalabilidad. También considerar el uso de Azure Databricks sería útil para realizar análisis en lote utilizando Apache Spark, aprovechando el procesamiento distribuido.