En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [2]:
file_path = "farmers-protest-tweets-2021-2-4.json"

# Challenge Data Engineer

## Descripcion General

La Solución plantea resolver los distintos problemas basado en optimizar tanto tiempo de ejecución como uso de memoria.

Para la resolución de los problemas donde se quiere optimizar el tiempo de ejecución (q1_time, q2_time, q3_time), se uso una estrategia de carga basado en Apache Spark para cargar y procesar los archivos de datos de manera distribuida en un clúster de máquinas. En Python es posible utilizando la API de Spark (PySpark). 

La carga y procesamiento distribuido de datos en Spark permite manejar conjuntos de datos mucho más grandes que lo que sería posible con un procesamiento tradicional en una sola máquina. Aprovecha la capacidad de procesamiento de un clúster de máquinas, lo que puede acelerar significativamente el tiempo de procesamiento.

Además de que posee gran flexibilidad para implementarse en plataformas cloud como AWS, Azure o Google Cloud.

Sumado a esto, el procesamiento y tratamiento de la data también es ejecutada de forma distribuida por Threads, donde la data es segmentada en bloques y procesados de forma simultánea para tener una respuesta rápida.


Para la resolución de los problemas donde se quiere optimizar el tiempo de ejecución (q1_memory, q2_memory, q3_memory), se concentró en ir procesado en lotes pequeños y seleccionar estructuras de datos adecuadas para almacenar y manipular datos para reducir el uso de memoria.



## Archivo de Configuracion config.py

Aqui podemos definir varios valores por defecto para las soluciones.

In [6]:
# ---------------------
# -- config.py
# -- proyecto: latam_challenge_de
# -- Archivo de configuracion del proyecto
# -- marzo 2024
# ---------------------
project_name = "latam_challenge_de"


data_path = "../data/"
# ---------------------
# -- Ruta abosluta, relatva, o en cloud del Repositorio de datos
# -- Ej: ../repsitorio/ 
# -- 		/ruta/del/repsitorio/
# -- 		gs://usuario-google-bucket/
# -- 		wasbs://azure-container@<azure-storage-account>.blob.core.windows.net/
# -- 		
# ---------------------

#data_file = "test_01.json"
data_file = "farmers-protest-tweets-2021-2-4.json"
# ---------------------
# -- Nombre de archivo de datos 
# ---------------------

data_read_size = 100000
# ---------------------
# -- Indica Cantidad de registros a leer para realizar ejecucion por hilos (Threads).
# ---------------------

use_spark_service = True
# ---------------------
# -- Indica si usa un servicio de Apache Spark.
# -- Si es False , la carga de archivos se realiza directa por filesystem
# ---------------------

spark_service_provider = "local"
# ---------------------
# -- Proveedor del Servicio Apche Spark. Puede ser un servicio local o en cloud
# -- Dependiendo del servicio se configura parametros particulares de cada proveedor en su seccion.
# -- Si la variable <use_spark_service> == False, se realiza una carga directa por filesystem y se asume el valor de <spark_service_provider> como "local"
# -- 
# -- Proveedores:
# -- local:  Servicio SAPRK local en el mismo servidor o mismo segmento de red
# -- gcp: Servicio Google Cloud Platform , Google Cloud Storage (GCS), BigQuery.
# -- azure: Servicio Azure HDInsight.
# ---------------------

# ---------------------
# Configuracion Local
# ---------------------

SPARK_IP = "127.0.0.1"

# ---------------------
# Configuracion GCP
# ---------------------

SPARK_GCP_JARS = "gs://ruta/a/archivos/jar_files/*.jar"
SPARK_GCP_SERV_ACCOUNT_FILE = "/ruta/a/archivo/service-account-file.json"

# ---------------------
# Configuracion Azure
# ---------------------

SPARK_AZURE_STORAGE_ACCOUNT = "cuenta_azure"
SPARK_AZURE_STORAGE_ACCOUNT_KEY = "cuenta_azure_key"


## Librerias Requeridas

pyspark         3.5.1
emoji           2.10.1
humanize        4.9.0


## Ejecución de Soluciones

In [2]:
import q1_memory
q1_memory.q1_memory("../data/farmers-protest-tweets-2021-2-4.json")


[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

In [9]:
import q1_time
q1_time.q1_time("../data/farmers-protest-tweets-2021-2-4.json")


Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/03/17 21:21:58 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting Spark log level to "OFF".


[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

### (el warning que aparece es por un tema de configuracion local, pero no interfiere en el uso de Spark)

In [1]:
import q2_memory

q2_memory.q2_memory("../data/farmers-protest-tweets-2021-2-4.json")

ModuleNotFoundError: No module named 'emoji'

#### El ambiente de jupyter lab no consigue la libreria emoji


#### Desde el terminal local no tiene problemas


![image.png](attachment:e8998160-5a80-4c0b-bc7b-3f549f11f351.png)

[('🙏', 5976), ('😂', 4067), ('🚜', 3274), ('🌾', 2460), ('🇮🇳', 2407), ('🤣', 2110), ('✊', 2012), ('👉', 1867), ('❤️', 1795), ('🙏🏻', 1723)]


In [3]:
import q2_time

q2_time.q2_time("../data/farmers-protest-tweets-2021-2-4.json")

ModuleNotFoundError: No module named 'emoji'

#### El ambiente de jupyter lab no consigue la libreria emoji


#### Desde el terminal local no tiene problemas


![image.png](attachment:3b642e30-4544-43f0-9f4f-02fd1b445539.png)

[('🙏', 5976), ('😂', 4067), ('🚜', 3274), ('🌾', 2460), ('🇮🇳', 2407), ('🤣', 2110), ('✊', 2012), ('👉', 1867), ('❤️', 1795), ('🙏🏻', 1723)]

In [4]:
import q3_memory

q3_memory.q3_memory("../data/farmers-protest-tweets-2021-2-4.json")

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

In [5]:
import q3_time

q3_time.q3_time("../data/farmers-protest-tweets-2021-2-4.json")

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/03/17 21:53:39 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting Spark log level to "OFF".
                                                                                

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

### (el warning que aparece es por un tema de configuracion local, pero no interfiere en el uso de Spark)