## Desafío de Ingeniero de Datos
Kevin Millan

email: kmillanr@fractal-software.com

### Introducción
Este notebook documenta el proceso de resolución del Desafío de Ingeniero de Datos. El desafío consiste en analizar un conjunto de datos de tweets para responder a consultas específicas, optimizando tanto el tiempo de ejecución como el uso de memoria.

### Consultas
1. Las 10 fechas con más tweets y el usuario con más tweets en esas fechas.
2. Los 10 emojis más usados y sus conteos.
3. Los 10 usuarios más influyentes basados en menciones.


Cada consulta tiene dos implementaciones: una optimizada para el tiempo de ejecución y la otra para el uso de memoria.


## Iniciar Sesion de Spark

In [5]:
import os
from pyspark.sql import SparkSession

# Establecer Variables de Entorno
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-arm64"
os.environ["SPARK_HOME"] = "/usr/local/lib/python3.9/site-packages/pyspark"

# Crear Sesion de Spark con opciones de JVM
spark = SparkSession.builder \
    .appName("PySpark Jupyter Notebook") \
    .config("spark.driver.memory", "2g") \
    .config("spark.executor.extraJavaOptions", "--illegal-access=permit") \
    .getOrCreate()

# Reducer Verbosidad de Logs de Error
spark.sparkContext.setLogLevel("ERROR")

# Verificar Sesion de Spark
spark


## Importacion de Dependencias

In [None]:
from src.q1_time import q1_time
from src.q1_memory import q1_memory
from src.q2_time import q2_time
from src.q2_memory import q2_memory
from src.q3_time import q3_time
from src.q3_memory import q3_memory


## Llamado de Funciones

In [None]:
import pandas as pd
import time

file_path = 'farmers-protest-tweets-2021-2-4.json'

results = []
function_outputs = {}

# Función para ejecutar y medir una función
def execute_and_measure(func, func_name, file_path):
    start_time = time.time()
    output = func(file_path)
    execution_time = time.time() - start_time
    memory_usage = 100  # Suponiendo un uso de memoria ficticio para el ejemplo
    results.append([func_name, execution_time, memory_usage])
    function_outputs[func_name] = output

# Ejecutar funciones y capturar resultados
execute_and_measure(q1_time, "q1_time", file_path)
execute_and_measure(q1_memory, "q1_memory", file_path)
execute_and_measure(q2_time, "q2_time", file_path)
execute_and_measure(q2_memory, "q2_memory", file_path)
execute_and_measure(q3_time, "q3_time", file_path)
execute_and_measure(q3_memory, "q3_memory", file_path)

# Crear DataFrame para los resultados de rendimiento
df = pd.DataFrame(results, columns=["Query", "Execution Time (s)", "Memory Usage (MB)"])

# Mostrar tabla comparativa de rendimiento
print("Tabla comparativa de rendimiento:")
display(df)

# Mostrar resultados de las funciones
print("Resultados de las funciones:")
for func_name, output in function_outputs.items():
    print(f"{func_name} result:")
    print(output)
    print("\n")
