# Data Engineer Challenge
​
## Descripción General
Bienvenido al desafío para Ingenieros de Datos. En esta ocasión, tendrás la oportunidad de acercarte a parte de la realidad del rol, demostrar tus habilidades y conocimientos en procesamiento de datos con python y diferentes estructuras de datos.

## Challenge
En el [archivo](https://drive.google.com/file/d/1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis/view?usp=sharing) encontrarás un conjunto aproximado de 398MBs. Se pide resolver los siguientes problemas implementando funciones, usando **2 enfoques por cada problema**: Uno en el que se optimice el tiempo de ejecución, y otro en que se optimice la memoria en uso.

Tu desafío debe tener al menos 6 archivos python en la carpeta `src`. Cada uno de estos archivos correspondiente a la función del mismo nombre, con el mismo formato que se indica en las instrucciones de más abajo. Solo deja la función. Además de eso, debes tener un archivo `.ipynb` donde expliques con mayor claridad tu código. En este jupyter notebook puedes ejecutar tus funciones, medir el tiempo de ejecución, memoria en uso y explayarte según estimes conveniente. Te recomendamos fuertemente que utilices celdas markdown para que expliques el paso a paso de tu código.

**NOTA:** los archivos `.py` y `.ipynb` de interés ya están creados en la estructura del desafío, solo debes completarlos con tu solución y/o agregar los archivos que estimes convenientes.

##Instalar Dependencias

In [2]:
#instalar de forma explicita
!pip install memory-profiler==0.61.0 pyspark==3.5.3 polars==1.9.0 emoji==2.14.0 findspark==2.0.1



In [5]:
#instalar mediante un archivo
!pip install -r requirements.txt



In [12]:
#descargar los datos
!curl "https://drive.usercontent.google.com/download?id=1ig2ngoXFTxP5Pa8muXo02mDTFexZzsis&confirm=xxx" --create-dirs -o "data/tweets.json.zip"

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 57.5M  100 57.5M    0     0  54.1M      0  0:00:01  0:00:01 --:--:-- 54.1M


In [13]:
#descomprimir los datos
!unzip -n data/tweets.json.zip

Archive:  data/tweets.json.zip
  inflating: farmers-protest-tweets-2021-2-4.json  


In [9]:
file_path = "farmers-protest-tweets-2021-2-4.json"


​
#Primer Challenge Q1
1. Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días. Debe incluir las siguientes funciones:
```python
def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
```
```python
def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
```
```python
Returns:
[(datetime.date(1999, 11, 15), "LATAM321"), (datetime.date(1999, 7, 15), "LATAM_CHI"), ...]
```

#Segundo Challenge Q2
​
2. Los top 10 emojis más usados con su respectivo conteo. Debe incluir las siguientes funciones:
```python
def q2_time(file_path: str) -> List[Tuple[str, int]]:
```
```python
def q2_memory(file_path: str) -> List[Tuple[str, int]]:
```
```python
Returns:
[("✈️", 6856), ("❤️", 5876), ...]
```

#Q3 Tercer Challenge Q3
3. El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos. Debe incluir las siguientes funciones:
```python
def q3_time(file_path: str) -> List[Tuple[str, int]]:
```
```python
def q3_memory(file_path: str) -> List[Tuple[str, int]]:
```
```python
Returns:
[("LATAM321", 387), ("LATAM_CHI", 129), ...]
```

#Implementaciones Optimizadas en Memoria

In [13]:
import q1_memory as q1
from memory_profiler import memory_usage
import imp
imp.reload(q1)

mem_usage_init = memory_usage()[0]
q1.q1_memory(file_path)
mem_usage_end = memory_usage()[0]
print(f"Uso de Memoria Ram: {mem_usage_end - mem_usage_init} MiB")

Uso de Memoria Ram: 3.08984375 MiB


In [15]:
import q2_memory as q2
imp.reload(q2)

mem_usage_init = memory_usage()[0]
q2.q2_memory(file_path)
mem_usage_end = memory_usage()[0]
print(f"Uso de Memoria Ram: {mem_usage_end - mem_usage_init} MiB")

Uso de Memoria Ram: 0.515625 MiB


In [16]:
import q3_memory as q3
imp.reload(q3)

mem_usage_init = memory_usage()[0]
q3.q3_memory(file_path)
mem_usage_end = memory_usage()[0]
print(f"Uso de Memoria Ram: {mem_usage_end - mem_usage_init} MiB")

Uso de Memoria Ram: 1.2890625 MiB


##Mediciones de Memoria Ram en los tres desafios:

- **Q1** -> Uso de Memoria: 3.089 MiB
- **Q2** -> Uso de Memoria: 0.515 MiB
- **Q3** -> Uso de Memoria: 1.28 MiB

#Implementacion de Optimizaciones en Tiempo

In [18]:
import q1_time as q1
import time
imp.reload(q1)

time_init = time.time()
q1.q1_time(file_path)
time_end = time.time()
print(f"Tiempo de ejecución: {time_end - time_init:.2f} segundos")

Tiempo de ejecución: 10.12 segundos


In [19]:
import q2_time as q2
import time
imp.reload(q2)

time_init = time.time()
q2.q2_time(file_path)
time_end = time.time()
print(f"Tiempo de ejecución: {time_end - time_init:.2f} segundos")

Tiempo de ejecución: 32.80 segundos


In [20]:
import q3_time as q3
import time
imp.reload(q3)

time_init = time.time()
q3.q3_time(file_path)
time_end = time.time()
print(f"Tiempo de ejecución: {time_end - time_init:.2f} segundos")

Tiempo de ejecución: 6.77 segundos


##Mediciones de tiempo de las implementaciones:

- **Q1** -> Tiempo: 10.12 s
- **Q2** -> Tiempo: 32.80 s
- **Q3** -> Tiempo: 6.77 s

# **Mediciones promedio de las implementaciones realizadas utilizando Map/Reduce**

In [33]:
from typing import Callable
import time
import imp
import numpy as np
from memory_profiler import memory_usage

#Metodos para medir tiempo y ram a traves de varias iteraciones
def medir_tiempo(func: Callable, n_times:int):
  resultados = []
  for i in range(n_times):
    inicio = time.time()
    func()
    duracion = time.time() - inicio
    resultados.append(duracion)
  print(f"Tiempos de Ejecución {resultados}")
  print(f"En promedio tarda {round(np.mean(resultados),3)} segundos\n")
  #return resultados


def medir_memoria(func: Callable, n_times:int):
  resultados = []
  for i in range(n_times):
    mem_usage_init = memory_usage()[0]
    func()
    uso = memory_usage()[0] - mem_usage_init
    resultados.append(uso)
  print(f"Uso de Memoria Ram: {resultados}")
  print(f"En promedio utiliza {round(np.mean(resultados),3)} MB de Memoria Ram\n")
  #return resultados


In [34]:
import q1_memory as q1
import q2_memory as q2
import q3_memory as q3
import numpy as np


[imp.reload(q) for q in [q1, q2, q3]]

n_times = 10
print("Implementaciones Optimizadas en Memoria")
print("-------------------------------------")
medir_memoria(lambda: q1.q1_memory(file_path), n_times)
medir_memoria(lambda: q2.q2_memory(file_path), n_times)
medir_memoria(lambda: q3.q3_memory(file_path), n_times)
medir_tiempo(lambda: q1.q1_memory(file_path), n_times)
medir_tiempo(lambda: q2.q2_memory(file_path), n_times)
medir_tiempo(lambda: q3.q3_memory(file_path), n_times)

Implementaciones Optimizadas en Memoria
-------------------------------------
Uso de Memoria Ram: [0.0, 0.0, 0.0, 0.0, 0.2578125, 0.0, 0.0, 0.0, 0.0, 0.0]
En promedio utiliza 0.026 MB de Memoria Ram

Uso de Memoria Ram: [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
En promedio utiliza 0.0 MB de Memoria Ram

Uso de Memoria Ram: [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.2578125]
En promedio utiliza 0.026 MB de Memoria Ram

Tiempos de Ejecución [7.445267200469971, 8.759393453598022, 7.48474383354187, 8.940147399902344, 7.441828727722168, 8.640992879867554, 7.765546798706055, 8.357062578201294, 8.609939575195312, 7.845982789993286]
En promedio tarda 8.129 segundos

Tiempos de Ejecución [26.589252710342407, 26.73898434638977, 24.957857847213745, 26.085360527038574, 26.751383781433105, 26.50305676460266, 25.325359582901, 28.027903079986572, 26.637978315353394, 26.59722089767456]
En promedio tarda 26.421 segundos

Tiempos de Ejecución [5.722828388214111, 7.171793699264526, 5.978295

In [35]:
import q1_time as q1
import q2_time as q2
import q3_time as q3

[imp.reload(q) for q in [q1, q2, q3]]

n_times = 10
print("Implementaciones Optimizadas en Tiempo de Ejecucion")
print("-------------------------------------")
medir_memoria(lambda: q1.q1_time(file_path), n_times)
medir_memoria(lambda: q2.q2_time(file_path), n_times)
medir_memoria(lambda: q3.q3_time(file_path), n_times)
medir_tiempo(lambda: q1.q1_time(file_path), n_times)
medir_tiempo(lambda: q2.q2_time(file_path), n_times)
medir_tiempo(lambda: q3.q3_time(file_path), n_times)

Implementaciones Optimizadas en Tiempo de Ejecucion
-------------------------------------
Uso de Memoria Ram: [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.2578125]
En promedio utiliza 0.026 MB de Memoria Ram

Uso de Memoria Ram: [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
En promedio utiliza 0.0 MB de Memoria Ram

Uso de Memoria Ram: [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
En promedio utiliza 0.0 MB de Memoria Ram

Tiempos de Ejecución [8.746244192123413, 7.473774194717407, 8.755993366241455, 7.512187242507935, 8.638125896453857, 8.164584398269653, 8.207316637039185, 8.708510160446167, 7.12178635597229, 8.866959571838379]
En promedio tarda 8.22 segundos

Tiempos de Ejecución [24.318922996520996, 26.020010232925415, 28.4870867729187, 26.14394783973694, 24.176851987838745, 26.287723064422607, 26.289777517318726, 25.901931762695312, 24.399537324905396, 26.16638422012329]
En promedio tarda 25.819 segundos

Tiempos de Ejecución [6.582658052444458, 6.558704853057861, 6.0