En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

## Data engineer challenge - Sebastian Montenegro
Mi nombre es Sebastian Montenegro y en este notebook comentare sobre la resolucion del challenge

### Variables e imports
En la siguiente celda estare colocando las variables que seran utilizadas por las diferentes funciones del challenge y los imports de las funciones

In [None]:
from q1_memory import q1_memory
from q1_time import q1_time
from q2_memory import q2_memory
from q2_time import q2_time
from q3_memory import q3_memory
from q3_time import q3_time

file_path = "farmers-protest-tweets-2021-2-4.json"

### Suposiciones y comentarios
- Para cada uno de los ejercicios estare considerando en el procesamiento de los datos solo los tweets originales y nos los quoted tweets, ya que esto generaria duplicados en los datos y alteraria las metricas reales.
- El contexto de los tweets trata sobre las protestas de los granjeros/agricultores del pais de la India que ocurrio entre los años 2020 y 2021.
- Durante el desarrollo de todos los ejercicios se busca evitar cargar todas las lineas por completo en memoria. Solo se usan los atributos/keys necesarios.

# Q1 - Solucion del problema

### Q1-Time

#### Explicacion del codigo:
1. Primero cargaremos toda la data en memoria.
2. Realizaremos el procesamiento apoyandonos de la libreria pandas.
3. Convertimos los timestamps en un formato reconocible para el procesamiento y nos quedaremos solo con la fecha
4. Partiremos el proceso en 4 partes: Obtener el top 10 tweets por fecha, Obtener el conteo de tweets por usuario por fecha, Obtener el top usuario por cada fecha y, finalmente, realizar un join entre las top 10 fechas y el top usuario por fecha.

In [None]:
qt1_time = q1_time(file_path=file_path)
qt1_time

### Q1-Memory

#### Explicacion del codigo:
1. Primero crearemos un generador que iterara sobre el archivo json y evitar cargar toda la data en memoria durante el procesamiento.
2. Realizaremos el procesamiento apoyandonos de la libreria collection.
3. Contaremos en un principio la cantidad de tweets por fecha.
4. Contaremos la cantidad de tweets de cada usuario por fecha.
5. Obtendremos el top 10 de fechas con mas tweets.
6. Finalmente, obtendremos los usuarios con mas tweets por cada fecha comparando el punto 4 y 5.

In [None]:
qt1_memory = q1_memory(file_path=file_path)
qt1_memory

# Q2 - Solucion del problema

### Q2-Time

#### Explicacion del codigo:
1. Primero partimos el contenido del tweet en grafemas (una unidad minimas de escritura).
2. Tomaremos todos los emojis que se encuentran en el contenido del tweet.
3. Cargaremos toda esa data en memoria.
4. Realizaremos el procesamiento apoyandonos de la libreria pandas.
5. Contaremos la cantidad total de cada emoji que se encuentra en la data.

In [None]:
qt2_time = q2_time(file_path=file_path)
qt2_time

### Q2-Memory

#### Explicacion del codigo:
1. Primero crearemos el extractor de emojis que toma un string y lo separa por grafemas. Este extractor es un generator lo que nos permite evitar cargar toda la data en memoria.
2. Luego crearemos un contador de emojis que se apoyara del punto 1 y utilizara Counter de la libreria collections para este proposito.
3. Tomaremos los 10 emojis mas comunes

In [None]:
qt2_memory = q2_memory(file_path=file_path)
qt2_memory

# Q3 - Solucion del problema

### Q3-Time

#### Explicacion del codigo:
1. Primero cargaremos toda la data relacionada a las menciones en memoria.
2. Debido a que lo que obtenemos es un array de arrays buscamos utilizar el metodo "extend" de las listas de python para hacer un "flatten" de los mismos.
3. Realizaremos el procesamiento apoyandonos de la libreria pandas.
4. Contaremos todas las ocurrencias de cada mencion y nos quedaremos con el top 10.

In [None]:
qt3_time = q3_time(file_path=file_path)
qt3_time

### Q3-Memory

#### Explicacion del codigo:
1. Primero crearemos un generador que iterara sobre el archivo json y evitar cargar toda la data en memoria durante el procesamiento.
2. Realizaremos el procesamiento apoyandonos de la libreria collection.
3. En caso existan menciones en el tweet las contaremos.
4. De dicha cuenta total tomaremos el top 10.

In [None]:
qt3_memory = q3_memory(file_path=file_path)
qt3_memory

# Mejoras y comentarios generales
- Se esta considerando cargar toda la data en memoria y procesarla en los problemas de tipo TIME, ya que el procesar data que se encuentra cargada en la memoria deberia ser mas rapido
- Una mejora a los problemas de tipo TIME es utilizar procesamiento distribuido o paralelismo (librerias como concurrent o polars) para alcanzar una mayor rapidez.
- Para los problemas de tipo MEMORY seria util considerar el uso de lazy evaluation (librerias como polars) que solo evaluen el procesamiento cuando sea necesario y evitar cargar data innecesaria en memoria lo que permitiria un mejor escalamiento.
- Es ideal contar con un correcto manejo de logs de errores en nuestro pipeline, por lo que se deberian remplazar los prints de errores con un sistema propio de logging.
- Los datos deben poder ser confiables, por lo que es necesario añadir un sistema de quality control que puede ser implementado con librerias como pydantic, great expectations, etc.