En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu soluci√≥n y todas las suposiciones que est√°s considerando. Aqu√≠ puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

-----
#### Enfoque y l√≥gica soluciones *q_time*

Para las soluciones *q_time* del challenge, el enfoque se centra en optimizar el tiempo de ejecuci√≥n. Utilizado la biblioteca **Polars**, que es una biblioteca de manipulaci√≥n de datos de alto rendimiento y baja memoria se realiz√≥ la lectura y procesamiento de los datos.

Polars utiliza una estructura de datos llamada LazyFrame que es similar a la de Pandas, pero utiliza un enfoque de evaluaci√≥n perezosa (lazy evaluation), lo que significa que las operaciones no se ejecutan inmediatamente, sino que se almacenan en un plan de ejecuci√≥n y s√≥lo se realizan cuando se necesita el resultado. Esto puede llevar a un uso m√°s eficiente de los recursos y a un mejor rendimiento.

**Mejoras al enfoque:** 
- Se podr√≠a utilizar servicios de almacenamiento en la nube como *Google Cloud Storage* o *Amazon S3* para almacenar el conjunto de datos. De esta forma la carga de los datos no pasan por la memoria de una sola m√°quina.

- Podr√≠amos utilizar servicios de Big Data y an√°lisis como *Google BigQuery* o *Amazon Redshift* para procesar el conjunto de datos. Estos servicios est√°n dise√±ados para trabajar con grandes conjuntos de datos y pueden realizar operaciones de agrupamiento y conteo de manera muy r√°pida.

En general si se elige un enfoque utilizando herramientas en la nube podriamos aprovechar el conjunto de herramientas que ofrecen las diferentes suits como GCP, AWS, Azure y que interactuan de manera muy eficiente entre si.

#### Enfoque y l√≥gica soluciones *q_memory*

Para las soluciones *q_memory* del challenge el enfoque se centra en optimizar el uso de la memoria. En lugar de cargar todos los datos en la memoria a la vez, se leen los datos en trozos (chunks) de 1000 filas a la vez utilizando la funci√≥n *read_json* de **Pandas** con el par√°metro *chunksize*.

En la inspecci√≥n previa del archivo pudimos ver que son m√°s de 117000 lineas de tweets, entonces utilizaremos chunks de tama√±o 1000 para tener un balance entre un buen tiempo de ejecuci√≥n y bajo consumo de memor√≠a.

En cuanto al filtrado y procesamiento de los datos utilizamos las clases *Counter* y *defaultdict* de la biblioteca **Collections**, que proporcionan una forma eficiente de contar elementos.

Este enfoque es m√°s eficiente en t√©rminos de uso de memoria, ya que s√≥lo mantiene en memoria los contadores y el chunk actual de datos. Sin embargo, puede ser m√°s lento que el enfoque q1_time, especialmente para conjuntos de datos muy grandes, ya que tiene que leer los datos en m√∫ltiples pasos.

**Mejoras al enfoque:**

- El uso de herramientas como **Apache Spark** en la nube son especialmente utiles para el procesamiento paralelo de grandes conjuntos de datos. Por ejemplo *Google Cloud Dataproc* (de GCP) o *Amazon EMR* de (AWS) son servicios permiten ejecutar trabajos de Apache Spark en la nube.

- *Paralelizaci√≥n:* Podr√≠amos mejorar el rendimiento de este enfoque utilizando procesamiento paralelo o concurrente. Por ejemplo, podr√≠amos procesar varios chunks de datos simult√°neamente en diferentes hilos o procesos.

- Ajuste del tama√±o del chunk: El tama√±o del chunk seteado a 1000 fue elegido arbitrariamente. Podr√≠amos experimentar con diferentes tama√±os de chunk para encontrar el √≥ptimo entre el tiempo de ejecuci√≥n y el uso de memoria.


----
### Exploraci√≥n de datos

Tras una inspecci√≥n al conjunto de datos y las preguntas que se plantean en el desaf√≠o, podemos concluir que los campos que se utilizar√°n son los siguientes:


##### √çndices que se utilizar√°n:

|Atributo|Descripci√≥n|Data type|Sub-elementos|
|--------|--------|--------|--------|
|date|Fecha cuando el tweet fue creado|String|-|
|user|Objeto con los datos del usuario que cre√≥ el tweet|User object|username (String)|
|content|Contenido del tweet|String|-|
|mentionedUsers|Lista de objetos con los datos de los usuarios mencionados en el tweet|List of User objects|username (String)|

##### Observaciones

- **content:** El elemento *content* que utilizar√©mos para la pregunta 2 del desaf√≠o contiene todo el contenido del tweet, incluyendo enlaces y menciones a usuarios, por lo que ser√≠a una buena practica realizar una limpieza de URLS y menciones antes de realizar el an√°lisis.

- **created_at**: El atributo *created_at* que aparece en la documentaci√≥n entregada para el desafi√≥ no est√° presente en el conjunto de datos, en su lugar est√° el atributo "date" que simboliza lo mismo, la fecha en la que se cre√≥ el tweet.

----
**Imports**

In [1]:
file_path = "../data/farmers-protest-tweets-2021-2-4.json"

%load_ext memory_profiler

#Funciones desarrolladas
from q1_time import q1_time, q1_time_pandas
from q1_memory import q1_memory
from q2_time import q2_time
from q2_memory import q2_memory
from q3_time import q3_time
from q3_memory import q3_memory

----
### Pregunta nro 1

1. Listar las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as.


##### **q1_time**

Para optimizar el tiempo de ejecuci√≥n, cargamos el archivo completo en un *LazyFrame* de **Polars** y utilizamos los m√©todos de esta libreria ya que son eficientes para el procesamiento de datos ordenados.

El desglose de lo que realiz√≥ la funci√≥n es:
- Seleccionar las columnas relevantes.
- Agrupamos los datos por por fecha y usuario.
- Contar el n√∫mero de tweets para cada combinaci√≥n de fecha y usuario.
- Seleccionar las 10 fechas con m√°s tweets.
- Luego iteramos en estas fechas y seleccionar los usuarios con la mayor cantidad de tweets en esos d√≠as.
- Se contruye una lista de tuplas con la respuesta.

In [2]:
resultado_q1_time = q1_time(file_path)
display(resultado_q1_time)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

Medimos el tiempo que tard√≥ nuestra funci√≥n en encontrar el resultado y el peak m√°ximo de memor√≠a que utiliz√≥

In [3]:
%timeit q1_time(file_path)
%memit q1_time(file_path)

2.83 s ¬± 87.7 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 1677.14 MiB, increment: 522.91 MiB


Con este enfoque podemos ver que la funci√≥n **q1_time** tiene un tiempo de ejecuci√≥n promedio de *2.8 segundos* y uso m√°ximo de memor√≠a de *1677 MiB*.

##### **q1_memory**

Para esta soluci√≥n se leen los datos en chunks y aprovechando las iteraciones para cada chunk, actualiza dos contadores: uno para el conteo de tweets por fecha y otro para el conteo de tweets por usuario para cada fecha. Estos contadores se implementan utilizando las clases *Counter* y *defaultdict* de la biblioteca **Collections**, que proporcionan una forma eficiente de contar elementos.

El desglose de lo que realiz√≥ la funci√≥n es:
- Definir el tama√±o del chunk y los contadores.
- Leer el archivo JSON en chunks.
- Actualizar los contadores.
- Obtener las 10 fechas con m√°s tweets.
- Seleccionar el usuario con m√°s tweets para cada fecha.
- Construir una lista de tuplas con la respuesta.

In [4]:
resultado_q1_memory = q1_memory(file_path)
display(resultado_q1_memory)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

Medimos el tiempo que tard√≥ nuestra funci√≥n en encontrar el resultado y el peak m√°ximo de memor√≠a que utiliz√≥

In [3]:
%timeit q1_memory(file_path)
%memit q1_memory(file_path)

4.42 s ¬± 175 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 157.44 MiB, increment: 15.60 MiB


Con este enfoque podemos ver que la funci√≥n **q1_memory** tiene un tiempo de ejecuci√≥n promedio de *4.4 segundos* y un uso m√°ximo de memor√≠a de *157 MiB*.

##### **q1_time_pandas**

Como extra mencionar que durante el desarrollo del challenge se intent√≥ utilizar la librer√≠a pandas para los enfoques *time* enfoque que no cuida el uso de memor√≠a, pero esta librer√≠a tardaba mucho tiempo en leer el conjunto de datos. Por lo que se baraj√≥ utilizar la librer√≠a **Polars** con su metodo LazyFrame, que es es m√°s r√°pido que un DataFrame de Pandas gracias a su enfoque de procesamiento perezoso (lazy) que optimiza las operaciones y su capacidad de computaci√≥n en paralelo aprovechando m√∫ltiples n√∫cleos de CPU.

In [6]:
resultado_q1_time_pandas= q1_time_pandas(file_path)
display(resultado_q1_time_pandas)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

Medimos el tiempo que tard√≥ nuestra funci√≥n en encontrar el resultado y el peak m√°ximo de memor√≠a que utiliz√≥

In [4]:
%timeit q1_time_pandas(file_path)
%memit q1_time_pandas(file_path)

5.11 s ¬± 583 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 2805.34 MiB, increment: 2319.15 MiB


Podemos ver que el uso de memoria y el tiempo de computo utilizando Pandas es mayor que utilizando la librer√≠a Polars. 5.11 segundos y 2805 MiB de memor√≠a

----
### Pregunta nro 2

2. Los top 10 emojis m√°s usados con su respectivo conteo.

##### **q2_time**

Para optimizar el tiempo de ejecuci√≥n, cargamos el archivo completo en un *LazyFrame* de **Polars** y utilizamos los m√©todos de esta libreria ya que son eficientes para el procesamiento de datos ordenados.

Adem√°s antes de procesor el conjunto de datos en busca de los emojis haremos una limpieza para eliminar las URLs y las menciones de usuarios en el texto del tweet usando una expresi√≥n regular. Esto har√° que la funci√≥n *extract_emojis* tenga menos texto que procesar.

El desglose de lo que realiz√≥ la funci√≥n es:
- Leer el conjunto de datos en un LazyFrame de Polars
- Eliminar los URLs y las menciones de usuario del texto del tweet usando una expresi√≥n regular.
- Seleccionar las columna relevante ("content") y aplica extract_emojis a cada fila (devuelve una lista de emojis de un texto).
- Filtra las filas del DataFrame para eliminar aquellas que no contienen emojis.
- Aplicamos la funci√≥n explode() para tener un DataFrame donde cada fila corresponde a un solo emoji
- Agrupamos los datos por "emojis".
- Contar el n√∫mero de veces que cada emoji aparece.
- Seleccionar los 10 emojis m√°s usados.
- Se devuelve una lista de tuplas con la respuesta.

In [3]:
resultado_q2_time = q2_time(file_path)
display(resultado_q2_time)

[('üôè', 5046),
 ('üòÇ', 3072),
 ('üöú', 2970),
 ('üåæ', 2181),
 ('üáÆüá≥', 2086),
 ('ü§£', 1665),
 ('‚úä', 1651),
 ('‚ù§Ô∏è', 1382),
 ('üôèüèª', 1317),
 ('üíö', 1040)]

Medimos el tiempo que tard√≥ nuestra funci√≥n en encontrar el resultado y el peak m√°ximo de memor√≠a que utiliz√≥.

In [4]:
%timeit q2_time(file_path)
%memit q2_time(file_path)

7.23 s ¬± 220 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 565.34 MiB, increment: 340.73 MiB


Con este enfoque podemos ver que la funci√≥n **q2_time** tiene un tiempo de ejecuci√≥n promedio de *7.2 segundos* y uso m√°ximo de memor√≠a de *565 MiB*.

##### **q2_memory**

Para esta soluci√≥n se leen los datos en chunks y aprovechando las iteraciones para cada chunk, actualiza dos contadores: uno para el conteo de tweets por fecha y otro para el conteo de tweets por usuario para cada fecha. Estos contadores se implementan utilizando las clases *Counter* y *defaultdict* de la biblioteca **Collections**, que proporcionan una forma eficiente de contar elementos.

El desglose de lo que realiz√≥ la funci√≥n es:
- Definir el tama√±o del chunk y crear un contador para los emojis (emoji_counts).
- Leer el archivo JSON en chunks.
- Usar la funci√≥n *emoji_list* de la librer√≠a emoji para extraer los emojis en cada tweet
- Actualizar los contadores de emojis.
- Obtener los 10 emojis que m√°s se usaron en los tweets desde el contador usando el m√©todo most_common(10).
- Construir una lista de tuplas con la respuesta.

In [4]:
resultado_q2_memory = q2_memory(file_path)
display(resultado_q2_memory)

[('üôè', 5049),
 ('üòÇ', 3072),
 ('üöú', 2972),
 ('üåæ', 2182),
 ('üáÆüá≥', 2086),
 ('ü§£', 1668),
 ('‚úä', 1651),
 ('‚ù§Ô∏è', 1382),
 ('üôèüèª', 1317),
 ('üíö', 1040)]

Medimos el tiempo que tard√≥ nuestra funci√≥n en encontrar el resultado y el peak m√°ximo de memor√≠a que utiliz√≥.

In [2]:
%timeit q2_memory(file_path)
%memit q2_memory(file_path)

10.9 s ¬± 323 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 156.49 MiB, increment: 14.55 MiB


Con este enfoque podemos ver que la funci√≥n **q2_memory** tiene un tiempo de ejecuci√≥n promedio de *10.9 segundos* y uso m√°ximo de memor√≠a de *156 MiB*.

----
### Pregunta nro 3

3. El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos.

##### **q3_time**

Para optimizar el tiempo de ejecuci√≥n, cargamos el archivo completo en un *LazyFrame* de **Polars** y utilizamos los m√©todos de esta libreria ya que son eficientes para el procesamiento de datos ordenados.

El desglose de lo que realiz√≥ la funci√≥n es:
- Leer el conjunto de datos en un LazyFrame de Polars
- Explosi√≥n de la columna *mentionedUsers* para poder contar cada menci√≥n por separado.
- Extraemos el *username* de cada usuario mencionado y se almacenan en una nueva columna *username*.
- Agrupar los datos por la nueva columna *username* y se realiza el conteo de menciones.
- Ordenamos y obtenemos el top 10 de usuarios m√°s mencionados con *limit(10)*.
- Se devuelve una lista de tuplas con la respuesta.

In [4]:
resultado_q3_time = q3_time(file_path)
display(resultado_q3_time)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

Medimos el tiempo que tard√≥ nuestra funci√≥n en encontrar el resultado y el peak m√°ximo de memor√≠a que utiliz√≥.

In [2]:
%timeit q3_time(file_path)
%memit q3_time(file_path)

2.63 s ¬± 99.1 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 1410.25 MiB, increment: 804.50 MiB


Con este enfoque podemos ver que la funci√≥n **q3_time** tiene un tiempo de ejecuci√≥n promedio de *2.6 segundos* y uso m√°ximo de memor√≠a de *1410 MiB*.

##### **q3_memory**

Para esta soluci√≥n se leen los datos en chunks y aprovechando las iteraciones para cada chunk, se actualiza un contador con las menciones de cada usuario. Este contador se implementa utilizando la clase *Counter* de la biblioteca **Collections**, que proporciona una forma eficiente de contar elementos.

El desglose de lo que realiz√≥ la funci√≥n es:
- Definir el tama√±o del chunk y crear el contador que almacenar√° las menciones (user_mention_counts).
- Leer el archivo JSON en chunks.
- Explosi√≥n de menciones para poder contar cada menci√≥n por separado y eliminamos filas que no tengan menciones.
- Extraemos el *username* de cada menci√≥n y lo almacenamos en una nueva columna llamada 'username'.
- Actualizar el contador.
- Obtenemos los 10 usuarios con m√°s menciones desde el contador, con el m√©todo *most_common(10)*.
- Construir una lista de tuplas con la respuesta.

In [3]:
resultado_q3_memory = q3_memory(file_path)
display(resultado_q3_memory)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

Medimos el tiempo que tard√≥ nuestra funci√≥n en encontrar el resultado y el peak m√°ximo de memor√≠a que utiliz√≥.

In [2]:
%timeit q3_memory(file_path)
%memit q3_memory(file_path)

4.6 s ¬± 53.2 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
peak memory: 150.80 MiB, increment: 10.68 MiB


Con este enfoque podemos ver que la funci√≥n **q3_memory** tiene un tiempo de ejecuci√≥n promedio de *4.6 segundos* y uso m√°ximo de memor√≠a de *150 MiB*.

----
### Estructura del proyecto


Se sigui√≥ la misma estructura definida en el challenge, agregando una carpeta donde se almacenaron los datos

```css
‚îú‚îÄ‚îÄ README.md
‚îú‚îÄ‚îÄ requirements.txt
‚îú‚îÄ‚îÄ LICENSE
‚îú‚îÄ‚îÄ data
‚îÇ   ‚îî‚îÄ‚îÄ farmers-protest-tweets-2021-2-4.json
‚îî‚îÄ‚îÄ src
    ‚îú‚îÄ‚îÄ challenge.ipynb
    ‚îú‚îÄ‚îÄ q1_time.py
    ‚îú‚îÄ‚îÄ q1_memory.py
    ‚îú‚îÄ‚îÄ q2_time.py
    ‚îú‚îÄ‚îÄ q2_memory.py
    ‚îú‚îÄ‚îÄ q3_time.py
    ‚îú‚îÄ‚îÄ q3_memory.py
    ‚îî‚îÄ‚îÄ utils.py
   ```

----
### POST para enviar el desaf√≠o

In [2]:
import requests

data = {
   "name": "Victor Gatica",
   "mail": "gaticavm9@gmail.com",
   "github_url": "https://github.com/gaticavm9/DE-Challenge-Victor-Gatica.git"
}

response = requests.post("https://advana-challenge-check-api-cr-k4hdbggvoq-uc.a.run.app/data-engineer", json=data)

# Verifica que la solicitud se haya realizado correctamente
if response.status_code == 200:
   print("Desaf√≠o enviado correctamente.")
else:
   print(f"Hubo error: {response.content}")

Desaf√≠o enviado correctamente.
