# Challenge Data Engineer - LATAM - 2024

Postulante: Diego Zimmerman

Email: dzimmerman2611@gmail.com

Empresa: Option

# Objetivo del challenge

    Se me proporcion√≥ un archivo JSON (newline-delimited JSON) llamado "farmers-protest-tweets-2021-2-4". Este archivo contiene aproximadamente 117mil registros. Cada uno de estos registros es un objeto proveniente de la API de Twiter con informaci√≥n acerca del tweet.

    Frente a esto se me pidi√≥ responder a tres preguntas:

        1. Las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as.
        2. Los top 10 emojis m√°s usados con su respectivo conteo.
        3. El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos.
    Para cada una de estas consignas se pidi√≥ que se implementaran dos soluciones, una enfocada en la optimizaci√≥n del tiempo de ejecuci√≥n y la otra enfocada en la utilizaci√≥n de memoria.

## Comentarios adicionales

    Adem√°s del archivo JSONL se entreg√≥ una peque√±a estructura de proyecto con algunos archivos. Entre esos archivos (los cuales se encuentran en la carpeta `src/` del proyecto) ya estaban pre-definidas las funciones que se deb√≠an completar para responder cada una de las preguntas anteriores (en sus dos versiones).




# Desarrollo del Challenge

A continuaci√≥n voy a explicar cada uno de los √≠tems y la forma en que lo decid√≠ resolver. Si bien esta Notebook servir√° para entender el enfoque tomado, el c√≥digo se encuentra documentado y las mismas justificaciones que dar√© a continuaci√≥n se encuentran en cada una de las funciones y/o modulos implementados. Podr√°n existir detalles que no est√©n en ambos lados pero los √≠tems principales si lo est√°n.

Lo primero que hice fue revisar el archivo JSON para poder entender c√≥mo estaba compuesto el mismo. Aqu√≠ prest√© atenci√≥n a los pares clave-valor de cada JSON. 

Luego ingres√© a la documentaci√≥n oficial de la API de Twitter para contrastar lo que estaba observando con lo que dec√≠a la documentaci√≥n.
Esto lo hice para poder asegurar que la estructura de los JSONs ser√≠an constantes y poder evaluar mejor qu√© m√©todo de lectura ser√≠a mejor para este tipo de archivo.

Luego comenc√© a pensar en cada funci√≥n en particular

In [7]:
## Imports y variables comunes

In [23]:
from app.constants import DATA_DIR
from src.q1_memory import q1_memory
from src.q1_time import q1_time
from src.q2_memory import q2_memory
from src.q2_time import q2_time
from src.q3_memory import q3_memory
from src.q3_time import q3_time
from app.main import Logger

Logger()

<app.logger.Logger at 0x7facd6943910>

In [10]:
FILE_PATH = DATA_DIR / "farmers-protest-tweets-2021-2-4.json"

In [12]:
%load_ext memory_profiler

## Top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as.

### **Enfoque en eficiencia de memoria**

Con el objetivo de eficientizar el uso de memoria, esta funci√≥n itera el archivo JSONL l√≠nea por l√≠nea. Procesar l√≠nea por l√≠nea implica procesar un JSON a la vez.

El objetivo de esto es evitar cargar en memoria la totalidad del archivo y en cambio procesar cada JSON por separado. Una vez que se termin√≥ de procesar un JSON, guardar lo que sea necesario en memoria y descartar lo dem√°s. Reci√©n ah√≠ continuar con la siguiente l√≠nea del archivo (es decir, el siguiente JSON).

**Explicaci√≥n de funci√≥n**

En esta funci√≥n decid√≠ hacer una doble lectura del archivo con la intenci√≥n de optimizar a√∫n m√°s el uso de la memoria. Para ello describir√© los dos enfoques posibles:
1. Se puede leer una √∫nica ver el archivo (leyendo l√≠nea por l√≠nea) y que a la misma vez que se est√° contando la cantidad de tweets por d√≠a se est√© contando la cantidad de tweets que cada usuario hizo para los distintos d√≠as.
2. Se puede leer una primera vez el archivo (leyendo l√≠nea por l√≠nea) y contar la cantidad de tweets para cada fecha. Una vez finalizada esta cuenta, encontrar los 10 d√≠as con m√°s tweets. Una vez finalizada esta b√∫squeda, leer√© por segunda vez el archivo (leyendo l√≠nea por l√≠nea) a fin de contar la cantidad de tweets de cada usuario. La diferencia es que ahora solo contar√© los tweets de usuarios que solo hayan publicado tweets en las fechas que salieron dentro del TOP 10.

Como se puede observar, el segundo enfoque permite que guarde en memoria la cuenta de tweets de usuarios que efectivamente publicaron algo en los d√≠as que salieron en el TOP 10 y no tener que almacenar la cuenta para todos los dem√°s d√≠as que no son de inter√©s en esta respuesta.

**NOTAS SOBRE EL CODIGO**
1. Se evitaron variables intermedias y se prioriz√≥ anidar calculos a fin de evitar utilizar espacios de memorias para almacenar estas variables intermedias.
2. Se decidi√≥ utilizar el m√©todo `nlargest` de la l√≠brer√≠a `heapq` frente a otros enfoques como `sorted()` dado que este m√©todo evita tener que cargar el listado completo de elementos en memor√≠a para reci√©n poder ordenarlos. El m√©todo utilizado permite ir guardando en memoria solo una cantidad N de elementos (en este caso 10) mientras se va iterando sobre el resto del listado (cargando un elemento a la vez en memoria).
3. Se hace uso de `del` para eliminar variables intermedias que eran necesarias pero que despu√©s dejan de serlo (ya que su prop√≥sito fue cumplido) 

Veamos el output de la funci√≥n

In [24]:
q1_memory(FILE_PATH)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

Ahora le haremos el perfilado de tiempo y de consumo de memoria para despu√©s poder comparar con el otro enfoque

#### **Perfilado de tiempo**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

#### **Perfilado de memoria**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

### **Enfoque en eficiencia de tiempo**

Con el objetivo de eficientizar el tiempo, esta funci√≥n busca trabajar con todo el archivo JSONL de una sola vez, evitando tener que procesar el mismo l√≠nea por l√≠nea. Si bien esto tiene un efecto significativo en memoria, es importante destacar que aqu√≠ asum√≠ que este c√≥digo siempre se ejecutar√° en una PC con capacidad de c√≥mputo y memoria suficiente.

**Explicaci√≥n de funci√≥n**

Si bien la lectura l√≠nea por l√≠nea tambi√©n fue necesaria aqu√≠ (dada la estructura JSONL), en esta oportunidad decid√≠ cargar en memoria todas las l√≠neas del archivo antes de empezar a procesar los datos.

De esta manera, cargu√© todos los JSONs dentro del archivo en una lista que luego convert√≠ en un DataFrame de `polars`. Una vez hecho esto realic√© operaciones sencillas de agrupaci√≥n (group by) y agregaci√≥n (count) para llegar a la respuesta deseada.
**NOTAS SOBRE EL CODIGO**1. a.
Utilizo la librer√≠a orjson por lo que se detalla en la secci√≥n "Observaciones generales del Challenge" m√°s abajo en esta notebook.


Veamos el output de la funci√≥n

In [21]:
q1_time(FILE_PATH)

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

#### **Perfilado de tiempo**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

#### **Perfilado de memoria**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

## Los top 10 emojis m√°s usados con su respectivo conteo.

### **Enfoque en eficiencia de memoria**

Con el objetivo de eficientizar el uso de memoria, esta funci√≥n itera el archivo JSONL l√≠nea por l√≠nea. Procesar l√≠nea por l√≠nea implica procesar un JSON a la vez.

El objetivo de esto es evitar cargar en memoria la totalidad del archivo y en cambio procesar cada JSON por separado. Una vez que se termin√≥ de procesar un JSON, guardar lo que sea necesario en memoria y descartar lo dem√°s. Reci√©n ah√≠ continuar con la siguiente l√≠nea del archivo (es decir, el siguiente JSON).

**Explicaci√≥n de funci√≥n**

Para poder encontrar los emojis decid√≠ hacer uso de expresiones regulares (RegEx). Para esto defin√≠ la constante `EMOJI_PATTERN` dentro del m√≥dulo `app.constants` que sirve para encontrar los emojis dentro de esos valores pre-definidos.

Al cargar l√≠nea por l√≠nea el archivo, hice uso de esta constante que ya tiene definido el pattern para la expresi√≥n regular e hice uso del m√©todo `findall()`. Dado que los tweets son textos medianamente corto, el utilizar `findall()` resulta una estrategia acertada. Si el texto fuese m√°s largo, deber√≠a evaluarse el uso de `finditer()` el cual puede ayudar a alivianar la carga en memoria en caso de que se encontrasen muchos emojis en un √∫nico tweet.

**NOTAS SOBRE EL CODIGO**
1. Se evitaron variables intermedias y se prioriz√≥ anidar calculos a fin de evitar utilizar espacios de memorias para almacenar estas variables intermedias.
2. Se decidi√≥ utilizar el m√©todo `nlargest` de la l√≠brer√≠a `heapq` frente a otros enfoques como `sorted()` dado que este m√©todo evita tener que cargar el listado completo de elementos en memor√≠a para reci√©n poder ordenarlos. El m√©todo utilizado permite ir guardando en memoria solo una cantidad N de elementos (en este caso 10) mientras se va iterando sobre el resto del listado (cargando un elemento a la vez en memoria).

Veamos el output de la funci√≥n

In [25]:
q2_memory(FILE_PATH)

[('üôè', 1940),
 ('‚ù§', 1397),
 ('üåæ', 523),
 ('üíö', 492),
 ('üòÇ', 488),
 ('üëç', 458),
 ('üëâ', 450),
 ('‚úä', 425),
 ('üáÆüá≥', 407),
 ('üôèüôè', 393)]

#### **Perfilado de tiempo**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

#### **Perfilado de memoria**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

### **Enfoque en eficiencia de tiempo**

Con el objetivo de eficientizar el tiempo, esta funci√≥n busca trabajar con todo el archivo JSONL de una sola vez, evitando tener que procesar el mismo l√≠nea por l√≠nea. Si bien esto tiene un efecto significativo en memoria, es importante destacar que aqu√≠ asum√≠ que este c√≥digo siempre se ejecutar√° en una PC con capacidad de c√≥mputo y memoria suficiente.

**Explicaci√≥n de funci√≥n**

Si bien la lectura l√≠nea por l√≠nea tambi√©n fue necesaria aqu√≠ (dada la estructura JSONL), en esta oportunidad decid√≠ cargar en memoria todas las l√≠neas del archivo antes de empezar a procesar los datos.

Como el uso de memoria no es una limitaci√≥n en este caso, lo que haremos ser√° cargar todos los tweets en un solo `string` y luego procesar este string con una Expresi√≥n Regular (RegEx) que contendr√° todos los emojis que se desean encontrar.

Luego de obtener la lista de emojis totales, utilizaremos un Contador para devolver los 10 primeros de estos y su correspondiente n√∫mero de apariciones.

**NOTAS SOBRE EL CODIGO**
1. En este caso decidi usar la clase `Counter` la cual resuelve de manera eficiente y sencilla las operaciones de cuenta.
2. Utilizo la librer√≠a `orjson` por lo que se detalla en la secci√≥n "Observaciones generales del Challenge" m√°s abajo en esta notebook.


Veamos el output de la funci√≥n

In [26]:
q2_time(FILE_PATH)

[('üôè', 1940),
 ('‚ù§', 1397),
 ('üåæ', 523),
 ('üíö', 492),
 ('üòÇ', 488),
 ('üëç', 458),
 ('üëâ', 450),
 ('‚úä', 425),
 ('üáÆüá≥', 407),
 ('üôèüôè', 393)]

##### **Perfilado de tiempo**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

#### **Perfilado de memoria**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

## El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos.

### **Enfoque en eficiencia de memoria**

Con el objetivo de eficientizar el uso de memoria, esta funci√≥n itera el archivo JSONL l√≠nea por l√≠nea. Procesar l√≠nea por l√≠nea implica procesar un JSON a la vez.

El objetivo de esto es evitar cargar en memoria la totalidad del archivo y en cambio procesar cada JSON por separado. Una vez que se termin√≥ de procesar un JSON, guardar lo que sea necesario en memoria y descartar lo dem√°s. Reci√©n ah√≠ continuar con la siguiente l√≠nea del archivo (es decir, el siguiente JSON).

**Explicaci√≥n de funci√≥n**

Para poder encontrar los emojis decid√≠ hacer uso de expresiones regulares (RegEx). Para esto defin√≠ la constante `EMOJI_PATTERN` dentro del m√≥dulo `app.constants` que sirve para encontrar los emojis dentro de esos valores pre-definidos.

Al cargar l√≠nea por l√≠nea el archivo, hice uso de esta constante que ya tiene definido el pattern para la expresi√≥n regular e hice uso del m√©todo `findall()`. Dado que los tweets son textos medianamente corto, el utilizar `findall()` resulta una estrategia acertada. Si el texto fuese m√°s largo, deber√≠a evaluarse el uso de `finditer()` el cual puede ayudar a alivianar la carga en memoria en caso de que se encontrasen muchos emojis en un √∫nico tweet.

**NOTAS SOBRE EL CODIGO**
1. Se evitaron variables intermedias y se prioriz√≥ anidar calculos a fin de evitar utilizar espacios de memorias para almacenar estas variables intermedias.
2. Se decidi√≥ utilizar el m√©todo `nlargest` de la l√≠brer√≠a `heapq` frente a otros enfoques como `sorted()` dado que este m√©todo evita tener que cargar el listado completo de elementos en memor√≠a para reci√©n poder ordenarlos. El m√©todo utilizado permite ir guardando en memoria solo una cantidad N de elementos (en este caso 10) mientras se va iterando sobre el resto del listado (cargando un elemento a la vez en memoria).

Veamos el output de la funci√≥n

In [27]:
q3_memory(FILE_PATH)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

#### **Perfilado de tiempo**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)s

#### **Perfilado de memoria**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

### **Enfoque en eficiencia de tiempo**

Con el objetivo de eficientizar el tiempo, esta funci√≥n busca trabajar con todo el archivo JSONL de una sola vez, evitando tener que procesar el mismo l√≠nea por l√≠nea. Si bien esto tiene un efecto significativo en memoria, es importante destacar que aqu√≠ asum√≠ que este c√≥digo siempre se ejecutar√° en una PC con capacidad de c√≥mputo y memoria suficiente.

**Explicaci√≥n de funci√≥n**

Si bien la lectura l√≠nea por l√≠nea tambi√©n fue necesaria aqu√≠ (dada la estructura JSONL), en esta oportunidad decid√≠ cargar en memoria todas las l√≠neas del archivo antes de empezar a procesar los datos.

Lo que haremos es cargar cada JSON (cada l√≠nea del JSONL) y extraer de √©l el campo `mentionedUsers`. Este campo es a su vez una lista de diccionarios donde cada diccionario son los datos del usuario que fue mencionado en el tweet. De esta manera, al momento de la carga de JSON en memoria, extraemos de este campo `mentionedUsers` todos los `usernames` que fueron mencionados en el tweet que estamos procesando.

Una vez procesada la l√≠nea en cuesti√≥n se actualiza el objeto `Counter` y se sigue procesando la siguiente l√≠nea del archivo. De esta manera, cuando se termine de cargar el archivo se tendr√° un objeto `Counter` con la cuenta que estamos buscando.

Luego de obtener la lista de emojis totales, utilizaremos un Contador para devolver los 10 primeros de estos y su correspondiente n√∫mero de apariciones.

**NOTAS SOBRE EL CODIGO**
1. En este caso decidi usar la clase `Counter` la cual resuelve de manera eficiente y sencilla las operaciones de cuenta.
2. Utilizo la librer√≠a `orjson` por lo que se detalla en la secci√≥n "Observaciones generales del Challenge" m√°s abajo en esta notebook.

**NOTA SOBRE RESULTADO**
Se puede observar que el enfoque para la eficiencia en memoria y en tiempo son muy parecidos, por lo cual no se observan diferencia notorias entre las dos funciones. Ambos resultados son buenos en memoria como en tiempo

Veamos el output de la funci√≥n

In [28]:
q3_time(FILE_PATH)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

#### **Perfilado de tiempo**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

#### **Perfilado de memoria**

Se deja el detalle capturado por los logs de la App (ejecutado desde conteneder `app_latam`)

# Observaciones generales del Challenge

## CONSIDERACIONES INICIALES

Si bien al momento de eficientizar el tiempo de ejecuci√≥n de una funci√≥n una de las primeras cosas que vienen a la cabeza es el uso de Thread o parallelismo, en ese caso se consider√≥ que la aplicaci√≥n no deb√≠a estar pensada para trabajar con archivo mayores al que hoy se tiene (aprox. 400MB). Dada esta condici√≥n, pensar en usar Spark o Dask como frameworks de paralelismo y threading no resulta una buena idea ya que muchas veces puede terminar significando un cuello de botella. Al trabajar con archivos chicos como el de este challenge, el querer paralelizar puede terminar resultando en una aplicaci√≥n m√°s lenta. 

Habiendo asumido lo anterior, se decidi√≥ hacer una comparaci√≥n de tiempos para dos etapas de la funci√≥n:
1. Etapa de Lectura
2. Etapa de procesamiento

### Etapa de lectura

Se compar√≥ el m√©todo `loads()` de la librer√≠a `json` y el m√©todo `loads()` de la librer√≠a `orjson`. Esta √∫ltima librer√≠a resultaba desconocida para mi pero investigando d√≠ con ella y me result√≥ interesante poder compararlas. Al hacer la comparaci√≥n vi que `orjson` implicaba un reducci√≥n del 37% en la lectura del archivo. As√≠ que decid√≠ ir por esta.

Esto se puede ver en la notebook: `notebooks\JSON read comparison.ipynb`

### Etapa de procesamiento (funciones optimizadas en tiempo)

Se compar√≥ un enfoque implementado en `polars` con otro enfoque implementado en `pandas`. Si bien los tiempos eran muy similares, me result√≥ interesante plantear una soluci√≥n con `polars`. Esta librer√≠a est√° tomando mucha importancia en el √∫ltimo tiempo ya que sus m√©todos est√°n implementados de una manera m√°s eficiente dada su implementaci√≥n en `Rust`. Si bien `pandas` a√∫n sigue siendo la primera elecci√≥n y la librer√≠a con la comunidad m√°s grande, siempre es interesante evaluar alternativas. Hasta el momento no tuve la oportunidad de trabajar con `polars` en un proyecto real (con `pandas` lo hice en numerosas oportunidades) por lo que me result√≥ interesante poder implementar algo con esta librer√≠a.

Esto se puede ver en la notebook: `notebooks\Q1 processing time.ipynb`

## Tratamiento de Emojis

Si bien tom√© conocimiento de la librer√≠a `emoji` decid√≠ dejar implementadas las funciones `q2_memory` y `q2_time` utilizando la RegEx. Esto se debe a que hice pruebas con la librer√≠a `emoji` (primera vez que la utilizaba)  y me encontr√© con m√©todos que trabajaban muy lento y a su vez m√©todos distintos que deber√≠a devolver resultados equivalentes pero no era as√≠. Depende del camino utilizado pod√≠a llegar a tener una cuenta distinta de emojis. 

Esto se puede ver en la notebook: `notebooks\Q2 memory efficiency.ipynb`

## Futuros pasos

En caso de que se quiera hacer escalar esta soluci√≥n se podr√≠a pensar en llevar la misma a un entorno Cloud como GCP, AWS o Azure.

Una soluci√≥n posible para hacer Cloud esta soluci√≥n podr√≠a ser la siguiente:

(Se utilizar√° **GCP** como ejemplo de referencia)

1. Desplegar una imagen Docker de nuestra soluci√≥n en el servicio `Cloud Run`. De esta manera por medio de llamadas HTTP podr√≠amos ejecutar las distintas funciones que tenemos. De esta manera aprovechar√≠amos el servicio serverless, pudiendo escalar vertical y horizontalmente de acuerdo a la configuraci√≥n que nosotros asignemos y a lo que exija el sistema al querer procesar el archivo.

Esto podr√≠a tener un impacto positivo en la optimizaci√≥n del tiempo de ejecuci√≥n.

**Nota**: Para hacer eso previamente deberemos implementar una peque√±a API capaz de entender la requests.

2. Procesar el archivo JSON previo a la ejecuci√≥n de la funciones, parse√°ndolo adecuadamente y almacen√°ndolo en servicios Cloud que permita acceder de manera r√°pida y eficiente a los datos (como a su vez procesarlos). Algunas opciones posible son BigQuery y BigQuery (si es que el volumen de datos crece significativamente). En el caso de BigQuery, podr√≠amos parsear el JSON para dejarlo de forma tabular con los datos que nos interesan y luego con consultas SQL eficientes calcular las distintas cosas que necesitamos.

**Nota**: Aqu√≠ incurrimos en un costo de almacenamiento y procesamiento extra (si el volumen de datos es bajo se entre en la Free Tier).

3. Podemos evaluar el uso de Dataflow para procesar el archivo
4. Podemos evaluar armar un pipeline de transformaci√≥n con etapas de staging que permita crear checkpoints para el procesamiento de los datos, evitando as√≠ tener que reprocesar archivos enteros. Para esto podemos hacer uso de BigQuery pero principalmente pensar√≠a en Cloud Storage en primera instancia ya que nuestro input est√° en formato JSON.
5. En caso de querer armar una App con mucha demanda podemos hacer uso del servicio Pub/Sub y as√≠ poder enviar solicitudes de procesamiento a nuestra soluci√≥n indicando, por ejemplo, de d√≥nde levantar el archvio y qu√© procesamiento aplicar.

Con esto lo que quiero destacar es que la solucion aqu√≠ presentada puede crecer en gran medida. Este crecimiento vendr√° establecido por la necesidad del negocio, los objetivos del proyecto y el presupuesto del mismo.