En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

**Autor:** Leonardo Burbano
<br/>
**Empresa:** TW
<br/>
**Email:** leonardo.burbano@[dominioTW]
<br/>
**Mes/Año:** 05/2023

#### 1. Suposiciones

- La descarga/carga del archivo de input no se realizará de forma recurrente. Se realizará una sola vez para efectos de solucionar el presente desafío.
- La ejecución de la descarga/descompresión/carga del archivo se realizará bajo demanda (y manualmente de ser el caso). Se considerará como variable el nombre del archivo, y como ubicación fija un bucket (repositorio) en Cloud Storage (GCP - Google Cloud Platform).
- La prioridad es obtener la respuesta a las preguntas planteadas. No surgirán otras preguntas en el corto plazo.
- Al final de este documento se detallan las recomendaciones para garantizar la escalabilidad del proceso y también la calendarización del mismo de ser necesario.
- La respuesta proviene de una consulta a la API de Twitter que está almacenada en un archivo comprimido en Google Drive.
- El desarrollo no incluye versionamiento de la infraestructura creada o utilización de infraestructura como código.
- No se incluyen configuraciones de permisos y otras tareas de disposición de la infraestructura en GCP.

#### 2. Configuración del ambiente
- Se utilizó Git y Gitflow para Mac, para facilitar el versionamiento y simulación de trabajo colaborativo.
- Se realizó una exploración inicial en la que se fue
- Se utilizará la nube de GCP, se requieré únicamente un archivo de cuenta de servicio con los permisos adecuados para ejecutar el proyecto.


#### 2. Estrategia y features a implementar

##### 2.1. **feature/initial_exploration:** 
Se comienza tratando de llegar a la respuesta a las preguntas lo más rápido posible utilizando un Notebook de exploración y las configuraciones manuales en GCP (ejemplo: Cargar un archivo a Cloud Storage, cargar el archivo a BigQuery). Este tipo de pruebas dieron mayor visibilidad del esquema del archivo y los posibles desafíos a enfrentar. El detalle se encuentra en ../_initial_exploration/00_test.ipynb . A partir de esa exploración se realizó esta estrategia y varias de las decisiones tomadas a continuación.

##### 2.2 **feature/environment_setup:** 
Se realiza la configuración del ambiente en GCP creando una "Service Account" en la sección de "IAM" con los permisos necesarios para cargar datos en BigQuery, Cloud Storage y otros servicios utilizados en esta solución. Adicionalmente, para el ambiente local, se considera diferentes configuraciones utilizando Git, Github, Gitflow y Visual Studio Code. Como requisitos generales, se utiliza: Python 3.9.6 en una MacBook Pro (M1 Pro, 16 Gb RAM, Sonoma).

##### 2.3. **feature/bigquery_connector:** 
Considerando la carga manual realizada y el desarrollo realizado en el punto 2.1. se inicia desarrollando un conector a BigQuery que permita ejecutar las consultas ya desarrolladas en la exploración inicial.


#### 3. Descarga del archivo, descompresión y cargar en Cloud Storage


#### 4. Testing básico de las funciones

In [8]:
import cProfile
import pstats

from q1_memory import q1_memory
from q1_time import q1_time
from q2_memory import q2_memory
from q2_time import q2_time
from q3_memory import q3_memory
from q3_time import q3_time

In [9]:
#file_path = "farmers-protest-tweets-2021-2-4.json"
file_path = "processed_tweets.jsonl"

In [10]:
print(q1_memory(file_path))


Filename: /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/src/q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    13     77.5 MiB     77.5 MiB           1   @profile
    14                                         def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    15                                             """
    16                                             Executes a pipeline to load data from Cloud Storage to BigQuery and perform a query.
    17                                         
    18                                             Args:
    19                                                 file_path (str): The path of the file in Cloud Storage.
    20                                         
    21                                             Returns:
    22                                                 List[Tuple[datetime.date, str]]: A list of tuples containing date and string values.
    23                  

In [12]:
print(q1_time(file_path))

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


In [13]:
print(q2_memory(file_path))

Filename: /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/src/q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     1                                         from typing import List, Tuple  # Importing List and Tuple types for type hints
     2                                         from datetime import datetime    # Importing datetime class for date/time operations
     3                                         from memory_profiler import profile  # Importing memory_profiler's profile decorator for memory profiling
     4                                         from pipelines.queries import q2  # Importing specific query function from pipelines module
     5                                         from pipelines.cstorage_and_bq import read_from_bigquery, cloud_storage_to_bigquery  # Importing functions for Cloud Storage and BigQuery operations
     6                                         import os  # Importing os module for interacting with 

In [14]:
print(q2_time(file_path))

[('✊', 2402), ('❤️', 1382), ('❤', 397), ('☮️', 316), ('♂️', 179), ('✌️', 168), ('♀️', 148), ('✌', 106), ('‼️', 74), ('♥️', 73)]


In [15]:
print(q3_memory(file_path))

Filename: /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/src/q3_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    12     79.7 MiB     79.7 MiB           1   @profile
    13                                         def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    14                                             """
    15                                             Executes a pipeline to load data from Cloud Storage to BigQuery and perform a query.
    16                                         
    17                                             Args:
    18                                                 file_path (str): The path of the file in Cloud Storage.
    19                                         
    20                                             Returns:
    21                                                 List[Tuple[datetime.date, str]]: A list of tuples containing date and string values.
    22                            

In [5]:
print(q3_time(file_path))

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


In [17]:
cProfile.run('q1_time(file_path)', 'tmp_time_func_stats')
p = pstats.Stats("tmp_time_func_stats")
p.sort_stats("cumulative").print_stats(10)

Thu May  2 17:56:47 2024    tmp_time_func_stats

         74245 function calls (74117 primitive calls) in 9.647 seconds

   Ordered by: cumulative time
   List reduced from 746 to 10 due to restriction <10>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    9.647    9.647 {built-in method builtins.exec}
        1    0.000    0.000    9.647    9.647 <string>:1(<module>)
        1    0.000    0.000    9.647    9.647 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/src/q1_time.py:12(q1_time)
     10/9    0.000    0.000    9.642    1.071 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/venv_dev/lib/python3.9/site-packages/google/api_core/retry/retry_unary.py:286(retry_wrapped_func)
     10/9    0.000    0.000    9.642    1.071 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/venv_dev/lib/python3.9/site-packages/google/api_core/retry/retry_unary.py:85(retry_target)
        1    0.000    0.000    8.07

<pstats.Stats at 0x11ad1c610>

In [19]:
cProfile.run('q2_time(file_path)', './logs/tmp_time_func_stats')
p = pstats.Stats("./logs/tmp_time_func_stats")
p.sort_stats("cumulative").print_stats(10)

Thu May  2 17:57:20 2024    ./logs/tmp_time_func_stats

         74641 function calls (74511 primitive calls) in 10.175 seconds

   Ordered by: cumulative time
   List reduced from 801 to 10 due to restriction <10>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000   10.175   10.175 {built-in method builtins.exec}
        1    0.000    0.000   10.175   10.175 <string>:1(<module>)
        1    0.000    0.000   10.175   10.175 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/src/q2_time.py:12(q2_time)
     10/9    0.000    0.000   10.170    1.130 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/venv_dev/lib/python3.9/site-packages/google/api_core/retry/retry_unary.py:286(retry_wrapped_func)
     10/9    0.000    0.000   10.170    1.130 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/venv_dev/lib/python3.9/site-packages/google/api_core/retry/retry_unary.py:85(retry_target)
        1    0.000    0.000

<pstats.Stats at 0x11adb91f0>

In [20]:
cProfile.run('q3_time(file_path)', 'tmp_time_func_stats')
p = pstats.Stats("tmp_time_func_stats")
p.sort_stats("cumulative").print_stats(10)

Thu May  2 17:57:32 2024    tmp_time_func_stats

         74063 function calls (73935 primitive calls) in 8.534 seconds

   Ordered by: cumulative time
   List reduced from 733 to 10 due to restriction <10>

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    8.534    8.534 {built-in method builtins.exec}
        1    0.000    0.000    8.534    8.534 <string>:1(<module>)
        1    0.000    0.000    8.534    8.534 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/src/q3_time.py:11(q3_time)
     10/9    0.000    0.000    8.530    0.948 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/venv_dev/lib/python3.9/site-packages/google/api_core/retry/retry_unary.py:286(retry_wrapped_func)
     10/9    0.000    0.000    8.529    0.948 /Users/leonardoburbano/LatamAir/challenge_de_leonardo_burbano/venv_dev/lib/python3.9/site-packages/google/api_core/retry/retry_unary.py:85(retry_target)
        1    0.000    0.000    7.47

<pstats.Stats at 0x11ac492e0>