# Resolución Latam Challenge

**DEV:** ***Ronny Jhancarlo Gago Pizarro***

A continuación se detalla la solución para cada uno de los desafíos:

# Problema 1

**Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.**

## `SOLUCION`:
1. **Procesamiento Línea por Línea**
   - Procesar cada línea del archivo JSON una a una, manteniendo solo una línea en memoria a la vez, en lugar de cargar todo el archivo.
   - Pandas, Polars y Spark tienden a cargar conjuntos de datos completos en memoria, lo que es ineficiente para archivos grandes.

2. **Uso de `Counter`**
   - Utilizar `Counter` para contar fechas y usuarios de manera eficiente en términos de memoria y tiempo.
   - Bibliotecas más complejas como Pandas pueden introducir sobrecarga adicional al utilizar estructuras de datos más robustas.

3. **Estructuras de Datos Simples**
   - Emplear listas y diccionarios simples para almacenar y procesar datos.
   - DataFrames y otras estructuras de datos avanzadas en bibliotecas como Spark y Pandas consumen más memoria debido a sus funcionalidades adicionales.

4. **Manejo de Excepciones Específicas**
   - Manejar errores específicos como `JSONDecodeError` y `KeyError` para asegurar la continuidad del procesamiento sin grandes interrupciones.
   - Aunque otras bibliotecas también manejan excepciones, hacerlo de manera explícita y controlada en este código evita el uso innecesario de recursos.

5. **Sin Estructuras Intermedias Pesadas**
   - Evitar la creación de estructuras de datos intermedias costosas, manteniendo el procesamiento directo y eficiente.
   - Pandas y otras bibliotecas pueden crear estructuras intermedias para operaciones complejas, aumentando el uso de memoria.

6. **Medición del Rendimiento**
   - Usar `cProfile` y `memory_usage` para medir y optimizar el tiempo de ejecución y el uso de memoria de manera específica.
   - Proporcionar una visibilidad directa y detallada del rendimiento, lo que es más granular que las métricas generales en bibliotecas más grandes.

## Resolución para función `q1_memory` que optimiza la memoria en uso:

### Explicación del Código

**Función `q1_memory`:**

1. **Diccionario de Contadores:**
   - Usa un `Counter` para registrar el número de tweets por fecha y un `defaultdict` de `Counter` para registrar el número de tweets por usuario por fecha.

2. **Lectura Línea por Línea:**
   - Lee el archivo JSON línea por línea para minimizar el uso de memoria.

3. **Actualización del Contador:**
   - Actualiza el contador para cada combinación de fecha y usuario.

4. **Ordenamiento y Selección:**
   - Ordena las fechas por el número total de tweets y selecciona las top 10 fechas.

5. **Usuario con Más Tweets por Fecha:**
   - Identifica el usuario con más tweets en cada una de las top 10 fechas.

6. **Conversión de Fecha:**
   - Convierte las fechas de string a `datetime.date`.

7. **Manejo de Errores:**
   - Captura errores de lectura de archivos y decodificación de JSON.


**Función `main`:**

1. **Perfil de Tiempo de Ejecución:**
   - Usa `cProfile` para medir el tiempo de ejecución de `q1_memory`.

2. **Estadísticas de Perfil:**
   - Imprime las estadísticas del perfil usando `pstats`.

3. **Perfil de Uso de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q1_memory`.

4. **Resultado:**
   - Imprime el resultado de `q1_memory`.

5. **Ejecución del Programa:**
   - La función `main` se ejecuta solo si el script se ejecuta como el módulo principal.


In [1]:
from q1_memory import main as q1_memory


response = q1_memory()
print(response)

         1444032 function calls (1443985 primitive calls) in 5.500 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.836    1.836    5.500    5.500 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q1_memory.py:9(q1_memory)
   117407    0.123    0.000    3.474    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.184    0.000    3.309    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.950    0.000    2.950    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.050    0.000    0.144    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
 

# Problema 1

**Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.**

## Resolución para función `q1_time` que optimiza el tiempo de ejecución:

### Explicación del Código

### Función `q1_time`:

1. **Diccionario de Contadores:**
   - Usa un `defaultdict` con `Counter` para registrar el número de tweets por usuario y fecha.

2. **Lectura Línea por Línea:**
   - Lee el archivo JSON línea por línea para minimizar el uso de memoria.

3. **Actualización del Contador:**
   - Actualiza el contador para cada combinación de fecha y usuario.

4. **Ordenamiento y Selección:**
   - Ordena las fechas por el número total de tweets y selecciona las top 10 fechas.

5. **Usuario con Más Tweets por Fecha:**
   - Identifica el usuario con más tweets en cada una de las top 10 fechas.

6. **Conversión de Fecha:**
   - Convierte las fechas de string a `datetime.date`.

7. **Manejo de Excepciones:**
   - Utiliza `try-except` para manejar errores comunes como `FileNotFoundError`, `json.JSONDecodeError` y cualquier otra excepción genérica.

### Función `main`:

1. **Perfil de Tiempo de Ejecución:**
   - Usa `cProfile` para medir el tiempo de ejecución de `q1_time`.

2. **Estadísticas de Perfil:**
   - Imprime las estadísticas del perfil usando `pstats`.

3. **Perfil de Uso de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q1_time`.

4. **Resultado:**
   - Imprime el resultado de `q1_time`.

5. **Ejecución del Programa:**
   - La función `main` se ejecuta solo si el script se ejecuta como el módulo principal.


In [2]:
from q1_time import main as q1_time

response = q1_time()
print(response)

         1443002 function calls in 5.225 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.806    1.806    5.225    5.225 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q1_time.py:9(q1_time)
   117407    0.116    0.000    3.243    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.171    0.000    3.088    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.763    0.000    2.763    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.044    0.000    0.136    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
   234824    0.115    0.000    

# Problema 2

**Los top 10 emojis más usados con su respectivo conteo.**

## `SOLUCION`:
1. **Procesamiento Línea por Línea**
   - En lugar de cargar todo el archivo en memoria a la vez, el código procesa el archivo JSON línea por línea. Esto reduce drásticamente el uso de memoria, ya que solo una línea está en memoria en cualquier momento.
   - Bibliotecas como Pandas tienden a cargar todo el archivo en un DataFrame, lo que puede consumir una cantidad significativa de memoria, especialmente para archivos grandes.

2. **Uso de `Counter`**
   - `Counter` de la biblioteca `collections` es muy eficiente en términos de memoria y tiempo para contar elementos.
   - Si bien Pandas y Polars tienen métodos para contar elementos, estos suelen ser más pesados en términos de estructura de datos y pueden ser menos eficientes en casos de procesamiento simple de conteo.

3. **Evitar Operaciones Costosas**
   - El código debe evitar operaciones costosas, como la concatenación de strings o la creación de grandes estructuras de datos intermedias.
   - Operaciones como la creación de DataFrames o la transformación de grandes cantidades de datos en Polars y Spark pueden ser costosas en términos de memoria y tiempo.

4. **No Usar Estructuras de Datos Complejas**
   - El código debe utilizar listas y diccionarios simples para almacenar y procesar datos.
   - Pandas, Polars y Spark utilizan estructuras de datos más complejas (como DataFrames), que aunque son poderosas y flexibles, también consumen más memoria.

5. **Manejo de Excepciones**
   - El código debe manejar errores específicos como `JSONDecodeError` y `KeyError`, permitiendo que el programa continúe ejecutándose sin fallar completamente. Esto mejora la robustez del proceso sin un impacto significativo en el uso de memoria.
   - Aunque las bibliotecas avanzadas también manejan excepciones, hacerlo de manera explícita y controlada puede evitar el consumo innecesario de recursos en intentos fallidos de procesamiento.

## Resolución para función `q2_memory` que optimiza la memoria en uso:

### Explicación del Código

### Función `q2_memory`:

#### Definición de la Función y Parámetros:

- `q2_memory` recibe la ruta del archivo JSON que contiene los tweets.
- Retorna una lista de tuplas, cada una con un emoji y su conteo.

#### Inicialización del Contador de Emojis:

- `emoji_counter = Counter()`: Utiliza `Counter` para contar la frecuencia de cada emoji.

#### Apertura y Lectura del Archivo:

- Abre el archivo JSON en modo lectura ('r') con codificación UTF-8.

#### Procesamiento Línea por Línea:

1. Lee cada línea del archivo.
2. Intenta cargar la línea como JSON y extraer el contenido del tweet (`tweet_content`).
3. Usa `emoji_list` de la biblioteca `emoji` para extraer emojis del contenido del tweet.
4. Actualiza el `emoji_counter` con los emojis encontrados en la línea.

#### Manejo de Errores:

- `json.JSONDecodeError`: Captura errores de decodificación de JSON.
- `KeyError`: Captura errores cuando las claves esperadas no están presentes en el JSON.
- `FileNotFoundError`: Captura errores si el archivo no se encuentra.
- `Exception`: Captura cualquier otro error inesperado.

#### Retorno de los Resultados:

- Devuelve los 10 emojis más comunes en todo el archivo usando `emoji_counter.most_common(10)`.

## Definición de la Función `main`:

Esta función ejecuta el análisis de los tweets, mide el tiempo de ejecución y el uso de memoria.

### Perfil de Tiempo de Ejecución con `cProfile`:

1. Se crea un objeto `cProfile.Profile`.
2. `profiler.enable()`: Habilita el perfilado.
3. Llama a `q2_memory` para realizar el análisis de emojis.
4. `profiler.disable()`: Deshabilita el perfilado.
5. Imprime las estadísticas del perfil usando `pstats`.

### Medición del Uso de Memoria con `memory_usage`:

- Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q2_memory`.
- Imprime el máximo uso de memoria registrado.

### Ejecución del Programa:

- Si el script se ejecuta como el módulo principal, llama a `main` e imprime el resultado.

In [3]:
from q2_memory import main as q2_memory

response = q2_memory()
print(response)

         87729478 function calls (87729450 primitive calls) in 33.008 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.879    1.879   33.008   33.008 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_memory.py:9(q2_memory)
   117407    0.105    0.000   26.869    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:283(emoji_list)
   117407    4.847    0.000   26.763    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:290(<listcomp>)
 17140706   12.902    0.000   20.308    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\tokenizer.py:158(tokenize)
 17023302    3.462    0.000    5.942    0.000 <string>:1(<lambda>)
   117407    0.147    0.000    3.795    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:

# Problema 2

**Los top 10 emojis más usados con su respectivo conteo.**

## Resolución para función `q2_time` que optimiza el tiempo de ejecución:

## Explicación del Código

El objetivo del código es encontrar los 10 emojis más usados en un conjunto de tweets, y medir tanto el tiempo de ejecución como el uso de memoria del proceso.

### Función `extract_emojis`

**Descripción:** Extrae todos los emojis de un texto dado utilizando la función `emoji_list` de la biblioteca `emoji`.

- **Entrada:** `text` (str) - El texto del cual extraer los emojis.
- **Salida:** Lista de emojis encontrados en el texto.

### Función `q2_time`

**Descripción:** Encuentra los 10 emojis más usados en un archivo JSON de tweets.

- **Entrada:** `file_path` (str) - Ruta al archivo JSON.

**Proceso:**

1. **Inicialización:**
   - Se inicializa un contador de emojis (`emoji_counter`).

2. **Lectura del Archivo:**
   - Se lee el archivo línea por línea.

3. **Extracción y Conteo de Emojis:**
   - Para cada línea, se extraen los emojis y se actualiza el contador.

4. **Manejo de Excepciones:**
   - Captura errores de decodificación y claves faltantes.

- **Salida:** Lista de tuplas con los 10 emojis más comunes y su conteo.

### Función `main`

**Descripción:** Ejecuta el análisis de tweets, midiendo el tiempo de ejecución y el uso de memoria.

**Proceso:**

1. **Perfil de Tiempo:**
   - Usa `cProfile` para medir el tiempo de ejecución de `q2_time`.

2. **Ejecución del Análisis:**
   - Llama a `q2_time` para realizar el análisis.

3. **Estadísticas de Perfil:**
   - Imprime las estadísticas del perfil usando `pstats`.

4. **Perfil de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q2_time`.

- **Resultado:** Imprime el uso de memoria y devuelve los 10 emojis más comunes.


In [4]:
from q2_time import main as q2_time

response = q2_time()
print(response)

         87841955 function calls in 33.136 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.864    1.864   33.136   33.136 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_time.py:21(q2_time)
   117407    0.108    0.000   26.978    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_time.py:9(extract_emojis)
   117407    0.107    0.000   26.843    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:283(emoji_list)
   117407    4.859    0.000   26.736    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:290(<listcomp>)
 17140706   12.855    0.000   20.278    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\tokenizer.py:158(tokenize)
 17023302    3.455    0.000    5.936    0.000 <string>:1(<lambda>)
   117407    0.148    0.000    3.851    0.000 C:\Program Fil

# Problema 3

**El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.**

## Resolución para función `q3_memory` que optimiza la memoria en uso:

## Explicación del Código

El código tiene como objetivo encontrar los 10 usuarios más mencionados en un conjunto de tweets, midiendo tanto el tiempo de ejecución como el uso de memoria del proceso.

### Función `q3_memory`

**Descripción:** Encuentra los top 10 usuarios más mencionados en los tweets.

- **Entrada:** `file_path` (str) - Ruta al archivo JSON que contiene los tweets.

**Proceso:**

1. **Inicialización:**
   - Se inicializa un contador de usuarios (`users_counter`) para contar las menciones de cada usuario.

2. **Lectura del Archivo:**
   - Se abre el archivo JSON en modo lectura con codificación UTF-8.

3. **Procesamiento Línea por Línea:**
   - Para cada línea del archivo:
     - Se intenta cargar la línea como JSON.
     - Se obtienen los usuarios mencionados en el tweet usando `tweet.get('mentionedUsers', [])`.
     - Si hay usuarios mencionados, se extraen los nombres de usuario y se actualiza el contador.
     - Se manejan errores de decodificación de JSON y claves faltantes.

4. **Retorno de Resultados:**
   - Devuelve los 10 usuarios más mencionados usando `users_counter.most_common(10)`.

5. **Manejo de Excepciones:**
   - Captura errores específicos como `FileNotFoundError`, `JSONDecodeError` y `KeyError` para asegurar la robustez del proceso.

- **Salida:** Lista de tuplas con los 10 usuarios más mencionados y su conteo.

### Función `main`

**Descripción:** Ejecuta el análisis de los tweets, midiendo el tiempo de ejecución y el uso de memoria.

**Proceso:**

1. **Perfil de Tiempo:**
   - Usa `cProfile` para medir el tiempo de ejecución de `q3_memory`.

2. **Ejecución del Análisis:**
   - Llama a `q3_memory` para realizar el análisis.

3. **Estadísticas de Perfil:**
   - Imprime las estadísticas del perfil usando `pstats`.

4. **Perfil de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q3_memory`.

- **Resultado:** Imprime el uso de memoria y devuelve los 10 usuarios más mencionados.

### Conclusión

Este enfoque optimiza el tiempo de ejecución en comparación con Pandas, Polars o Spark por varias razones:

1. **Procesamiento Línea por Línea:**

   - **Eficiencia Temporal:** Procesar cada línea una por una permite comenzar a trabajar en el análisis de inmediato sin esperar a que todo el archivo se cargue en memoria.
   - **Comparación:** Pandas, Polars y Spark suelen leer y estructurar grandes cantidades de datos en estructuras internas antes de realizar operaciones, lo que puede ser más lento para archivos grandes.

2. **Uso de `Counter`:**

   - **Velocidad:** `Counter` de la biblioteca `collections` es una estructura de datos altamente eficiente en términos de tiempo para el conteo y el almacenamiento de datos.
   - **Comparación:** Las operaciones de agrupamiento y conteo en Pandas y Polars implican operaciones más complejas sobre DataFrames, lo que puede ser más lento.

3. **Estructuras de Datos Simples:**

   - **Simplicidad:** El uso de diccionarios y contadores simples evita la sobrecarga de estructuras de datos más complejas, lo que reduce el tiempo de procesamiento.
   - **Comparación:** DataFrames y otras estructuras de datos avanzadas en bibliotecas como Spark y Pandas tienen funcionalidades adicionales que, aunque poderosas, añaden tiempo de procesamiento.

4. **Evita Transformaciones Costosas:**

   - **Optimización Temporal:** Al procesar directamente los datos sin transformaciones intermedias costosas, el código es más rápido.
   - **Comparación:** Transformaciones de datos en Pandas, Polars o Spark a menudo implican pasos adicionales que aumentan el tiempo de procesamiento.


In [10]:
from q3_memory import main as q3_memory

response = q3_memory()
print(response)

         1619262 function calls in 5.076 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.535    1.535    5.076    5.076 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q3_memory.py:9(q3_memory)
   117407    0.115    0.000    3.257    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.172    0.000    3.103    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.775    0.000    2.775    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.045    0.000    0.132    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
   234814    0.118    0.000

# Problema 3

**El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.**

## Resolución para función `q3_time` que optimiza el tiempo de ejecución:
## Explicación del Código

El código tiene como objetivo encontrar los 10 usuarios más mencionados en un conjunto de tweets, midiendo tanto el tiempo de ejecución como el uso de memoria del proceso.

### Función `q3_time`

**Descripción:** Encuentra los top 10 usuarios más mencionados en los tweets.

- **Entrada:** `file_path` (str) - Ruta al archivo JSON que contiene los tweets.

**Proceso:**

- Inicialización: Se inicializa un contador de usuarios (`users_counter`).
- Lectura del Archivo: Se abre el archivo JSON en modo lectura con codificación UTF-8.
- Procesamiento Línea por Línea: Se carga cada línea como JSON, se obtienen los usuarios mencionados y se actualiza el contador.
- Manejo de Excepciones: Captura errores específicos para asegurar la robustez del proceso.
- Retorno de Resultados: Devuelve los 10 usuarios más mencionados usando `users_counter.most_common(10)`.

### Función `main`

**Descripción:** Ejecuta el análisis de los tweets, midiendo el tiempo de ejecución y el uso de memoria.

**Proceso:**

- Perfil de Tiempo: Usa `cProfile` para medir el tiempo de ejecución de `q3_time`.
- Ejecución del Análisis: Llama a `q3_time` para realizar el análisis.
- Estadísticas de Perfil: Imprime las estadísticas del perfil usando `pstats`.
- Perfil de Memoria: Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q3_time`.
- Resultado: Imprime el uso de memoria y devuelve los 10 usuarios más mencionados.

### Conclusión

Este enfoque optimiza el tiempo de ejecución y el uso de memoria en comparación con Pandas, Polars o Spark debido a:

1. **Procesamiento Línea por Línea:** Permite comenzar el análisis de inmediato sin cargar todo el archivo en memoria.
2. **Uso de `Counter`:** Altamente eficiente en términos de tiempo para el conteo y almacenamiento de datos.
3. **Estructuras de Datos Simples:** Evita la sobrecarga de estructuras más complejas, reduciendo el tiempo de procesamiento.
4. **Evita Transformaciones Costosas:** Procesa los datos directamente sin pasos intermedios adicionales.
5. **Uso Eficiente de Funciones Incorporadas:** Utiliza funciones de alto rendimiento como `Counter.update` para actualizaciones eficientes.

In [12]:
from q3_time import main as q3_time

response = q3_time()
print(response)

         1619262 function calls in 5.093 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.518    1.518    5.093    5.093 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q3_time.py:8(q3_time)
   117407    0.117    0.000    3.293    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.171    0.000    3.137    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.807    0.000    2.807    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.045    0.000    0.132    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
   234814    0.120    0.000    

# Despliegue en GCP

**Llevar tus procesos a la nube utilizando GCP ya que te proporciona escalabilidad, flexibilidad, eficiencia en costos, y seguridad. Los servicios como Cloud Storage y Cloud Functions te permiten almacenar y procesar tus datos de manera eficiente y automática, facilitando la gestión y análisis de grandes volúmenes de datos sin preocuparte por la infraestructura subyacente.**

## Importancia de Llevar los Procesos a la Nube

- **Escalabilidad:** La nube permite escalar tus aplicaciones eficientemente según la demanda, sin preocuparte por la capacidad del hardware físico.
- **Flexibilidad y Agilidad:** Implementa nuevas funcionalidades rápidamente y realiza cambios sin grandes inversiones iniciales.
- **Costos Eficientes:** Pagas solo por lo que usas, lo que puede ser más económico que mantener una infraestructura propia.
- **Mantenimiento Reducido:** El proveedor de la nube maneja la administración del hardware, permitiéndote concentrarte en el desarrollo de tu aplicación.
- **Seguridad y Cumplimiento:** Los proveedores de nube invierten en medidas de seguridad robustas y cumplen con normativas internacionales, difíciles de implementar por cuenta propia.

## Cómo GCP Ayuda en Este Propósito

### 1. Google Cloud Storage

- **Almacenamiento Duradero y de Alta Disponibilidad:** Ideal para datos no estructurados como archivos JSON, imágenes y backups.
- **Almacenamiento Centralizado:** Accesible globalmente para cualquier servicio o usuario autorizado.
- **Seguridad y Control de Acceso:** Ofrece controles granulares de acceso, asegurando que solo usuarios y servicios autorizados accedan a los datos.
- **Integración Fácil:** Se integra con otros servicios de GCP, como BigQuery y Cloud Functions.

### 2. Google Cloud Functions

- **Ejecución Basada en Eventos:** Configura funciones que se disparen automáticamente al cargar un archivo en Cloud Storage, ideal para procesar archivos JSON.
- **Escalabilidad Automática:** Las funciones escalan automáticamente con la carga.
- **Facilidad de Uso y Desarrollo:** Te permite concentrarte en la lógica de negocio sin preocuparte por la infraestructura.

## Caso de uso

### 1. Subida de Archivos JSON a Cloud Storage

- Tus archivos JSON se almacenan en un bucket de Cloud Storage, asegurando seguridad y accesibilidad.

### 2. Procesamiento Automático con Cloud Functions

- Cuando se sube un archivo a Cloud Storage, una Cloud Function se activa automáticamente para procesarlo. Por ejemplo, la función podría leer los tweets del archivo JSON, procesar los datos y almacenarlos en una base de datos para análisis posterior.

## POC
- Se creó un bucket en cloud storage y luego se cargó el Dataset
![GCS](assets/gcs.png)

- Para el despliegue del código creado en el cloud function se creó un main que ayude a referenciar las funciones creadas.

![Código fuente](assets/source_code.png)

- Se creó un fichero utils, donde puedo reutilizar variables y metodos para mis funciones, acá lo mas destacable es la creación de una funcíon para el proceso de lectura del archivo, ya que este ahora se encuentra disponibilizado en un cloud storage.

![Fichero Utils](assets/utils.png)

- Pruebas realizadas a cada función.

**q1_memory**
![q1_memory](assets/test_1.png)

**q1_time**
![q1_time](assets/test_2.png)

**q2_memory**
![q2_memory](assets/test_3.png)

**q2_time**
![q2_time](assets/test_4.png)

**q3_memory**
![q3_memory](assets/test_5.png)

**q3_time**
![q3_time](assets/test_6.png)