# Resoluci√≥n Latam Challenge

**DEV:** ***Ronny Jhancarlo Gago Pizarro***

A continuaci√≥n se detalla la soluci√≥n para cada uno de los desaf√≠os:

# Problema 1

**Las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as.**

## `SOLUCION`:
1. **Procesamiento L√≠nea por L√≠nea**
   - Procesar cada l√≠nea del archivo JSON una a una, manteniendo solo una l√≠nea en memoria a la vez, en lugar de cargar todo el archivo.
   - Pandas, Polars y Spark tienden a cargar conjuntos de datos completos en memoria, lo que es ineficiente para archivos grandes.

2. **Uso de `Counter`**
   - Utilizar `Counter` para contar fechas y usuarios de manera eficiente en t√©rminos de memoria y tiempo.
   - Bibliotecas m√°s complejas como Pandas pueden introducir sobrecarga adicional al utilizar estructuras de datos m√°s robustas.

3. **Estructuras de Datos Simples**
   - Emplear listas y diccionarios simples para almacenar y procesar datos.
   - DataFrames y otras estructuras de datos avanzadas en bibliotecas como Spark y Pandas consumen m√°s memoria debido a sus funcionalidades adicionales.

4. **Manejo de Excepciones Espec√≠ficas**
   - Manejar errores espec√≠ficos como `JSONDecodeError` y `KeyError` para asegurar la continuidad del procesamiento sin grandes interrupciones.
   - Aunque otras bibliotecas tambi√©n manejan excepciones, hacerlo de manera expl√≠cita y controlada en este c√≥digo evita el uso innecesario de recursos.

5. **Sin Estructuras Intermedias Pesadas**
   - Evitar la creaci√≥n de estructuras de datos intermedias costosas, manteniendo el procesamiento directo y eficiente.
   - Pandas y otras bibliotecas pueden crear estructuras intermedias para operaciones complejas, aumentando el uso de memoria.

6. **Medici√≥n del Rendimiento**
   - Usar `cProfile` y `memory_usage` para medir y optimizar el tiempo de ejecuci√≥n y el uso de memoria de manera espec√≠fica.
   - Proporcionar una visibilidad directa y detallada del rendimiento, lo que es m√°s granular que las m√©tricas generales en bibliotecas m√°s grandes.

## Resoluci√≥n para funci√≥n `q1_memory` que optimiza la memoria en uso:

### Explicaci√≥n del C√≥digo

**Funci√≥n `q1_memory`:**

1. **Diccionario de Contadores:**
   - Usa un `Counter` para registrar el n√∫mero de tweets por fecha y un `defaultdict` de `Counter` para registrar el n√∫mero de tweets por usuario por fecha.

2. **Lectura L√≠nea por L√≠nea:**
   - Lee el archivo JSON l√≠nea por l√≠nea para minimizar el uso de memoria.

3. **Actualizaci√≥n del Contador:**
   - Actualiza el contador para cada combinaci√≥n de fecha y usuario.

4. **Ordenamiento y Selecci√≥n:**
   - Ordena las fechas por el n√∫mero total de tweets y selecciona las top 10 fechas.

5. **Usuario con M√°s Tweets por Fecha:**
   - Identifica el usuario con m√°s tweets en cada una de las top 10 fechas.

6. **Conversi√≥n de Fecha:**
   - Convierte las fechas de string a `datetime.date`.

7. **Manejo de Errores:**
   - Captura errores de lectura de archivos y decodificaci√≥n de JSON.


**Funci√≥n `main`:**

1. **Perfil de Tiempo de Ejecuci√≥n:**
   - Usa `cProfile` para medir el tiempo de ejecuci√≥n de `q1_memory`.

2. **Estad√≠sticas de Perfil:**
   - Imprime las estad√≠sticas del perfil usando `pstats`.

3. **Perfil de Uso de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecuci√≥n de `q1_memory`.

4. **Resultado:**
   - Imprime el resultado de `q1_memory`.

5. **Ejecuci√≥n del Programa:**
   - La funci√≥n `main` se ejecuta solo si el script se ejecuta como el m√≥dulo principal.


In [1]:
from q1_memory import main as q1_memory


response = q1_memory()
print(response)

         1444032 function calls (1443985 primitive calls) in 5.500 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.836    1.836    5.500    5.500 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q1_memory.py:9(q1_memory)
   117407    0.123    0.000    3.474    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.184    0.000    3.309    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.950    0.000    2.950    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.050    0.000    0.144    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
 

# Problema 1

**Las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as.**

## Resoluci√≥n para funci√≥n `q1_time` que optimiza el tiempo de ejecuci√≥n:

### Explicaci√≥n del C√≥digo

### Funci√≥n `q1_time`:

1. **Diccionario de Contadores:**
   - Usa un `defaultdict` con `Counter` para registrar el n√∫mero de tweets por usuario y fecha.

2. **Lectura L√≠nea por L√≠nea:**
   - Lee el archivo JSON l√≠nea por l√≠nea para minimizar el uso de memoria.

3. **Actualizaci√≥n del Contador:**
   - Actualiza el contador para cada combinaci√≥n de fecha y usuario.

4. **Ordenamiento y Selecci√≥n:**
   - Ordena las fechas por el n√∫mero total de tweets y selecciona las top 10 fechas.

5. **Usuario con M√°s Tweets por Fecha:**
   - Identifica el usuario con m√°s tweets en cada una de las top 10 fechas.

6. **Conversi√≥n de Fecha:**
   - Convierte las fechas de string a `datetime.date`.

7. **Manejo de Excepciones:**
   - Utiliza `try-except` para manejar errores comunes como `FileNotFoundError`, `json.JSONDecodeError` y cualquier otra excepci√≥n gen√©rica.

### Funci√≥n `main`:

1. **Perfil de Tiempo de Ejecuci√≥n:**
   - Usa `cProfile` para medir el tiempo de ejecuci√≥n de `q1_time`.

2. **Estad√≠sticas de Perfil:**
   - Imprime las estad√≠sticas del perfil usando `pstats`.

3. **Perfil de Uso de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecuci√≥n de `q1_time`.

4. **Resultado:**
   - Imprime el resultado de `q1_time`.

5. **Ejecuci√≥n del Programa:**
   - La funci√≥n `main` se ejecuta solo si el script se ejecuta como el m√≥dulo principal.


In [2]:
from q1_time import main as q1_time

response = q1_time()
print(response)

         1443002 function calls in 5.225 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.806    1.806    5.225    5.225 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q1_time.py:9(q1_time)
   117407    0.116    0.000    3.243    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.171    0.000    3.088    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.763    0.000    2.763    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.044    0.000    0.136    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
   234824    0.115    0.000    

# Problema 2

**Los top 10 emojis m√°s usados con su respectivo conteo.**

## `SOLUCION`:
1. **Procesamiento L√≠nea por L√≠nea**
   - En lugar de cargar todo el archivo en memoria a la vez, el c√≥digo procesa el archivo JSON l√≠nea por l√≠nea. Esto reduce dr√°sticamente el uso de memoria, ya que solo una l√≠nea est√° en memoria en cualquier momento.
   - Bibliotecas como Pandas tienden a cargar todo el archivo en un DataFrame, lo que puede consumir una cantidad significativa de memoria, especialmente para archivos grandes.

2. **Uso de `Counter`**
   - `Counter` de la biblioteca `collections` es muy eficiente en t√©rminos de memoria y tiempo para contar elementos.
   - Si bien Pandas y Polars tienen m√©todos para contar elementos, estos suelen ser m√°s pesados en t√©rminos de estructura de datos y pueden ser menos eficientes en casos de procesamiento simple de conteo.

3. **Evitar Operaciones Costosas**
   - El c√≥digo debe evitar operaciones costosas, como la concatenaci√≥n de strings o la creaci√≥n de grandes estructuras de datos intermedias.
   - Operaciones como la creaci√≥n de DataFrames o la transformaci√≥n de grandes cantidades de datos en Polars y Spark pueden ser costosas en t√©rminos de memoria y tiempo.

4. **No Usar Estructuras de Datos Complejas**
   - El c√≥digo debe utilizar listas y diccionarios simples para almacenar y procesar datos.
   - Pandas, Polars y Spark utilizan estructuras de datos m√°s complejas (como DataFrames), que aunque son poderosas y flexibles, tambi√©n consumen m√°s memoria.

5. **Manejo de Excepciones**
   - El c√≥digo debe manejar errores espec√≠ficos como `JSONDecodeError` y `KeyError`, permitiendo que el programa contin√∫e ejecut√°ndose sin fallar completamente. Esto mejora la robustez del proceso sin un impacto significativo en el uso de memoria.
   - Aunque las bibliotecas avanzadas tambi√©n manejan excepciones, hacerlo de manera expl√≠cita y controlada puede evitar el consumo innecesario de recursos en intentos fallidos de procesamiento.

## Resoluci√≥n para funci√≥n `q2_memory` que optimiza la memoria en uso:

### Explicaci√≥n del C√≥digo

### Funci√≥n `q2_memory`:

#### Definici√≥n de la Funci√≥n y Par√°metros:

- `q2_memory` recibe la ruta del archivo JSON que contiene los tweets.
- Retorna una lista de tuplas, cada una con un emoji y su conteo.

#### Inicializaci√≥n del Contador de Emojis:

- `emoji_counter = Counter()`: Utiliza `Counter` para contar la frecuencia de cada emoji.

#### Apertura y Lectura del Archivo:

- Abre el archivo JSON en modo lectura ('r') con codificaci√≥n UTF-8.

#### Procesamiento L√≠nea por L√≠nea:

1. Lee cada l√≠nea del archivo.
2. Intenta cargar la l√≠nea como JSON y extraer el contenido del tweet (`tweet_content`).
3. Usa `emoji_list` de la biblioteca `emoji` para extraer emojis del contenido del tweet.
4. Actualiza el `emoji_counter` con los emojis encontrados en la l√≠nea.

#### Manejo de Errores:

- `json.JSONDecodeError`: Captura errores de decodificaci√≥n de JSON.
- `KeyError`: Captura errores cuando las claves esperadas no est√°n presentes en el JSON.
- `FileNotFoundError`: Captura errores si el archivo no se encuentra.
- `Exception`: Captura cualquier otro error inesperado.

#### Retorno de los Resultados:

- Devuelve los 10 emojis m√°s comunes en todo el archivo usando `emoji_counter.most_common(10)`.

## Definici√≥n de la Funci√≥n `main`:

Esta funci√≥n ejecuta el an√°lisis de los tweets, mide el tiempo de ejecuci√≥n y el uso de memoria.

### Perfil de Tiempo de Ejecuci√≥n con `cProfile`:

1. Se crea un objeto `cProfile.Profile`.
2. `profiler.enable()`: Habilita el perfilado.
3. Llama a `q2_memory` para realizar el an√°lisis de emojis.
4. `profiler.disable()`: Deshabilita el perfilado.
5. Imprime las estad√≠sticas del perfil usando `pstats`.

### Medici√≥n del Uso de Memoria con `memory_usage`:

- Usa `memory_usage` para medir el uso de memoria durante la ejecuci√≥n de `q2_memory`.
- Imprime el m√°ximo uso de memoria registrado.

### Ejecuci√≥n del Programa:

- Si el script se ejecuta como el m√≥dulo principal, llama a `main` e imprime el resultado.

In [3]:
from q2_memory import main as q2_memory

response = q2_memory()
print(response)

         87729478 function calls (87729450 primitive calls) in 33.008 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.879    1.879   33.008   33.008 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_memory.py:9(q2_memory)
   117407    0.105    0.000   26.869    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:283(emoji_list)
   117407    4.847    0.000   26.763    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:290(<listcomp>)
 17140706   12.902    0.000   20.308    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\tokenizer.py:158(tokenize)
 17023302    3.462    0.000    5.942    0.000 <string>:1(<lambda>)
   117407    0.147    0.000    3.795    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:

# Problema 2

**Los top 10 emojis m√°s usados con su respectivo conteo.**

## Resoluci√≥n para funci√≥n `q2_time` que optimiza el tiempo de ejecuci√≥n:

## Explicaci√≥n del C√≥digo

El objetivo del c√≥digo es encontrar los 10 emojis m√°s usados en un conjunto de tweets, y medir tanto el tiempo de ejecuci√≥n como el uso de memoria del proceso.

### Funci√≥n `extract_emojis`

**Descripci√≥n:** Extrae todos los emojis de un texto dado utilizando la funci√≥n `emoji_list` de la biblioteca `emoji`.

- **Entrada:** `text` (str) - El texto del cual extraer los emojis.
- **Salida:** Lista de emojis encontrados en el texto.

### Funci√≥n `q2_time`

**Descripci√≥n:** Encuentra los 10 emojis m√°s usados en un archivo JSON de tweets.

- **Entrada:** `file_path` (str) - Ruta al archivo JSON.

**Proceso:**

1. **Inicializaci√≥n:**
   - Se inicializa un contador de emojis (`emoji_counter`).

2. **Lectura del Archivo:**
   - Se lee el archivo l√≠nea por l√≠nea.

3. **Extracci√≥n y Conteo de Emojis:**
   - Para cada l√≠nea, se extraen los emojis y se actualiza el contador.

4. **Manejo de Excepciones:**
   - Captura errores de decodificaci√≥n y claves faltantes.

- **Salida:** Lista de tuplas con los 10 emojis m√°s comunes y su conteo.

### Funci√≥n `main`

**Descripci√≥n:** Ejecuta el an√°lisis de tweets, midiendo el tiempo de ejecuci√≥n y el uso de memoria.

**Proceso:**

1. **Perfil de Tiempo:**
   - Usa `cProfile` para medir el tiempo de ejecuci√≥n de `q2_time`.

2. **Ejecuci√≥n del An√°lisis:**
   - Llama a `q2_time` para realizar el an√°lisis.

3. **Estad√≠sticas de Perfil:**
   - Imprime las estad√≠sticas del perfil usando `pstats`.

4. **Perfil de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecuci√≥n de `q2_time`.

- **Resultado:** Imprime el uso de memoria y devuelve los 10 emojis m√°s comunes.


In [4]:
from q2_time import main as q2_time

response = q2_time()
print(response)

         87841955 function calls in 33.136 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.864    1.864   33.136   33.136 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_time.py:21(q2_time)
   117407    0.108    0.000   26.978    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_time.py:9(extract_emojis)
   117407    0.107    0.000   26.843    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:283(emoji_list)
   117407    4.859    0.000   26.736    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:290(<listcomp>)
 17140706   12.855    0.000   20.278    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\tokenizer.py:158(tokenize)
 17023302    3.455    0.000    5.936    0.000 <string>:1(<lambda>)
   117407    0.148    0.000    3.851    0.000 C:\Program Fil

# Problema 3

**El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos.**

## Resoluci√≥n para funci√≥n `q3_memory` que optimiza la memoria en uso:

## Explicaci√≥n del C√≥digo

El c√≥digo tiene como objetivo encontrar los 10 usuarios m√°s mencionados en un conjunto de tweets, midiendo tanto el tiempo de ejecuci√≥n como el uso de memoria del proceso.

### Funci√≥n `q3_memory`

**Descripci√≥n:** Encuentra los top 10 usuarios m√°s mencionados en los tweets.

- **Entrada:** `file_path` (str) - Ruta al archivo JSON que contiene los tweets.

**Proceso:**

1. **Inicializaci√≥n:**
   - Se inicializa un contador de usuarios (`users_counter`) para contar las menciones de cada usuario.

2. **Lectura del Archivo:**
   - Se abre el archivo JSON en modo lectura con codificaci√≥n UTF-8.

3. **Procesamiento L√≠nea por L√≠nea:**
   - Para cada l√≠nea del archivo:
     - Se intenta cargar la l√≠nea como JSON.
     - Se obtienen los usuarios mencionados en el tweet usando `tweet.get('mentionedUsers', [])`.
     - Si hay usuarios mencionados, se extraen los nombres de usuario y se actualiza el contador.
     - Se manejan errores de decodificaci√≥n de JSON y claves faltantes.

4. **Retorno de Resultados:**
   - Devuelve los 10 usuarios m√°s mencionados usando `users_counter.most_common(10)`.

5. **Manejo de Excepciones:**
   - Captura errores espec√≠ficos como `FileNotFoundError`, `JSONDecodeError` y `KeyError` para asegurar la robustez del proceso.

- **Salida:** Lista de tuplas con los 10 usuarios m√°s mencionados y su conteo.

### Funci√≥n `main`

**Descripci√≥n:** Ejecuta el an√°lisis de los tweets, midiendo el tiempo de ejecuci√≥n y el uso de memoria.

**Proceso:**

1. **Perfil de Tiempo:**
   - Usa `cProfile` para medir el tiempo de ejecuci√≥n de `q3_memory`.

2. **Ejecuci√≥n del An√°lisis:**
   - Llama a `q3_memory` para realizar el an√°lisis.

3. **Estad√≠sticas de Perfil:**
   - Imprime las estad√≠sticas del perfil usando `pstats`.

4. **Perfil de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecuci√≥n de `q3_memory`.

- **Resultado:** Imprime el uso de memoria y devuelve los 10 usuarios m√°s mencionados.

### Conclusi√≥n

Este enfoque optimiza el tiempo de ejecuci√≥n en comparaci√≥n con Pandas, Polars o Spark por varias razones:

1. **Procesamiento L√≠nea por L√≠nea:**

   - **Eficiencia Temporal:** Procesar cada l√≠nea una por una permite comenzar a trabajar en el an√°lisis de inmediato sin esperar a que todo el archivo se cargue en memoria.
   - **Comparaci√≥n:** Pandas, Polars y Spark suelen leer y estructurar grandes cantidades de datos en estructuras internas antes de realizar operaciones, lo que puede ser m√°s lento para archivos grandes.

2. **Uso de `Counter`:**

   - **Velocidad:** `Counter` de la biblioteca `collections` es una estructura de datos altamente eficiente en t√©rminos de tiempo para el conteo y el almacenamiento de datos.
   - **Comparaci√≥n:** Las operaciones de agrupamiento y conteo en Pandas y Polars implican operaciones m√°s complejas sobre DataFrames, lo que puede ser m√°s lento.

3. **Estructuras de Datos Simples:**

   - **Simplicidad:** El uso de diccionarios y contadores simples evita la sobrecarga de estructuras de datos m√°s complejas, lo que reduce el tiempo de procesamiento.
   - **Comparaci√≥n:** DataFrames y otras estructuras de datos avanzadas en bibliotecas como Spark y Pandas tienen funcionalidades adicionales que, aunque poderosas, a√±aden tiempo de procesamiento.

4. **Evita Transformaciones Costosas:**

   - **Optimizaci√≥n Temporal:** Al procesar directamente los datos sin transformaciones intermedias costosas, el c√≥digo es m√°s r√°pido.
   - **Comparaci√≥n:** Transformaciones de datos en Pandas, Polars o Spark a menudo implican pasos adicionales que aumentan el tiempo de procesamiento.


In [10]:
from q3_memory import main as q3_memory

response = q3_memory()
print(response)

         1619262 function calls in 5.076 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.535    1.535    5.076    5.076 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q3_memory.py:9(q3_memory)
   117407    0.115    0.000    3.257    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.172    0.000    3.103    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.775    0.000    2.775    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.045    0.000    0.132    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
   234814    0.118    0.000

# Problema 3

**El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos.**

## Resoluci√≥n para funci√≥n `q3_time` que optimiza el tiempo de ejecuci√≥n:
## Explicaci√≥n del C√≥digo

El c√≥digo tiene como objetivo encontrar los 10 usuarios m√°s mencionados en un conjunto de tweets, midiendo tanto el tiempo de ejecuci√≥n como el uso de memoria del proceso.

### Funci√≥n `q3_time`

**Descripci√≥n:** Encuentra los top 10 usuarios m√°s mencionados en los tweets.

- **Entrada:** `file_path` (str) - Ruta al archivo JSON que contiene los tweets.

**Proceso:**

- Inicializaci√≥n: Se inicializa un contador de usuarios (`users_counter`).
- Lectura del Archivo: Se abre el archivo JSON en modo lectura con codificaci√≥n UTF-8.
- Procesamiento L√≠nea por L√≠nea: Se carga cada l√≠nea como JSON, se obtienen los usuarios mencionados y se actualiza el contador.
- Manejo de Excepciones: Captura errores espec√≠ficos para asegurar la robustez del proceso.
- Retorno de Resultados: Devuelve los 10 usuarios m√°s mencionados usando `users_counter.most_common(10)`.

### Funci√≥n `main`

**Descripci√≥n:** Ejecuta el an√°lisis de los tweets, midiendo el tiempo de ejecuci√≥n y el uso de memoria.

**Proceso:**

- Perfil de Tiempo: Usa `cProfile` para medir el tiempo de ejecuci√≥n de `q3_time`.
- Ejecuci√≥n del An√°lisis: Llama a `q3_time` para realizar el an√°lisis.
- Estad√≠sticas de Perfil: Imprime las estad√≠sticas del perfil usando `pstats`.
- Perfil de Memoria: Usa `memory_usage` para medir el uso de memoria durante la ejecuci√≥n de `q3_time`.
- Resultado: Imprime el uso de memoria y devuelve los 10 usuarios m√°s mencionados.

### Conclusi√≥n

Este enfoque optimiza el tiempo de ejecuci√≥n y el uso de memoria en comparaci√≥n con Pandas, Polars o Spark debido a:

1. **Procesamiento L√≠nea por L√≠nea:** Permite comenzar el an√°lisis de inmediato sin cargar todo el archivo en memoria.
2. **Uso de `Counter`:** Altamente eficiente en t√©rminos de tiempo para el conteo y almacenamiento de datos.
3. **Estructuras de Datos Simples:** Evita la sobrecarga de estructuras m√°s complejas, reduciendo el tiempo de procesamiento.
4. **Evita Transformaciones Costosas:** Procesa los datos directamente sin pasos intermedios adicionales.
5. **Uso Eficiente de Funciones Incorporadas:** Utiliza funciones de alto rendimiento como `Counter.update` para actualizaciones eficientes.

In [12]:
from q3_time import main as q3_time

response = q3_time()
print(response)

         1619262 function calls in 5.093 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.518    1.518    5.093    5.093 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q3_time.py:8(q3_time)
   117407    0.117    0.000    3.293    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.171    0.000    3.137    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.807    0.000    2.807    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.045    0.000    0.132    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
   234814    0.120    0.000    

# Despliegue en GCP

**Llevar tus procesos a la nube utilizando GCP ya que te proporciona escalabilidad, flexibilidad, eficiencia en costos, y seguridad. Los servicios como Cloud Storage y Cloud Functions te permiten almacenar y procesar tus datos de manera eficiente y autom√°tica, facilitando la gesti√≥n y an√°lisis de grandes vol√∫menes de datos sin preocuparte por la infraestructura subyacente.**

## Importancia de Llevar los Procesos a la Nube

- **Escalabilidad:** La nube permite escalar tus aplicaciones eficientemente seg√∫n la demanda, sin preocuparte por la capacidad del hardware f√≠sico.
- **Flexibilidad y Agilidad:** Implementa nuevas funcionalidades r√°pidamente y realiza cambios sin grandes inversiones iniciales.
- **Costos Eficientes:** Pagas solo por lo que usas, lo que puede ser m√°s econ√≥mico que mantener una infraestructura propia.
- **Mantenimiento Reducido:** El proveedor de la nube maneja la administraci√≥n del hardware, permiti√©ndote concentrarte en el desarrollo de tu aplicaci√≥n.
- **Seguridad y Cumplimiento:** Los proveedores de nube invierten en medidas de seguridad robustas y cumplen con normativas internacionales, dif√≠ciles de implementar por cuenta propia.

## C√≥mo GCP Ayuda en Este Prop√≥sito

### 1. Google Cloud Storage

- **Almacenamiento Duradero y de Alta Disponibilidad:** Ideal para datos no estructurados como archivos JSON, im√°genes y backups.
- **Almacenamiento Centralizado:** Accesible globalmente para cualquier servicio o usuario autorizado.
- **Seguridad y Control de Acceso:** Ofrece controles granulares de acceso, asegurando que solo usuarios y servicios autorizados accedan a los datos.
- **Integraci√≥n F√°cil:** Se integra con otros servicios de GCP, como BigQuery y Cloud Functions.

### 2. Google Cloud Functions

- **Ejecuci√≥n Basada en Eventos:** Configura funciones que se disparen autom√°ticamente al cargar un archivo en Cloud Storage, ideal para procesar archivos JSON.
- **Escalabilidad Autom√°tica:** Las funciones escalan autom√°ticamente con la carga.
- **Facilidad de Uso y Desarrollo:** Te permite concentrarte en la l√≥gica de negocio sin preocuparte por la infraestructura.

## Caso de uso

### 1. Subida de Archivos JSON a Cloud Storage

- Tus archivos JSON se almacenan en un bucket de Cloud Storage, asegurando seguridad y accesibilidad.

### 2. Procesamiento Autom√°tico con Cloud Functions

- Cuando se sube un archivo a Cloud Storage, una Cloud Function se activa autom√°ticamente para procesarlo. Por ejemplo, la funci√≥n podr√≠a leer los tweets del archivo JSON, procesar los datos y almacenarlos en una base de datos para an√°lisis posterior.

## POC
- Se cre√≥ un bucket en cloud storage y luego se carg√≥ el Dataset
![GCS](assets/gcs.png)

- Para el despliegue del c√≥digo creado en el cloud function se cre√≥ un main que ayude a referenciar las funciones creadas.

![C√≥digo fuente](assets/source_code.png)

- Se cre√≥ un fichero utils, donde puedo reutilizar variables y metodos para mis funciones, ac√° lo mas destacable es la creaci√≥n de una func√≠on para el proceso de lectura del archivo, ya que este ahora se encuentra disponibilizado en un cloud storage.

![Fichero Utils](assets/utils.png)

- Pruebas realizadas a cada funci√≥n.

**q1_memory**
![q1_memory](assets/test_1.png)

**q1_time**
![q1_time](assets/test_2.png)

**q2_memory**
![q2_memory](assets/test_3.png)

**q2_time**
![q2_time](assets/test_4.png)

**q3_memory**
![q3_memory](assets/test_5.png)

**q3_time**
![q3_time](assets/test_6.png)