# Resolución Latam Challenge

**DEV:** ***Ronny Jhancarlo Gago Pizarro***

A continuación se detalla la solución para cada uno de los desafíos:

# Problema 1

**Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.**

## `SOLUCION`:
1. **Procesamiento Línea por Línea**
   - Procesar cada línea del archivo JSON una a una, manteniendo solo una línea en memoria a la vez, en lugar de cargar todo el archivo.
   - Pandas, Polars y Spark tienden a cargar conjuntos de datos completos en memoria, lo que es ineficiente para archivos grandes.

2. **Uso de `Counter`**
   - Utilizar `Counter` para contar fechas y usuarios de manera eficiente en términos de memoria y tiempo.
   - Bibliotecas más complejas como Pandas pueden introducir sobrecarga adicional al utilizar estructuras de datos más robustas.

3. **Estructuras de Datos Simples**
   - Emplear listas y diccionarios simples para almacenar y procesar datos.
   - DataFrames y otras estructuras de datos avanzadas en bibliotecas como Spark y Pandas consumen más memoria debido a sus funcionalidades adicionales.

4. **Manejo de Excepciones Específicas**
   - Manejar errores específicos como `JSONDecodeError` y `KeyError` para asegurar la continuidad del procesamiento sin grandes interrupciones.
   - Aunque otras bibliotecas también manejan excepciones, hacerlo de manera explícita y controlada en este código evita el uso innecesario de recursos.

5. **Sin Estructuras Intermedias Pesadas**
   - Evitar la creación de estructuras de datos intermedias costosas, manteniendo el procesamiento directo y eficiente.
   - Pandas y otras bibliotecas pueden crear estructuras intermedias para operaciones complejas, aumentando el uso de memoria.

6. **Medición del Rendimiento**
   - Usar `cProfile` y `memory_usage` para medir y optimizar el tiempo de ejecución y el uso de memoria de manera específica.
   - Proporcionar una visibilidad directa y detallada del rendimiento, lo que es más granular que las métricas generales en bibliotecas más grandes.

## Resolución para función `q1_memory` que optimiza la memoria en uso:

### Explicación del Código

**Función `q1_memory`:**

1. **Diccionario de Contadores:**
   - Usa un `Counter` para registrar el número de tweets por fecha y un `defaultdict` de `Counter` para registrar el número de tweets por usuario por fecha.

2. **Lectura Línea por Línea:**
   - Lee el archivo JSON línea por línea para minimizar el uso de memoria.

3. **Actualización del Contador:**
   - Actualiza el contador para cada combinación de fecha y usuario.

4. **Ordenamiento y Selección:**
   - Ordena las fechas por el número total de tweets y selecciona las top 10 fechas.

5. **Usuario con Más Tweets por Fecha:**
   - Identifica el usuario con más tweets en cada una de las top 10 fechas.

6. **Conversión de Fecha:**
   - Convierte las fechas de string a `datetime.date`.

7. **Manejo de Errores:**
   - Captura errores de lectura de archivos y decodificación de JSON.


**Función `main`:**

1. **Perfil de Tiempo de Ejecución:**
   - Usa `cProfile` para medir el tiempo de ejecución de `q1_memory`.

2. **Estadísticas de Perfil:**
   - Imprime las estadísticas del perfil usando `pstats`.

3. **Perfil de Uso de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q1_memory`.

4. **Resultado:**
   - Imprime el resultado de `q1_memory`.

5. **Ejecución del Programa:**
   - La función `main` se ejecuta solo si el script se ejecuta como el módulo principal.


In [1]:
from q1_memory import main as q1_memory


response = q1_memory()
print(response)

         1444032 function calls (1443985 primitive calls) in 5.448 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.862    1.862    5.448    5.448 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q1_memory.py:9(q1_memory)
   117407    0.124    0.000    3.399    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.184    0.000    3.235    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.890    0.000    2.890    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.051    0.000    0.145    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
 

# Problema 1

**Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.**

## Resolución para función `q1_time` que optimiza el tiempo de ejecución:

### Explicación del Código

### Función `q1_time`:

1. **Diccionario de Contadores:**
   - Usa un `defaultdict` con `Counter` para registrar el número de tweets por usuario y fecha.

2. **Lectura Línea por Línea:**
   - Lee el archivo JSON línea por línea para minimizar el uso de memoria.

3. **Actualización del Contador:**
   - Actualiza el contador para cada combinación de fecha y usuario.

4. **Ordenamiento y Selección:**
   - Ordena las fechas por el número total de tweets y selecciona las top 10 fechas.

5. **Usuario con Más Tweets por Fecha:**
   - Identifica el usuario con más tweets en cada una de las top 10 fechas.

6. **Conversión de Fecha:**
   - Convierte las fechas de string a `datetime.date`.

7. **Manejo de Excepciones:**
   - Utiliza `try-except` para manejar errores comunes como `FileNotFoundError`, `json.JSONDecodeError` y cualquier otra excepción genérica.

### Función `main`:

1. **Perfil de Tiempo de Ejecución:**
   - Usa `cProfile` para medir el tiempo de ejecución de `q1_time`.

2. **Estadísticas de Perfil:**
   - Imprime las estadísticas del perfil usando `pstats`.

3. **Perfil de Uso de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q1_time`.

4. **Resultado:**
   - Imprime el resultado de `q1_time`.

5. **Ejecución del Programa:**
   - La función `main` se ejecuta solo si el script se ejecuta como el módulo principal.


In [2]:
from q1_time import main as q1_time

response = q1_time()
print(response)

         1443002 function calls in 5.610 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.947    1.947    5.610    5.610 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q1_time.py:9(q1_time)
   117407    0.126    0.000    3.474    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:299(loads)
   117407    0.184    0.000    3.306    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:332(decode)
   117407    2.964    0.000    2.964    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\decoder.py:343(raw_decode)
    49772    0.051    0.000    0.146    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\codecs.py:319(decode)
   234824    0.118    0.000    

# Problema 2

**Los top 10 emojis más usados con su respectivo conteo.**

## `SOLUCION`:
1. **Procesamiento Línea por Línea**
   - En lugar de cargar todo el archivo en memoria a la vez, el código procesa el archivo JSON línea por línea. Esto reduce drásticamente el uso de memoria, ya que solo una línea está en memoria en cualquier momento.
   - Bibliotecas como Pandas tienden a cargar todo el archivo en un DataFrame, lo que puede consumir una cantidad significativa de memoria, especialmente para archivos grandes.

2. **Uso de `Counter`**
   - `Counter` de la biblioteca `collections` es muy eficiente en términos de memoria y tiempo para contar elementos.
   - Si bien Pandas y Polars tienen métodos para contar elementos, estos suelen ser más pesados en términos de estructura de datos y pueden ser menos eficientes en casos de procesamiento simple de conteo.

3. **Evitar Operaciones Costosas**
   - El código debe evitar operaciones costosas, como la concatenación de strings o la creación de grandes estructuras de datos intermedias.
   - Operaciones como la creación de DataFrames o la transformación de grandes cantidades de datos en Polars y Spark pueden ser costosas en términos de memoria y tiempo.

4. **No Usar Estructuras de Datos Complejas**
   - El código debe utilizar listas y diccionarios simples para almacenar y procesar datos.
   - Pandas, Polars y Spark utilizan estructuras de datos más complejas (como DataFrames), que aunque son poderosas y flexibles, también consumen más memoria.

5. **Manejo de Excepciones**
   - El código debe manejar errores específicos como `JSONDecodeError` y `KeyError`, permitiendo que el programa continúe ejecutándose sin fallar completamente. Esto mejora la robustez del proceso sin un impacto significativo en el uso de memoria.
   - Aunque las bibliotecas avanzadas también manejan excepciones, hacerlo de manera explícita y controlada puede evitar el consumo innecesario de recursos en intentos fallidos de procesamiento.

## Resolución para función `q2_memory` que optimiza la memoria en uso:

### Explicación del Código

### Función `q2_memory`:

#### Definición de la Función y Parámetros:

- `q2_memory` recibe la ruta del archivo JSON que contiene los tweets.
- Retorna una lista de tuplas, cada una con un emoji y su conteo.

#### Inicialización del Contador de Emojis:

- `emoji_counter = Counter()`: Utiliza `Counter` para contar la frecuencia de cada emoji.

#### Apertura y Lectura del Archivo:

- Abre el archivo JSON en modo lectura ('r') con codificación UTF-8.

#### Procesamiento Línea por Línea:

1. Lee cada línea del archivo.
2. Intenta cargar la línea como JSON y extraer el contenido del tweet (`tweet_content`).
3. Usa `emoji_list` de la biblioteca `emoji` para extraer emojis del contenido del tweet.
4. Actualiza el `emoji_counter` con los emojis encontrados en la línea.

#### Manejo de Errores:

- `json.JSONDecodeError`: Captura errores de decodificación de JSON.
- `KeyError`: Captura errores cuando las claves esperadas no están presentes en el JSON.
- `FileNotFoundError`: Captura errores si el archivo no se encuentra.
- `Exception`: Captura cualquier otro error inesperado.

#### Retorno de los Resultados:

- Devuelve los 10 emojis más comunes en todo el archivo usando `emoji_counter.most_common(10)`.

## Definición de la Función `main`:

Esta función ejecuta el análisis de los tweets, mide el tiempo de ejecución y el uso de memoria.

### Perfil de Tiempo de Ejecución con `cProfile`:

1. Se crea un objeto `cProfile.Profile`.
2. `profiler.enable()`: Habilita el perfilado.
3. Llama a `q2_memory` para realizar el análisis de emojis.
4. `profiler.disable()`: Deshabilita el perfilado.
5. Imprime las estadísticas del perfil usando `pstats`.

### Medición del Uso de Memoria con `memory_usage`:

- Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q2_memory`.
- Imprime el máximo uso de memoria registrado.

### Ejecución del Programa:

- Si el script se ejecuta como el módulo principal, llama a `main` e imprime el resultado.

In [3]:
from q2_memory import main as q2_memory

response = q2_memory()
print(response)

         87729478 function calls (87729450 primitive calls) in 33.730 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    2.061    2.061   33.730   33.730 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_memory.py:9(q2_memory)
   117407    0.111    0.000   27.235    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:283(emoji_list)
   117407    4.873    0.000   27.125    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:290(<listcomp>)
 17140706   13.122    0.000   20.587    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\tokenizer.py:158(tokenize)
 17023302    3.488    0.000    5.972    0.000 <string>:1(<lambda>)
   117407    0.154    0.000    3.956    0.000 C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.9_3.9.3568.0_x64__qbz5n2kfra8p0\lib\json\__init__.py:

# Problema 2

**Los top 10 emojis más usados con su respectivo conteo.**

## Resolución para función `q2_time` que optimiza el tiempo de ejecución:

## Explicación del Código

El objetivo del código es encontrar los 10 emojis más usados en un conjunto de tweets, y medir tanto el tiempo de ejecución como el uso de memoria del proceso.

### Función `extract_emojis`

**Descripción:** Extrae todos los emojis de un texto dado utilizando la función `emoji_list` de la biblioteca `emoji`.

- **Entrada:** `text` (str) - El texto del cual extraer los emojis.
- **Salida:** Lista de emojis encontrados en el texto.

### Función `q2_time`

**Descripción:** Encuentra los 10 emojis más usados en un archivo JSON de tweets.

- **Entrada:** `file_path` (str) - Ruta al archivo JSON.

**Proceso:**

1. **Inicialización:**
   - Se inicializa un contador de emojis (`emoji_counter`).

2. **Lectura del Archivo:**
   - Se lee el archivo línea por línea.

3. **Extracción y Conteo de Emojis:**
   - Para cada línea, se extraen los emojis y se actualiza el contador.

4. **Manejo de Excepciones:**
   - Captura errores de decodificación y claves faltantes.

- **Salida:** Lista de tuplas con los 10 emojis más comunes y su conteo.

### Función `main`

**Descripción:** Ejecuta el análisis de tweets, midiendo el tiempo de ejecución y el uso de memoria.

**Proceso:**

1. **Perfil de Tiempo:**
   - Usa `cProfile` para medir el tiempo de ejecución de `q2_time`.

2. **Ejecución del Análisis:**
   - Llama a `q2_time` para realizar el análisis.

3. **Estadísticas de Perfil:**
   - Imprime las estadísticas del perfil usando `pstats`.

4. **Perfil de Memoria:**
   - Usa `memory_usage` para medir el uso de memoria durante la ejecución de `q2_time`.

- **Resultado:** Imprime el uso de memoria y devuelve los 10 emojis más comunes.


In [4]:
from q2_time import main as q2_time

response = q2_time()
print(response)

         87841955 function calls in 33.609 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    1.941    1.941   33.609   33.609 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_time.py:21(q2_time)
   117407    0.110    0.000   27.283    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\src\q2_time.py:9(extract_emojis)
   117407    0.110    0.000   27.147    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:283(emoji_list)
   117407    5.017    0.000   27.037    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\core.py:290(<listcomp>)
 17140706   12.976    0.000   20.372    0.000 c:\Users\ADMIN\Documents\GitHub\ronny_gago_challenge\venv\lib\site-packages\emoji\tokenizer.py:158(tokenize)
 17023302    3.461    0.000    5.927    0.000 <string>:1(<lambda>)
   117407    0.152    0.000    3.937    0.000 C:\Program Fil