En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [18]:
file_path = "/home/alerce/Downloads/tweets.json/farmers-protest-tweets-2021-2-4.json"

# Desafío Ingeniero de Datos - Explicación de Soluciones

## Explicación de la Función q1

### Top 10 Fechas con Más Tweets

Buscar las 10 fechas(dias) con más tweets y mencionar el usuario con más publicaciones para cada una de esas fechas.

#### Q1 Memory

1. **Inicialización de Estructuras de Datos:**
   - Se utiliza un diccionario `date_name_count` que almacena, para cada timestamp, un contador de nombres.

2. **Lectura del Archivo JSON:**
   - Se lee el archivo JSON línea por línea para evitar la sobrecarga de memoria
   - Se decodifica cada línea como un objeto JSON.
   - Se extrae la fecha y el nombre de usuario de cada tweet. (únicos elementos necesarios)

3. **Conteo de Publicaciones por Fecha y Usuario:**
   - Se convierte la fecha a un formato de timestamp para reducir la memoria y unificar por días sin importar la hora.
   - Se actualiza el contador `date_name_count` con la información del tweet actual. Un diccionario hashmap es la manera más eficiente de hacer esto.

4. **Selección de las 10 Fechas con Más Tweets:**
   - Se determinan las 10 fechas con más tweets sumando los conteos de todas las publicaciones en ese día.

5. **Identificación del Usuario Más Frecuente por Fecha:**
   - Para cada fecha en el top 10, se identifica el nombre de usuario más frecuente en las publicaciones de esa fecha usando los contadores y la función `most_common(n=1)`, que para n=1 es O(m), sindo m la cantidad de elementos contados.

6. **Generación del Resultado Final:**
   - Se genera una lista de tuplas, donde cada tupla contiene una fecha y el nombre del usuario más frecuente en esa fecha.

### Consideraciones Adicionales:
- La función utiliza estructuras de datos eficientes para el conteo y la selección de fechas.
- Se han implementado medidas para garantizar la robustez ante posibles errores en los datos de entrada.
- Si bien los profiles muestran el trade-of memoria vs tiempo, el volumen de datos no permite que esta diferencia sea más significativa.
- Para hacer una comparación justa entre tiempo y memoria no se ha cambiado de tecnología.

In [19]:
from src.q1_memory import q1_memory

r = q1_memory(file_path)
print(*r, sep="\n")

(datetime.date(2021, 2, 12), 'RanbirS00614606')
(datetime.date(2021, 2, 13), 'MaanDee08215437')
(datetime.date(2021, 2, 17), 'RaaJVinderkaur')
(datetime.date(2021, 2, 16), 'jot__b')
(datetime.date(2021, 2, 14), 'rebelpacifist')
(datetime.date(2021, 2, 18), 'neetuanjle_nitu')
(datetime.date(2021, 2, 15), 'jot__b')
(datetime.date(2021, 2, 20), 'MangalJ23056160')
(datetime.date(2021, 2, 23), 'Surrypuria')
(datetime.date(2021, 2, 19), 'Preetm91')


#### Q1 Time
La función `q1_time` es muy parecida a `q1_memory`, pero para optimizar el tiempo de ejecución se utiliza un diccionario adicional que evita sumando los conteos para la selección de las 10 Fechas con Más Tweets. De esta forma se utiliza más memoria para tener un mejor desempeño en tiempo de ejecución.


In [20]:
from src.q1_time import q1_time

r = q1_time(file_path)
print(*r, sep="\n")

(datetime.date(2021, 2, 12), 'RanbirS00614606')
(datetime.date(2021, 2, 13), 'MaanDee08215437')
(datetime.date(2021, 2, 17), 'RaaJVinderkaur')
(datetime.date(2021, 2, 16), 'jot__b')
(datetime.date(2021, 2, 14), 'rebelpacifist')
(datetime.date(2021, 2, 18), 'neetuanjle_nitu')
(datetime.date(2021, 2, 15), 'jot__b')
(datetime.date(2021, 2, 20), 'MangalJ23056160')
(datetime.date(2021, 2, 23), 'Surrypuria')
(datetime.date(2021, 2, 19), 'Preetm91')


## Explicación de la Función q2

### Top 10 Emojis Más Utilizados

La función `q2_memory` tiene como objetivo extraer los 10 emojis más utilizados de un archivo JSON que contiene tweets.
Se asume que todos los emojis están en el rango unicode  [\U0001F300-\U0001FAFF]. Además por no encontrar consenso entre varias bibliotecas para extraer emojis se revisaron las especificaciones unicode de las siguientes fuentes:
https://unicode.org/emoji/charts/full-emoji-list.html
https://symbl.cc/en/unicode/table/#enclosed-alphanumeric-supplement

#### Q2 Memory

1. **Inicialización de Estructuras de Datos:**
   - Se utiliza un diccionario `emoji_count` como un contador para rastrear la frecuencia de cada emoji.

2. **Lectura del Archivo JSON:**
   - Se lee el archivo JSON línea por línea.
   - Se decodifica cada línea como un objeto JSON.
   - Se extrae el contenido del tweet.

3. **Extracción de Emojis del Texto del Tweet:**
   - Se utiliza una función auxiliar (`extract_emojis`) para extraer todos los emojis del texto del tweet.
   - Se convierten los emojis a códigos Unicode utilizando `ord()`. Esta es la optimización en cuanto a memoria respecto a `q2_time` ya que los códigos son números enteros y tienen una representación menor en memoria. Sin embargo, perjudica el tiempo puesto que añade una sobrecarga en codificar todos los emojis y decodificar el top-10 al final.

4. **Conteo de Frecuencia de Emojis:**
   - Se actualiza el contador `emoji_count` con la frecuencia de cada emoji en el tweet.

5. **Selección de los 10 Emojis Más Frecuentes:**
   - Se identifican los 10 emojis más frecuentes utilizando el método `most_common(10)` del contador.

6. **Generación del Resultado Final:**
   - Se genera una lista de tuples, donde cada tuple contiene un emoji y su frecuencia, ordenados en orden descendente de frecuencia.

### Consideraciones Adicionales:
- La función utiliza estructuras de datos eficientes para el conteo y la selección de emojis.
- Se ha priorizado la eficiencia en el uso de la memoria.
- Se han implementado medidas para garantizar la robustez ante posibles errores en los datos de entrada.


In [21]:
from src.q2_memory import q2_memory

r = q2_memory(file_path)
print(*r, sep="\n")

('🙏', 7286)
('😂', 3072)
('🚜', 2972)
('🌾', 2363)
('🏻', 2080)
('🤣', 1668)
('🏽', 1218)
('👇', 1108)
('💚', 1040)
('💪', 947)


#### Q2 Time
La función `q2_time` es `q2_memory` sin la codificación de los emojis. Fue un poco difícil encontrar algo más óptimo que la solución propuesta, ya que utiliza las estructuras más eficientes para su caso de uso.


In [22]:
from src.q2_time import q2_time

r = q2_time(file_path)
print(*r, sep="\n")

('🙏', 7286)
('😂', 3072)
('🚜', 2972)
('🌾', 2363)
('🏻', 2080)
('🤣', 1668)
('🏽', 1218)
('👇', 1108)
('💚', 1040)
('💪', 947)


## Explicación de la Función q3

### Top 10 Usuarios Más Mencionados

La función `q3_memory` tiene como objetivo extraer los 10 usuarios más mencionados en tweets de un archivo JSON.

#### Q3 Memory

1. **Inicialización de Estructuras de Datos:**
   - Se utiliza un diccionario llamado `mention_counter` para contar las menciones de cada nombre de usuario.

2. **Lectura del Archivo JSON:**
   - Se lee el archivo JSON línea por línea.
   - Se decodifica cada línea como un objeto JSON.
   - Se extraen los usuarios mencionados en cada tweet.

3. **Codificación de Nombres de Usuario:**
   - Se utiliza la función `encode("ascii")` para codificar cada nombre de usuario en formato ASCII.
   - Esto se realiza para optimizar el uso de memoria, ya que los nombres de usuario de Twitter generalmente contienen caracteres limitados y pueden representarse en ASCII.

4. **Conteo de Frecuencia de Menciones:**
   - Se actualiza el contador `mention_counter` con la frecuencia de cada nombre de usuario mencionado.

5. **Selección de los 10 Usuarios Más Mencionados:**
   - Se identifican los 10 nombres de usuario más mencionados utilizando el método `most_common(10)` del contador.

7. **Generación del Resultado Final:**
   - Se genera una lista de tuples, donde cada tuple contiene un nombre de usuario y su frecuencia de mención, ordenados en orden descendente de frecuencia.

### Consideraciones Adicionales:
- La función utiliza estructuras de datos eficientes para el conteo y la selección de menciones.
- Se ha priorizado la eficiencia en el uso de la memoria mediante la codificación y decodificación de nombres de usuario en formato ASCII.

In [23]:
from src.q3_memory import q3_memory

r = q3_memory(file_path)
print(*r, sep="\n")

('narendramodi', 2265)
('Kisanektamorcha', 1840)
('RakeshTikaitBKU', 1644)
('PMOIndia', 1427)
('RahulGandhi', 1146)
('GretaThunberg', 1048)
('RaviSinghKA', 1019)
('rihanna', 986)
('UNHumanRights', 962)
('meenaharris', 926)


### Q3 Time
La función `q3_time` es `q3_memory` sin la codificación de los usernames.

In [24]:
from src.q3_time import q3_time

r = q3_time(file_path)
print(*r, sep="\n")

('narendramodi', 2265)
('Kisanektamorcha', 1840)
('RakeshTikaitBKU', 1644)
('PMOIndia', 1427)
('RahulGandhi', 1146)
('GretaThunberg', 1048)
('RaviSinghKA', 1019)
('rihanna', 986)
('UNHumanRights', 962)
('meenaharris', 926)
