# Challenge para LATAM - Juan José Valenzuela A

## Primera Función q1_memory.py

### Estrategia

Para darle un enfoque de optimización de uso de memoria utilicé la siguiente estrategia:

- **Carga progresiva de datos:** Leo el archivo JSON línea por línea y cargo cada línea como un objeto JSON individual. Esto significa que solo una pequeña parte del archivo se mantiene en memoria a la vez, en lugar de cargar el archivo completo.

- **Uso eficiente de la memoria:** A medida que proceso cada tweet, guardo los datos en listas temporales. Estos objetos usan memoria, pero al procesar línea por línea e ir actualizando la cuenta a medida que se procesa cada tweet, se evita guardar muchos datos redundantes en memoria.

- **No se guardan en memoria todos los tweets a la vez:** Al procesar los tweets uno por uno no es necesario almacenarlos todos en memoria.

In [3]:
from q1_memory import q1_memory

# Ejemplo de como llamo la función para probar su funcionamiento

#Defino la ruta del archivo en una variable
file_path = r'c:\Software\latam_challenge\farmers-protest-tweets-2021-2-4.json'

# Llamo a la función con la ruta del archivo JSON
resultados = q1_memory(file_path)

# Muestro los resultados
print('Top 10 fechas con más tweets y usuarios con más publicaciones en dichas fechas')
for fecha, usuario in resultados:
    print(f'Fecha: {fecha}, Usuario con más publicaciones: {usuario}')

Top 10 fechas con más tweets y usuarios con más publicaciones en dichas fechas
Fecha: 2021-02-12, Usuario con más publicaciones: RanbirS00614606
Fecha: 2021-02-13, Usuario con más publicaciones: MaanDee08215437
Fecha: 2021-02-17, Usuario con más publicaciones: RaaJVinderkaur
Fecha: 2021-02-16, Usuario con más publicaciones: jot__b
Fecha: 2021-02-14, Usuario con más publicaciones: rebelpacifist
Fecha: 2021-02-18, Usuario con más publicaciones: neetuanjle_nitu
Fecha: 2021-02-15, Usuario con más publicaciones: jot__b
Fecha: 2021-02-20, Usuario con más publicaciones: MangalJ23056160
Fecha: 2021-02-23, Usuario con más publicaciones: Surrypuria
Fecha: 2021-02-19, Usuario con más publicaciones: Preetm91


## Segunda Función q1_time.py

### Estrategia

Para darle un enfoque de optimización de tiempo de ejecución utilicé la librería Pandas, que no se preocupa por memoria ya que carga todo el archivo dentro de un dataframe, pero terminó siendo 10 veces más lenta que la versión que optimiza la memoria. Voy a dejar este ejercicio hasta acá para poder terminar los siguientes. Si me queda tiempo al final probaré alguna otra librería que no cuida la memoria y que pudiera dar un resultado más rápido.


In [2]:
from q1_time import q1_time

# Ejemplo de como llamo la función para probar su funcionamiento

#Defino la ruta del archivo en una variable
file_path = r'c:\Software\latam_challenge\farmers-protest-tweets-2021-2-4.json'

# Llamo a la función con la ruta del archivo JSON
resultados = q1_time(file_path)

# Muestro los resultados
print('Top 10 fechas con más tweets y usuarios con más publicaciones en dichas fechas')
for fecha, usuario in resultados:
    print(f'Fecha: {fecha}, Usuario con más publicaciones: {usuario}')

Top 10 fechas con más tweets y usuarios con más publicaciones en dichas fechas
Fecha: 2021-02-12, Usuario con más publicaciones: RanbirS00614606
Fecha: 2021-02-13, Usuario con más publicaciones: MaanDee08215437
Fecha: 2021-02-17, Usuario con más publicaciones: RaaJVinderkaur
Fecha: 2021-02-16, Usuario con más publicaciones: jot__b
Fecha: 2021-02-14, Usuario con más publicaciones: rebelpacifist
Fecha: 2021-02-18, Usuario con más publicaciones: neetuanjle_nitu
Fecha: 2021-02-15, Usuario con más publicaciones: jot__b
Fecha: 2021-02-20, Usuario con más publicaciones: MangalJ23056160
Fecha: 2021-02-23, Usuario con más publicaciones: Surrypuria
Fecha: 2021-02-19, Usuario con más publicaciones: Preetm91


## Tercera Función q2_memory.py

### Estrategia

Para darle un enfoque de optimización de uso de memoria utilicé la siguiente estrategia:

Leo el archivo JSON línea por línea y cargo cada línea como un objeto JSON individual. Esto significa que solo una pequeña parte del archivo se mantiene en memoria a la vez, en lugar de cargar el archivo completo. A medida que proceso cada tweet, voy actualizando la cuenta. El contenido de los tweets se libera. Utilizo una librería que permite obtener de cada tweet el listado de los emojis utilizados

In [3]:
from q2_memory import q2_memory

# Ejemplo de como llamo la función para probar su funcionamiento

#Defino la ruta del archivo en una variable
file_path = r'c:\Software\latam_challenge\farmers-protest-tweets-2021-2-4.json'

# Llamo a la función con la ruta del archivo JSON
resultados = q2_memory(file_path)
print("Top 10 emojis más usados (versión memoria):", resultados)


Top 10 emojis más usados (versión memoria): [('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


## Cuarta Función q2_time.py

### Estrategia
Cargo el JSON de manera laxa de forma que los emojis siguen estando en formato de texto regular \uxxxx y los proceso como texto. Esto le dio una velocidad extra mayor.

In [1]:
from q2_time import q2_time

# Ejemplo de como llamo la función para probar su funcionamiento

#Defino la ruta del archivo en una variable
file_path = r'c:\Software\latam_challenge\farmers-protest-tweets-2021-2-4.json'

# Llamo a la función con la ruta del archivo JSON
resultados = q2_time(file_path)
print("Top 10 emojis más usados (versión tiempo):", resultados)


Top 10 emojis más usados (versión tiempo): [('\\u093e', 136407), ('\\u0915', 103251), ('\\u0930', 82951), ('\\u0947', 82298), ('\\u0928', 71288), ('\\u0a3e', 66686), ('\\u0940', 60947), ('\\u0939', 59961), ('\\u0938', 54650), ('\\u093f', 53414)]


## Quinta Función q3_memory.py

### Estrategia
Recorro el archivo línea por línea y cuento las menciones por cada usuario

In [2]:
from q3_memory import q3_memory

# Ejemplo de como llamo la función para probar su funcionamiento

#Defino la ruta del archivo en una variable
file_path = r'c:\Software\latam_challenge\farmers-protest-tweets-2021-2-4.json'

# Llamo a la función con la ruta del archivo JSON
resultados = q3_memory(file_path)
print(resultados)

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


## Sexta Función q3_time.py

### Estrategia
Recorro el archivo línea por línea y cuento las menciones por cada usuario

In [3]:
from q3_time import q3_time

# Ejemplo de como llamo la función para probar su funcionamiento

#Defino la ruta del archivo en una variable
file_path = r'c:\Software\latam_challenge\farmers-protest-tweets-2021-2-4.json'

# Llamo a la función con la ruta del archivo JSON
resultados = q3_time(file_path)
print(resultados)

[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]
