# Data Engineer Challenge

### Instalación de liberías necesarias

In [59]:
# !pip install memory-profiler
# !pip install pandas

### Importación y setup

In [55]:
%load_ext memory_profiler

from q1_memory import q1_memory
from pandas import DataFrame as visualizador

The memory_profiler extension is already loaded. To reload it, use:
  %reload_ext memory_profiler


### Definición de constantes

In [34]:
FILE_PATH = "../data/farmers-protest-tweets-2021-2-4.json"

---
### ✅ Supuestos realizados

- Se asumió que el campo de fecha está en `"date"` en formato ISO 8601.
- El nombre de usuario se encuentra en `"user.username"`.
- Registros con campos faltantes fueron ignorados.

# Pregunta 1 - Tweets por Fecha y Usuario más Activo
> **Objetivo:** Obtener las 10 fechas con más tweets y, para cada una de esas fechas, el usuario más activo (con más publicaciones).

## Enfoque de memoria optimizada

Para minimizar el uso de memoria, la función:

- Procesa el archivo en modo **streaming** (línea por línea).
- Usa estructuras eficientes (`Counter` y `defaultdict`) para contar sin almacenar los tweets.
- Ignora registros incompletos (sin fecha o usuario).
- Realiza las conversiones de fechas solo cuando es estrictamente necesario.

#### Prueba de memoria

In [31]:
%memit q1_memory(FILE_PATH)

peak memory: 280.24 MiB, increment: 0.01 MiB


#### Prueba de tiempo

In [32]:
%timeit q1_memory(FILE_PATH)

4.65 s ± 54.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### Resultado

In [58]:
fecha_y_usuarios = q1_memory(FILE_PATH)
visualizador(fecha_y_usuarios, columns=["Fecha", "Usuarios"])

Unnamed: 0,Fecha,Usuarios
0,2021-02-12,RanbirS00614606
1,2021-02-13,MaanDee08215437
2,2021-02-17,RaaJVinderkaur
3,2021-02-16,jot__b
4,2021-02-14,rebelpacifist
5,2021-02-18,neetuanjle_nitu
6,2021-02-15,jot__b
7,2021-02-20,MangalJ23056160
8,2021-02-23,Surrypuria
9,2021-02-19,Preetm91
