En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu solución y todas las suposiciones que estás considerando. Aquí puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [2]:
file_path = "/Users/blanc/Documents/challenge_DE/data/farmers-protest-tweets-2021-2-4.json"

# Primer desafío

## Introducción y estrategia

El objetivo de esta tarea es obtener las diez fechas con más twits y sus respectivos usuarios con mayor cantidad de twits en ellas. 

Mi primer enfoque en esta tarea fue pensar en algún paquete que fuera óptimo para procesar datos y por defecto descarté `pandas`, ya que a pesar de ser muy cómodo y útil para el análisis de datos, no se destaca por su eficiencia. Por tanto mi primera opción fue `polars`. Mi primer código se veía más o menos así:

```
df_scan = pl.scan_ndjson(file_path, infer_schema_length=None)

df_output = df_scan \
    .select(
        [
            pl.col('date').str.strptime(pl.Datetime).dt.date().alias('datetime'),
            pl.col('user').struct.field('username').alias('username')
        ]
    ) \
    .group_by(['datetime', 'username']) \
    .agg(
        twits_count = pl.count('username')
    ) \
    .group_by('datetime') \
    .agg([
        pl.col('username').gather(pl.col('twits_count').arg_max()),
        pl.col('twits_count').gather(pl.col('twits_count').arg_max())
    ]) \
    .with_columns(
        pl.col('username').list.first(),
        pl.col('twits_count').list.first()
    ) \
    .sort('twits_count', descending=True) \
    .select(['datetime', 'username']) \
    .head(10)
```

Tan pronto comprobé que estas líneas cumplían el objetivo, me dispuse a buscar otro método para optimizar el uso de memoria, ya que `polars` utiliza procesamiento en paralelo y si bien seguramente era muy rápido el procesamiento, exigía mucho en términos de memoria. Me imaginé que un enfoque secuencial, recorriendo el archivo json línea a línea sería más eficiente aunque quizás más lento. Sin embargo, pronto comprobé que este método no solo era mejor en términos de uso de memoria, sino también de velocidad, utilizando tan solo un 33% del tiempo que `polars` requería para completar la tarea. Es entonces que llegué a la función `q1_memory`.



### Rendimiento de `q1_memory`

La estructura de la función es la siguiente:

1. Genera una instancia de contador, utilizando la clase de python Counter
2. Recorre línea por línea el archivo json almacenando en el contador la cantidad de menciones para cada fecha-usuario.
3. Mediante la función `most_common`, obtenemos el usuario más repetido por fecha, y lo guardamos en un array `results`.
4. Ordenamos el array `results` de forma descendiente por la "columna" `count` y limitados el resultado a 10 elementos. 
5. Finalmente, retornamos el resultado.

```
def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    user_counts_per_date = defaultdict(Counter)

    with open(file_path, 'r') as f:
        for line in f:
            record = json.loads(line)
            date = datetime.strptime(record['date'], '%Y-%m-%dT%H:%M:%S%z').date()
            username = record['user']['username']
            user_counts_per_date[date][username] += 1

    results = []
    for date, counter in user_counts_per_date.items():
        most_common_user, count = counter.most_common(1)[0]
        results.append((date, most_common_user, count))

    top_results = sorted(results, key=lambda x: (-x[2], x[0]))[:10]
    return [(date, username) for date, username, _ in top_results]
```

Para analizar el rendimiento de las funciones, se les ha colocado el decorador `@track_execution_time`, que es una función auxiliar que busca trackear el tiempo de ejecución de cada una. Además, sumaremos el uso de `memory_profiler` para monitorear el consumo de memoria.

In [3]:
%load_ext memory_profiler

In [3]:
# Importación de función q1_memory
from q1_memory import q1_memory

In [5]:
%%memit # Usamos este magic command para aplicar el memory_profiler en esta celda

results_q1_memory = q1_memory(file_path)

q1_memory executed in 2.4085888862609863 seconds.
peak memory: 72.28 MiB, increment: 3.83 MiB


Como puede apreciarse, el tiempo de ejecución es de 2.4 segundos, generando un incremento de 3.8 megas de ram, ubicándonos en un pico de 72.3 en total. A continuación, los resultados.

In [6]:
results_q1_memory

[(datetime.date(2021, 2, 19), 'Preetm91'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 21), 'Surrypuria'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist')]

In [None]:
# Importación de función q1_memory
from q1_memory import q1_memory

In [None]:
%%memit # Usamos este magic command para aplicar el memory_profiler en esta celda

results_q1_memory = q1_memory(file_path)

q1_memory executed in 2.4085888862609863 seconds.
peak memory: 72.28 MiB, increment: 3.83 MiB


Como puede apreciarse, el tiempo de ejecución es de 2.4 segundos, generando un incremento de 3.8 megas de ram, ubicándonos en un pico de 72.3 en total. A continuación, los resultados.

In [None]:
results_q1_memory

[(datetime.date(2021, 2, 19), 'Preetm91'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 21), 'Surrypuria'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist')]

### Rendimiento de `q1_time`

Tal como mencioné anteriormente, era tal la diferencia tanto en uso de memoria como en velocidad de ejecución entre el enfoque secuencial de json y el uso de `polars`, que me hizo cuestionarme el utilizar `polars` como tal. Entendí que la fortaleza de `polars` radicaba en el uso de procesamiento paralelo, pero al parecer esto no llegaba a justificar su uso. Por tanto me propuse mantener la estructura de `q1_memory` pero agregándole procesamiento paralelo, buscando obtener el mismo beneficio que `polars` pero sin tener que utilizar tan pesada librería. Es así que di con el paquete `concurrency`, que me permitió desarrollar la misma estrategía que `q1_memory` pero de forma paralela.

La estructura de la función es la siguiente:
1. Definimos `process_lines`, que básicamente realiza el trabajo de contar lineas por fecha-usuario, tal como en la otra función.
2. Generamos una serie de chunks sobre el dataset original, de modo de procesar esta información paralelamente más adelante.
3. Generamos una instancia de `ThreadPoolExecutor`, en donde se aplicará la función `process_lines` a cada chunk creado
4. En la medida que los chunks se van procesando, se agrupan en el array `results`
5. Mediante la función `most_common`, obtenemos el usuario más repetido por fecha, y lo guardamos en un array `final_results`.
6. Ordenamos el array `results` de forma descendiente por la "columna" `count` y limitados el resultado a 10 elementos. 
7. Finalmente, retornamos el resultado.

Como se habrá notado, la mayoría de los pasos son exactamente igual que en la función q1_memory, con una única adición de procesamiento paralelo para mayor velocidad.


```
def process_lines(lines):
    local_counts = defaultdict(Counter)
    for line in lines:
        record = json.loads(line)
        date = datetime.strptime(record['date'], '%Y-%m-%dT%H:%M:%S%z').date()
        username = record['user']['username']
        local_counts[date][username] += 1
    return local_counts

@track_execution_time
def q1_time(file_path: str, lines_per_chunk = 1000, num_workers = 4) -> List[Tuple[datetime.date, str]]:
    
    chunks = []

    with open(file_path, 'r') as f:
        chunk = []
        for line in f:
            chunk.append(line)
            if len(chunk) >= lines_per_chunk:
                chunks.append(chunk)
                chunk = []
        if chunk:
            chunks.append(chunk)

    results = defaultdict(Counter)
    with ThreadPoolExecutor(max_workers=num_workers) as executor:
        futures = [executor.submit(process_lines, chunk) for chunk in chunks]
        for future in as_completed(futures):
            local_counts = future.result()
            for date, counter in local_counts.items():
                results[date] += counter

    final_results = []
    for date, counter in results.items():
        most_common_user, count = counter.most_common(1)[0]
        final_results.append((date, most_common_user, count))

    top_results = sorted(final_results, key=lambda x: (-x[2], x[0]))[:10]
    return [(date, username) for date, username, _ in top_results]
```

In [7]:
# Importación de función q1_time
from q1_time import q1_time

In [8]:
%%memit

results_q1_time = q1_time(file_path)

q1_time executed in 2.806195020675659 seconds.
peak memory: 503.52 MiB, increment: 442.39 MiB


A pesar de que teóricamente el objetivo de utilizar este método es optimizar el tiempo de ejecución, ese objetivo no se cumple en este caso. Mi hipótesis para este resultado es que el tamaño del dataset no permite brillar la utilidad del procesamiento paralelo. En la medida que esta tarea se aplique a un dataset de mayor tamaño, es donde el enfoque secuencial comenzará a quedarse atrás en términos de tiempo de ejecución en comparación al enfoque paralelo.

In [10]:
results_q1_time

[(datetime.date(2021, 2, 19), 'Preetm91'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 21), 'Surrypuria'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist')]

# Segundo desafío

## Introducción y estrategia

En el fútbol hay un dicho que dice "equipo que gana no se toca", y con esta premisa reutilicé las estrategias que hice en el primer desafío para este segundo. A grandes rasgos, sigo usando la lógica secuencial para maximizar memoria, y el procesamiento paralelo para optimizar tiempo de ejecución.

Adicionalmente, para obtener los emojis dentro de los mensajes, tuve que utilizar el paquete [emoji](https://pypi.org/project/emoji/), el cual está pensado precisamente para esta tarea.

### Rendimiento de `q2_memory`

La estructura de la función es la siguiente:

1. Genera una instancia de contador, utilizando la clase de python Counter (en este caso no necesitamos `defaultdict` porque es un conteo más sencillo).
2. Recorre línea por línea el archivo json almacenando en el contador la cantidad de apariciones para cada emoji dentro de la key `content`, que es donde esta el contenido del twit.
3. Una vez obtenido, la sumamos un valor a ese elemento dentro del `emoji_counter`. 
4. Mediante la función `most_common`, obtenemos el emoji más repetido, y lo guardamos en un array `results`.
5. Finalmente, retornamos el resultado.

```
def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    emoji_counter = Counter()

    with open(file_path, 'r') as f:
        for line in f:
            record = json.loads(line)
            
            twit = record['content']
            
            emojis_list = emoji.emoji_list(twit)
            
            for emoji_data in emojis_list:
                emoji_char = emoji_data['emoji']
                emoji_counter[emoji_char] += 1

    results = emoji_counter.most_common(10)
    
    return results
```


In [1]:
# Importación de función q2_memory
from q2_memory import q2_memory

In [7]:
%%memit # Usamos este magic command para aplicar el memory_profiler en esta celda

results_q2_memory = q2_memory(file_path)

q2_memory executed in 7.581460952758789 seconds.
peak memory: 78.70 MiB, increment: 0.38 MiB


Como puede apreciarse, el tiempo de ejecución es de 7.5 segundos, generando un incremento de 0.38 megas de ram, ubicándonos en un pico de 78.70 en total. A continuación, los resultados.

In [8]:
results_q2_memory

[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

### Rendimiento de `q2_time`

Tal como mencioné previamente, en esta instancia se volvió a utilizar la lógica de procesamiento paralelo para optimizar el tiempo de ejecución a costa del uso de memoria. Tiene una estructura muy similar a `q1_time`.

La estructura de la función es la siguiente:
1. Definimos `process_lines`, que básicamente realiza el trabajo de recolectar los emojis de cada contenido de twits, y guardarlo en el contador general de emojis.
2. Generamos una serie de chunks sobre el dataset original, de modo de procesar esta información paralelamente más adelante.
3. Generamos una instancia de `ThreadPoolExecutor`, en donde se aplicará la función `process_lines` a cada chunk creado
4. En la medida que los chunks se van procesando, se actualizan los valores del `total_emoji_counter`. Al ser un conteo simple, no necesitamos usar un diccionario más complejo.
5. Mediante la función `most_common`, obtenemos los emojis con valores más altos y los guardamos en un array `results`.
6. Finalmente, retornamos el resultado.

```
def process_chunk(chunk):
    chunk_emoji_counter = Counter()
    
    for line in chunk:
        record = json.loads(line)
        twit = record['content']
        emojis_list = emoji.emoji_list(twit)
        for emoji_data in emojis_list:
            emoji_char = emoji_data['emoji']
            chunk_emoji_counter[emoji_char] += 1
    
    return chunk_emoji_counter

@track_execution_time
def q2_time(file_path: str, num_workers: int = 4, lines_per_chunk = 10000) -> List[Tuple[str, int]]:
    chunks = []

    with open(file_path, 'r') as f:
        chunk = []
        for line in f:
            chunk.append(line)
            if len(chunk) >= lines_per_chunk:
                chunks.append(chunk)
                chunk = []
        if chunk:
            chunks.append(chunk)
    
    total_emoji_counter = Counter()
    
    with ThreadPoolExecutor(max_workers=num_workers) as executor:
        futures = [executor.submit(process_chunk, chunk) for chunk in chunks]
        for future in as_completed(futures):
            chunk_emoji_counter = future.result()
            total_emoji_counter.update(chunk_emoji_counter)
    
    results = total_emoji_counter.most_common(10)
    
    return results
```

In [9]:
# Importación de función q2_time
from q2_time import q2_time

In [13]:
%%memit

results_q2_time = q2_time(file_path)

q2_time executed in 7.839390993118286 seconds.
peak memory: 478.83 MiB, increment: 360.77 MiB


Tal como ocurre en el primer desafío, no vemos una mejora en términos de tiempo, mas si un aumento del uso de memoria. Se mantiene mi hipótesis de que a mayor escala se podrían ver diferencias en este sentido.

In [14]:
results_q2_time

[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

# Tercer desafío

## Introducción y estrategia

El enfoque de este desafío es similar al `q2` en la medida que consta de un conteo simple dentro de los registros. Para optimizar la memoria, se optó por una lógica secuencial, y para una optimización del tiempo, por una lógica de procesamiento paralelo.

### Rendimiento de `q3_memory`

La estructura de la función es la siguiente:

1. Genera una instancia de contador, utilizando la clase de python Counter.
2. Recorre línea por línea el archivo json buscando el objeto `mentionedUsers`, en donde, si es que existe, itera almacenando en el contador la cantidad de apariciones para cada usuario. Nos quedamos con `username` ya que es el usuario único de la persona, no su display name.
3. Una vez obtenido, la sumamos un valor a ese elemento dentro del `users_counter`. 
4. Mediante la función `most_common`, obtenemos los 10 usuarios más repetidos, y lo guardamos en un array `results`.
5. Finalmente, retornamos el resultado.

```
def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    users_counter = Counter()

    with open(file_path, 'r') as f:
        for line in f:
            record = json.loads(line)
            
            users = record['mentionedUsers']
            
            if users:
                for user in users:
                    username = user['username']
                    users_counter[username] += 1

    results = users_counter.most_common(10)

    return results
```


In [1]:
# Importación de función q2_memory
from q3_memory import q3_memory

In [6]:
%%memit # Usamos este magic command para aplicar el memory_profiler en esta celda

results_q3_memory = q3_memory(file_path)

q3_memory executed in 2.0018150806427 seconds.
peak memory: 69.67 MiB, increment: 1.67 MiB


Como puede apreciarse, el tiempo de ejecución es de 2 segundos, generando un incremento de 1.67 megas de ram, ubicándonos en un pico de 69.67 en total. A continuación, los resultados.

In [7]:
results_q3_memory

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

### Rendimiento de `q3_time`

Tal como mencioné previamente, en esta instancia se volvió a utilizar la lógica de procesamiento paralelo para optimizar el tiempo de ejecución a costa del uso de memoria. Tiene una estructura muy similar a `q1_time` y `q2_time`.

La estructura de la función es la siguiente:
1. Definimos `process_lines`, que básicamente realiza el trabajo de recolectar los usuarios mencionados de cada twit, y guardarlo en el contador general de usuarios.
2. Generamos una serie de chunks sobre el dataset original, de modo de procesar esta información paralelamente más adelante.
3. Generamos una instancia de `ThreadPoolExecutor`, en donde se aplicará la función `process_lines` a cada chunk creado
4. En la medida que los chunks se van procesando, se actualizan los valores del `total_users_counter`. Al ser un conteo simple, no necesitamos usar un diccionario más complejo.
5. Mediante la función `most_common`, obtenemos los usuarios con valores más altos y los guardamos en un array `results`.
6. Finalmente, retornamos el resultado.

```
def process_chunk(chunk):
    chunk_users_counter = Counter()
    
    for line in chunk:
        record = json.loads(line)
        users = record['mentionedUsers']
        if users:
            for user in users:
                username = user['username']
                chunk_users_counter[username] += 1
    
    return chunk_users_counter

@track_execution_time
def q3_time(file_path: str, num_workers: int = 4, lines_per_chunk = 10000) -> List[Tuple[str, int]]:
    chunks = []

    with open(file_path, 'r') as f:
        chunk = []
        for line in f:
            chunk.append(line)
            if len(chunk) >= lines_per_chunk:
                chunks.append(chunk)
                chunk = []
        if chunk:
            chunks.append(chunk)
    
    total_users_counter = Counter()
    
    with ThreadPoolExecutor(max_workers=num_workers) as executor:
        futures = [executor.submit(process_chunk, chunk) for chunk in chunks]
        for future in as_completed(futures):
            chunk_users_counter = future.result()
            total_users_counter.update(chunk_users_counter)
    
    results = total_users_counter.most_common(10)
    
    return results
```

In [8]:
# Importación de función q3_time
from q3_time import q3_time

In [9]:
%%memit

results_q3_time = q3_time(file_path)

q3_time executed in 2.3009002208709717 seconds.
peak memory: 493.11 MiB, increment: 427.03 MiB


Tal como ocurre en el primer desafío, no vemos una mejora en términos de tiempo, mas si un aumento del uso de memoria. Se mantiene mi hipótesis de que a mayor escala se podrían ver diferencias en este sentido.

In [10]:
results_q3_time

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]