## 3. El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.

### Estructura del notebook: 
1. Explicación detallada del código
2. Revisión de tiempos de ejecución y memoria de q1_time.py y q1_memory.py

In [1]:
import pandas as pd
import emoji
from collections import Counter

In [28]:
def extract_mentioned_users(user_list: list):
    """Extrae los usernames de la lista de diccionarios que trae la columna mentionedUsers.

    Args:
        user_list (list): lista de diccionarios de los usuarios mencionados.

    Returns:
        list: lista con los nombres (str) de los usuarios mencionados.
    """
    if type(user_list)==list:
        return [e.get('username') for e in user_list]

def get_most_common_elements(elements: list, n:int =10):
    """Extrae los n elementos más comunes de una lista junto con su respectivo conteo.

    Args:
        elements (list): lista de elementos que deseamos contar.
        n (int, optional): cantidad de elementos que deseamos obtener. Devuelve los 10 más comunes por defecto.

    Returns:
        list: lista de tuplas con los elementos más comunes y su conteo. Ejemplo [(elem1, 15), (elem2, 12), (elem3, 7),...]
    """
    _counter = Counter(elements)
    most_common_elements = _counter.most_common(n)
    return most_common_elements

### Lectura de los datos. La estructura de los datos son un objeto JSON por cada fila.

In [30]:
file_path = "../farmers-protest-tweets-2021-2-4.json"
df = pd.read_json(path_or_buf=file_path, lines=True)

### Creamos una columna en la que cada registro es una lista con los usuarios mencionados en dicho registro.

In [31]:
df['mentionedUsers_username'] = df['mentionedUsers'].apply(extract_mentioned_users)
df.mentionedUsers_username

0         [narendramodi, DelhiPolice]
1                   [Kisanektamorcha]
2                                None
3           [ReallySwara, rohini_sgh]
4                                None
                     ...             
117402                           None
117403                           None
117404                           None
117405                           None
117406              [Kisanektamorcha]
Name: mentionedUsers_username, Length: 117407, dtype: object

### Concatenamos todas las menciones en una sola lista, para luego realizar el conteo.

In [5]:
mentionedUsers_list = []
for each_list in df.mentionedUsers_username.dropna():
    mentionedUsers_list += each_list

# Muestra de 10 elementos
mentionedUsers_list[0:10]

['narendramodi',
 'DelhiPolice',
 'Kisanektamorcha',
 'ReallySwara',
 'rohini_sgh',
 'mandeeppunia1',
 'mandeeppunia1',
 'akshaykumar',
 'taapsee',
 'PetroleumMin']

### Devolvemos la salida de la función get_most_common_elements con los 10 usuarios más mencionados.

In [6]:
get_most_common_elements(mentionedUsers_list)

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

## Tiempo de ejecución de q3_time

In [None]:
import jsonlines
import cProfile

def read_json_lines(file_path, cols):
    data = []
    with jsonlines.open(file_path) as reader:
        for item in reader:
            item = {key: item[key] for key in cols if key in item}
            data.append(item)
    return pd.DataFrame(data)

def q3_time(file_path: str):

    # Lectura de datos.
    df = read_json_lines(file_path=file_path, cols=['mentionedUsers'])

    # Creamos una columna en la que cada registro es una lista con los usuarios mencionados en dicho registro.
    df['mentionedUsers_username'] = df['mentionedUsers'].apply(extract_mentioned_users)

    # Concatenamos todas las menciones en una sola lista, para luego realizar el conteo.
    mentionedUsers_list = []
    for each_list in df.mentionedUsers_username.dropna():
        mentionedUsers_list += each_list

    # Devolvemos la salida de la función get_most_common_elements con los 10 usuarios más mencionados.
    return get_most_common_elements(mentionedUsers_list)

cProfile.run("q3_time(file_path=file_path)")

In [None]:
#         2640306 function calls (2640281 primitive calls) in 2.382 seconds
#
#   Ordered by: standard name
#
#   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
#        1    0.016    0.016    2.339    2.339 1085778305.py:12(q3_time)
#        1    0.118    0.118    2.238    2.238 1085778305.py:4(read_json_lines)
#   117407    0.020    0.000    0.020    0.000 1085778305.py:8(<dictcomp>)
#   117407    0.012    0.000    0.052    0.000 4271483172.py:1(extract_mentioned_users)
#    38034    0.023    0.000    0.040    0.000 4271483172.py:11(<listcomp>)
#        1    0.000    0.000    0.017    0.017 4271483172.py:13(get_most_common_elements)
#        1    0.000    0.000    0.000    0.000 <attrs generated init jsonlines.jsonlines.Reader>:1(__init__)
#       12    0.000    0.000    0.000    0.000 <frozen abc>:117(__instancecheck__)
#      4/1    0.000    0.000    0.000    0.000 <frozen abc>:121(__subclasscheck__)

## Consumo de memoria de q3_time

In [None]:
#Line #    Mem usage    Increment  Occurrences   Line Contents
#=============================================================
#    83    102.8 MiB    102.8 MiB           1   @profile
#    84                                         def q3_time(file_path: str):
#    85                                         
#    86                                             # Lectura de datos.
#    87    254.8 MiB    152.0 MiB           1       df = read_json_lines(file_path=file_path, cols=['mentionedUsers'])
#    88                                         
#    89                                             # Creamos una columna en la que cada registro es una lista con los usuarios mencionados en dicho registro.
#    90    256.2 MiB      1.4 MiB           1       df['mentionedUsers_username'] = df['mentionedUsers'].apply(extract_mentioned_users)
#    91                                         
#    92                                             # Concatenamos todas las menciones en una sola lista, para luego realizar el conteo.
#    93    256.2 MiB      0.0 MiB           1       mentionedUsers_list = []
#    94    256.3 MiB      0.0 MiB       38035       for each_list in df.mentionedUsers_username.dropna():
#    95    256.3 MiB      0.0 MiB       38034           mentionedUsers_list += each_list
#    96                                         
#    97                                             # Devolvemos la salida de la función get_most_common_elements con los 10 usuarios más mencionados.
#    98    256.7 MiB      0.4 MiB           1       return get_most_common_elements(mentionedUsers_list)

## Tiempo de ejecución de q3_memory

In [None]:
def q3_memory(file_path: str):
    mentionedUsers_username = []
    for chunk in pd.read_json(path_or_buf=file_path, lines=True, chunksize=50):
        users = chunk['mentionedUsers'].apply(extract_mentioned_users)
        mentionedUsers_username.extend(users)

    mentionedUsers_list = []
    for each_list in mentionedUsers_username:
        if each_list is not None:
            mentionedUsers_list += each_list

    return get_most_common_elements(mentionedUsers_list)

cProfile.run("q3_memory(file_path=file_path)")

In [None]:
#         38332526 function calls (37583195 primitive calls) in 16.743 seconds
#
#   Ordered by: standard name
#
#   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
#        1    0.291    0.291   16.740   16.740 1062425245.py:1(q3_memory)
#   117407    0.021    0.000    0.049    0.000 2027096754.py:1(extract_mentioned_users)
#    38034    0.018    0.000    0.028    0.000 2027096754.py:11(<listcomp>)
#        1    0.000    0.000    0.013    0.013 2027096754.py:13(get_most_common_elements)
#   263098    0.037    0.000    0.066    0.000 <frozen abc>:117(__instancecheck__)
#        1    0.000    0.000    0.000    0.000 <frozen codecs>:260(__init__)
#        1    0.000    0.000    0.000    0.000 <frozen codecs>:309(__init__)
#    49773    0.016    0.000    0.044    0.000 <frozen codecs>:319(decode)
#        1    0.000    0.000    0.000    0.000 <frozen genericpath>:16(exists)
#    18792    0.009    0.000    0.012    0.000 <frozen importlib._bootstrap>:1207(_handle_fromlist)
#        5    0.000    0.000    0.000    0.000 <frozen posixpath>:229(expanduser)
#        2    0.000    0.000    0.000    0.000 <string>:1(<lambda>)
#        1    0.004    0.004   16.743   16.743 <string>:1(<module>)
#        1    0.000    0.000    0.000    0.000 <string>:2(__init__)
#    18792    0.006    0.000    0.027    0.000 __init__.py:225(compile)

## Consumo de memoria de q3_memory

In [None]:
#Line #    Mem usage    Increment  Occurrences   Line Contents
#=============================================================
#    83    101.9 MiB    101.9 MiB           1   @profile
#    84                                         def q3_memory(file_path: str):
#    85    101.9 MiB      0.0 MiB           1       mentionedUsers_username = []
#    86    122.4 MiB     20.5 MiB        2350       for chunk in pd.read_json(path_or_buf=file_path, lines=True, chunksize=50):
#    87    122.4 MiB      0.0 MiB        2349           users = chunk['mentionedUsers'].apply(extract_mentioned_users)
#    88    122.4 MiB      0.0 MiB        2349           mentionedUsers_username.extend(users)
#    89                                         
#    90    122.4 MiB      0.0 MiB           1       mentionedUsers_list = []
#    91    122.4 MiB      0.0 MiB      117408       for each_list in mentionedUsers_username:
#    92    122.4 MiB      0.0 MiB      117407           if each_list is not None:
#    93    122.4 MiB      0.0 MiB       38034               mentionedUsers_list += each_list
#    94                                         
#    95    122.4 MiB      0.0 MiB           1       return get_most_common_elements(mentionedUsers_list)

## Conclusiones

- En la función q3_time leemos los datos usando la librería jsonlines que permite una lectura rápida y además, no es necesario leer todas las "keys" que trae cada JSON. Por lo tanto, tampoco consume mucha memoria.
- En la función q3_memory leemos los datos utilizando el método de pandas pd.read_json(), el cual nos permite leer los datos en particiones utilizando el parámetro chuncksize. Se pierde mucha velocidad ya que hay que repetir todo el código para cada partición, pero se ahorra memoria.
- Si bien en este ejemplo el ahorro de memoria no es significativo, a gran escala, la columna "content" podría tener millones de millones de datos y entonces el enfoque de q3_memory comenzaría a tomar una gran importancia en el ahorro de memoria.