## ​2. Los top 10 emojis más usados con su respectivo conteo

### Estructura del notebook: 
1. Explicación detallada del código
2. Revisión de tiempos de ejecución y memoria de q1_time.py y q1_memory.py

In [20]:
import pandas as pd
import emoji
from collections import Counter

In [21]:
def get_most_common_elements(elements: list, n:int =10):
    """Extrae los n elementos más comunes de una lista junto con su respectivo conteo.

    Args:
        elements (list): lista de elementos que deseamos contar.
        n (int, optional): cantidad de elementos que deseamos obtener. Devuelve los 10 más comunes por defecto.

    Returns:
        list: lista de tuplas con los elementos más comunes y su conteo. Ejemplo [(elem1, 15), (elem2, 12), (elem3, 7),...]
    """
    _counter = Counter(elements)
    most_common_elements = _counter.most_common(n)
    return most_common_elements

def extract_emojis(text: str):
    """Extrae los emojis contenido en un string. Los emojis son identificados por la librería emoji.

    Args:
        text (str): texto que contiene los emojis que queremos extraer.

    Returns:
        list: lista con los emojis extraídos. Cada elemento corresponde a un emoji.
    """
    return [e.get('emoji') for e in emoji.emoji_list(text)]

### Lectura de los datos. La estructura de los datos son un objeto JSON por cada fila.

In [22]:
import jsonlines

def read_json_lines(file_path, cols):
    data = []
    with jsonlines.open(file_path) as reader:
        for item in reader:
            item = {key: item[key] for key in cols if key in item}
            data.append(item)
    return pd.DataFrame(data)

In [23]:
file_path = "../../farmers-protest-tweets-2021-2-4.json"
df = pd.read_json(path_or_buf=file_path, lines=True)

### Aplicamos la función extract_emojis en cada registro de la columna content.

In [24]:
emojis = df['content'].apply(extract_emojis)
emojis

0                   []
1            [🚜, 🌾, 💪]
2         [🤫, 🤫, 🤔, 🤔]
3                   []
4                   []
              ...     
117402              []
117403              []
117404              []
117405              []
117406             [💪]
Name: content, Length: 117407, dtype: object

### La lista "emojis" tiene listas como elementos (es una lista de listas).
### Con este bucle concatenamos todas las listas en una sola.

In [25]:
emojis_list = []
for i in emojis:
    emojis_list += i
print(emojis_list)

['🚜', '🌾', '💪', '🤫', '🤫', '🤔', '🤔', '🙄', '🙄', '🇮🇳', '👇', '👇', '🙏🏽', '‼', '👍', '👍', '🙏🏻', '👇🏽', '🙌', '🙌', '💜', '🤣', '🧑\u200d🌾', '👩\u200d🌾', '🌱', '🕊', '🌍', '🤣', '🤣', '🤣', '🤔', '😱', '🧑\u200d🌾', '👩\u200d🌾', '🌱', '🕊', '🌍', '🙏🏻', '👇🏾', '👇🏾', '‼', '✨', '💫', '🌈', '🌼', '❣️', '🔰', '😂', '😂', '😂', '✍🏻', '💪', '💪', '💪', '☘️', '💚', '🇮🇳', '🇵🇰', '🇮🇳', '🙏🏻', '😛', '♨️', '♨️', '✊', '💔', '✊🏾', '✊🏾', '🚜', '🌾', '👍🏻', '💪🏻', '👇🏻', '👇🏻', '👇🏻', '👇🏻', '👇🏻', '👇🏻', '👇🏻', '👇🏻', '👇🏻', '👇🏻', '👇🏻', '🤨', '🤨', '✊🏽', '🥳', '🔥', '🚜', '🌾', '😅', '😅', '😅', '🤣', '🤣', '🤣', '😂', '😂', '😂', '👇', '👇', '👏🏽', '👏🏽', '🙏', '👍', '👍', '👏', '😢', '📢', '👇🏼', '🥺', '🥺', '💔', '🙏🏽', '✊', '✊', '👇🏽', '😛', '😛', '😛', '☀️', '🌄', '🤔', '❤️', '✊', '🤣', '🤣', '🤣', '🤣', '🤔', '🙌', '🙌', '👏', '👏', '👏', '🙏', '💚', '💚', '💚', '💔', '💔', '💔', '😡', '😡', '😡', '🤣', '🤣', '🤣', '🤣', '🤣', '✊', '😜', '🤣', '😂', '🤣', '🌾', '🌾', '💪🏻', '💪🏻', '😎', '😎', '🙏', '🙏', '🙏', '🙏', '😂', '😂', '😂', '🙏', '🙏', '😊', '😊', '😂', '😂', '💪🏻', '💪🏻', '💪🏻', '😂', '😂', '😂', '😂', '😂', '💪🏻', '💪🏻', '🤯', '🤯', 

### Retornamos la salida de get_most_common_elements.

In [26]:
get_most_common_elements(emojis_list)

[('🙏', 5049),
 ('😂', 3072),
 ('🚜', 2972),
 ('🌾', 2182),
 ('🇮🇳', 2086),
 ('🤣', 1668),
 ('✊', 1651),
 ('❤️', 1382),
 ('🙏🏻', 1317),
 ('💚', 1040)]

----
## Tiempo de ejecución de q2_time

In [None]:
import cProfile

def q2_time(file_path: str):
    # Lectura de los datos. La estructura de los datos son un objeto JSON por cada fila.
    df = read_json_lines(file_path, cols=['content'])

    # Aplicamos la función extract_emojis en cada registro de la columna content.
    # La columna content representa el contenido (texto) del tweet. Por lo tanto, 
    # es la que nos interesa y en donde estarán los emojis.
    emojis = df['content'].apply(extract_emojis)

    # La lista "emojis" tiene listas como elementos (es una lista de listas).
    # Con este bucle concatenamos todas las listas en una sola.
    emojis_list = []
    for i in emojis:
        emojis_list += i

    # Retornamos la salida de get_most_common_elements.
    return get_most_common_elements(emojis_list)

cProfile.run("q2_time('../farmers-protest-tweets-2021-2-4.json')")

### Resultados obtenidos en la terminal

In [None]:
#         88405093 function calls (88405074 primitive calls) in 18.469 seconds
#
#   Ordered by: standard name
#
#   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
#        1    0.131    0.131    2.190    2.190 178636768.py:3(read_json_lines)
#   117407    0.017    0.000    0.017    0.000 178636768.py:7(<dictcomp>)
#        1    0.000    0.000    0.004    0.004 262797740.py:1(get_most_common_elements)
#   117407    0.047    0.000   16.220    0.000 262797740.py:15(extract_emojis)
#   117407    0.015    0.000    0.018    0.000 262797740.py:24(<listcomp>)
#        1    0.015    0.015   18.460   18.460 3476377018.py:3(q2_time)
#        1    0.000    0.000    0.000    0.000 <attrs generated init jsonlines.jsonlines.Reader>:1(__init__)
#        8    0.000    0.000    0.000    0.000 <frozen abc>:117(__instancecheck__)
#      4/1    0.000    0.000    0.000    0.000 <frozen abc>:121(__subclasscheck__)
#        1    0.000    0.000    0.000    0.000 <frozen codecs>:260(__init__)

## Consumo de memoria de q2_time

### Resultados obtenidos en la terminal

In [None]:
#Line #    Mem usage    Increment  Occurrences   Line Contents
#=============================================================
#    70    102.9 MiB    102.9 MiB           1   @profile
#    71                                         def q2_time(file_path: str):
#    72                                             # Lectura de los datos. La estructura de los datos son un objeto JSON por cada fila.
#    73    171.2 MiB     68.3 MiB           1       df = read_json_lines(file_path, cols=['content'])
#    74                                         
#    75                                             # Aplicamos la función extract_emojis en cada registro de la columna content.
#    76                                             # La columna content representa el contenido (texto) del tweet. Por lo tanto, 
#    77                                             # es la que nos interesa y en donde estarán los emojis.
#    78    176.0 MiB      4.8 MiB           1       emojis = df['content'].apply(extract_emojis)
#    79                                         
#    80                                             # La lista "emojis" tiene listas como elementos (es una lista de listas).
#    81                                             # Con este bucle concatenamos todas las listas en una sola.
#    82    176.0 MiB      0.0 MiB           1       emojis_list = []
#    83    176.4 MiB      0.0 MiB      117408       for i in emojis:
#    84    176.4 MiB      0.3 MiB      117407           emojis_list += i
#    85                                         
#    86                                             # Retornamos la salida de get_most_common_elements.
#    87    176.4 MiB      0.0 MiB           1       return get_most_common_elements(emojis_list)

## Tiempo de ejecución de q2_memory

In [None]:
def q2_memory(file_path: str):
    # Este código es el mismo que q2_time.py con la diferencia que leemos los datos en particiones 
    # para ahorrar memoria.
    # Para realizar esto, utilizamos el parámetro chunksize.
    # Por lo tanto, es necesario hacer un bucle "for" y sacrificar procesamiento.
     
    emoji_lists = []
    for chunk in pd.read_json(path_or_buf=file_path, lines=True, chunksize=50):
        emojis = chunk['content'].apply(extract_emojis)
        emoji_lists.extend(emojis) #extend nos permite concatenar listas y almacenar los resultados de cada partición

    # La lista "emojis_list" tiene listas como elementos (es una lista de listas).
    # Con este bucle concatenamos todas las listas en una sola.
    all_emojis = []
    for i in emoji_lists:
        all_emojis += i

    # Retornamos la salida de get_most_common_elements.
    return get_most_common_elements(all_emojis)

cProfile.run("q2_memory('../farmers-protest-tweets-2021-2-4.json')")

### Resultados obtenidos en la terminal

In [None]:
#         124097871 function calls (123348540 primitive calls) in 32.517 seconds
#
#   Ordered by: standard name
#
#   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
#        1    0.000    0.000    0.004    0.004 262797740.py:1(get_most_common_elements)
#   117407    0.051    0.000   15.912    0.000 262797740.py:15(extract_emojis)
#   117407    0.017    0.000    0.020    0.000 262797740.py:24(<listcomp>)
#        1    0.301    0.301   32.512   32.512 3301829030.py:1(q2_memory)
#   263098    0.038    0.000    0.071    0.000 <frozen abc>:117(__instancecheck__)
#        1    0.000    0.000    0.000    0.000 <frozen codecs>:260(__init__)
#        1    0.000    0.000    0.000    0.000 <frozen codecs>:309(__init__)
#    49773    0.017    0.000    0.048    0.000 <frozen codecs>:319(decode)
#        1    0.000    0.000    0.000    0.000 <frozen genericpath>:16(exists)
#    18792    0.010    0.000    0.012    0.000 <frozen importlib._bootstrap>:1207(_handle_fromlist)
#        5    0.000    0.000    0.000    0.000 <frozen posixpath>:229(expanduser)
# 17023302    1.872    0.000    3.032    0.000 <string>:1(<lambda>)
#        1    0.004    0.004   32.517   32.517 <string>:1(<module>)
#        1    0.000    0.000    0.000    0.000 <string>:2(__init__)

## Consumo de memoria de q2_memory

In [None]:
#Line #    Mem usage    Increment  Occurrences   Line Contents
#=============================================================
#    70    101.9 MiB    101.9 MiB           1   @profile
#    71                                         def q2_memory(file_path: str) -> List[Tuple[str, int]]:
#    72                                             # Este código es el mismo que q2_time.py con la diferencia que leemos los datos en particiones 
#    73                                             # para ahorrar memoria.
#    74                                             # Para realizar esto, utilizamos el parámetro chunksize.
#    75                                             # Por lo tanto, es necesario hacer un bucle "for" y sacrificar procesamiento.
#    76                                              
#    77    101.9 MiB      0.0 MiB           1       emoji_lists = []
#    78    123.8 MiB     20.5 MiB        2350       for chunk in pd.read_json(path_or_buf=file_path, lines=True, chunksize=50):
#    79    123.8 MiB      1.4 MiB        2349           emojis = chunk['content'].apply(extract_emojis)
#    80    123.8 MiB      0.0 MiB        2349           emoji_lists.extend(emojis) #extend nos permite concatenar listas y almacenar los resultados de cada partición
#    81                                         
#    82                                             # La lista "emojis_list" tiene listas como elementos (es una lista de listas).
#    83                                             # Con este bucle concatenamos todas las listas en una sola.
#    84    123.8 MiB      0.0 MiB           1       all_emojis = []
#    85    123.8 MiB      0.0 MiB      117408       for i in emoji_lists:
#    86    123.8 MiB      0.0 MiB      117407           all_emojis += i
#    87                                         
#    88                                             # Retornamos la salida de get_most_common_elements.
#    89    123.8 MiB      0.0 MiB           1       return get_most_common_elements(all_emojis)

## Conclusiones:

- En la función q2_time leemos los datos usando la librería jsonlines que permite una lectura rápida y además, no es necesario leer todas las "keys" que trae cada JSON. Por lo tanto, tampoco consume mucha memoria.
- En la función q2_memory leemos los datos utilizando el método de pandas pd.read_json(), el cual nos permite leer los datos en particiones utilizando el parámetro chuncksize. Se pierde mucha velocidad ya que hay que repetir todo el código para cada partición, pero se ahorra un poco de memoria.
- Si bien en este ejemplo el ahorro de memoria no es significativo, a gran escala, la columna "content" podría tener millones de millones de datos y entonces el enfoque de q2_memory comenzaría a tomar una gran importancia en el ahorro de memoria.