## Descripción de solución

En general la optimización de todos los ejercicios vario entre la utilización de diferentes estructuras de datos viendo los tradeoff de cada una y maneras mas eficientes de iterar ciclos, sabiendo que existen mas técnicas para la optimización como por ejemplo estructuras de datos distribuidas utilizando frameworks de cómputo distribuido como por ejemplo Apache Spark considerando así mas recursos en infraestructura pero para el tamaño de archivo entregado es sobreingeniería. Lo mismo ocurre por ejemplo con técnicas de optimización como chunk processing o memory swapping.

## Suposiciones
*   El tamaño de los archivos que procesa siguen el mismo tamaño de la prueba otorgada
*   Como objetivo se buscó optimizar a nivel de estructuras de datos considerando el tiempo total otorgado para realizar el código
*   La estructura del objeto twitter y de user fue interpretado debido a que la documentación otorgada está desactualizada y muestra el objeto twitter actual que es totalmente diferente al entregado
*   La infraestructura para ejecutar el código es monolítica

### Setting environment variables

In [None]:
import os

os.environ['FILE_PATH'] = 'your_path'

### **Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.**

#### Q1 MEMORY

In [8]:
file_path = os.environ['FILE_PATH']

from q1_memory import q1_memory
import cProfile
cProfile.run('result_q1_memory= q1_memory(file_path=file_path)',sort='tottime')

Filename: d:\Development\thoughtworks\latam\challenge-de\src\q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7     70.9 MiB     70.9 MiB           1   @profile
     8                                         def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
     9                                             
    10                                             # Primera iteración: Contar los tweets por fecha
    11     70.9 MiB      0.0 MiB           1       date_counts = Counter()
    12     70.9 MiB      0.0 MiB           2       with open(file_path, 'r') as file:
    13     70.9 MiB      0.0 MiB      117408           for line in file:
    14     70.9 MiB      0.0 MiB      117407               try:
    15     70.9 MiB      0.0 MiB      117407                   tweet = json.loads(line)
    16     70.9 MiB      0.0 MiB      117407                   date_str = tweet.get('date', '')
    17     70.9 MiB      0.0 MiB      117407                

##### Output

In [9]:
for date, user in result_q1_memory:
    print(f'{date}, {user}')

2021-02-12, RanbirS00614606
2021-02-13, MaanDee08215437
2021-02-17, RaaJVinderkaur
2021-02-16, jot__b
2021-02-14, rebelpacifist
2021-02-18, neetuanjle_nitu
2021-02-15, jot__b
2021-02-20, MangalJ23056160
2021-02-23, Surrypuria
2021-02-19, Preetm91


#### Q1 TIME

In [2]:
file_path = os.environ['FILE_PATH']

from q1_time import q1_time
import cProfile
cProfile.run('result_q1_time= q1_time(file_path=file_path)',sort='tottime')

Filename: d:\Development\thoughtworks\latam\challenge-de\src\q1_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     8     66.8 MiB     66.8 MiB           1   @profile
     9                                         def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    10                                         
    11     72.3 MiB      0.0 MiB          27       date_to_users = defaultdict(lambda: defaultdict(int))
    12     66.8 MiB      0.0 MiB           1       date_tweet_counts = defaultdict(int)
    13                                             
    14                                             # Primera iteración: Cargar y procesar todos los tweets en una iteración
    15     73.0 MiB      0.0 MiB           2       with open(file_path, 'r') as file:
    16     73.0 MiB    -39.9 MiB      117408           for line in file:
    17     73.0 MiB    -41.8 MiB      117407               try:
    18     73.0 MiB    -38.5 MiB      117407              

##### Output

In [3]:
for date, user in result_q1_time:
    print(f'{date}, {user}')

2021-02-12, RanbirS00614606
2021-02-13, MaanDee08215437
2021-02-17, RaaJVinderkaur
2021-02-16, jot__b
2021-02-14, rebelpacifist
2021-02-18, neetuanjle_nitu
2021-02-15, jot__b
2021-02-20, MangalJ23056160
2021-02-23, Surrypuria
2021-02-19, Preetm91


### **2. Los top 10 emojis más usados con su respectivo conteo.**

#### Q2 MEMORY

In [4]:
file_path = os.environ['FILE_PATH']

from q2_memory import q2_memory
import cProfile

cProfile.run('result_q2_memory= q2_memory(file_path=file_path)',sort='tottime')

Filename: d:\Development\thoughtworks\latam\challenge-de\src\q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7     73.2 MiB     73.2 MiB           1   @profile
     8                                         def q2_memory(file_path: str) -> List[Tuple[str, int]]:
     9                                             # Función para extraer emojis del texto
    10     73.8 MiB -57307.8 MiB      117408       def extract_emojis(text):
    11     73.8 MiB -57307.8 MiB      117407           if not text:
    12                                                     return []
    13     73.8 MiB -8515704.8 MiB    17386304           return [c for c in text if c in emoji.EMOJI_DATA]
    14                                             
    15     73.2 MiB      0.0 MiB           1       emoji_counter = Counter()
    16                                             
    17                                             # Iteración: Procesar archivo linea por linea
    18     73.

##### Output

In [5]:
for emoji, count in result_q2_memory:
    print(f'{emoji}, {count}')

🙏, 7286
😂, 3072
🚜, 2972
✊, 2411
🌾, 2363
🏻, 2080
❤, 1779
🤣, 1668
🏽, 1218
👇, 1108


#### Q2 TIME

Específicamente para esta función se podría optimizar utilizando regex, pero como regex puede fallar dependiendo del patrón y los emojis al estar siempre en constante actualización es complicado tener un patrón para identificarlos a todos. En mi proceso haciendo el ejercicio use algunos patrones encontrados en la documentación pero no contaban todos los emojis que aparecen en la data por lo tanto los resultados eran diferentes.

In [6]:
file_path = os.environ['FILE_PATH']

from q2_time import q2_time
import cProfile

cProfile.run('result_q2_time= q2_time(file_path=file_path)',sort='tottime')

Filename: d:\Development\thoughtworks\latam\challenge-de\src\q2_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     8     73.7 MiB     73.7 MiB           1   @profile
     9                                         def q2_time(file_path: str) -> List[Tuple[str, int]]:
    10                                             # Función para extraer emojis del texto
    11     77.7 MiB    -16.8 MiB      117408       def extract_emojis(text):
    12     77.7 MiB    -16.8 MiB      117407           if not text:
    13                                                     return []
    14     77.7 MiB  -2607.3 MiB    17386304           return [c for c in text if c in emoji.EMOJI_DATA]
    15                                         
    16                                             # Iteración: Procesar archivo linea por linea
    17     73.7 MiB      0.0 MiB           1       all_emojis = []
    18     77.7 MiB      0.0 MiB           2       with open(file_path, 'r', encoding=

##### Output

In [7]:
for emoji, count in result_q2_time:
    print(f'{emoji}, {count}')

🙏, 7286
😂, 3072
🚜, 2972
✊, 2411
🌾, 2363
🏻, 2080
❤, 1779
🤣, 1668
🏽, 1218
👇, 1108


### **3. El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.**

#### Q3 MEMORY

In [8]:
file_path = os.environ['FILE_PATH']

from q3_memory import q3_memory
import cProfile

cProfile.run('result_q3_memory= q3_memory(file_path=file_path)',sort='tottime')

Filename: d:\Development\thoughtworks\latam\challenge-de\src\q3_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7     75.5 MiB     75.5 MiB           1   @profile
     8                                         def q3_memory(file_path: str) -> List[Tuple[str, int]]:
     9     75.5 MiB      0.0 MiB           1       mention_counts = defaultdict(int) 
    10                                         
    11                                             # Iteración: Procesar archivo linea por linea
    12     75.6 MiB      0.0 MiB           2       with open(file_path, 'r', encoding='utf-8') as file:
    13     75.6 MiB      0.0 MiB      117408           for line in file:
    14     75.6 MiB      0.0 MiB      117407               try:
    15     75.6 MiB      0.0 MiB      117407                   tweet = json.loads(line)
    16     75.6 MiB      0.0 MiB      117407                   mentioned_users = tweet.get('mentionedUsers', [])
    17     75.6 MiB      0.0 Mi

##### Output

In [9]:
for user, count in result_q3_memory:
    print(f'{user}, {count}')

narendramodi, 2265
Kisanektamorcha, 1840
RakeshTikaitBKU, 1644
PMOIndia, 1427
RahulGandhi, 1146
GretaThunberg, 1048
RaviSinghKA, 1019
rihanna, 986
UNHumanRights, 962
meenaharris, 926


#### Q3 TIME

In [10]:
file_path = os.environ['FILE_PATH']

from q3_time import q3_time
import cProfile

cProfile.run('result_q3_time= q3_time(file_path=file_path)',sort='tottime')


Filename: d:\Development\thoughtworks\latam\challenge-de\src\q3_time.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7     75.6 MiB     75.6 MiB           1   @profile
     8                                         def q3_time(file_path: str) -> List[Tuple[str, int]]:
     9                                         
    10     75.6 MiB      0.0 MiB           1       mentioned_user_counter = Counter()
    11                                             # Iteración: Procesar archivo linea por linea
    12     75.6 MiB      0.0 MiB           2       with open(file_path, 'r', encoding='utf-8') as file:
    13     75.6 MiB      0.0 MiB      117408           for line in file:
    14     75.6 MiB      0.0 MiB      117407               try:
    15     75.6 MiB      0.0 MiB      117407                   tweet = json.loads(line)
    16     75.6 MiB      0.0 MiB      117407                   mentioned_users = tweet.get('mentionedUsers', [])
    17     75.6 MiB      0.0 MiB   

##### Output

In [11]:
for user, count in result_q3_time:
    print(f'{user}, {count}')

narendramodi, 2265
Kisanektamorcha, 1840
RakeshTikaitBKU, 1644
PMOIndia, 1427
RahulGandhi, 1146
GretaThunberg, 1048
RaviSinghKA, 1019
rihanna, 986
UNHumanRights, 962
meenaharris, 926
