In [1]:
# !python -m venv challenge_env
#debes seleccionar el ambiente creado como kernel del notebook

#### Cargar todas las librerias necesarias

In [2]:
# !python -m pip freeze > ../requirements.txt

#### Cargar variables de entorno

In [10]:
from dotenv import load_dotenv
import os
# Cargar variables de entorno desde el archivo .env
load_dotenv(dotenv_path='../.env',override=True)
try:
    # Ruta archivo de tweets, se define como variable de entorno en .env
    archivo_tweets = os.path.normpath(os.getenv('dataFilePath'))
    #info entrega
    postUrl = os.getenv('postUrl')
    autorName = os.getenv('autorName')
    autorEmail = os.getenv('autorEmail')
    repoUrl = os.getenv('repoUrl')
except Exception as e:
        print(f"Error desconocido: {e}")

# Descomenta esta linea para definir path directamente
# archivo_tweets = ruta/al/archivo

### 1. Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días.

#### Optimizacion de memoria
En este enfoque se utiliza Counter( ) como estructura de dato para los conteos y no tener la necesidad de almacenar datos en memoria, además, la lectura se realiza linea por linea, de esta manera, el archivo nunca se carga completamente en memoria.

In [4]:
#Enfoque: Optimizacion de memoria utilizada en ejecucion
from q1_memory import q1_memory
import cProfile
# Ejecutar funcion con perfilamiento cProfile ordenado por tiempo total
cProfile.run('result_q1_memory= q1_memory(file_path=archivo_tweets)',sort='tottime')


Filename: c:\Users\fipob\Desktop\latam-challenge\src\q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7     59.0 MiB     59.0 MiB           1   @profile
     8                                         def q1_memory(file_path: str,top_n: int = 10) -> List[Tuple[datetime.date, str]]:
     9                                             # Optimizar memoria utilizando Counter como estructura de dato y almacenando solo elementos necesarios
    10     59.0 MiB      0.0 MiB           1       tweets_por_fecha = Counter()
    11                                         
    12                                             # Diccionario para almacenar el recuento de publicaciones por usuario por fecha
    13     65.1 MiB      0.0 MiB          27       publicaciones_por_usuario_por_fecha = defaultdict(lambda: Counter())
    14     59.0 MiB      0.0 MiB           1       try:
    15     65.9 MiB      0.0 MiB           2           with open(file_path, 'rb') as file:
    16

##### Resultado

In [5]:
# Imprimir resultado
print('Top 10 dias con más tweets y usuario con más tweets de ese día\n')
for rank, pos in enumerate(result_q1_memory, start=1):
    print(f'#{rank} {pos}')

Top 10 dias con más tweets y usuario con más tweets de ese día

#1 (datetime.date(2021, 2, 12), 'RanbirS00614606')
#2 (datetime.date(2021, 2, 13), 'MaanDee08215437')
#3 (datetime.date(2021, 2, 17), 'RaaJVinderkaur')
#4 (datetime.date(2021, 2, 16), 'jot__b')
#5 (datetime.date(2021, 2, 14), 'rebelpacifist')
#6 (datetime.date(2021, 2, 18), 'neetuanjle_nitu')
#7 (datetime.date(2021, 2, 15), 'jot__b')
#8 (datetime.date(2021, 2, 20), 'MangalJ23056160')
#9 (datetime.date(2021, 2, 23), 'Surrypuria')
#10 (datetime.date(2021, 2, 19), 'Preetm91')


#### Optimizacion de tiempo de ejecución
En este enfoque se utilizan estructuras de datos como Listas y Counter para optimizar el tiempo de ejecución. También se podria mejorar el rendimiento utilizando serialización para mejorar el tiempo de lectura desplegado en algún cluster cloud (dataproc + pyspark por ejemplo)

In [6]:
##Enfoque: Optimización del tiempo de ejecución
from q1_time import q1_time
import cProfile

# Ordenar por tottime para colocar arriba las funciones que tomaron mas tiempo
cProfile.run('result_q1_time = q1_time(file_path=archivo_tweets)',sort='tottime')

         2213138 function calls (2213120 primitive calls) in 6.966 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
   117407    3.307    0.000    3.307    0.000 decoder.py:343(raw_decode)
        1    1.199    1.199    1.199    1.199 {built-in method io.open}
        1    1.152    1.152    6.960    6.960 q1_time.py:7(q1_time)
   117407    0.241    0.000    4.400    0.000 __init__.py:299(loads)
   117407    0.234    0.000    3.716    0.000 decoder.py:332(decode)
   117407    0.190    0.000    0.299    0.000 __init__.py:244(detect_encoding)
   234824    0.125    0.000    0.125    0.000 {method 'match' of 're.Pattern' objects}
       10    0.122    0.012    0.122    0.012 q1_time.py:41(<listcomp>)
   117407    0.106    0.000    0.106    0.000 {method 'decode' of 'bytes' objects}
   352221    0.092    0.000    0.092    0.000 {method 'startswith' of 'bytes' objects}
   234845    0.037    0.000    0.037    0.000 {built-in method 

##### Resultado

In [7]:
# Imprimir resultado
print('Top 10 dias con más tweets y usuario con más tweets de ese día\n')
for rank, pos in enumerate(result_q1_time, start=1):
    print(f'#{rank} {pos}')

Top 10 dias con más tweets y usuario con más tweets de ese día

#1 (datetime.date(2021, 2, 12), 'RanbirS00614606')
#2 (datetime.date(2021, 2, 13), 'MaanDee08215437')
#3 (datetime.date(2021, 2, 17), 'RaaJVinderkaur')
#4 (datetime.date(2021, 2, 16), 'jot__b')
#5 (datetime.date(2021, 2, 14), 'rebelpacifist')
#6 (datetime.date(2021, 2, 18), 'neetuanjle_nitu')
#7 (datetime.date(2021, 2, 15), 'jot__b')
#8 (datetime.date(2021, 2, 20), 'MangalJ23056160')
#9 (datetime.date(2021, 2, 23), 'Surrypuria')
#10 (datetime.date(2021, 2, 19), 'Preetm91')


### 2. Top 10 emojis más usados con su respectivo conteo.

#### Optimización de memoria
Este enfoque almacena solo la linea actual en memoria y usar Counter() como estructura para el conteo de emojis, optimizando la memoria utilizada durante la ejecución. 

In [8]:
#Enfoque: Optimizacion de memoria utilizada en ejecucion
from q2_memory import q2_memory
import cProfile

cProfile.run('result_q2_memory = q2_memory(file_path=archivo_tweets)',sort='tottime')

Filename: c:\Users\fipob\Desktop\latam-challenge\src\q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     8     77.7 MiB     77.7 MiB           1   @profile
     9                                         def q2_memory(file_path: str, top_n: int = 10) -> List[Tuple[str, int]]:
    10                                             
    11                                             # Optimizar en memoria usando solo estructuras de dato como Counter y no guardando nada mas, solo lo necesario (Emojis).
    12     77.7 MiB      0.0 MiB           1       recuento_emojis = Counter()
    13     77.7 MiB      0.0 MiB           1       try:
    14                                                 # Leer el archivo JSON y procesar los tweets
    15     77.7 MiB     -0.5 MiB           2           with open(file_path, 'r', encoding='utf-8') as file:
    16     78.1 MiB  -8939.2 MiB      117408               for line in file:
    17                                             

##### Resultado q2_memory()

In [9]:
# Imprimir resultado
print('Top 10 Emojis más utilizados\n')
for rank, pos in enumerate(result_q2_memory, start=1):
    print(f'#{rank} {pos}')

Top 10 Emojis más utilizados

#1 ('🙏', 5049)
#2 ('😂', 3072)
#3 ('🚜', 2972)
#4 ('🌾', 2182)
#5 ('🇮🇳', 2086)
#6 ('🤣', 1668)
#7 ('✊', 1651)
#8 ('❤️', 1382)
#9 ('🙏🏻', 1317)
#10 ('💚', 1040)


#### Optimización de Tiempo de Ejecución

In [10]:
#Enfoque: Optimizacion de Tiempo de ejecución
from q2_time import q2_time
import cProfile

cProfile.run('result_q2_time = q2_time(file_path=archivo_tweets)',sort='tottime')

         87297849 function calls in 53.231 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
 17140706   23.062    0.000   34.066    0.000 tokenizer.py:158(tokenize)
   117407   10.648    0.000   46.845    0.000 core.py:289(<listcomp>)
 17023302    5.473    0.000    9.089    0.000 <string>:1(<lambda>)
 17023302    3.616    0.000    3.616    0.000 {built-in method __new__ of type object at 0x00007FFB05AC3920}
   117407    3.525    0.000    3.525    0.000 decoder.py:343(raw_decode)
 17140707    2.144    0.000    2.144    0.000 {built-in method builtins.isinstance}
 17023305    1.841    0.000    1.841    0.000 {method 'append' of 'list' objects}
        1    1.790    1.790   53.230   53.230 q2_time.py:9(q2_time)
   117407    0.272    0.000    4.000    0.000 decoder.py:332(decode)
   117407    0.182    0.000    4.231    0.000 __init__.py:299(loads)
   234814    0.148    0.000    0.148    0.000 {method 'match' of 're.Pattern' obje

##### Resultado q2_time()

In [11]:
# Imprimir resultado
print('Top 10 Emojis más utilizados\n')
for rank, pos in enumerate(result_q2_time, start=1):
    print(f'#{rank} {pos}')

Top 10 Emojis más utilizados

#1 ('🙏', 5049)
#2 ('😂', 3072)
#3 ('🚜', 2972)
#4 ('🌾', 2182)
#5 ('🇮🇳', 2086)
#6 ('🤣', 1668)
#7 ('✊', 1651)
#8 ('❤️', 1382)
#9 ('🙏🏻', 1317)
#10 ('💚', 1040)


### 3. El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.

#### Optimización de Memoria

In [12]:
#Enfoque: Optimizacion de Memoria
from q3_memory import q3_memory
import cProfile

cProfile.run('result_q3_memory = q3_memory(file_path=archivo_tweets)',sort='tottime')

Filename: c:\Users\fipob\Desktop\latam-challenge\src\q3_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     6     78.6 MiB     78.6 MiB           1   @profile
     7                                         def q3_memory(file_path: str) -> List[Tuple[str, int]]:
     8                                         
     9                                             # Optimizar memoria utilizando Counter() para los conteos
    10     78.6 MiB      0.0 MiB           1       menciones_por_usuario = Counter()
    11                                         
    12                                             # Leer el archivo JSON y procesar los tweets
    13     78.6 MiB      0.0 MiB           1       try:
    14                                                 # Leer en binario para optimizar memoria
    15     78.9 MiB     -1.0 MiB           2           with open(file_path, 'rb') as file:
    16                                         
    17                             

##### Resultado q3_memory()

In [13]:
# Imprimir resultado
print('Top 10 usuarios mas influyentes\n')
for rank, pos in enumerate(result_q3_memory, start=1):
    print(f'#{rank} {pos}')

Top 10 usuarios mas influyentes

#1 ('amaanbali', 1943)
#2 ('rupikaur_', 1538)
#3 ('RaviSinghKA', 1460)
#4 ('saahilmenghani', 1072)
#5 ('ClaudiaWebbe', 1015)
#6 ('aajtak', 964)
#7 ('ndtv', 910)
#8 ('iMani_KaurRai', 826)
#9 ('Monica_Gill1', 816)
#10 ('Tractor2twitr', 635)


#### Optimización de Tiempo de Ejecución

In [14]:
#Enfoque: Optimizacion de Tiempo de ejecución
from q3_time import q3_time
import cProfile

cProfile.run('result_q3_time = q3_time(file_path=archivo_tweets)',sort='tottime')

         2257261 function calls in 5.691 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
   117407    3.331    0.000    3.331    0.000 decoder.py:343(raw_decode)
        1    1.191    1.191    5.690    5.690 q3_time.py:6(q3_time)
   117407    0.245    0.000    4.434    0.000 __init__.py:299(loads)
   117407    0.242    0.000    3.751    0.000 decoder.py:332(decode)
   117407    0.190    0.000    0.301    0.000 __init__.py:244(detect_encoding)
   234814    0.127    0.000    0.127    0.000 {method 'match' of 're.Pattern' objects}
   117407    0.100    0.000    0.100    0.000 {method 'decode' of 'bytes' objects}
   352221    0.093    0.000    0.093    0.000 {method 'startswith' of 'bytes' objects}
   352221    0.056    0.000    0.056    0.000 {method 'get' of 'dict' objects}
   234814    0.038    0.000    0.038    0.000 {built-in method builtins.isinstance}
   234814    0.035    0.000    0.035    0.000 {built-in method builtin

##### Resultado q3_time()

In [15]:
# Imprimir resultado
print('Top 10 usuarios mas influyentes\n')
for rank, pos in enumerate(result_q3_time, start=1):
    print(f'#{rank} {pos}')

Top 10 usuarios mas influyentes

#1 ('amaanbali', 1943)
#2 ('rupikaur_', 1538)
#3 ('RaviSinghKA', 1460)
#4 ('saahilmenghani', 1072)
#5 ('ClaudiaWebbe', 1015)
#6 ('aajtak', 964)
#7 ('ndtv', 910)
#8 ('iMani_KaurRai', 826)
#9 ('Monica_Gill1', 816)
#10 ('Tractor2twitr', 635)


#### Mejoras y comentarios
- Tanto el tiempo de ejecución como la memoria utilizada se ven afectados por el tamaño de la entrada, en este caso, archivo con los tweets.
- Para mejorar lo anterior se puede aplicar serialización en ambos casos para optimizar el código.
- Desplegar estos códigos en un ambiente Cloud puede mejorar considerablemente el rendimiento.
- Podemos aprovechar los secretos de nuestro repositorio (github) para no exponer credenciales o url.
- En cada enunciado se puede mejorar el rendimiento de las funciones realizando un pre-procesamiento de la información para extraer y trabajar con lo necesario del cuerpo del tweet, reduciendo así la carga en la lectura.

##### Envío del desafío

In [12]:
import requests

url = postUrl
data = {
      "name": autorName,
      "mail": autorEmail,
      "github_url": repoUrl
    }

response = requests.post(url, json=data)

# Verificar el código de estado de la respuesta
if response.status_code == 200:
    print("Challenge Enviado Exitosamente:")
    print(response.text)
else:
    print(f"Error en la solicitud. Código de estado: {response.status_code}")

Challenge Enviado Exitosamente:
{"status":"OK","detail":"your request was received"}
