<a href="https://colab.research.google.com/github/Julianaldas/LatamChallenge/blob/main/LatamChallenge.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**LATAM CHALLENGE**

In [None]:
from time import time
from zipfile import ZipFile
import os

file_path = "farmers-protest-tweets-2021-2-4.json"

**Q1:** Fechas que más tweets existen y sus respectivos usuarios

Optimización de tiempo y de memoria

Para mejorar la velocidad, cargamos todos los datos de fecha y usuario de una vez. La función se explica con comentarios y se mide el tiempo de ejecución. Este enfoque puede ser más lento que el optimizado para la memoria, pero podría ser útil para conjuntos de datos más pequeños y menos anidados.

Para optimizar la memoria, optamos por analizar el archivo line by line, lo que consume considerablemente menos memoria que el otro enfoque. En este caso, también resulta ser más rápido, posiblemente debido al gran tamaño del archivo analizado.

In [None]:
# Importamos los tipos de datos List y Tuple de la biblioteca typing para las anotaciones de tipo.
# También importamos la clase datetime de la biblioteca datetime para trabajar con fechas y horas.
# Luego importamos el módulo json para trabajar con datos JSON y defaultdict de la biblioteca collections para crear diccionarios con valores predeterminados.
from typing import List, Tuple
from datetime import datetime
import json
from collections import defaultdict

def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:

    # Primero se guardan los datos de fecha y username en una lista de lista, para luego poder contarlos acordemente.
    with open(file_path, 'r') as f:
        data = [[json.loads(line)['date'].split('T')[0], json.loads(line)['user']['username']]  for line in f.readlines()]

    # Se utiliza la clase Counter() junto con list comprehension para obtener las 10 fechas mas comunes de todos los tweets.
    most_common_dates = Counter([d[0] for d in data]).most_common(10)

    # Se de manera similar, se obtiene el usuario que mas tweetió para cada una de las fechas mas comunes.
    most_common_users = [Counter([d[1] for d in data if d[0] == date[0]]).most_common(1)[0][0] for date in most_common_dates]

    # Se utiliza zip para agrupar las dos listas obtenidas anteriormente, recordando pasar la fecha a formato datetime.date().
    return list(zip([datetime.strptime(date[0], "%Y-%m-%d").date() for date in most_common_dates], most_common_users))
    from q1_time import q1_time

initial_time = time()
result = q1_time(file_path=file_path)
print(f"Tiempo de ejecución: {time() - initial_time} ")
print(result)

Tiempo de ejecución: 12.088545322418213 
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


In [None]:
# Importamos los tipos de datos List y Tuple de la biblioteca typing para las anotaciones de tipo.
# También importamos la clase datetime de la biblioteca datetime para trabajar con fechas y horas.
# Luego importamos el módulo json para trabajar con datos JSON y defaultdict de la biblioteca collections para crear diccionarios con valores predeterminados.
from typing import List, Tuple
from datetime import datetime
import json
from collections import defaultdict

# Definimos una función llamada q1_memory que toma la ruta del archivo como entrada y devuelve una lista de tuplas que contienen fechas y usuarios.
def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    # Creamos un defaultdict anidado para almacenar el recuento de tweets por usuario y fecha.
    dates_counter = defaultdict(lambda: defaultdict(int))
    # Abrimos el archivo JSON en modo de lectura.
    with open(file_path, 'r') as file:
        # Iteramos línea por línea en el archivo.
        for line in file:
            # Cargamos cada línea como un objeto JSON.
            tweet = json.loads(line)
            # Extraemos la fecha del tweet y la convertimos al formato deseado.
            tweet_date = tweet['date'].split('T')[0]
            # Extraemos el nombre de usuario del tweet.
            username = tweet['user']['username']
            # Actualizamos el contador de tweets para este usuario en esta fecha.
            dates_counter[tweet_date][username] += 1

    # Ordenamos las fechas según el número total de tweets (usuarios únicos) publicados ese día.
    top_dates = sorted(dates_counter.keys(), key=lambda x: sum(dates_counter[x].values()), reverse=True)[:10]

    # Obtenemos el usuario con más tweets para cada una de las fechas principales.
    top_users = [max(dates_counter[date], key=dates_counter[date].get) for date in top_dates]

    # Convertimos las fechas de cadena a objetos datetime.date().
    top_dates = [datetime.strptime(date_str, "%Y-%m-%d").date() for date_str in top_dates]

    # Combinamos las fechas y los usuarios en una lista de tuplas y la devolvemos.
    return list(zip(top_dates, top_users))

# El siguiente código llama a la función q1_memory con un archivo especificado y muestra el resultado.
initial_time = time()
result = q1_memory(file_path=file_path)
print(f"Tiempo de ejecución: {time() - initial_time} ")
print(result)

Tiempo de ejecución: 6.525227069854736 
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


**Q2:** Contador de emojis

Optimización de tiempo y de memoria

Se usó la librería emoji para analizar el contenido de todos los tweets y obtener todos los emojis presentes en una sola cadena. Sin embargo, este enfoque resultó más lento que el análisis línea por línea. Se propone continuar optimizando el tiempo mediante la compartimentalización y el uso de subprocesos.

Posteriormente, se aplicó la misma lógica que en el enfoque de optimización de tiempo, pero analizando línea por línea en lugar de construir una cadena única con todos los datos.

In [None]:
# Importamos los tipos de datos List y Tuple de la biblioteca typing para las anotaciones de tipo.
# También importamos el módulo json para trabajar con datos JSON, emoji_list de la biblioteca emoji para trabajar con emojis,
# y Counter de la biblioteca collections para contar elementos.
from typing import List, Tuple
import json
from emoji import emoji_list
from collections import Counter

def q2_time(file_path: str) -> List[Tuple[str, int]]:
    # Leemos todas las líneas del archivo y almacenamos los contenidos de los tweets en una lista.
    with open(file_path, 'r') as f:
        tweet_contents = [json.loads(line)['content'] for line in f]

    # Concatenamos todos los contenidos de los tweets en un solo string.
    all_tweets_content = "".join(tweet_contents)

    # Usando el método emoji_list, obtenemos todos los emojis presentes en el string.
    emojis = [emoji['emoji'] for emoji in emoji_list(all_tweets_content)]

    # Contamos los emojis y devolvemos los 10 más utilizados.
    return Counter(emojis).most_common(10)

# El siguiente código llama a la función q2_time con un archivo especificado y muestra el resultado.
initial_time = time()
result = q2_time(file_path=file_path)
print(f"Tiempo de ejecución: {time() - initial_time} ")
print(result)



Tiempo de ejecución: 26.301026344299316 
[('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


In [None]:
# Importamos los tipos de datos List y Tuple de la biblioteca typing para las anotaciones de tipo.
from typing import List, Tuple
import json
from emoji import emoji_list
from collections import Counter

# Definimos una función llamada q2_time que toma la ruta del archivo como entrada y devuelve una lista de tuplas que contienen emojis y su recuento.
def q2_time(file_path: str) -> List[Tuple[str, int]]:
    # Primero, se obtienen todos los objetos de tweets de una vez.
    with open(file_path, 'r') as f:
        tweets = f.readlines()

    # Luego se obtiene un gran string que contenga todos los contenidos de los tweets.
    all_content = ""
    for tweet in tweets:
        all_content += json.loads(tweet)['content']

    # Usando el método emoji_list, se analiza todo el string y se obtienen todos los emojis presentes.
    emojis = [emoji['emoji'] for emoji in emoji_list(all_content)]

    # Se cuentan los emojis y se devuelven los 10 más utilizados.
    top_emojis = Counter(emojis).most_common(10)
    return top_emojis

# El siguiente código llama a la función q2_time con un archivo especificado y muestra el resultado.
initial_time = time()
result = q2_time(file_path=file_path)
print(f"Tiempo de ejecución: {time() - initial_time} ")
print(result)

Tiempo de ejecución: 24.528691053390503 
[('🙏', 5049), ('😂', 3072), ('🚜', 2972), ('🌾', 2182), ('🇮🇳', 2086), ('🤣', 1668), ('✊', 1651), ('❤️', 1382), ('🙏🏻', 1317), ('💚', 1040)]


**Q3:** Menciones

Optimización de tiempo y de memoria

Para este problema, se empleó una estrategia directa: iterar sobre cada línea del archivo JSON y extraer los usuarios mencionados en cada tweet. Utilizando list comprehension, se obtuvieron los nombres de usuario de manera eficiente. Una mejora potencial podría implicar modificar la estructura del archivo JSON para evitar la necesidad de acceder a niveles anidados de datos.

In [None]:
# Importamos los tipos de datos List y Tuple de la biblioteca typing para las anotaciones de tipo, y Counter de la biblioteca collections para contar elementos.
from typing import List, Tuple
import json
from collections import Counter

# Definimos una función llamada q3_memory que toma la ruta del archivo como entrada y devuelve una lista de tuplas que contienen usernames y su recuento.
def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    # Creamos un diccionario para almacenar los usuarios mencionados y su recuento.
    usuarios_recuento = {}

    # Abrimos el archivo en modo de lectura.
    with open(file_path, 'r') as archivo:
        # Iteramos sobre cada línea del archivo.
        for linea in archivo:
            # Cargamos la línea como un objeto JSON.
            datos = json.loads(linea)
            # Obtenemos la lista de usuarios mencionados.
            usuarios_mencionados = datos.get('mentionedUsers')
            # Si hay usuarios mencionados, los procesamos.
            if usuarios_mencionados:
                # Iteramos sobre cada usuario mencionado.
                for usuario in usuarios_mencionados:
                    # Obtenemos el nombre de usuario.
                    nombre_usuario = usuario.get('username')
                    # Actualizamos el contador para este usuario.
                    usuarios_recuento[nombre_usuario] = usuarios_recuento.get(nombre_usuario, 0) + 1

    # Ordenamos el diccionario por el recuento de usuarios mencionados en orden descendente.
    usuarios_ordenados = sorted(usuarios_recuento.items(), key=lambda x: x[1], reverse=True)

    # Devolvemos los 10 usuarios más mencionados como una lista de tuplas.
    return usuarios_ordenados[:10]

# Llamamos a la función q3_memory con el archivo especificado y mostramos el resultado.
tiempo_inicial = time()
resultado = q3_memory(file_path=file_path)
print(f"Tiempo de ejecución: {time() - tiempo_inicial} ")
print(resultado)


Tiempo de ejecución: 7.43938136100769 
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


In [None]:
from typing import List, Tuple
from collections import Counter
import json

def q3_time(file_path: str) -> List[Tuple[str, int]]:
    # Lista para almacenar los usernames mencionados en los tweets
    usernames = []

    # Abrimos el archivo y leemos línea por línea
    with open(file_path, 'r') as f:
        # Cargamos cada línea como un objeto JSON y obtenemos la lista de mentionedUsers
        for line in f:
            # Convertimos la línea JSON a un diccionario
            tweet_data = json.loads(line)
            # Obtenemos la lista de mentionedUsers del tweet actual
            mentioned_users = tweet_data.get('mentionedUsers')
            # Si la lista no está vacía (no es None), la procesamos
            if mentioned_users:
                # Iteramos sobre cada usuario en la lista y añadimos su username a la lista de usernames
                for user in mentioned_users:
                    usernames.append(user['username'])

    # Contamos la frecuencia de cada username y devolvemos los 10 más comunes
    return Counter(usernames).most_common(10)

# Llamamos a la función q3_time con el archivo especificado y mostramos el resultado
initial_time = time()
result = q3_time(file_path=file_path)
print(f"Tiempo de ejecución: {time() - initial_time} ")
print(result)



Tiempo de ejecución: 6.208816289901733 
[('narendramodi', 2265), ('Kisanektamorcha', 1840), ('RakeshTikaitBKU', 1644), ('PMOIndia', 1427), ('RahulGandhi', 1146), ('GretaThunberg', 1048), ('RaviSinghKA', 1019), ('rihanna', 986), ('UNHumanRights', 962), ('meenaharris', 926)]


In [214]:
import requests

# URL de destino
url = "https://advana-challenge-check-api-cr-k4hdbggvoq-uc.a.run.app/data-engineer"

# Datos a enviar en el cuerpo del POST request
data = {
    "name": "Esteban Almeida",
    "mail": "hugoestebanalmeida@gmail.com.com",
    "github_url": "https://github.com/Julianaldas/LatamChallenge"
}

# Realizar el POST request
response = requests.post(url, json=data)

# Verificar el código de estado de la respuesta
if response.status_code == 200:
    print("POST request enviado exitosamente.")
else:
    print("Error al enviar el POST request. Código de estado:", response.status_code)


POST request enviado exitosamente.
