# **PROYECTO "CHALLENGE LATAM"**

## **CARGA DE DATOS**

In [59]:
# Lectura de base de datos para observar estructura de la información (como esta distribuida)

import json

file_path = 'farmers-protest-tweets-2021-2-4.json'

# Leer las primeras líneas del archivo JSON
with open(file_path, 'r', encoding='utf-8') as file:
    for i in range(3):  # Leer las primeras 5 líneas
        print(json.loads(file.readline()))

{'url': 'https://twitter.com/ArjunSinghPanam/status/1364506249291784198', 'date': '2021-02-24T09:23:35+00:00', 'content': 'The world progresses while the Indian police and Govt are still trying to take India back to the horrific past through its tyranny. \n\n@narendramodi @DelhiPolice Shame on you. \n\n#ModiDontSellFarmers \n#FarmersProtest \n#FreeNodeepKaur https://t.co/es3kn0IQAF', 'renderedContent': 'The world progresses while the Indian police and Govt are still trying to take India back to the horrific past through its tyranny. \n\n@narendramodi @DelhiPolice Shame on you. \n\n#ModiDontSellFarmers \n#FarmersProtest \n#FreeNodeepKaur twitter.com/ravisinghka/st…', 'id': 1364506249291784198, 'user': {'username': 'ArjunSinghPanam', 'displayname': 'Arjun Singh Panam', 'id': 45091142, 'description': 'Global Citizen, Actor, Director: Sky is the roof above my head, the world is the road I travel, love is my food & mother earth is my bed. Roy in @CosmosMovie', 'rawDescription': 'Global Citi

## **Primera parte (Q1):**
## Las top 10 fechas donde hay más tweets. Mencionar el usuario (username) que más publicaciones tiene por cada uno de esos días

### Función Optimizando Tiempo:

In [11]:
#Importando Librerias
import json
from collections import Counter, defaultdict
from datetime import datetime
from typing import List, Tuple

def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    with open(file_path, 'r', encoding='utf-8') as file:
        data = [json.loads(line) for line in file] #Cargar cada linea como un diccionario
    
    date_user_count = defaultdict(Counter) # Crea un defaultdict de Counter para contar usuarios por fecha
    for tweet in data:
        date = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S%z').date() # Extrae la fecha del tweet
        user = tweet.get('user', {}).get('username', 'unknown')  # Obtiene el nombre de usuario del tweet, o 'unknown' si no existe
        date_user_count[date][user] += 1 # Crea conteo de usuarios por fecha
    
    top_dates = Counter({date: sum(users.values()) for date, users in date_user_count.items()})
    top_10_dates = top_dates.most_common(10) # Obtiene las 10 fechas con más tweets
    
    result = [(date, date_user_count[date].most_common(1)[0][0]) for date, _ in top_10_dates]
    # Construye la lista de resultados
    return result

### Probar la función optimizadora Tiempo para Q1

In [60]:
# Medir tiempo de ejecución y ver resultados
start_time = time.time()
result_q1_time = q1_time('farmers-protest-tweets-2021-2-4.json')
end_time = time.time()
print(f"Tiempo de ejecución de la funcion Q1: {end_time - start_time} segundos")

print("Fechas con mas Tweets y Usuarios con mayor frecuencia de Tweets:")
for date, user in result_q1_time:
    print(f"Fecha: {date}, Usuario: {user}")

Tiempo de ejecución de la funcion Q1: 6.8561155796051025 segundos
Fechas con mas Tweets y Usuarios con mayor frecuencia de Tweets:
Fecha: 2021-02-12, Usuario: RanbirS00614606
Fecha: 2021-02-13, Usuario: MaanDee08215437
Fecha: 2021-02-17, Usuario: RaaJVinderkaur
Fecha: 2021-02-16, Usuario: jot__b
Fecha: 2021-02-14, Usuario: rebelpacifist
Fecha: 2021-02-18, Usuario: neetuanjle_nitu
Fecha: 2021-02-15, Usuario: jot__b
Fecha: 2021-02-20, Usuario: MangalJ23056160
Fecha: 2021-02-23, Usuario: Surrypuria
Fecha: 2021-02-19, Usuario: Preetm91


In [61]:
print(result_q1_time) #Salida solicitada por LATAM

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


### Función Optimizando Memoria:

In [14]:
#Importando Librerias
from memory_profiler import memory_usage
from collections import defaultdict, Counter
from datetime import datetime
from typing import List, Tuple

def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    date_user_count = defaultdict(Counter) #Conteo de usuarios por fecha

    #Abrir JSON para leer cada linea de Tweets
    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            tweet = json.loads(line) #Cargar cada tweet como un diccionario
            date = datetime.strptime(tweet['date'], '%Y-%m-%dT%H:%M:%S%z').date() #registrar fecha del tweet
            user = tweet.get('user', {}).get('username', 'unknown')  # registrar usuario de existir o marcar "unknown" en caso de no existir
            date_user_count[date][user] += 1 # Crea conteo de usuarios por fecha

     # Calcula el total de tweets por fecha usando Counter y selecciona las 10 fechas con más tweets
    top_dates = Counter({date: sum(users.values()) for date, users in date_user_count.items()})
    top_10_dates = top_dates.most_common(10)
    # Construye la lista de tuplas (fecha, usuario más activo para esa fecha) para las top 10 fechas
    result = [(date, date_user_count[date].most_common(1)[0][0]) for date, _ in top_10_dates]
    
    return result

### Probar la función optimizadora de Memoria para Q1

In [62]:
# Medir uso de memoria (memory_usage) y ver resultados
mem_usage = memory_usage((q1_memory, ('farmers-protest-tweets-2021-2-4.json',)))
print(f"Uso de memoria de la función para Q1: {max(mem_usage) - min(mem_usage)} MiB")
result_q1_memory = q1_memory('farmers-protest-tweets-2021-2-4.json')

print("Fechas con mas Tweets y Usuarios con mayor frecuencia de Tweets:")
for date, user in result_q1_memory:
    print(f"Fecha: {date}, Usuario: {user}")

Uso de memoria de la función para Q1: 0.05859375 MiB
Fechas con mas Tweets y Usuarios con mayor frecuencia de Tweets:
Fecha: 2021-02-12, Usuario: RanbirS00614606
Fecha: 2021-02-13, Usuario: MaanDee08215437
Fecha: 2021-02-17, Usuario: RaaJVinderkaur
Fecha: 2021-02-16, Usuario: jot__b
Fecha: 2021-02-14, Usuario: rebelpacifist
Fecha: 2021-02-18, Usuario: neetuanjle_nitu
Fecha: 2021-02-15, Usuario: jot__b
Fecha: 2021-02-20, Usuario: MangalJ23056160
Fecha: 2021-02-23, Usuario: Surrypuria
Fecha: 2021-02-19, Usuario: Preetm91


In [63]:
print(result_q1_memory) #Salida solicitada por LATAM

[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]


## **Segunda parte (Q2):**
## Los top 10 emojis más usados con su respectivo conteo. Debe incluir las siguientes funciones

### Función Optimizando Tiempo Q2:

In [53]:
import time
from memory_profiler import memory_usage
from typing import List, Tuple
import json
from collections import Counter
import re

def q2_time(file_path: str) -> List[Tuple[str, int]]:
    #Función para obtener los 10 emojis más comunes y sus conteos.
    emoji_pattern = re.compile(
        "["
        u"\U0001F600-\U0001F64F"  # Emoticones
        u"\U0001F300-\U0001F5FF"  # Símbolos y pictogramas misceláneos
        u"\U0001F680-\U0001F6FF"  # Transporte y símbolos de mapas
        u"\U0001F1E0-\U0001F1FF"  # Banderas de países
        "]+", flags=re.UNICODE)

    emojis = Counter()

    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            tweet = json.loads(line)
            tweet_emojis = emoji_pattern.findall(tweet['content'])

            # Contar la cantidad de veces que cada emoji aparece en el tweet
            for emoji in tweet_emojis:
                emojis[emoji] += len(re.findall(emoji, tweet['content']))

    return emojis.most_common(10)


### Probar la función optimizadora Tiempo para Q2

In [54]:

start_time = time.time()
result_q2_time = q2_time('farmers-protest-tweets-2021-2-4.json')
end_time = time.time()
print(f"Tiempo de ejecución de q2_time: {end_time - start_time} segundos")
print("Resultado conteo de Emojis:")
for emoji, count in result_q2_time:
    print(f"{emoji}: {count}")


Tiempo de ejecución de q2_time: 3.904435396194458 segundos
Resultado de q2_time:
🙏: 2743
💚: 2310
🌾: 1972
👉: 1697
😂: 950
🏻: 701
🏽: 569
🇮🇳: 545
👍: 483
👇: 460


In [55]:
print(result_q2_time) #Salida solicitada por LATAM

[('🙏', 2743), ('💚', 2310), ('🌾', 1972), ('👉', 1697), ('😂', 950), ('🏻', 701), ('🏽', 569), ('🇮🇳', 545), ('👍', 483), ('👇', 460)]


### Función Optimizando Memoria Q2:

In [56]:
def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    
    #Función para obtener los 10 emojis más comunes y sus conteos.
       emoji_pattern = re.compile(
        "["
        u"\U0001F600-\U0001F64F"  # Emoticones👍
        u"\U0001F300-\U0001F5FF"  # Símbolos y pictogramas misceláneos
        u"\U0001F680-\U0001F6FF"  # Transporte y símbolos de mapas
        u"\U0001F1E0-\U0001F1FF"  # Banderas de países
        "]+", flags=re.UNICODE)

    emojis = Counter()

    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            tweet = json.loads(line)
            tweet_emojis = emoji_pattern.findall(tweet['content'])

            # Contar la cantidad de veces que cada emoji aparece en el tweet
            for emoji in tweet_emojis:
                emojis[emoji] += len(re.findall(emoji, tweet['content']))

    return emojis.most_common(10)
    



### Probar la función optimizadora Memoria para Q2

In [64]:
# Medir uso de memoria
mem_usage = memory_usage((q2_memory, ('farmers-protest-tweets-2021-2-4.json',)))
print(f"Uso de memoria de q2_memory: {max(mem_usage) - min(mem_usage)} MiB")
result_q2_memory = q2_memory('farmers-protest-tweets-2021-2-4.json')
print("Resultado conteo de Emojis:")
for emoji, count in result_q2_memory:
    print(f"{emoji}: {count}")

Uso de memoria de q2_memory: 0.609375 MiB
Resultado conteo de Emojis:
🙏: 2743
💚: 2310
🌾: 1972
👉: 1697
😂: 950
🏻: 701
🏽: 569
🇮🇳: 545
👍: 483
👇: 460


In [58]:
print(result_q2_memory) #Salida solicitada por LATAM

[('🙏', 2743), ('💚', 2310), ('🌾', 1972), ('👉', 1697), ('😂', 950), ('🏻', 701), ('🏽', 569), ('🇮🇳', 545), ('👍', 483), ('👇', 460)]


**La etapa Q2 toma el supuesto o realiza el conteo de la siguiente forma: tomamos el emoticon mas utilizado (🙏) como "A", pero si alguien usa 2 veces el emoticon en un tweet, "AA" (🙏🙏), este se contabilizara 2 veces para el total (3 🙏 en este caso).**

**Ya que en un primer intento, realizaba el conteo para "A" 🙏, "AA" 🙏🙏 y "AAA" 🙏🙏🙏 como emoticon unico. Realizando el conteo (por ejemplo) de la siguiente forma:**

[('🙏', 101)] [('🙏🙏', 50)] [('🙏🙏🙏')] 17

## **Tercera parte (Q3):**
## El top 10 histórico de usuarios (username) más influyentes en función del conteo de las menciones (@) que registra cada uno de ellos.

### Función Optimizando Tiempo Q3:

In [65]:
import time
from typing import List, Tuple
import json
from collections import Counter
import re

#Función para obtener las 10 menciones (@usuario) más comunes y sus conteos.
def q3_time(file_path: str) -> List[Tuple[str, int]]:
    mention_pattern = re.compile(r'@\w+') # Patrón para encontrar menciones (@usuario)
    
    with open(file_path, 'r') as file:
        data = [json.loads(line) for line in file] # Leer y cargar los datos del archivo JSON
    
    mentions = Counter() #Contador para las menciones
    for tweet in data:
        mentions.update(mention[1:] for mention in mention_pattern.findall(tweet['content']))
    # Encontrar todas las menciones en un tweet y actualizar el contador
    return mentions.most_common(10) #10 menciones más comunes y su conteos




### Probar la función optimizadora Tiempo para Q3

In [69]:
# Medir tiempo de ejecución y ver resultados
start_time = time.time()
result_q3_time = q3_time('farmers-protest-tweets-2021-2-4.json')
end_time = time.time()
print(f"Tiempo de ejecución de q3_time: {end_time - start_time} segundos")
print("Top 10 usuarios con mas menciones:")
for mentions, count in result_q3_time:
    print(f"{mentions}: {count}")

Tiempo de ejecución de q3_time: 6.100264072418213 segundos
Top 10 usuarios con mas menciones:
narendramodi: 2261
Kisanektamorcha: 1836
RakeshTikaitBKU: 1639
PMOIndia: 1422
RahulGandhi: 1125
GretaThunberg: 1046
RaviSinghKA: 1015
rihanna: 972
UNHumanRights: 962
meenaharris: 925


In [70]:
print(result_q3_time) #Salida solicitada por LATAM

[('narendramodi', 2261), ('Kisanektamorcha', 1836), ('RakeshTikaitBKU', 1639), ('PMOIndia', 1422), ('RahulGandhi', 1125), ('GretaThunberg', 1046), ('RaviSinghKA', 1015), ('rihanna', 972), ('UNHumanRights', 962), ('meenaharris', 925)]


### Función Optimizando Memoria Q3:

In [74]:
from memory_profiler import memory_usage
from typing import List, Tuple
import json
from collections import Counter
import re

#Función para obtener las 10 menciones (@usuario) más comunes y sus conteos.

def q3_memory(file_path: str) -> List[Tuple[str, int]]:

    mentions = Counter() #Contador para las menciones
    mention_pattern = re.compile(r'@\w+') # Patrón para encontrar menciones (@usuario)
        
    with open(file_path, 'r') as file: # Leer y cargar los datos del archivo JSON
        for line in file:
            tweet = json.loads(line)
            mentions.update(mention[1:] for mention in mention_pattern.findall(tweet['content']))
    
    return mentions.most_common(10)



### Probar la función optimizadora Memoria para Q3

In [77]:
# Medir uso de memoria y ver resultados
mem_usage = memory_usage((q3_memory, ('farmers-protest-tweets-2021-2-4.json',)))
print(f"Uso de memoria de q3_memory: {max(mem_usage) - min(mem_usage)} MiB")
result_q3_memory = q3_memory('farmers-protest-tweets-2021-2-4.json')
print("Resultado de q3_memory:")
for mentions, count in result_q3_memory:
    print(f"{mentions}: {count}")


Uso de memoria de q3_memory: 0.0078125 MiB
Resultado de q3_memory:
narendramodi: 2261
Kisanektamorcha: 1836
RakeshTikaitBKU: 1639
PMOIndia: 1422
RahulGandhi: 1125
GretaThunberg: 1046
RaviSinghKA: 1015
rihanna: 972
UNHumanRights: 962
meenaharris: 925


In [78]:
print(result_q3_memory) #Salida solicitada por LATAM

[('narendramodi', 2261), ('Kisanektamorcha', 1836), ('RakeshTikaitBKU', 1639), ('PMOIndia', 1422), ('RahulGandhi', 1125), ('GretaThunberg', 1046), ('RaviSinghKA', 1015), ('rihanna', 972), ('UNHumanRights', 962), ('meenaharris', 925)]
