En este archivo puedes escribir lo que estimes conveniente. Te recomendamos detallar tu soluci√≥n y todas las suposiciones que est√°s considerando. Aqu√≠ puedes ejecutar las funciones que definiste en los otros archivos de la carpeta src, medir el tiempo, memoria, etc.

In [10]:
file_path = "farmers-protest-tweets-2021-2-4.json"

In [28]:
file_path = f"../{file_path}"

# 1. An√°lisis de Tweets: Funci√≥n `q1_memory`

Este secci√≥n contiene la implementaci√≥n y an√°lisis de la funci√≥n `q1_memory`, que procesa un archivo de tweets en formato JSON, extrayendo la informaci√≥n sobre el n√∫mero de tweets por usuario en las fechas m√°s relevantes. El objetivo es identificar los 10 d√≠as con m√°s actividad y el usuario m√°s activo de esos d√≠as enfocado en optimizar el uso de memoria.

In [25]:
#Importaci√≥n de librerias
import json
from typing import List, Tuple
import datetime
from collections import defaultdict, Counter
from dateutil import parser
from itertools import islice
import time
from memory_profiler import memory_usage

## Descripci√≥n de la Funci√≥n `q1_memory`

La funci√≥n `q1_memory` toma como entrada la ruta de un archivo que contiene tweets en formato JSON. Su prop√≥sito es:
- Leer el archivo l√≠nea por l√≠nea.
- Extraer la fecha de cada tweet y el nombre de usuario del autor.
- Contar la cantidad de tweets por usuario en cada fecha.
- Retornar las 10 fechas con m√°s tweets junto con el usuario m√°s activo en esas fechas.

### Par√°metros
- `file_path`: Ruta del archivo que contiene los tweets.

### Retorno
- Una lista de tuplas, donde cada tupla contiene una fecha y el nombre del usuario m√°s activo en esa fecha.

### 1.1 Implementaci√≥n de la funci√≥n:

In [64]:
def q1_memory(file_path: str) -> List[Tuple[datetime.date, str]]:
    # Inicializa un diccionario para contar tweets por fecha y usuario.
    date_user_counts = defaultdict(lambda: Counter())

    # Intenta abrir el archivo proporcionado en la ruta 'file_path'
    try:
        with open(file_path, 'r') as file:
            # Itera sobre cada l√≠nea del archivo
            for line in islice(file, None):  # 'islice' permite leer l√≠nea por l√≠nea
                try:
                    # Intenta cargar la l√≠nea como un objeto JSON
                    tweet = json.loads(line.strip())
                    # Extrae la fecha del tweet y convierte a objeto 'date'
                    tweet_date = parser.parse(tweet['date']).date()
                    # Extrae el nombre de usuario del tweet
                    username = tweet['user']['username']

                    # Verifica que el nombre de usuario no est√© vac√≠o
                    if username:
                        # Incrementa el contador de tweets para esa fecha y usuario
                        date_user_counts[tweet_date][username] += 1
                    else:
                        # Imprime advertencia si el nombre de usuario est√° vac√≠o
                        print(f"Advertencia: Username vac√≠o en el tweet de la fecha {tweet_date}")

                except json.JSONDecodeError as e:
                    # Manejo de error para problemas de decodificaci√≥n JSON
                    print(f"Error al decodificar JSON en la l√≠nea: {line}. Error: {e}")
                except KeyError as e:
                    # Manejo de error si falta alguna clave esperada en el tweet
                    print(f"Error: Falta la clave esperada {e} en el tweet: {tweet}")

    except FileNotFoundError:
        # Manejo de error si el archivo no se encuentra
        print(f"Error: El archivo {file_path} no fue encontrado.")
        return []  # Retorna lista vac√≠a si no se encuentra el archivo
    except Exception as e:
        # Manejo de errores inesperados
        print(f"Error inesperado al abrir el archivo: {e}")
        return []  # Retorna lista vac√≠a en caso de error inesperado

    # Ordena las fechas y obtiene las 10 con m√°s tweets
    top_dates = sorted(date_user_counts.items(), key=lambda x: sum(x[1].values()), reverse=True)[:10]
    
    result = []  # Inicializa la lista para almacenar resultados
    for date_, user_counts in top_dates:
        if user_counts:
            # Obtiene el usuario m√°s activo de la fecha actual
            most_common_user = user_counts.most_common(1)[0][0]
            # A√±ade la tupla (fecha, usuario) a los resultados
            result.append((date_, most_common_user))
        else:
            # Imprime advertencia si no hay usuarios para la fecha
            print(f"Advertencia: No hay usuarios para la fecha {date_}")
    
    return result  # Retorna la lista de resultados


### 1.2 Ejecuci√≥n funci√≥n q1_memory

In [65]:
result = q1_memory(file_path)
result

[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria'),
 (datetime.date(2021, 2, 19), 'Preetm91')]

### 1.3 Medici√≥n del Tiempo de Ejecuci√≥n y uso de memoria

In [66]:
# Comienza a medir el tiempo de ejecuci√≥n
start_time = time.time()

# Medici√≥n del uso de memoria: pasa la funci√≥n y los argumentos como una tupla
mem_usage = memory_usage((q1_memory, (file_path,)), interval=0.1)

# Termina la medici√≥n de tiempo
end_time = time.time()

# Calcula el tiempo de ejecuci√≥n
execution_time = end_time - start_time
# Calcula el uso de memoria
memory_used = max(mem_usage) - min(mem_usage)

# Imprime los resultados
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
print(f"Uso de memoria: {memory_used:.2f} MiB")

Tiempo de ejecuci√≥n: 5.42 segundos
Uso de memoria: 0.30 MiB


### 1.4 Suposiciones y Consideraciones
1. **Formato de Archivo**: Se asume que el archivo JSON est√° bien formado y cada l√≠nea representa un tweet v√°lido.
2. **Estructura del JSON**: Se espera que cada tweet contenga las claves `date` y `user.username`.
3. **Manejo de Errores**: La funci√≥n incluye manejos b√°sicos de errores para asegurar que los problemas en el archivo no causen que la funci√≥n falle completamente.
4. **Eficiencia**: Se utiliza `defaultdict` y `Counter` para facilitar el conteo de tweets por usuario.

# 2. An√°lisis de Tweets: Funci√≥n `q1_time`

Esta secci√≥n contiene la implementaci√≥n y an√°lisis de la funci√≥n `q1_time`, que procesa un archivo de tweets en formato JSON, extrayendo la informaci√≥n sobre el n√∫mero de tweets por usuario en las fechas m√°s relevantes. El objetivo es identificar los 10 d√≠as con m√°s actividad y el usuario m√°s activo de esos d√≠as enfocado en optimizar el tiempo de ejecuci√≥n.

In [27]:
# Importaci√≥n de librerias
from typing import List, Tuple
import ujson
from collections import defaultdict
from datetime import datetime
from dateutil import parser
import heapq
from memory_profiler import memory_usage
import time

## Descripci√≥n de la Funci√≥n `q1_time`

La funci√≥n `q1_time` toma como entrada la ruta de un archivo que contiene tweets en formato JSON. Su prop√≥sito es:
- Leer el archivo l√≠nea por l√≠nea.
- Extraer la fecha de cada tweet y el nombre de usuario del autor.
- Contar la cantidad de tweets por usuario en cada fecha.
- Retornar las 10 fechas con m√°s tweets junto con el usuario m√°s activo en esas fechas.

### Par√°metros
- `file_path`: Ruta del archivo que contiene los tweets.

### Retorno
- Una lista de tuplas, donde cada tupla contiene una fecha y el nombre del usuario m√°s activo en esa fecha.


### 2.1 Implementaci√≥n de la funci√≥n:

In [68]:
def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
    # Usamos un defaultdict para contar la cantidad de tweets por usuario en cada fecha
    date_user_counts = defaultdict(lambda: defaultdict(int))

    # Lectura del archivo l√≠nea por l√≠nea
    try:
        with open(file_path, 'r') as file:
            for line in file:  # Iterar directamente sobre el archivo
                try:
                    # Uso de ujson para mejorar la velocidad en la carga de JSON
                    tweet = ujson.loads(line.strip())
                    # Parsear la fecha del tweet y convertirla a un objeto de fecha
                    tweet_date = parser.parse(tweet['date']).date()
                    # Extraer el nombre de usuario
                    username = tweet['user']['username']

                    # Asegurarse de que username no est√© vac√≠o o sea None
                    if username:
                        # Incrementar el conteo de tweets del usuario para esa fecha
                        date_user_counts[tweet_date][username] += 1
                    else:
                        print(f"Advertencia: Username vac√≠o en el tweet de la fecha {tweet_date}")

                except ujson.JSONDecodeError as e:
                    print(f"Error al decodificar JSON en la l√≠nea: {line}. Error: {e}")
                except KeyError as e:
                    print(f"Error: Falta la clave esperada {e} en el tweet: {tweet}")

    except FileNotFoundError:
        print(f"Error: El archivo {file_path} no fue encontrado.")
        return []
    except Exception as e:
        print(f"Error inesperado al abrir el archivo: {e}")
        return []

    # Mantener solo los 10 d√≠as con m√°s tweets
    top_dates = []
    
    # Iterar sobre los conteos de usuarios por fecha
    for date_, user_counts in date_user_counts.items():
        total_tweets = sum(user_counts.values())  # Contar el total de tweets en esa fecha
        
        # Usar un heap para mantener solo los 10 d√≠as con m√°s tweets
        if len(top_dates) < 10:
            # Agregar el d√≠a actual al heap
            heapq.heappush(top_dates, (total_tweets, date_, user_counts))
        else:
            # Reemplazar el d√≠a con menos tweets si el nuevo d√≠a tiene m√°s
            heapq.heappushpop(top_dates, (total_tweets, date_, user_counts))

    # Obtener los resultados finales
    result = []
    for total, date_, user_counts in top_dates:
        if user_counts:  # Verificar que user_counts no est√© vac√≠o
            # Encontrar el usuario m√°s com√∫n en esa fecha
            most_common_user = max(user_counts.items(), key=lambda item: item[1])[0]
            result.append((date_, most_common_user))  # Agregar el resultado
        else:
            print(f"Advertencia: No hay usuarios para la fecha {date_}")

    # Ordenar el resultado por fecha
    result.sort(key=lambda x: x[0])
    
    return result

### 2.2 Ejecuci√≥n funci√≥n q1_time

In [35]:
result = q1_time(file_path)
result

Resultado: [(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 19), 'Preetm91'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria')]


[(datetime.date(2021, 2, 12), 'RanbirS00614606'),
 (datetime.date(2021, 2, 13), 'MaanDee08215437'),
 (datetime.date(2021, 2, 14), 'rebelpacifist'),
 (datetime.date(2021, 2, 15), 'jot__b'),
 (datetime.date(2021, 2, 16), 'jot__b'),
 (datetime.date(2021, 2, 17), 'RaaJVinderkaur'),
 (datetime.date(2021, 2, 18), 'neetuanjle_nitu'),
 (datetime.date(2021, 2, 19), 'Preetm91'),
 (datetime.date(2021, 2, 20), 'MangalJ23056160'),
 (datetime.date(2021, 2, 23), 'Surrypuria')]

### 2.3 Medici√≥n del Tiempo de Ejecuci√≥n y uso de memoria

In [69]:
# Comienza a medir el tiempo de ejecuci√≥n
start_time = time.time()

# Medici√≥n del uso de memoria: pasa la funci√≥n y los argumentos como una tupla
mem_usage = memory_usage((q1_time, (file_path,)), interval=0.1)

# Termina la medici√≥n de tiempo
end_time = time.time()

# Calcula el tiempo de ejecuci√≥n
execution_time = end_time - start_time
# Calcula el uso de memoria
memory_used = max(mem_usage) - min(mem_usage)

# Imprime los resultados
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
print(f"Uso de memoria: {memory_used:.2f} MiB")

Tiempo de ejecuci√≥n: 4.67 segundos
Uso de memoria: 0.56 MiB


### 2.4 Suposiciones y Consideraciones

1. **Formato de Archivo**: Se asume que el archivo JSON est√° bien formado y cada l√≠nea representa un tweet v√°lido.
2. **Estructura del JSON**: Se espera que cada tweet contenga las claves `date` y `user.username`.
3. **Manejo de Errores**: La funci√≥n incluye manejos b√°sicos de errores para asegurar que los problemas en el archivo no causen que la funci√≥n falle completamente.
4. **Eficiencia**: Se utiliza `defaultdict` y `heapq` para facilitar el conteo de tweets por usuario y mantener solo los d√≠as m√°s relevantes, respectivamente.


# 3. An√°lisis de Emojis en Tweets: Funci√≥n `q2_memory`

Esta secci√≥n contiene la implementaci√≥n y an√°lisis de la funci√≥n `q2_memory`, que procesa un archivo de tweets en formato JSON para contar la frecuencia de los emojis utilizados. El objetivo es identificar los 10 emojis m√°s comunes en los tweets analizados enfocado en optimizar el uso de memoria.


In [70]:
#Importaci√≥n de librerias
from typing import List, Tuple
import json
from collections import Counter
import emoji
import time
from memory_profiler import memory_usage

## Descripci√≥n de la Funci√≥n `q2_memory`

La funci√≥n `q2_memory` toma como entrada la ruta de un archivo que contiene tweets en formato JSON y su prop√≥sito es:
- Leer el archivo l√≠nea por l√≠nea.
- Extraer el contenido de cada tweet y contar los emojis presentes.
- Retornar los 10 emojis m√°s utilizados.

### Par√°metros
- `file_path`: Ruta del archivo que contiene los tweets.

### Retorno
- Una lista de tuplas, donde cada tupla contiene un emoji y su frecuencia de uso.


### 3.1 Implementaci√≥n de la funci√≥n:

In [42]:
def q2_memory(file_path: str) -> List[Tuple[str, int]]:
    # Contador para almacenar la frecuencia de cada emoji
    emoji_counter = Counter()

    try:
        # Abrir el archivo en modo lectura con codificaci√≥n UTF-8
        with open(file_path, 'r', encoding='utf-8') as file:
            # Iterar sobre cada l√≠nea del archivo
            for line in file:
                # Procesar solo l√≠neas no vac√≠as
                if line.strip():  
                    try:
                        # Intentar cargar el tweet como un objeto JSON
                        tweet = json.loads(line)
                        # Obtener el contenido del tweet, por defecto vac√≠o si no existe
                        content = tweet.get('content', '')

                        # Contar los emojis presentes en el contenido del tweet
                        # emoji.emoji_list retorna una lista de emojis encontrados
                        for e in emoji.emoji_list(content):
                            emoji_counter[e['emoji']] += 1  # Incrementar el contador para cada emoji
                        
                    except json.JSONDecodeError as e:
                        # Manejar errores de decodificaci√≥n JSON
                        print(f"Error al decodificar JSON en la l√≠nea: {line}. Error: {e}")
                    except Exception as e:
                        # Manejar cualquier otro error inesperado
                        print(f"Error inesperado al procesar la l√≠nea: {line}. Error: {e}")

    except FileNotFoundError:
        # Manejar el caso en que el archivo no se encuentra
        print(f"Error: El archivo {file_path} no fue encontrado.")
        return []
    except Exception as e:
        # Manejar errores inesperados al abrir el archivo
        print(f"Error inesperado al abrir el archivo: {e}")
        return []

    # Obtener los 10 emojis m√°s comunes
    top_emojis = emoji_counter.most_common(10)

    # Imprimir el resultado de los 10 emojis m√°s comunes
    return top_emojis


### 3.2 Ejecuci√≥n funci√≥n q2_memory

In [40]:
result = q2_memory(file_path)
result

Top 10 emojis: [('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('ü§£', 1668), ('‚úä', 1651), ('‚ù§Ô∏è', 1382), ('üôèüèª', 1317), ('üíö', 1040)]


[('üôè', 5049),
 ('üòÇ', 3072),
 ('üöú', 2972),
 ('üåæ', 2182),
 ('üáÆüá≥', 2086),
 ('ü§£', 1668),
 ('‚úä', 1651),
 ('‚ù§Ô∏è', 1382),
 ('üôèüèª', 1317),
 ('üíö', 1040)]

### 3.3 Medici√≥n del Tiempo de Ejecuci√≥n y uso de memoria

In [43]:
# Comienza a medir el tiempo de ejecuci√≥n
start_time = time.time()

# Medici√≥n del uso de memoria: pasa la funci√≥n y los argumentos como una tupla
mem_usage = memory_usage((q2_memory, (file_path,)), interval=0.1)

# Termina la medici√≥n de tiempo
end_time = time.time()

# Calcula el tiempo de ejecuci√≥n
execution_time = end_time - start_time
# Calcula el uso de memoria
memory_used = max(mem_usage) - min(mem_usage)

# Imprime los resultados
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
print(f"Uso de memoria: {memory_used:.2f} MiB")

Tiempo de ejecuci√≥n: 8.83 segundos
Uso de memoria: 0.25 MiB


### 3.4 Suposiciones y Consideraciones

1. **Formato de Archivo**: Se asume que el archivo JSON est√° bien formado y cada l√≠nea representa un tweet v√°lido.
2. **Estructura del JSON**: Se espera que cada tweet contenga la clave `content`, que representa el texto del tweet.
3. **Manejo de Errores**: La funci√≥n incluye manejos b√°sicos de errores para asegurar que los problemas en el archivo no causen que la funci√≥n falle completamente.
4. **Eficiencia**: Se utiliza `Counter` para facilitar el conteo de emojis, evitando la necesidad de crear una lista intermedia.


# 4. An√°lisis de Emojis en Tweets: Funci√≥n `q2_time`

Esta secci√≥n contiene la implementaci√≥n y an√°lisis de la funci√≥n `q2_time`, que procesa un archivo de tweets en formato JSON, extrayendo y contando la frecuencia de los emojis utilizados. El objetivo es identificar los 10 emojis m√°s comunes en el contenido de los tweets enfocado en optimizar el tiempo de ejecuci√≥n.


In [44]:
#Importaciones
from typing import List, Tuple
import json
from collections import Counter
import emoji
import time
from memory_profiler import memory_usage


## Descripci√≥n de la Funci√≥n `q2_time`

La funci√≥n `q2_time` toma como entrada la ruta de un archivo que contiene tweets en formato JSON. Su prop√≥sito es:
- Leer el archivo l√≠nea por l√≠nea.
- Extraer el contenido de cada tweet y contar la cantidad de emojis utilizados.
- Retornar los 10 emojis m√°s comunes junto con sus respectivas frecuencias.

### Par√°metros
- `file_path`: Ruta del archivo que contiene los tweets.

### Retorno
- Una lista de tuplas, donde cada tupla contiene un emoji y su frecuencia en el contenido de los tweets.


### 4.1 Implementaci√≥n de la funci√≥n:

In [49]:
def q2_time(file_path: str) -> List[Tuple[str, int]]:
    # Contador para almacenar la frecuencia de los emojis
    emoji_counter = Counter()

    # Intentar abrir el archivo con codificaci√≥n UTF-8
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            # Leer el archivo l√≠nea por l√≠nea
            for line in file:
                if line.strip():  # Procesar solo l√≠neas no vac√≠as
                    try:
                        # Cargar el contenido de cada l√≠nea como un objeto JSON
                        tweet = json.loads(line)
                        content = tweet.get('content', '')  # Obtener el contenido del tweet
                        
                        # Usar emoji.emoji_list() para obtener todos los emojis en el contenido
                        emojis_in_tweet = [e['emoji'] for e in emoji.emoji_list(content)]
                        # Actualizar el contador con los emojis encontrados
                        emoji_counter.update(emojis_in_tweet)

                    except json.JSONDecodeError as e:
                        print(f"Error al decodificar JSON en la l√≠nea: {line}. Error: {e}")
                    except KeyError as e:
                        print(f"Error: Falta la clave esperada {e} en el tweet: {tweet}")
                    except Exception as e:
                        print(f"Error inesperado al procesar la l√≠nea: {line}. Error: {e}")

    except FileNotFoundError:
        print(f"Error: El archivo {file_path} no fue encontrado.")
        return []
    except Exception as e:
        print(f"Error inesperado al abrir el archivo: {e}")
        return []

    # Obtener los 10 emojis m√°s comunes y sus frecuencias
    top_emojis = emoji_counter.most_common(10)

    return top_emojis


### 4.2 Ejecuci√≥n funci√≥n q2_time

In [47]:
result = q2_time(file_path)
result

Top 10 emojis: [('üôè', 5049), ('üòÇ', 3072), ('üöú', 2972), ('üåæ', 2182), ('üáÆüá≥', 2086), ('ü§£', 1668), ('‚úä', 1651), ('‚ù§Ô∏è', 1382), ('üôèüèª', 1317), ('üíö', 1040)]


[('üôè', 5049),
 ('üòÇ', 3072),
 ('üöú', 2972),
 ('üåæ', 2182),
 ('üáÆüá≥', 2086),
 ('ü§£', 1668),
 ('‚úä', 1651),
 ('‚ù§Ô∏è', 1382),
 ('üôèüèª', 1317),
 ('üíö', 1040)]

### 4.3 Medici√≥n del Tiempo de Ejecuci√≥n y uso de memoria

In [72]:
# Comienza a medir el tiempo de ejecuci√≥n
start_time = time.time()

# Medici√≥n del uso de memoria: pasa la funci√≥n y los argumentos como una tupla
mem_usage = memory_usage((q2_time, (file_path,)), interval=0.1)

# Termina la medici√≥n de tiempo
end_time = time.time()

# Calcula el tiempo de ejecuci√≥n
execution_time = end_time - start_time
# Calcula el uso de memoria
memory_used = max(mem_usage) - min(mem_usage)

# Imprime los resultados
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
print(f"Uso de memoria: {memory_used:.2f} MiB")

Tiempo de ejecuci√≥n: 8.50 segundos
Uso de memoria: 0.86 MiB


### 4.4 Suposiciones y Consideraciones

1. **Formato de Archivo**: Se asume que el archivo JSON est√° bien formado y cada l√≠nea representa un tweet v√°lido.
2. **Estructura del JSON**: Se espera que cada tweet contenga la clave `content` para extraer el texto del tweet.
3. **Manejo de Errores**: La funci√≥n incluye manejos b√°sicos de errores para asegurar que los problemas en el archivo no causen que la funci√≥n falle completamente.
4. **Eficiencia**: Se utiliza `Counter` para facilitar el conteo de emojis, lo que es m√°s eficiente que implementar un conteo manual.


# 5. An√°lisis de Menciones: Funci√≥n `q3_memory`

Esta secci√≥n contiene la implementaci√≥n y an√°lisis de la funci√≥n `q3_memory`, que procesa un archivo de tweets en formato JSON, extrayendo informaci√≥n sobre los usuarios mencionados en cada tweet. El objetivo es identificar los 10 usuarios m√°s mencionados en el conjunto de datos enfocado en optimizar el uso de memoria.


In [52]:
# Importaciones necesarias
from typing import List, Tuple
import json
from collections import Counter
import time
from memory_profiler import memory_usage

## Descripci√≥n de la Funci√≥n `q3_memory`

La funci√≥n `q3_memory` toma como entrada la ruta de un archivo que contiene tweets en formato JSON. Su prop√≥sito es:
- Leer el archivo l√≠nea por l√≠nea para evitar cargar todo en memoria.
- Extraer los usuarios mencionados en cada tweet.
- Contar cu√°ntas veces se menciona a cada usuario.
- Retornar los 10 usuarios m√°s mencionados.

### Par√°metros
- `file_path`: Ruta del archivo que contiene los tweets.

### Retorno
- Una lista de tuplas, donde cada tupla contiene el nombre de usuario y el n√∫mero de menciones.


### 5.1 Implementaci√≥n de la funci√≥n:

In [56]:
def q3_memory(file_path: str) -> List[Tuple[str, int]]:
    # Contador para las menciones de usuarios
    mention_counts = Counter()

    try:
        # Lectura del archivo l√≠nea por l√≠nea para no cargar todo en memoria
        with open(file_path, 'r', encoding='utf-8') as file:
            for line in file:
                if line.strip():  # Procesar solo l√≠neas no vac√≠as
                    try:
                        # Decodificaci√≥n del JSON
                        tweet = json.loads(line.strip())
                        # Obtenci√≥n de usuarios mencionados en cada tweet
                        mentioned_users = tweet.get("mentionedUsers", [])
                        
                        if mentioned_users:  # Verifica si hay usuarios mencionados
                            for user in mentioned_users:
                                # Obtiene el nombre de usuario
                                username = user.get("username")
                                if username:  # Solo contar usuarios v√°lidos
                                    mention_counts[username] += 1  # Incrementa el contador

                    except json.JSONDecodeError as e:
                        # Manejo de errores si hay problemas al decodificar JSON
                        print(f"Error al decodificar JSON en la l√≠nea: {line}. Error: {e}")
                    except Exception as e:
                        # Manejo de errores inesperados
                        print(f"Error inesperado al procesar la l√≠nea: {line}. Error: {e}")

    except FileNotFoundError:
        # Manejo de errores si el archivo no se encuentra
        print(f"Error: El archivo {file_path} no fue encontrado.")
        return []
    except Exception as e:
        # Manejo de errores inesperados al abrir el archivo
        print(f"Error inesperado al abrir el archivo: {e}")
        return []

    # Obtener los 10 usuarios m√°s mencionados
    top_influential = mention_counts.most_common(10)
    
    return top_influential


### 5.2 Ejecuci√≥n funci√≥n q3_memory

In [57]:
result = q3_memory(file_path)
result

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

### 5.3 Medici√≥n del Tiempo de Ejecuci√≥n y uso de memoria

In [94]:
# Comienza a medir el tiempo de ejecuci√≥n
start_time = time.time()

# Medici√≥n del uso de memoria: pasa la funci√≥n y los argumentos como una tupla
mem_usage = memory_usage((q3_memory, (file_path,)), interval=0.1)

# Termina la medici√≥n de tiempo
end_time = time.time()

# Calcula el tiempo de ejecuci√≥n
execution_time = end_time - start_time
# Calcula el uso de memoria
memory_used = max(mem_usage) - min(mem_usage)

# Imprime los resultados
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
print(f"Uso de memoria: {memory_used:.2f} MiB")

Tiempo de ejecuci√≥n: 2.44 segundos
Uso de memoria: 0.02 MiB


### 5.4 Suposiciones y Consideraciones

1. **Formato de Archivo**: Se asume que el archivo JSON est√° bien formado y cada l√≠nea representa un tweet v√°lido.
2. **Estructura del JSON**: Se espera que cada tweet contenga la clave `mentionedUsers`, que es una lista de usuarios mencionados.
3. **Manejo de Errores**: La funci√≥n incluye manejos b√°sicos de errores para asegurar que los problemas en el archivo no causen que la funci√≥n falle completamente.
4. **Eficiencia**: Se utiliza `Counter` para facilitar el conteo de menciones de usuarios, lo que permite obtener resultados r√°pidamente.


# 6. An√°lisis de Menciones en Tweets: Funci√≥n `q3_time`

Esta secci√≥n contiene la implementaci√≥n y an√°lisis de la funci√≥n `q3_time`, que procesa un archivo de tweets en formato JSON para contar la cantidad de menciones de usuarios. El objetivo es identificar los 10 usuarios m√°s mencionados en un conjunto de datos de tweets enfocado en optimizar el tiempo de ejecuci√≥n.


In [59]:
# Importaciones necesarias
from typing import List, Tuple
import json
from collections import defaultdict
import time
from memory_profiler import memory_usage

## Descripci√≥n de la Funci√≥n `q3_time`

La funci√≥n `q3_time` toma como entrada la ruta de un archivo que contiene tweets en formato JSON. Su prop√≥sito es:
- Leer el archivo l√≠nea por l√≠nea.
- Contar cu√°ntas veces se menciona a cada usuario en los tweets.
- Retornar los 10 usuarios m√°s mencionados.

### Par√°metros
- `file_path`: Ruta del archivo que contiene los tweets.

### Retorno
- Una lista de tuplas, donde cada tupla contiene el nombre de usuario y el n√∫mero de menciones.


### 6.1 Implementaci√≥n de la funci√≥n:

In [61]:
def q3_time(file_path: str) -> List[Tuple[str, int]]:
    # Inicializa un diccionario para contar menciones de usuarios
    mention_counts = defaultdict(int)

    try:
        # Lectura del archivo l√≠nea por l√≠nea para no cargar todo en memoria
        with open(file_path, 'r', encoding='utf-8') as file:
            for line in file:
                if line.strip():  # Procesar solo l√≠neas no vac√≠as
                    try:
                        # Intenta decodificar la l√≠nea como JSON
                        tweet = json.loads(line.strip())
                        # Obtenci√≥n de usuarios mencionados en cada tweet
                        mentioned_users = tweet.get("mentionedUsers", [])
                        
                        # Verifica si hay usuarios mencionados
                        if mentioned_users:  
                            for user in mentioned_users:
                                # Extrae el nombre de usuario de cada menci√≥n
                                username = user.get("username")
                                if username:  # Aseg√∫rate de que el nombre de usuario no est√© vac√≠o
                                    mention_counts[username] += 1  # Incrementa el contador para el usuario

                    except json.JSONDecodeError as e:
                        # Captura errores de decodificaci√≥n JSON
                        print(f"Error al decodificar JSON en la l√≠nea: {line}. Error: {e}")
                    except KeyError as e:
                        # Captura errores de claves faltantes
                        print(f"Error: Falta la clave esperada {e} en el tweet: {tweet}")
                    except Exception as e:
                        # Captura cualquier otro error inesperado
                        print(f"Error inesperado al procesar la l√≠nea: {line}. Error: {e}")

    except FileNotFoundError:
        # Manejo de archivo no encontrado
        print(f"Error: El archivo {file_path} no fue encontrado.")
        return []
    except Exception as e:
        # Manejo de errores inesperados al abrir el archivo
        print(f"Error inesperado al abrir el archivo: {e}")
        return []

    # Obtener los 10 usuarios m√°s mencionados
    top_influential = sorted(mention_counts.items(), key=lambda item: item[1], reverse=True)[:10]
    
    return top_influential

### 6.2 Ejecuci√≥n funci√≥n q3_memory

In [62]:
result = q3_time(file_path)
result

[('narendramodi', 2265),
 ('Kisanektamorcha', 1840),
 ('RakeshTikaitBKU', 1644),
 ('PMOIndia', 1427),
 ('RahulGandhi', 1146),
 ('GretaThunberg', 1048),
 ('RaviSinghKA', 1019),
 ('rihanna', 986),
 ('UNHumanRights', 962),
 ('meenaharris', 926)]

### 6.3 Medici√≥n del Tiempo de Ejecuci√≥n y uso de memoria

In [89]:
# Comienza a medir el tiempo de ejecuci√≥n
start_time = time.time()

# Medici√≥n del uso de memoria: pasa la funci√≥n y los argumentos como una tupla
mem_usage = memory_usage((q3_time, (file_path,)), interval=0.1)

# Termina la medici√≥n de tiempo
end_time = time.time()

# Calcula el tiempo de ejecuci√≥n
execution_time = end_time - start_time
# Calcula el uso de memoria
memory_used = max(mem_usage) - min(mem_usage)

# Imprime los resultados
print(f"Tiempo de ejecuci√≥n: {execution_time:.2f} segundos")
print(f"Uso de memoria: {memory_used:.2f} MiB")

Tiempo de ejecuci√≥n: 2.36 segundos
Uso de memoria: 0.56 MiB


### 6.4 Suposiciones y Consideraciones

1. **Formato de Archivo**: Se asume que el archivo JSON est√° bien formado y cada l√≠nea representa un tweet v√°lido.
2. **Estructura del JSON**: Se espera que cada tweet contenga la clave `mentionedUsers` con una lista de usuarios mencionados, y que cada usuario tenga la clave `username`.
3. **Manejo de Errores**: La funci√≥n incluye manejos b√°sicos de errores para asegurar que los problemas en el archivo no causen que la funci√≥n falle completamente.
4. **Eficiencia**: La funci√≥n utiliza `defaultdict` para contar menciones de manera eficiente sin necesidad de inicializar expl√≠citamente cada cuenta.


# 7. Comparaci√≥n soluciones q_memory vs q_time

## 7.1 Top 10 fechas con mas tweets: `q1_memory` vs `q1_time`

## Funci√≥n `q1_memory`

La funci√≥n `q1_memory` est√° dise√±ada para optimizar el uso de memoria al utilizar un enfoque de agregaci√≥n eficiente:

1. **Uso de `defaultdict` y `Counter`:** La funci√≥n emplea `defaultdict` de `collections`, que permite la inicializaci√≥n autom√°tica de un diccionario de contadores (`Counter`). Esto reduce la necesidad de verificar la existencia de claves antes de incrementar el conteo, lo que ahorra espacio en memoria al evitar la creaci√≥n de diccionarios temporales innecesarios.

2. **Lectura por l√≠nea con `islice`:** Utiliza `islice` para leer el archivo l√≠nea por l√≠nea, lo que permite procesar grandes archivos sin cargar todo el contenido en memoria de una sola vez. Esto es particularmente √∫til para manejar archivos de gran tama√±o y evita picos de uso de memoria.

3. **Retenci√≥n de informaci√≥n m√≠nima:** La funci√≥n solo mantiene los datos necesarios para calcular el n√∫mero de tweets por fecha y usuario. Una vez que se obtiene el conteo, se descartan los datos intermedios, lo que minimiza la huella de memoria.

4. **Agrupaci√≥n por fecha y usuario:** Los datos se agrupan en una estructura jer√°rquica (fecha -> usuario -> conteo), lo que permite realizar c√°lculos de resumen de manera eficiente y solo retener los 10 d√≠as con m√°s tweets.

5. **Salida final simplificada:** La funci√≥n devuelve solo las fechas y los usuarios m√°s activos, eliminando datos intermedios que no son necesarios para el resultado final.

## Funci√≥n `q1_time`

Por otro lado, la funci√≥n `q1_time` prioriza el tiempo de ejecuci√≥n a trav√©s de optimizaciones en el procesamiento y manejo de datos:

1. **Uso de `defaultdict` para conteo directo:** Similar a `q1_memory`, esta funci√≥n utiliza `defaultdict` pero con un enfoque de contadores simples. Esto permite incrementar el conteo de tweets de manera directa, lo que mejora la velocidad de acceso y actualizaci√≥n en comparaci√≥n con estructuras de datos m√°s complejas.

2. **Lectura directa del archivo:** La funci√≥n itera directamente sobre las l√≠neas del archivo sin el uso de herramientas como `islice`, lo que puede resultar en una lectura m√°s r√°pida en archivos de menor tama√±o. Sin embargo, para archivos grandes, este enfoque puede aumentar el uso de memoria si no se maneja adecuadamente.

3. **Uso de `heapq` para mantener los 10 d√≠as m√°s relevantes:** Se implementa un heap para mantener solo los 10 d√≠as con m√°s tweets. Esto permite realizar inserciones y eliminaciones de manera eficiente, reduciendo la complejidad del algoritmo para determinar los d√≠as m√°s activos.

4. **C√°lculo del usuario m√°s activo:** Utiliza `max()` para encontrar el usuario con el mayor conteo de tweets de manera eficiente, lo que ahorra tiempo de ejecuci√≥n al evitar la necesidad de ordenar todos los usuarios.

5. **Evita operaciones innecesarias:** La funci√≥n evita mantener listas intermedias de fechas y usuarios, enfoc√°ndose directamente en el c√°lculo de resultados, lo que mejora el rendimiento general.

## Resumen

En resumen, la funci√≥n `q1_memory` est√° optimizada para el uso de memoria al procesar datos de manera eficiente y mantener solo la informaci√≥n esencial, mientras que `q1_time` est√° optimizada para la velocidad de ejecuci√≥n mediante el uso de estructuras de datos adecuadas y m√©todos de procesamiento que minimizan el tiempo de c√°lculo. Ambas funciones son efectivas en su contexto espec√≠fico, logrando as√≠ sus objetivos de optimizaci√≥n.


## 7.2 Optimizaci√≥n de Funciones para Contar Emojis en Tweets: `q2_memory` vs `q2_time`

## Funci√≥n `q2_memory`

La funci√≥n `q2_memory` est√° dise√±ada para optimizar el uso de memoria durante el conteo de emojis en un conjunto de tweets:

1. **Uso de `Counter`:** Se utiliza `Counter` de la biblioteca `collections` para llevar un registro de la frecuencia de cada emoji. Esta estructura es eficiente para contar elementos y permite actualizaciones r√°pidas.

2. **Lectura eficiente del archivo:** La funci√≥n abre el archivo en modo lectura con codificaci√≥n UTF-8 y itera l√≠nea por l√≠nea. Esto evita la carga completa del archivo en memoria, permitiendo manejar archivos grandes sin aumentar el uso de memoria innecesariamente.

3. **Manejo de errores:** Se implementan bloques `try-except` para capturar y manejar errores de decodificaci√≥n JSON y otros errores inesperados. Esto asegura que la funci√≥n siga ejecut√°ndose a pesar de encontrar l√≠neas problem√°ticas.

4. **Contar emojis:** La funci√≥n extrae el contenido de cada tweet y utiliza `emoji.emoji_list()` para obtener los emojis presentes, actualizando el contador para cada uno. Este enfoque es directo y optimiza la recolecci√≥n de datos.

5. **Resultados simplificados:** Al final, la funci√≥n devuelve los 10 emojis m√°s comunes, proporcionando un resumen conciso de los datos procesados y evitando el almacenamiento de informaci√≥n innecesaria.

## Funci√≥n `q2_time`

Por otro lado, la funci√≥n `q2_time` est√° optimizada para el tiempo de ejecuci√≥n, priorizando la rapidez en el procesamiento de datos:

1. **Contador para emojis:** Al igual que `q2_memory`, esta funci√≥n utiliza `Counter` para almacenar la frecuencia de los emojis, lo que permite realizar actualizaciones r√°pidas durante la iteraci√≥n.

2. **Lectura directa del archivo:** La funci√≥n tambi√©n abre el archivo en modo lectura con codificaci√≥n UTF-8, pero maneja la carga del contenido de manera que optimiza el tiempo de acceso.

3. **Manejo de excepciones:** Se implementan bloques de captura de errores similares a los de `q2_memory`, lo que permite manejar problemas con la estructura de datos de los tweets sin interrumpir el flujo de procesamiento.

4. **Actualizaci√≥n de contadores:** La funci√≥n utiliza una lista comprensiva para recopilar todos los emojis encontrados en cada tweet y actualiza el contador usando `emoji_counter.update()`. Esto puede resultar en un procesamiento m√°s r√°pido al evitar m√∫ltiples llamadas de actualizaci√≥n.

5. **Resultado final:** Al igual que en la funci√≥n anterior, devuelve los 10 emojis m√°s comunes, pero lo hace de manera que se optimiza el tiempo de ejecuci√≥n al minimizar operaciones redundantes.

## Resumen

En resumen, la funci√≥n `q2_memory` est√° optimizada para el uso eficiente de la memoria al procesar los datos, mientras que `q2_time` se centra en la velocidad de ejecuci√≥n. Ambas funciones son efectivas para contar la frecuencia de los emojis en los tweets, adapt√°ndose a diferentes necesidades de rendimiento.


## 7.3 Optimizaci√≥n de Funciones para Contar Menciones de Usuarios en Tweets: `q3_memory` vs `q3_time`

## Funci√≥n `q3_memory`

La funci√≥n `q3_memory` est√° dise√±ada para contar las menciones de usuarios en un conjunto de tweets, optimizando el uso de memoria:

1. **Uso de `Counter`:** Se utiliza `Counter` de la biblioteca `collections` para llevar un registro de la frecuencia de menciones de usuarios. Esto permite realizar actualizaciones eficientes y proporciona un resumen conciso de los datos procesados.

2. **Lectura eficiente del archivo:** La funci√≥n abre el archivo en modo lectura con codificaci√≥n UTF-8 y itera l√≠nea por l√≠nea, evitando cargar todo el archivo en memoria. Esto es crucial para manejar archivos grandes sin aumentar innecesariamente el uso de memoria.

3. **Manejo de errores:** Se implementan bloques `try-except` para capturar errores durante la decodificaci√≥n JSON y manejar excepciones inesperadas. Esto asegura que la funci√≥n contin√∫e ejecut√°ndose incluso si encuentra l√≠neas problem√°ticas.

4. **Contar menciones de usuarios:** La funci√≥n extrae la lista de usuarios mencionados en cada tweet y actualiza el contador solo si se proporciona un nombre de usuario v√°lido. Este enfoque directo maximiza la eficiencia en la recolecci√≥n de datos.

5. **Resultados simplificados:** Al final, devuelve los 10 usuarios m√°s mencionados, lo que permite obtener un resumen de los datos relevantes sin necesidad de almacenar informaci√≥n adicional.

## Funci√≥n `q3_time`

Por otro lado, la funci√≥n `q3_time` est√° optimizada para el tiempo de ejecuci√≥n, centr√°ndose en la rapidez del procesamiento de datos:

1. **Uso de `defaultdict`:** Esta funci√≥n utiliza un `defaultdict` de la biblioteca `collections` para contar menciones de usuarios. Esto permite inicializar autom√°ticamente los contadores para nuevos usuarios, simplificando el c√≥digo y mejorando la legibilidad.

2. **Lectura directa del archivo:** Al igual que `q3_memory`, esta funci√≥n abre el archivo en modo lectura con codificaci√≥n UTF-8 y procesa el archivo l√≠nea por l√≠nea, evitando la carga completa en memoria.

3. **Manejo de excepciones:** Se implementan bloques de captura de errores similares a los de `q3_memory`, lo que permite manejar problemas con la estructura de datos de los tweets sin interrumpir el flujo de procesamiento.

4. **Actualizaci√≥n de contadores:** La funci√≥n extrae el nombre de usuario de cada menci√≥n y actualiza el contador utilizando el `defaultdict`. Este enfoque es eficiente y asegura que solo se cuenten los nombres de usuario v√°lidos.

5. **Resultado final:** Al final, devuelve los 10 usuarios m√°s mencionados, ordenados por frecuencia de menci√≥n. Esto permite una r√°pida identificaci√≥n de los usuarios m√°s influyentes en los tweets analizados.

## Resumen

En resumen, la funci√≥n `q3_memory` est√° optimizada para el uso eficiente de la memoria al procesar los datos, mientras que `q3_time` se centra en la velocidad de ejecuci√≥n. Ambas funciones son efectivas para contar la frecuencia de menciones de usuarios en los tweets, adapt√°ndose a diferentes necesidades de rendimiento.
