# Proyecto: Análisis de Tweets

## Descripción del Proyecto
En este proyecto, realizaremos un análisis de datos a partir de un conjunto de tweets almacenados en un archivo JSON. Las tareas incluirán la optimización del procesamiento de datos y la generación de informes sobre la actividad de los usuarios en Twitter.

## Workflow
Utilizaremos **Gitflow** como nuestro flujo de trabajo para la gestión de versiones y el desarrollo del proyecto. Las principales ramas que se han creado son:

- **main**: Esta es la rama principal que contiene la versión estable del proyecto.
- **develop**: Esta rama es la base para el desarrollo de nuevas características. Todos los cambios se integrarán aquí antes de ser enviados a la rama principal.
  
Para cada nueva característica o función, se creará una rama de desarrollo específica (`feature/<nombre-de-la-funcion>`). Esto permitirá un desarrollo organizado y la posibilidad de trabajar en múltiples funciones simultáneamente sin interferencias.

## Estructura del Proyecto
- **main**: Contiene la versión estable del proyecto.
- **develop**: Rama para integrar nuevas características.
- **feature/**: Ramas individuales para el desarrollo de funciones específicas.

## Tecnologías Utilizadas
- Python: Lenguaje de programación principal.
- Pandas: Librería para la manipulación y análisis de datos.
- Git: Sistema de control de versiones.
- Gitflow: Modelo de ramificación para gestionar el flujo de trabajo.


# Optimización de Tiempo: Función `count_dates_and_users`  (q1_time)

## Descripción
La función `count_dates_and_users` se encarga de procesar un archivo JSON que contiene registros de tweets y extraer información sobre la actividad de los usuarios en función de las fechas. El objetivo principal de esta función es optimizar el tiempo de ejecución al utilizar estructuras de datos eficientes y un enfoque de procesamiento línea por línea.

## Detalles de Implementación

### Importaciones
La función utiliza las siguientes librerías:
- `os`: Para manejar rutas de archivos.
- `json`: Para cargar los registros de tweets en formato JSON.
- `time`: Para medir el tiempo de ejecución.
- `Counter` de `collections`: Para contar la cantidad de tweets por usuario en cada fecha.
- `datetime`: Para manejar las fechas de manera adecuada.

### Proceso
1. **Inicialización**: Se inicializa un diccionario `date_user_counter` para contar la cantidad de tweets por usuario en cada fecha.
  
2. **Lectura del Archivo**: Se lee el archivo línea por línea. Cada línea se procesa como un objeto JSON:
   - Se extraen la fecha y el nombre de usuario.
   - La fecha se simplifica a solo la parte de la fecha (sin la hora).
   - Se utiliza `Counter` para llevar un registro de la cantidad de tweets por usuario en cada fecha.

3. **Manejo de Errores**: Se implementa un manejo de errores para ignorar líneas que no se puedan decodificar como JSON.

4. **Cálculo de Resultados**:
   - Se obtienen las 10 fechas más comunes y la suma de tweets por usuario en cada fecha.
   - Para cada una de estas fechas, se determina el usuario más activo.

5. **Tiempo de Ejecución**: Se mide el tiempo total que toma ejecutar la función.

### Salida
La función retorna dos valores:
- Una lista de tuplas que contiene las 10 fechas más comunes junto con el usuario más activo en esas fechas.
- El tiempo de ejecución de la función.

### Ejecución
Finalmente, se llama a la función pasando la ruta del archivo JSON como argumento y se imprimen los resultados.

## Conclusión
Esta implementación permite optimizar el procesamiento de grandes volúmenes de datos de tweets, reduciendo significativamente el tiempo de ejecución en comparación con enfoques más ineficientes.


In [19]:


import subprocess
# Ruta del script que deseas ejecutar
script_path = './q1_time.py'

# Ejecuta el script
result = subprocess.run(['python', script_path], capture_output=True, text=True)

# Imprime la salida del script
print('Salida estándar:')
print(result.stdout)

# Imprime errores si los hay
print('Errores:')
print(result.stderr)






Salida estándar:
Top 10 fechas mas comunes con el usuario mas activo:
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecucion : 3.7000 segundos

Errores:



# Optimización de Memoria en la Función `count_dates_and_users`

## Descripción de la Función

La función `count_dates_and_users` se encarga de analizar un archivo JSON que contiene tweets, extrayendo la fecha y el nombre de usuario para contar cuántas veces cada usuario tuitea en cada fecha. El objetivo es encontrar las 10 fechas más comunes y el usuario más activo en cada una de esas fechas.

## Cambios Realizados

1. **Uso de `defaultdict`**:
   - Se utilizó `defaultdict` en lugar de un diccionario estándar para el contador de fechas y usuarios. Esto elimina la necesidad de inicializar un contador para cada fecha manualmente, lo que reduce el uso de memoria y mejora la eficiencia del código.

2. **Bloque `if __name__ == '__main__':`**:
   - Se agregó este bloque para proteger el código principal que se ejecuta al iniciar el script. Esto es especialmente importante en sistemas operativos Windows, donde el módulo `multiprocessing` requiere esta estructura para evitar errores de importación.

3. **Monitoreo del Uso de Memoria**:
   - Se implementó el uso de la biblioteca `memory_profiler` para rastrear el uso de memoria durante la ejecución de la función. Esto permite identificar picos de uso de memoria y optimizar el código según sea necesario.

## Ventajas de la Optimización

- **Eficiencia en el Uso de Memoria**:
  - La implementación de `defaultdict` minimiza el espacio en memoria requerido para almacenar contadores al evitar inicializaciones innecesarias. Esto es especialmente útil cuando se procesan grandes volúmenes de datos.

- **Robustez del Código**:
  - Al incluir el bloque `if __name__ == '__main__':`, el código se vuelve más seguro y compatible con diferentes entornos de ejecución, evitando problemas al crear nuevos procesos.

- **Capacidad de Monitoreo**:
  - El uso de `memory_profiler` permite un análisis detallado del consumo de memoria, facilitando la identificación de áreas que podrían necesitar optimización en futuras implementaciones.

Estos cambios no solo hacen que la función sea más eficiente en términos de uso de memoria, sino que también mejoran su robustez y capacidad de monitoreo, lo cual es esencial al trabajar con grandes conjuntos de datos.


In [11]:
# Importar los módulos necesarios
import os
import sys
from memory_profiler import memory_usage

# Asegúrate de que la ruta al archivo q1_memory.py está en el sistema
sys.path.append(os.path.join(os.getcwd(), 'src'))

# Importar la función del archivo
from q1_memory import count_dates_and_users

# Definir la ruta al archivo JSON
file_path = os.path.join(os.getcwd(), '..', 'farmers-protest-tweets-2021-2-4.json')

# Función envoltorio para medir el uso de memoria
def wrapper_function():
    return count_dates_and_users(file_path)

# Medir el uso de memoria
mem_usage = memory_usage(wrapper_function)

# Llamar a la función
top_dates_with_users, execution_time = wrapper_function()

# Mostrar los resultados
print("Top 10 fechas más comunes con el usuario más activo:")
print(top_dates_with_users)
print(f"Tiempo de ejecución: {execution_time:.4f} segundos")

# Mostrar el uso de memoria
print(f"Uso de memoria (en MiB): {max(mem_usage) - min(mem_usage)}")


Top 10 fechas más comunes con el usuario más activo:
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecución: 2.8413 segundos
Uso de memoria (en MiB): 3.09375


# Optimización de Tiempo en la Función count_emojis_in_content
# Descripción de la Función
La función count_emojis_in_content procesa un archivo JSON de tweets, extrayendo el contenido de cada tweet en la clave content y utilizando expresiones regulares para identificar y contar los emojis en cada uno. El objetivo es encontrar los 10 emojis más comunes en todo el dataset.

# Cambios Realizados
Filtro más preciso de emojis:
Se utilizó una expresión regular mejorada para identificar solo los caracteres que pertenecen al rango Unicode de emojis, ignorando otros caracteres no deseados como letras o símbolos especiales que se estaban contando incorrectamente.

Optimización del procesamiento de archivos:
En lugar de cargar todo el archivo JSON en memoria, el procesamiento se realiza línea por línea, lo cual es más eficiente en términos de tiempo y memoria. Esto evita consumir grandes cantidades de memoria al procesar archivos grandes.

Uso de Counter para el conteo de emojis:
Se implementó collections.Counter para contar las ocurrencias de los emojis de manera eficiente. Counter es una estructura de datos optimizada para este tipo de tareas, reduciendo el tiempo de ejecución en comparación con métodos manuales.

# Ventajas de la Optimización
Eficiencia en el Tiempo de Ejecución:
La mejora en el filtrado de emojis con expresiones regulares más precisas y el uso de Counter permitió reducir el tiempo de ejecución de la función. Esto es clave al procesar grandes volúmenes de datos en un archivo JSON con más de 120,000 registros.

Precisión en la Captura de Emojis:
La expresión regular fue ajustada para eliminar falsos positivos, como letras y otros caracteres que inicialmente aparecían en el top de emojis. Ahora, los resultados reflejan únicamente emojis válidos, evitando confusiones como 'IN' o partes de banderas que se contaban por separado.

Escalabilidad y Manejo de Grandes Volúmenes de Datos:
El procesamiento línea por línea y el uso eficiente de estructuras de datos permiten que el algoritmo sea escalable, manejando archivos grandes sin impactar negativamente en el rendimiento.

In [13]:
import subprocess

# Ruta del script que deseas ejecutar
script_path = './q2_time.py'

# Ejecuta el script con la codificación utf-8
result = subprocess.run(['python', script_path], capture_output=True, text=True, encoding='utf-8')

# Imprime la salida estándar del script
print("Salida estándar:")
print(result.stdout)

# Imprime errores si los hay
print("Errores:")
print(result.stderr)


Salida estándar:
Top 10 emojis más comunes:
[('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🇮', 2096), ('🇳', 2094), ('🏻', 2080), ('❤', 1779), ('🏽', 1218)]
Tiempo de ejecución: 4.8666 segundos

Errores:



# Optimización de Memoria en la Función count_emojis_in_content
Descripción de la Función
La función count_emojis_in_content tiene como objetivo analizar un archivo JSON de tweets, extrayendo emojis presentes en el contenido de cada tweet y contando su frecuencia. Además, el código incluye una medición del uso de memoria durante su ejecución.

# Cambios Realizados
Optimización de la Expresión Regular para Emojis:
Se utilizó una expresión regular optimizada para capturar una amplia variedad de emojis y otros símbolos relevantes. Se mejoró su desempeño al limitar los rangos a aquellos necesarios para encontrar emojis y símbolos de interés.

Uso de Counter para Conteo Eficiente:
Se utilizó la estructura Counter de la biblioteca collections, lo que permite realizar el conteo de emojis de manera más eficiente y con menor impacto en el uso de memoria.

Encapsulación del Código Principal en un Bloque if __name__ == '__main__'::
Este cambio garantiza que la función principal solo se ejecute cuando el script se ejecute directamente, evitando errores relacionados con la creación de procesos múltiples en sistemas operativos como Windows. Esto es importante ya que memory_profiler 
utiliza múltiples procesos para realizar el análisis de memoria.

Implementación de memory_profiler para Medir el Uso de Memoria:
Se utilizó la función memory_usage de la biblioteca memory_profiler para rastrear el uso de memoria durante la ejecución de la función count_emojis_in_content. Este monitoreo en tiempo real ayuda a identificar picos y cuellos de botella en el uso de recursos.

Evitación de la Carga Completa en Memoria:
En lugar de cargar todo el archivo JSON de tweets en memoria, se procesó el archivo línea por línea. Esto permite que el código maneje grandes archivos sin agotar la memoria, ya que solo mantiene en memoria la línea actual que está siendo procesada.

# Ventajas de la Optimización
Eficiencia en el Uso de Memoria:
Procesar el archivo JSON línea por línea minimiza el uso de memoria, lo que es crucial cuando se trabaja con grandes volúmenes de datos.

Medición Detallada del Consumo de Memoria:
Al implementar memory_profiler, se obtiene una visión clara del uso máximo de memoria durante la ejecución. Esto permite optimizar y ajustar el código según las necesidades de escalabilidad.

Reducción del Sobrecargo en la CPU:
La combinación de Counter y un procesamiento incremental del archivo reduce la carga computacional al evitar operaciones costosas en memoria y cálculos repetidos.

In [17]:
# Importar los módulos necesarios
import os
import sys
from memory_profiler import memory_usage

# Asegúrate de que la ruta al archivo q2_memory.py está en el sistema
sys.path.append(os.path.join(os.getcwd(), 'src'))

# Importar la función del archivo
from q2_memory import count_emojis_in_content

# Definir la ruta al archivo JSON
file_path = os.path.join(os.getcwd(), '..', 'farmers-protest-tweets-2021-2-4.json')

# Función envoltorio para medir el uso de memoria
def wrapper_function():
    return count_emojis_in_content(file_path)

# Medir el uso de memoria
mem_usage = memory_usage(wrapper_function)

# Llamar a la función
top_emojis, execution_time = wrapper_function()

# Mostrar los resultados
print("Top 10 emojis más comunes:")
print(top_emojis)
print(f"Tiempo de ejecución: {execution_time:.4f} segundos")

# Mostrar el uso de memoria
print(f"Uso de memoria (en MiB): {max(mem_usage) - min(mem_usage)}")



Top 10 emojis más comunes:
[('🙏', 7286), ('😂', 3072), ('🚜', 2972), ('✊', 2411), ('🌾', 2363), ('🇮', 2096), ('🇳', 2094), ('🏻', 2080), ('❤', 1779), ('🏽', 1218)]
Tiempo de ejecución: 2.7618 segundos
Uso de memoria (en MiB): 0.3359375


# Función para Contar Menciones en Tweets
Esta función se encarga de identificar y contar las menciones a usuarios en los tweets del archivo JSON, excluyendo el símbolo '@' de los nombres de usuario. Devuelve las diez menciones más frecuentes junto con su conteo.

# Implementación y Optimización
Expresiones Regulares: Utiliza una expresión regular eficiente (@(\w+)) para capturar nombres de usuario directamente, lo que acelera el proceso de identificación de menciones.

Lectura Eficiente: Procesa el archivo línea por línea, lo que ahorra memoria y mejora la velocidad de ejecución al permitir que los tweets se analicen en tiempo real.

Contador Eficiente: Emplea collections.Counter para realizar un conteo rápido y optimizado de las menciones.

# Resultado
La función retorna una lista de las diez menciones más comunes en el formato [(username, count), ...] y el tiempo total de ejecución.

In [20]:
import os
import time

# Ruta del archivo q3_time.py
script_path = os.path.join(os.getcwd(), 'q3_time.py')

# Importar la función desde el archivo
from q3_time import count_mentions_in_content

# Definir la ruta al archivo JSON
file_path = os.path.join(os.getcwd(), '..', 'farmers-protest-tweets-2021-2-4.json')

# Medir el tiempo de ejecución
start_time = time.time()
top_mentions = count_mentions_in_content(file_path)
elapsed_time = time.time() - start_time

# Mostrar resultados
print("Top 10 usuarios más mencionados:")
print(top_mentions)
print(f"Tiempo de ejecución: {elapsed_time:.4f} segundos")



Top 10 usuarios más mencionados:
([('narendramodi', 2261), ('Kisanektamorcha', 1836), ('RakeshTikaitBKU', 1639), ('PMOIndia', 1422), ('RahulGandhi', 1125), ('GretaThunberg', 1046), ('RaviSinghKA', 1015), ('rihanna', 972), ('UNHumanRights', 962), ('meenaharris', 925)], 2.684865713119507)
Tiempo de ejecución: 2.6849 segundos


Reflexiones Finales
Este reto ha sido una experiencia sumamente interesante y enriquecedora. La optimización del código es crucial cuando se trabaja con grandes volúmenes de datos, como los tweets analizados en este proyecto. A medida que los conjuntos de datos crecen, las técnicas tradicionales de programación pueden llegar a su límite, especialmente en términos de complejidad, que se reduce a O(n) o O(1).

Para llevar el procesamiento de datos más allá de estos límites, sería esencial aplicar técnicas de Big Data. Una estrategia efectiva podría ser el uso de clustering para organizar y analizar la información de manera más eficiente. Si el tamaño de los datos lo requiere, consideraría utilizar PySpark para el procesamiento distribuido, lo que permitiría manejar grandes volúmenes de información de forma más escalable. Además, aprovechar servicios en la nube, como los que ofrece AWS, podría facilitar la implementación de estas técnicas, garantizando un manejo más robusto y eficiente de los datos.