# Proyecto: An√°lisis de Tweets

## Descripci√≥n del Proyecto
En este proyecto, realizaremos un an√°lisis de datos a partir de un conjunto de tweets almacenados en un archivo JSON. Las tareas incluir√°n la optimizaci√≥n del procesamiento de datos y la generaci√≥n de informes sobre la actividad de los usuarios en Twitter.

## Workflow
Utilizaremos **Gitflow** como nuestro flujo de trabajo para la gesti√≥n de versiones y el desarrollo del proyecto. Las principales ramas que se han creado son:

- **main**: Esta es la rama principal que contiene la versi√≥n estable del proyecto.
- **develop**: Esta rama es la base para el desarrollo de nuevas caracter√≠sticas. Todos los cambios se integrar√°n aqu√≠ antes de ser enviados a la rama principal.
  
Para cada nueva caracter√≠stica o funci√≥n, se crear√° una rama de desarrollo espec√≠fica (`feature/<nombre-de-la-funcion>`). Esto permitir√° un desarrollo organizado y la posibilidad de trabajar en m√∫ltiples funciones simult√°neamente sin interferencias.

## Estructura del Proyecto
- **main**: Contiene la versi√≥n estable del proyecto.
- **develop**: Rama para integrar nuevas caracter√≠sticas.
- **feature/**: Ramas individuales para el desarrollo de funciones espec√≠ficas.

## Tecnolog√≠as Utilizadas
- Python: Lenguaje de programaci√≥n principal.
- Pandas: Librer√≠a para la manipulaci√≥n y an√°lisis de datos.
- Git: Sistema de control de versiones.
- Gitflow: Modelo de ramificaci√≥n para gestionar el flujo de trabajo.


# Optimizaci√≥n de Tiempo: Funci√≥n `count_dates_and_users`  (q1_time)

## Descripci√≥n
La funci√≥n `count_dates_and_users` se encarga de procesar un archivo JSON que contiene registros de tweets y extraer informaci√≥n sobre la actividad de los usuarios en funci√≥n de las fechas. El objetivo principal de esta funci√≥n es optimizar el tiempo de ejecuci√≥n al utilizar estructuras de datos eficientes y un enfoque de procesamiento l√≠nea por l√≠nea.

## Detalles de Implementaci√≥n

### Importaciones
La funci√≥n utiliza las siguientes librer√≠as:
- `os`: Para manejar rutas de archivos.
- `json`: Para cargar los registros de tweets en formato JSON.
- `time`: Para medir el tiempo de ejecuci√≥n.
- `Counter` de `collections`: Para contar la cantidad de tweets por usuario en cada fecha.
- `datetime`: Para manejar las fechas de manera adecuada.

### Proceso
1. **Inicializaci√≥n**: Se inicializa un diccionario `date_user_counter` para contar la cantidad de tweets por usuario en cada fecha.
  
2. **Lectura del Archivo**: Se lee el archivo l√≠nea por l√≠nea. Cada l√≠nea se procesa como un objeto JSON:
   - Se extraen la fecha y el nombre de usuario.
   - La fecha se simplifica a solo la parte de la fecha (sin la hora).
   - Se utiliza `Counter` para llevar un registro de la cantidad de tweets por usuario en cada fecha.

3. **Manejo de Errores**: Se implementa un manejo de errores para ignorar l√≠neas que no se puedan decodificar como JSON.

4. **C√°lculo de Resultados**:
   - Se obtienen las 10 fechas m√°s comunes y la suma de tweets por usuario en cada fecha.
   - Para cada una de estas fechas, se determina el usuario m√°s activo.

5. **Tiempo de Ejecuci√≥n**: Se mide el tiempo total que toma ejecutar la funci√≥n.

### Salida
La funci√≥n retorna dos valores:
- Una lista de tuplas que contiene las 10 fechas m√°s comunes junto con el usuario m√°s activo en esas fechas.
- El tiempo de ejecuci√≥n de la funci√≥n.

### Ejecuci√≥n
Finalmente, se llama a la funci√≥n pasando la ruta del archivo JSON como argumento y se imprimen los resultados.

## Conclusi√≥n
Esta implementaci√≥n permite optimizar el procesamiento de grandes vol√∫menes de datos de tweets, reduciendo significativamente el tiempo de ejecuci√≥n en comparaci√≥n con enfoques m√°s ineficientes.


In [19]:


import subprocess
# Ruta del script que deseas ejecutar
script_path = './q1_time.py'

# Ejecuta el script
result = subprocess.run(['python', script_path], capture_output=True, text=True)

# Imprime la salida del script
print('Salida est√°ndar:')
print(result.stdout)

# Imprime errores si los hay
print('Errores:')
print(result.stderr)






Salida est√°ndar:
Top 10 fechas mas comunes con el usuario mas activo:
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecucion : 3.7000 segundos

Errores:



# Optimizaci√≥n de Memoria en la Funci√≥n `count_dates_and_users`

## Descripci√≥n de la Funci√≥n

La funci√≥n `count_dates_and_users` se encarga de analizar un archivo JSON que contiene tweets, extrayendo la fecha y el nombre de usuario para contar cu√°ntas veces cada usuario tuitea en cada fecha. El objetivo es encontrar las 10 fechas m√°s comunes y el usuario m√°s activo en cada una de esas fechas.

## Cambios Realizados

1. **Uso de `defaultdict`**:
   - Se utiliz√≥ `defaultdict` en lugar de un diccionario est√°ndar para el contador de fechas y usuarios. Esto elimina la necesidad de inicializar un contador para cada fecha manualmente, lo que reduce el uso de memoria y mejora la eficiencia del c√≥digo.

2. **Bloque `if __name__ == '__main__':`**:
   - Se agreg√≥ este bloque para proteger el c√≥digo principal que se ejecuta al iniciar el script. Esto es especialmente importante en sistemas operativos Windows, donde el m√≥dulo `multiprocessing` requiere esta estructura para evitar errores de importaci√≥n.

3. **Monitoreo del Uso de Memoria**:
   - Se implement√≥ el uso de la biblioteca `memory_profiler` para rastrear el uso de memoria durante la ejecuci√≥n de la funci√≥n. Esto permite identificar picos de uso de memoria y optimizar el c√≥digo seg√∫n sea necesario.

## Ventajas de la Optimizaci√≥n

- **Eficiencia en el Uso de Memoria**:
  - La implementaci√≥n de `defaultdict` minimiza el espacio en memoria requerido para almacenar contadores al evitar inicializaciones innecesarias. Esto es especialmente √∫til cuando se procesan grandes vol√∫menes de datos.

- **Robustez del C√≥digo**:
  - Al incluir el bloque `if __name__ == '__main__':`, el c√≥digo se vuelve m√°s seguro y compatible con diferentes entornos de ejecuci√≥n, evitando problemas al crear nuevos procesos.

- **Capacidad de Monitoreo**:
  - El uso de `memory_profiler` permite un an√°lisis detallado del consumo de memoria, facilitando la identificaci√≥n de √°reas que podr√≠an necesitar optimizaci√≥n en futuras implementaciones.

Estos cambios no solo hacen que la funci√≥n sea m√°s eficiente en t√©rminos de uso de memoria, sino que tambi√©n mejoran su robustez y capacidad de monitoreo, lo cual es esencial al trabajar con grandes conjuntos de datos.


In [11]:
# Importar los m√≥dulos necesarios
import os
import sys
from memory_profiler import memory_usage

# Aseg√∫rate de que la ruta al archivo q1_memory.py est√° en el sistema
sys.path.append(os.path.join(os.getcwd(), 'src'))

# Importar la funci√≥n del archivo
from q1_memory import count_dates_and_users

# Definir la ruta al archivo JSON
file_path = os.path.join(os.getcwd(), '..', 'farmers-protest-tweets-2021-2-4.json')

# Funci√≥n envoltorio para medir el uso de memoria
def wrapper_function():
    return count_dates_and_users(file_path)

# Medir el uso de memoria
mem_usage = memory_usage(wrapper_function)

# Llamar a la funci√≥n
top_dates_with_users, execution_time = wrapper_function()

# Mostrar los resultados
print("Top 10 fechas m√°s comunes con el usuario m√°s activo:")
print(top_dates_with_users)
print(f"Tiempo de ejecuci√≥n: {execution_time:.4f} segundos")

# Mostrar el uso de memoria
print(f"Uso de memoria (en MiB): {max(mem_usage) - min(mem_usage)}")


Top 10 fechas m√°s comunes con el usuario m√°s activo:
[(datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 20), 'MangalJ23056160'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 19), 'Preetm91')]
Tiempo de ejecuci√≥n: 2.8413 segundos
Uso de memoria (en MiB): 3.09375


# Optimizaci√≥n de Tiempo en la Funci√≥n count_emojis_in_content
# Descripci√≥n de la Funci√≥n
La funci√≥n count_emojis_in_content procesa un archivo JSON de tweets, extrayendo el contenido de cada tweet en la clave content y utilizando expresiones regulares para identificar y contar los emojis en cada uno. El objetivo es encontrar los 10 emojis m√°s comunes en todo el dataset.

# Cambios Realizados
Filtro m√°s preciso de emojis:
Se utiliz√≥ una expresi√≥n regular mejorada para identificar solo los caracteres que pertenecen al rango Unicode de emojis, ignorando otros caracteres no deseados como letras o s√≠mbolos especiales que se estaban contando incorrectamente.

Optimizaci√≥n del procesamiento de archivos:
En lugar de cargar todo el archivo JSON en memoria, el procesamiento se realiza l√≠nea por l√≠nea, lo cual es m√°s eficiente en t√©rminos de tiempo y memoria. Esto evita consumir grandes cantidades de memoria al procesar archivos grandes.

Uso de Counter para el conteo de emojis:
Se implement√≥ collections.Counter para contar las ocurrencias de los emojis de manera eficiente. Counter es una estructura de datos optimizada para este tipo de tareas, reduciendo el tiempo de ejecuci√≥n en comparaci√≥n con m√©todos manuales.

# Ventajas de la Optimizaci√≥n
Eficiencia en el Tiempo de Ejecuci√≥n:
La mejora en el filtrado de emojis con expresiones regulares m√°s precisas y el uso de Counter permiti√≥ reducir el tiempo de ejecuci√≥n de la funci√≥n. Esto es clave al procesar grandes vol√∫menes de datos en un archivo JSON con m√°s de 120,000 registros.

Precisi√≥n en la Captura de Emojis:
La expresi√≥n regular fue ajustada para eliminar falsos positivos, como letras y otros caracteres que inicialmente aparec√≠an en el top de emojis. Ahora, los resultados reflejan √∫nicamente emojis v√°lidos, evitando confusiones como 'IN' o partes de banderas que se contaban por separado.

Escalabilidad y Manejo de Grandes Vol√∫menes de Datos:
El procesamiento l√≠nea por l√≠nea y el uso eficiente de estructuras de datos permiten que el algoritmo sea escalable, manejando archivos grandes sin impactar negativamente en el rendimiento.

In [13]:
import subprocess

# Ruta del script que deseas ejecutar
script_path = './q2_time.py'

# Ejecuta el script con la codificaci√≥n utf-8
result = subprocess.run(['python', script_path], capture_output=True, text=True, encoding='utf-8')

# Imprime la salida est√°ndar del script
print("Salida est√°ndar:")
print(result.stdout)

# Imprime errores si los hay
print("Errores:")
print(result.stderr)


Salida est√°ndar:
Top 10 emojis m√°s comunes:
[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üáÆ', 2096), ('üá≥', 2094), ('üèª', 2080), ('‚ù§', 1779), ('üèΩ', 1218)]
Tiempo de ejecuci√≥n: 4.8666 segundos

Errores:



# Optimizaci√≥n de Memoria en la Funci√≥n count_emojis_in_content
Descripci√≥n de la Funci√≥n
La funci√≥n count_emojis_in_content tiene como objetivo analizar un archivo JSON de tweets, extrayendo emojis presentes en el contenido de cada tweet y contando su frecuencia. Adem√°s, el c√≥digo incluye una medici√≥n del uso de memoria durante su ejecuci√≥n.

# Cambios Realizados
Optimizaci√≥n de la Expresi√≥n Regular para Emojis:
Se utiliz√≥ una expresi√≥n regular optimizada para capturar una amplia variedad de emojis y otros s√≠mbolos relevantes. Se mejor√≥ su desempe√±o al limitar los rangos a aquellos necesarios para encontrar emojis y s√≠mbolos de inter√©s.

Uso de Counter para Conteo Eficiente:
Se utiliz√≥ la estructura Counter de la biblioteca collections, lo que permite realizar el conteo de emojis de manera m√°s eficiente y con menor impacto en el uso de memoria.

Encapsulaci√≥n del C√≥digo Principal en un Bloque if __name__ == '__main__'::
Este cambio garantiza que la funci√≥n principal solo se ejecute cuando el script se ejecute directamente, evitando errores relacionados con la creaci√≥n de procesos m√∫ltiples en sistemas operativos como Windows. Esto es importante ya que memory_profiler 
utiliza m√∫ltiples procesos para realizar el an√°lisis de memoria.

Implementaci√≥n de memory_profiler para Medir el Uso de Memoria:
Se utiliz√≥ la funci√≥n memory_usage de la biblioteca memory_profiler para rastrear el uso de memoria durante la ejecuci√≥n de la funci√≥n count_emojis_in_content. Este monitoreo en tiempo real ayuda a identificar picos y cuellos de botella en el uso de recursos.

Evitaci√≥n de la Carga Completa en Memoria:
En lugar de cargar todo el archivo JSON de tweets en memoria, se proces√≥ el archivo l√≠nea por l√≠nea. Esto permite que el c√≥digo maneje grandes archivos sin agotar la memoria, ya que solo mantiene en memoria la l√≠nea actual que est√° siendo procesada.

# Ventajas de la Optimizaci√≥n
Eficiencia en el Uso de Memoria:
Procesar el archivo JSON l√≠nea por l√≠nea minimiza el uso de memoria, lo que es crucial cuando se trabaja con grandes vol√∫menes de datos.

Medici√≥n Detallada del Consumo de Memoria:
Al implementar memory_profiler, se obtiene una visi√≥n clara del uso m√°ximo de memoria durante la ejecuci√≥n. Esto permite optimizar y ajustar el c√≥digo seg√∫n las necesidades de escalabilidad.

Reducci√≥n del Sobrecargo en la CPU:
La combinaci√≥n de Counter y un procesamiento incremental del archivo reduce la carga computacional al evitar operaciones costosas en memoria y c√°lculos repetidos.

In [17]:
# Importar los m√≥dulos necesarios
import os
import sys
from memory_profiler import memory_usage

# Aseg√∫rate de que la ruta al archivo q2_memory.py est√° en el sistema
sys.path.append(os.path.join(os.getcwd(), 'src'))

# Importar la funci√≥n del archivo
from q2_memory import count_emojis_in_content

# Definir la ruta al archivo JSON
file_path = os.path.join(os.getcwd(), '..', 'farmers-protest-tweets-2021-2-4.json')

# Funci√≥n envoltorio para medir el uso de memoria
def wrapper_function():
    return count_emojis_in_content(file_path)

# Medir el uso de memoria
mem_usage = memory_usage(wrapper_function)

# Llamar a la funci√≥n
top_emojis, execution_time = wrapper_function()

# Mostrar los resultados
print("Top 10 emojis m√°s comunes:")
print(top_emojis)
print(f"Tiempo de ejecuci√≥n: {execution_time:.4f} segundos")

# Mostrar el uso de memoria
print(f"Uso de memoria (en MiB): {max(mem_usage) - min(mem_usage)}")



Top 10 emojis m√°s comunes:
[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üáÆ', 2096), ('üá≥', 2094), ('üèª', 2080), ('‚ù§', 1779), ('üèΩ', 1218)]
Tiempo de ejecuci√≥n: 2.7618 segundos
Uso de memoria (en MiB): 0.3359375


# Funci√≥n para Contar Menciones en Tweets
Esta funci√≥n se encarga de identificar y contar las menciones a usuarios en los tweets del archivo JSON, excluyendo el s√≠mbolo '@' de los nombres de usuario. Devuelve las diez menciones m√°s frecuentes junto con su conteo.

# Implementaci√≥n y Optimizaci√≥n
Expresiones Regulares: Utiliza una expresi√≥n regular eficiente (@(\w+)) para capturar nombres de usuario directamente, lo que acelera el proceso de identificaci√≥n de menciones.

Lectura Eficiente: Procesa el archivo l√≠nea por l√≠nea, lo que ahorra memoria y mejora la velocidad de ejecuci√≥n al permitir que los tweets se analicen en tiempo real.

Contador Eficiente: Emplea collections.Counter para realizar un conteo r√°pido y optimizado de las menciones.

# Resultado
La funci√≥n retorna una lista de las diez menciones m√°s comunes en el formato [(username, count), ...] y el tiempo total de ejecuci√≥n.

In [20]:
import os
import time

# Ruta del archivo q3_time.py
script_path = os.path.join(os.getcwd(), 'q3_time.py')

# Importar la funci√≥n desde el archivo
from q3_time import count_mentions_in_content

# Definir la ruta al archivo JSON
file_path = os.path.join(os.getcwd(), '..', 'farmers-protest-tweets-2021-2-4.json')

# Medir el tiempo de ejecuci√≥n
start_time = time.time()
top_mentions = count_mentions_in_content(file_path)
elapsed_time = time.time() - start_time

# Mostrar resultados
print("Top 10 usuarios m√°s mencionados:")
print(top_mentions)
print(f"Tiempo de ejecuci√≥n: {elapsed_time:.4f} segundos")



Top 10 usuarios m√°s mencionados:
([('narendramodi', 2261), ('Kisanektamorcha', 1836), ('RakeshTikaitBKU', 1639), ('PMOIndia', 1422), ('RahulGandhi', 1125), ('GretaThunberg', 1046), ('RaviSinghKA', 1015), ('rihanna', 972), ('UNHumanRights', 962), ('meenaharris', 925)], 2.684865713119507)
Tiempo de ejecuci√≥n: 2.6849 segundos


Reflexiones Finales
Este reto ha sido una experiencia sumamente interesante y enriquecedora. La optimizaci√≥n del c√≥digo es crucial cuando se trabaja con grandes vol√∫menes de datos, como los tweets analizados en este proyecto. A medida que los conjuntos de datos crecen, las t√©cnicas tradicionales de programaci√≥n pueden llegar a su l√≠mite, especialmente en t√©rminos de complejidad, que se reduce a O(n) o O(1).

Para llevar el procesamiento de datos m√°s all√° de estos l√≠mites, ser√≠a esencial aplicar t√©cnicas de Big Data. Una estrategia efectiva podr√≠a ser el uso de clustering para organizar y analizar la informaci√≥n de manera m√°s eficiente. Si el tama√±o de los datos lo requiere, considerar√≠a utilizar PySpark para el procesamiento distribuido, lo que permitir√≠a manejar grandes vol√∫menes de informaci√≥n de forma m√°s escalable. Adem√°s, aprovechar servicios en la nube, como los que ofrece AWS, podr√≠a facilitar la implementaci√≥n de estas t√©cnicas, garantizando un manejo m√°s robusto y eficiente de los datos.