# Desaf√≠o de Ingenier√≠a de Datos ‚Äî An√°lisis de Tweets

## 1. Preparaci√≥n del entorno y contexto

En esta secci√≥n, nos aseguramos de tener los archivos necesarios, descargamos los datos de Drive si es necesario, los convertimos a parquet para un mejor uso con DuckDB y respondemos preguntas.

### Contexto y enfoque para resolver el desaf√≠o

Este notebook documenta todo el proceso de soluci√≥n del desaf√≠o de an√°lisis de tweets. Abarca desde la obtenci√≥n de datos hasta la optimizaci√≥n del procesamiento y la evaluaci√≥n del rendimiento en tiempo y memoria.

Recibimos un archivo JSON con tweets relacionados con las protestas agr√≠colas en India. El objetivo era responder a tres preguntas espec√≠ficas relacionadas con fechas, emojis y usuarios mencionados. Busqu√© una soluci√≥n que fuera:

- Eficiente en tiempo y memoria.

- F√°cil de mantener y reproducir.

- Basada en herramientas modernas y adecuadas para an√°lisis de datos.

### Decisiones t√©cnicas y bibliotecas utilizadas

- **DuckDB:** Consultas anal√≠ticas SQL directamente sobre archivos Parquet y JSON. Eleg√≠ DuckDB como motor de consultas SQL embebido en Python por varias razones:
  - Permite ejecutar consultas SQL directamente sobre archivos Parquet y JSON sin necesidad de cargas complejas.
  - Es muy eficiente para an√°lisis de datos en columnas (columnar), lo que mejora el rendimiento al trabajar con grandes vol√∫menes de datos.
  - Proporciona un lenguaje declarativo (SQL) para consultas complejas, facilitando la extracci√≥n y agregaci√≥n de informaci√≥n.
  - Comparado con leer archivos directamente con pandas, DuckDB es m√°s r√°pido y consume menos memoria cuando se manejan grandes datasets.
  - Evita la necesidad de construir procesos ETL o pipelines externos, manteniendo todo en un solo entorno de c√≥digo.
  - Mayor facilidad de toda la equipa en usar SQL para extraer informaciones.

- **gdown:** Para descargar archivos desde Google Drive de forma automatizada y reproducible.

- **emoji:** Para manusear emojis en contenido de cada tweet y extraer los m√°s utilizados.

- **memory_profiler:** Medici√≥n precisa del uso de memoria por funci√≥n.

- **time / cProfile:** Medici√≥n de tiempo de ejecuci√≥n.

### Razonamiento general del enfoque

1. **Preparaci√≥n de datos:** 
   - El dataset original est√° en formato JSON, con tweets almacenados l√≠nea a l√≠nea.
   - Para consultas eficientes, convertimos este JSON a Parquet, un formato columnar optimizado para consultas anal√≠ticas, utilizando DuckDB por mejor performance y facilidad.

2. **Consultas anal√≠ticas:**
   - Utilizo SQL para filtrar, agrupar y ordenar los datos, logrando respuestas r√°pidas y claras a las preguntas.
   - Uso expresiones regulares para extraer emojis y menciones dentro del texto de los tweets.
   - Extraigo solo los datos relevantes para cada pregunta, mejorando el rendimiento.

3. **Ventajas de esta soluci√≥n:**
   - C√≥digo limpio y mantenible.
   - Uso de tecnolog√≠as que permiten escalabilidad a datasets m√°s grandes.
   - Facilidad para modificar y extender consultas futuras.

---


## 2. Ejecuci√≥n dos scripts de preparaci√≥n

Descarga del archivo JSON: Primero hacemos el download de lo arquivo json, salvo en un drive, usando a lib gdown. Esta funcion armazenar√° el arquivo json en la pasta data/. Caso el arquivo ya estea en la pasta, el script nos avisar√° e pular√° el processo de download de lo arquivo.

Antes de todo, tenemos que instalar las dependecias:

In [None]:
%pip install -r ../requirements.txt

In [1]:
from download_data import download_file_from_google_drive

In [2]:
download_file_from_google_drive()

‚úÖ File already exists. Skipping download.
Elapsed: 0.0032 seconds


Conversi√≥n de JSON a Parquet: Esta funci√≥n usa DuckDB para leer el archivo JSON l√≠nea por l√≠nea (read_json_auto) y escribirlo como Parquet (COPY TO ... (FORMAT PARQUET)), lo cual mejora significativamente el rendimiento de las consultas.

In [3]:
from convert_to_parquet import convert_json_to_parquet

In [4]:
convert_json_to_parquet()

‚úÖ Parquet file already exists.
Elapsed: 0.0016 seconds


## 3. Respuestas a las preguntas (tiempo de ejecuci√≥n)

Agora tenemos el arquivo .parquet para hacer consultas optimizadas con duckdb, entoncens podemos responder las preguntas

3.1. Las top 10 fechas donde hay m√°s tweets. Mencionar el usuario (username) que m√°s publicaciones tiene por cada uno de esos d√≠as. Debe incluir las siguientes funciones:

In [5]:
import q1_time as q1

In [6]:
q1.execute()

[(datetime.date(2021, 2, 19), 'Preetm91'), (datetime.date(2021, 2, 18), 'neetuanjle_nitu'), (datetime.date(2021, 2, 17), 'RaaJVinderkaur'), (datetime.date(2021, 2, 13), 'MaanDee08215437'), (datetime.date(2021, 2, 12), 'RanbirS00614606'), (datetime.date(2021, 2, 23), 'Surrypuria'), (datetime.date(2021, 2, 15), 'jot__b'), (datetime.date(2021, 2, 16), 'jot__b'), (datetime.date(2021, 2, 14), 'rebelpacifist'), (datetime.date(2021, 2, 20), 'MangalJ23056160')]
Elapsed: 0.1369 seconds


- Usamos DuckDB para extraer la fecha (date) a partir del campo date del tweet, agrupamos por fecha contando la cantidad de tweets para cada fecha.

- Agrupamos por fecha y por username, contando la cantidad de tweets.

- Luego, para cada fecha, usamos una subconsulta para seleccionar el usuario con m√°s publicaciones.

- Se devuelve el top 10 de fechas con m√°s tweets y su usuario m√°s activo.

3.2. Los top 10 emojis m√°s usados con su respectivo conteo. Debe incluir las siguientes funciones:

In [7]:
import q2_time as q2

In [8]:
q2.execute()

[('üôè', 7286), ('üòÇ', 3072), ('üöú', 2972), ('‚úä', 2411), ('üåæ', 2363), ('üèª', 2080), ('‚ù§', 1779), ('ü§£', 1668), ('üèΩ', 1218), ('üëá', 1108)]
Elapsed: 1.4969 seconds


- Extraemos solo la columna content usando DuckDB.

- Iteramos sobre cada tweet no nulo y usamos la biblioteca emoji para detectar y extraer todos los emojis.

- Guardamos todos los emojis en una lista y usamos collections.Counter para contar las ocurrencias.

- Devolvemos los 10 emojis m√°s frecuentes con su respectivo conteo.

‚ö†Ô∏è Esta funci√≥n fue optimizada para ignorar caracteres comunes y s√≥lo contar emojis v√°lidos seg√∫n el est√°ndar Unicode Emoji.

3.3. El top 10 hist√≥rico de usuarios (username) m√°s influyentes en funci√≥n del conteo de las menciones (@) que registra cada uno de ellos.

In [9]:
import q3_time as q3

In [10]:
q3.execute()

[('narendramodi', 2261), ('Kisanektamorcha', 1836), ('RakeshTikaitBKU', 1641), ('PMOIndia', 1422), ('RahulGandhi', 1125), ('GretaThunberg', 1046), ('RaviSinghKA', 1015), ('rihanna', 972), ('UNHumanRights', 962), ('meenaharris', 925)]
Elapsed: 0.1868 seconds


- Extraemos la columna content con DuckDB.

- Usamos expresiones regulares para detectar menciones del tipo @usuario.

- Para cada tweet, recolectamos las menciones y las agregamos.

- Contamos las ocurrencias de cada usuario mencionado y devolvemos el top 10.

## 4. Medici√≥n de memoria utilizada

In [1]:
import q1_memory as q1_m
import q2_memory as q2_m
import q3_memory as q3_m

In [2]:
%load_ext memory_profiler
%memit q1_m.execute()



Filename: c:\Users\ebraim\Documents\personal\challenge_DE\src\q1_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     7     76.6 MiB     76.6 MiB           1   @profile
     8                                         def q1_time(file_path: str) -> List[Tuple[datetime.date, str]]:
     9                                         
    10     76.6 MiB      0.0 MiB           1       CURRENT_FOLDER = Path(__file__).resolve()
    11     76.6 MiB      0.0 MiB           1       PROJECT_ROOT = CURRENT_FOLDER.parent.parent
    12                                         
    13     85.0 MiB      8.4 MiB           1       con = duckdb.connect(database=':memory:')
    14                                         
    15     90.7 MiB      5.7 MiB           2       con.execute(f"""
    16                                                 CREATE TABLE tweets AS 
    17                                                 SELECT 
    18                                                     C

In [3]:
%load_ext memory_profiler
%memit q2_m.execute()

The memory_profiler extension is already loaded. To reload it, use:
  %reload_ext memory_profiler
Filename: c:\Users\ebraim\Documents\personal\challenge_DE\src\q2_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
    11     88.5 MiB     88.5 MiB           1   @profile
    12                                         def q2_time(file_path: str) -> List[Tuple[str, int]]:
    13                                         
    14     88.5 MiB      0.0 MiB           1       CURRENT_FOLDER = Path(__file__).resolve()
    15     88.5 MiB      0.0 MiB           1       PROJECT_ROOT = CURRENT_FOLDER.parent.parent
    16                                         
    17    180.1 MiB     91.5 MiB           1       df = duckdb.query(f"SELECT content FROM read_parquet('{PROJECT_ROOT}/{file_path}')").to_df()
    18                                         
    19    180.1 MiB      0.0 MiB           1       all_emojis = []
    20                                         
    21    185.0 

In [4]:
%load_ext memory_profiler
%memit q3_m.execute()

The memory_profiler extension is already loaded. To reload it, use:
  %reload_ext memory_profiler
Filename: c:\Users\ebraim\Documents\personal\challenge_DE\src\q3_memory.py

Line #    Mem usage    Increment  Occurrences   Line Contents
     6    171.7 MiB    171.7 MiB           1   @profile
     7                                         def q3_time(file_path):
     8                                         
     9    171.7 MiB      0.0 MiB           1       CURRENT_FOLDER = Path(__file__).resolve()
    10    171.7 MiB      0.0 MiB           1       PROJECT_ROOT = CURRENT_FOLDER.parent.parent
    11                                             
    12    171.7 MiB      0.0 MiB           2       query = f"""
    13                                                 WITH mentions_extracted AS (
    14                                                     SELECT REGEXP_EXTRACT_ALL(content, '@\\w+') AS mentions
    15    171.7 MiB      0.0 MiB           1               FROM read_parquet('{PROJECT

## 4. Conclusiones

- DuckDB demostr√≥ ser una herramienta poderosa para an√°lisis columnar r√°pido y eficiente.

- El uso de archivos Parquet permiti√≥ gran ahorro de memoria y una performance surpreendente para tiempo de ejecuci√≥n.

- Las expresiones regulares y bibliotecas especializadas como emoji facilitaron el procesamiento textual.

- Separar las funciones por pregunta mejor√≥ la claridad y mantenibilidad del c√≥digo.

- Todas las funciones fueron evaluadas en tiempo y memoria, permitiendo detectar cuellos de botella y optimizar donde fue necesario.

## 5. Mejoras futuras y evoluci√≥n

#### Organizaci√≥n y Estructura del Proyecto

- Reorganizar el proyecto con una estructura est√°ndar de Python:

```
tweet_data/
‚îú‚îÄ‚îÄ data/                         # Carpeta para almacenar archivos de datos (JSON, Parquet, etc.)
‚îú‚îÄ‚îÄ notebooks/                    # Notebooks Jupyter (.ipynb) con el desarrollo y an√°lisis
‚îú‚îÄ‚îÄ src/                          # C√≥digo fuente del proyecto
‚îÇ   ‚îú‚îÄ‚îÄ __init__.py               # Archivo para declarar el paquete Python
‚îÇ   ‚îú‚îÄ‚îÄ download_data.py          # Script para descargar el dataset desde Google Drive
‚îÇ   ‚îú‚îÄ‚îÄ convert_to_parquet.py     # Script para convertir el archivo JSON a formato Parquet
‚îÇ   ‚îú‚îÄ‚îÄ q1.py                     # L√≥gica para responder a la Pregunta 1 (top fechas y usuarios)
‚îÇ   ‚îú‚îÄ‚îÄ q2.py                     # L√≥gica para responder a la Pregunta 2 (top emojis)
‚îÇ   ‚îî‚îÄ‚îÄ q3.py                     # L√≥gica para responder a la Pregunta 3 (usuarios m√°s mencionados)
‚îú‚îÄ‚îÄ tests/                        # Carpeta para pruebas unitarias utilizando pytest
‚îú‚îÄ‚îÄ requirements.txt              # Archivo con las dependencias necesarias del proyecto
‚îú‚îÄ‚îÄ README.md                     # Documentaci√≥n principal del proyecto
‚îî‚îÄ‚îÄ setup.py                      # Archivo para convertir el proyecto en un paquete instalable
```



#### Calidad del C√≥digo

- Incluir docstrings descriptivas en cada funci√≥n (entradas, salidas, descripci√≥n)
- Escribir tests unitarios con pytest para cada funci√≥n clave (download, convert, q1, q2, q3)
- Utilizar mocks para evitar depender de archivos reales en los tests

#### Observabilidad

- Automatizar an√°lisis de performance con cProfile o line_profiler
- Generar reportes simples con m√©tricas de uso de CPU y memoria

#### Empaquetado y Reproducibilidad

- Crear un Makefile o script con los comandos
- Centralizar la ejecuci√≥n en un main.py para ejecutar toda la l√≥gica paso a paso
- Automatizar el flujo con herramientas como Prefect, Airflow o Dagster
