# Desafío de Ingeniería de Datos — Análisis de Tweets

## 1. Preparación del entorno

En esta sección, aseguramos que tenemos los archivos necesarios, descargamos los datos desde drive si es necesario, convertimos en parquet para mejor aproveitamento con DuckDB y respondemos las preguntas.

# Contexto y enfoque para resolver el desafío

Este notebook documenta el proceso completo para resolver tres preguntas relacionadas con el análisis de un conjunto de tweets. A continuación se explica la lógica, las decisiones técnicas y las bibliotecas utilizadas para construir una solución eficiente y escalable.

## Elección de herramientas y bibliotecas

- **DuckDB:** Elegí DuckDB como motor de consultas SQL embebido en Python por varias razones:
  - Permite ejecutar consultas SQL directamente sobre archivos Parquet y JSON sin necesidad de cargas complejas.
  - Es muy eficiente para análisis de datos en columnas (columnar), lo que mejora el rendimiento al trabajar con grandes volúmenes de datos.
  - Proporciona un lenguaje declarativo (SQL) para consultas complejas, facilitando la extracción y agregación de información.
  - Comparado con leer archivos directamente con pandas, DuckDB es más rápido y consume menos memoria cuando se manejan grandes datasets.
  - Evita la necesidad de construir procesos ETL o pipelines externos, manteniendo todo en un solo entorno de código.
  - Mayor facilidad de toda la equipa en usar SQL para extraer informaciones.

- **gdown:** Para descargar archivos desde Google Drive de forma automatizada y reproducible.

- **emoji:** Para manusear emojis en contenido de cada tweet y extraer los más utilizados.

## Razonamiento general del enfoque

1. **Preparación de datos:** 
   - El dataset original está en formato JSON, con tweets almacenados línea a línea.
   - Para consultas eficientes, convertimos este JSON a Parquet, un formato columnar optimizado para consultas analíticas, utilizando DuckDB por mejor performance y facilidad.

2. **Consultas analíticas:**
   - Utilizo SQL para filtrar, agrupar y ordenar los datos, logrando respuestas rápidas y claras a las preguntas.
   - Uso expresiones regulares para extraer emojis y menciones dentro del texto de los tweets.
   - Extraigo solo los datos relevantes para cada pregunta, mejorando el rendimiento.

3. **Ventajas de esta solución:**
   - Código limpio y mantenible.
   - Uso de tecnologías que permiten escalabilidad a datasets más grandes.
   - Facilidad para modificar y extender consultas futuras.

---


## 2. Ejecución dos scripts

1. Primero hacemos el download de lo arquivo json, salvo en un drive, usando a lib gdown. Esta funcion armazenará el arquivo json en la pasta data/. Caso el arquivo ya estea en la pasta, el script nos avisará e pulará el processo de download de lo arquivo.

Antes de todo, tenemos que instalar las dependecias:

In [1]:
import os
os.getcwd()

'/home/ebraim/Documentos/projetos/tweet_data/src'

In [2]:
%pip install -r ../requirements.txt

Collecting memory-profiler==0.61.0 (from -r ../requirements.txt (line 1))
  Using cached memory_profiler-0.61.0-py3-none-any.whl.metadata (20 kB)
Downloading memory_profiler-0.61.0-py3-none-any.whl (31 kB)
Installing collected packages: memory-profiler
Successfully installed memory-profiler-0.61.0
Note: you may need to restart the kernel to use updated packages.


In [3]:
from download_data import download_file_from_google_drive

In [4]:
%ls 

challenge.ipynb        __init__.py   q1_time.py    q3_memory.py
convert_to_parquet.py  [0m[01;34m__pycache__[0m/  q2_memory.py  q3_time.py
download_data.py       q1_memory.py  q2_time.py


In [5]:
download_file_from_google_drive()

✅ File already exists. Skipping download.
Elapsed: 0.0034 seconds


2. Después, convertimos el arquivo json para formato parquet, devido a mejor performance para consultas columnares usando DuckDB. Otra véz, caso el arquivo parquet ya estea en la pasta data/, seremos avisados y lo processo de conversion no será ejecutado.

In [8]:
from convert_to_parquet import convert_json_to_parquet

In [9]:
convert_json_to_parquet()

🔄 Converting JSON to Parquet...


IOException: IO Error: No files found that match the pattern "data/farmers-protest-tweets-2021-2-4.json"