# *Fundamentos de ETL (Extract, Transform, Load)*

### ¿Qué es ETL?

ETL es un proceso utilizado en la gestión de datos que implica tres etapas principales:

- Extracción (Extract): Conectamos con los datos, sin importar dónde se encuentren (bases de datos, archivos, APIs, etc).

- Transformación (Transform): Limpiamos, organizamos y damos forma a los datos para que sean útiles y coherentes.

- Carga (Load): Entregamos los datos procesados a su destino final, listos para ser analizados y generar insights poderosos.

### ¿Por qué es importante ETL?

ETL es la base de la inteligencia de negocio. Sin datos limpios y estructurados, no puedes tomar decisiones informadas.

- Descubre patrones ocultos: ETL te permite encontrar relaciones y tendencias en los datos que de otra manera pasarían desapercibidas.

- Optimiza tus procesos: Identifica cuellos de botella, ineficiencias y áreas de mejoras gracias al análisis de datos.


### Para diseñar un proceso de ETL se deben considerar los siguientes puntos importantes:

- Privacidad de Datos: es crucial garantizar el cumplimiento de las regulaciones de privacidad de datos, como la LGPD en México. La anonimización y el cifrado de datos son prácticas esenciales.

- Calidad de los Datos: La calidad de los datos es fundamental para obtener información precisa. La limpieza, validación y enriquecimiento de los datos son pasos clave en el proceso de transformación.

- Escalabilidad: A medida que las empresas crecen, sus necesidades de datos también lo hacen. Es importante diseñar soluciones ETL que puedan escalar para manejar mayores volúmenes de datos.






# *Arquitectura de un pipeline ETL*

Los siguientes son los atributos de una canalización de datos sólida:

- Expectativas claramente definidas: Define claramente los objetivos y requisitos del pipeline ETL.

- Aqrquitectura escalable: Diseña la arquitectura del pipeline para que pueda manejar el crecimiento futuro de los datos y las demandas de procesamiento.

- Reproducible y clara: Asegúrate de que el pipeline pueda ser reproducido y comprendido fácilmente por otros miembros del equipo.

### Preguntas clave para diseñar un pipeline ETL:

*¿De donde vienen los datos?*
  - Identifica las fuentes de datos (bases de datos, archivos, APIs, etc).
  - ¿Cuáles son los tipos de datos (estructurados, no estructurados, semi-estructurados)?
  - ¿Qué datos deben recopilarse?
  - ¿Cuando los puedo obtener?

*¿Qué transformación, limpieza, filtrado, agregación deben aplicarse?*
  - ¿Existen inconsistencias en los datos?
  - ¿Necesitas aplicar estandarización o normalización?
  - ¿Cuál es el stack disponible para realizar las transformaciones?

*¿Dónde deben entregarse los datos?*
  - ¿Cúal es el formato de entrega?
  - ¿Cúal es la frecuencia de actualización?
  - ¿El usuario final puede acceder a todos los datos obtenidos?


## Diseño de Pipelines ETL eficientes

*Modularidad:*
  - Dividir el proceso en estapas claras y manejables (extracción, transformación, carga) para facilitar el mantenimiento y la escalabilidad.
  
*Paralelización:*
  - Identificar oportunidades para ejecutar tareas en paralelo y aprovechar al máximo los recursos computacionales disponibles.

*Toleracia a fallos:*
  - Implementar mecanismos para manejar errores y recuperarse de interrupciones sin perder datos ni comprometer la integridad del sistema.

*Monitoreo y registro:*
  - Establecer un sistema de monitoreo y registro para ratrear el progreso del pipeline, identificar cuellos de botella y solucionar problemas de manera proactiva.

## Identificación de fuentes y destinos de datos

Es fundamental comprender los requerimientos, la estructura y el formato de los datos en cada fuente y destino para garantizar una integración fluida y evitar sorpresas desagradables durante el proceso de ETL.

*Fuentes de datos:*
  - Accesibilidad de los datos.
  - Dependencias de limite y frecuencia
  - Generación de llaves de acceso y autenticación
  - Caracteristicas particulares de la fuente de datos
  - Documentación de conexiones y APIs

*Destinos de datos:*
  - Acceso a la base de datos o sistema de almacenamiento
  - Recursos de la fuenre de destino
  - Esquemas de desarrollo y estructura de datos
  - Requisitos de seguridad, gobernanza y cumplimiento
  - Acceso para los usuarios finales
  - Documentación requerida
  - Procesos de pase a producción

## Librerías mas importantes y populares para ETL

Aunque existen muchas librerías para realizar procesos ETL, las siguientes son algunas de las más populares y ampliamente utilizadas en la comunidad de ciencia de datos y desarrollo de software:

*Pandas:* Ideal para manipulación de datos.
  - Lectura y escritura de archivos (CSV, Excel, JSON)
  - Limpieza y transformación de datos
  - Análisis exploratorio de datos

*Polars:* El bólido de la velocidad oara Big Data.
  - Diseñado para aprovechar al máximo el hardware moderno
  - Ideal para trabajar con grandes volúmenes de datos
  - Sintaxis similar a Pandas, pero con un rendimiento superior

*SQLAlchemy:* ORM (Object Relational Mapping) más popular para interactuar con bases de datos SQL.
  - Abstrae las diferencias entre diferentes sistemas de bases de datos
  - Permite realizar consultas SQL complejas de manera sencilla y segura

*ODBC:* El estándar en conexión a bases de datos.
  - Opens Databases Connectivity es una interfaz universal para acceder a diferentes bases de datos
  - SQLAlchemy utiliza ODBC para conectarse a diversas fuentes de datos, facilitando la integración en pipelines ETL.


