---
title: Data Lake
author: Jesús LM
date: 2025-08-19
date-modified: last-modified
date-format: medium
lang: es
format:
  revealjs:
    fig-width: 15
    brand: "_brand.yml"
    footer: "© 2025"
    embed-resources: true
    transition: convex
    transition-speed: slow
    title-slide-attributes:
      data-background-image: ../images/slides-main.png
      data-background-size: cover
      data-background-opacity: '0.9'
    mermaid:
      theme: flatly
jupyter: python3
---

## Diagrama {.smaller background-image="../images/slides-secondary.png"}

::: {#fig-simple width=60%}

```{mermaid}
%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#ededed', 'tertiaryColor': '#ddc9a3', 'lineColor': '#242424'}}}%%

graph LR
    id1["Catalogo de datos
    (metadatos)"]
    subgraph Bronze
        B_raw["Raw Data
        (csv, txt, excel, json)"]
    end

    subgraph Silver
        S_stage["Parquet files
        (cleaned tables)"]
    end

    subgraph Gold
        G_agg["BI & DS
            (aggregated tables)"]
    end

    B_raw --> S_stage
    S_stage --> G_agg
```

Diagrama

:::

![](data_lake_internal.png)

## Data Lake en Capas {.smaller background-image="../images/slides-secondary.png"}

- **Capa Bronce (Datos sin procesar)**
    
    Esta es la zona de aterrizaje para los datos originales sin procesar.

- **Capa Plata (Datos transformados/limpios)**
    
    Los datos de esta capa se han limpiado, transformado y estructurado para un análisis eficiente.

- **Capa Oro (Datos seleccionados)**
    
    Esta capa es para datos altamente agregados y enriquecidos, optimizados para aplicaciones específicas como paneles de inteligencia empresarial o entrenamiento de modelos de aprendizaje automático.

## Capa Bronce {.smaller background-image="../images/slides-secondary.png"}

Conservar los archivos originales tiene como objetivo ser la única fuente de datos inmutable.

- **Auditabilidad y Reproducibilidad**

    Le permite rastrear con exactitud el origen de sus datos procesados.

- **Flexibilidad para Necesidades Futuras**

    A medida que su proyecto evoluciona, es posible que necesite aplicar nuevas transformaciones o extraer características diferentes de los datos que no había previsto.
    Los archivos originales le ofrecen la flexibilidad de volver atrás y empezar de cero.

- **Integridad de Datos**

    Si se produce una corrupción o un error en su proceso de conversión a Parquet, los archivos originales son su protección.

## Capa Plata {.smaller background-image="../images/slides-secondary.png"}

El formato Parquet ofrece un rendimiento y una eficiencia mucho mayores para el análisis.

- **Almacenamiento en columnas** 
    Parquet es un formato de datos en columnas, lo que significa que almacena los datos por columna en lugar de por fila.
    Al ejecutar una consulta que solo necesita unas pocas columnas, DuckDB puede leer únicamente esas columnas del archivo Parquet, lo que resulta mucho más rápido que escanear un archivo CSV o JSON completo.

- **Compresión óptima**
    Los archivos Parquet están altamente comprimidos, lo que permite ahorrar una cantidad significativa de espacio en disco.

- **Reconocimiento de esquemas**

    Los archivos Parquet tienen un esquema integrado que ayuda a prevenir problemas con los tipos de datos y aumenta la fiabilidad de la carga de datos.

## Capa Oro {.smaller background-image="../images/slides-secondary.png"}

En esta capa se guardaran los archivos altamente agregados y estructurados para ser utilizados en:

- Inteligencia de Negocios
- Modelos de Ciencia de Datos

## Analítica de Datos {.smaller background-image="../images/slides-secondary.png"}

DuckDB es una excelente opción para la creación de lagos de datos, ya que es una base de datos analítica, integrada y sin servidor que puede consultar archivos directamente en su sistema de archivos. Ofrece la potencia de un almacén de datos de alto rendimiento en un paquete ligero de un solo archivo.

1. Arquitectura integrada y sin servidor
2. Almacenamiento en columnas de alto rendimiento
3. Consulta directa de archivos
4. SQL enriquecido y funciones analíticas

## Catálogo de Datos {.smaller background-image="../images/slides-secondary.png"}

- **Descubrimiento y Acceso a los Datos**. Permite buscar y filtrar conjuntos de datos fácilmente, utilizando metadatos como descripciones, etiquetas o términos comerciales.

- **Gobernanza y Confianza en los Datos**. Puedes rastrear de dónde provienen los datos (linaje), quién es el dueño, quién tiene acceso y cómo se están utilizando. Esto genera confianza en la calidad y fiabilidad de los datos que se usan para la toma de decisiones.

- **Mejor Comprensión y Colaboración**. El catálogo de datos también puede incluir un glosario de términos de negocio, lo que asegura que todos en la organización tengan una comprensión común del significado de los datos.

## Ejemplo del catálogo {.smaller background-image="../images/slides-secondary.png"}
```{json}
[
  {
    "asset_name": "Estado de Fuerza Policial por Entidad Federativa, 2025",
    "technical_metadata": {
      "table_name": "fuerza_policial_2025",
      "source_system": "Secretaría de Seguridad y Protección Ciudadana",
      "schema": {
        "columns": [
          {
            "column_name": "entidad_federativa",
            "data_type": "VARCHAR(255)",
            "is_nullable": false,
            "description": "El nombre de la entidad federativa (de México."
          },
          {
            "column_name": "total_oficiales",
            "data_type": "INT",
            "is_nullable": false,
            "description": "El número total de oficiales de policía en la entidad."
          },
          {
            "column_name": "oficiales_municipales",
            "data_type": "INT",
            "is_nullable": false,
            "description": "Número de oficiales de policía a nivel municipal."
          },
          {
            "column_name": "oficiales_estatales",
            "data_type": "INT",
            "is_nullable": false,
            "description": "Número de oficiales de policía a nivel estatal."
          },
          {
            "column_name": "hombres",
            "data_type": "INT",
            "is_nullable": false,
            "description": "Número de oficiales de policía de género masculino."
          },
          {
            "column_name": "mujeres",
            "data_type": "INT",
            "is_nullable": false,
            "description": "Número de oficiales de policía de género femenino."
          },
          {
            "column_name": "oficiales_por_habitante",
            "data_type": "FLOAT",
            "is_nullable": true,
            "description": "Ratio de oficiales por cada 100,000 habitantes en la entidad."
          },
          {
            "column_name": "fecha_corte",
            "data_type": "DATE",
            "is_nullable": false,
            "description": "La fecha de corte de los datos, fijada en 2025-01-01 para este dataset hipotético."
          }
        ]
      }
    },
    "business_metadata": {
      "business_owner": "Secretaría de Seguridad y Protección Ciudadana (SSPC)",
      "business_definition": "Este dataset contiene estadísticas clave sobre la composición y distribución de las fuerzas policiales en cada una de las 32 entidades federativas de México, proyectadas para el año 2025. Se utiliza para análisis de políticas públicas, asignación de recursos y reportes de seguridad.",
      "business_terms": [
        "Fuerza policial",
        "Seguridad pública",
        "Oficiales",
        "Entidad federativa",
        "Ratio policial"
      ]
    },
    "operational_metadata": {
      "last_updated": "2025-01-01T00:00:00Z",
      "update_frequency": "Anual",
      "data_quality_score": "99%",
      "access_policy": "Acceso público, disponible en portales de datos abiertos del gobierno.",
      "steward": "Equipo de Análisis de Datos de la SSPC"
    }
  }
]
```

## Contacto {.smaller .center background-image="../images/slides-secondary.png"}

Jesús López M.
<br>
Subdirector de Area