# Catalogo y bbdd en Databricks

# Catálogo de Databricks: Qué es y cómo funciona

El catálogo de Databricks es una parte fundamental de la plataforma de Databricks que organiza y gestiona datos dentro de un entorno unificado. 

---

## ¿Qué es un Catálogo en Databricks?

El catálogo en Databricks es una capa de metadatos que:
- **Organiza y centraliza** los datos disponibles en tu espacio de trabajo.
- **Gestiona el acceso y la seguridad** de los datos mediante políticas definidas.
- **Facilita el descubrimiento de datos** a través de un esquema bien estructurado.

Un catálogo contiene bases de datos (tambén conocidas como esquemas) que a su vez contienen tablas y vistas. Este sistema jerárquico permite mantener una organización clara y estructurada de los datos.

---

## Estructura Jerárquica del Catálogo

La estructura del catálogo se organiza de la siguiente manera:

1. **Catálogo**
   - Nivel más alto que agrupa bases de datos y esquemas.
2. **Base de Datos o Esquema**
   - Contiene tablas, vistas y funciones definidas por el usuario.
3. **Tabla o Vista**
   - Representa los datos reales que pueden ser consultados usando SQL o APIs.

Por defecto, Databricks incluye un catálogo llamado `hive_metastore`, que es el catálogo predeterminado. Si no se especifica un catálogo, Databricks usará este por defecto.

---

## Conceptos Clave

### 1. **Bases de Datos (o Esquemas)**
Una base de datos es una colección de tablas y vistas dentro de un catálogo. Puedes crear y gestionar bases de datos para organizar tus datos por proyectos, equipos o casos de uso.

### 2. **Tablas**
Las tablas contienen los datos almacenados en formato estructurado. Databricks admite diferentes tipos de tablas:
- **Tablas gestionadas:** Databricks gestiona la ubicación física de los datos.
- **Tablas externas:** Los datos se almacenan fuera de Databricks (por ejemplo, en un sistema de archivos distribuido como S3 o Azure Blob Storage).

**Comandos para analizar tablas:**
- Obtener la estructura de una tabla:
  ```sql
  DESCRIBE TABLE my_database.my_table;
  ```
- Ver las columnas detalladas de una tabla (formato extendido):
  ```sql
  DESCRIBE EXTENDED my_database.my_table;
  ```
- Ver información detallada de la ubicación y propiedades de una tabla:
  ```sql
  DESCRIBE DETAIL my_database.my_table;
  ```

### 3. **Vistas**
Las vistas son consultas guardadas que no almacenan datos físicos. Actúan como una "ventana" a los datos.

**Comandos para analizar vistas:**
- Mostrar la definición de una vista:
  ```sql
  DESCRIBE VIEW my_database.my_view;
  ```

### 4. **Esquemas**
El término "esquema" se utiliza a menudo como sinónimo de "base de datos" en Databricks. Sin embargo, también puede referirse a la estructura de columnas de una tabla o conjunto de datos.

---

## Casos de Uso del Catálogo

### 1. **Colaboración en Proyectos**
Los equipos pueden compartir bases de datos y tablas organizadas dentro de un catálogo, asegurándose de que todos los miembros trabajen con los mismos datos.

### 2. **Seguridad y Gobernanza de Datos**
El catálogo permite definir permisos a nivel de catálogo, base de datos, tabla o columna. Esto garantiza que solo los usuarios autorizados accedan a los datos sensibles.

### 3. **Análisis de Datos en Tiempo Real**
Databricks admite operaciones en tiempo real gracias a su integración con sistemas de almacenamiento distribuido y procesamiento paralelo.

---

## Ventajas del Catálogo de Databricks

1. **Organización Centralizada:** Unifica los datos en un solo lugar para un acceso y gestión sencillos.
2. **Escalabilidad:** Diseñado para manejar grandes volúmenes de datos.
3. **Compatibilidad:** Funciona con diferentes formatos y fuentes de datos.
4. **Integración Completa con Spark:** Maximiza el rendimiento en consultas y transformaciones de datos.
5. **Seguridad Avanzada:** Controla el acceso a nivel granular.

---


# TPCH

## TPCH Ejercicio

**Enunciado del Ejercicio: Conociendo la Base de Datos TPCH**

Como analista de datos, es común enfrentarse a bases de datos nuevas. Antes de realizar cualquier análisis o escribir consultas, es importante comprender qué información contiene la base de datos, su estructura y su propósito.

En este ejercicio, tu objetivo es **investigar la base de datos TPCH** que se encuentra disponible en Databricks bajo el catálogo `samples.tpch`. La TPC-H es un estándar ampliamente utilizado para pruebas de rendimiento en bases de datos, pero en este caso, la utilizaremos como base para nuestras consultas.

---

### **Tareas a Realizar:**

1. **Investigar la Base de Datos TPCH**  
   Responde a las siguientes preguntas:
   - ¿Qué es TPCH y para qué se utiliza?
   - ¿Qué tipo de datos contiene esta base de datos?
   - ¿Qué significado tienen las tablas principales (`customer`, `orders`, `lineitem`, etc.)?

2. **Explorar las Tablas y Columnas**  
   Investiga las tablas disponibles en la base de datos `samples.tpch`:
   - ¿Cuántas tablas hay en la base de datos?
   - ¿Qué columnas tiene cada tabla y cuál es su tipo de datos?
   - ¿Qué relación existe entre las tablas?

3. **Documentar tus Hallazgos**  
   Crea un resumen que incluya:
   - Descripción general de la base de datos TPC-H.
   - Breve descripción de cada tabla y las relaciones principales entre ellas.

---

### **Ejemplos de Comandos para la Investigación**

1. **Listar Tablas Disponibles**  
   ```sql
   SHOW TABLES IN samples.tpch;
   ```

2. **Obtener Estructura de una Tabla**  
   ```sql
   DESCRIBE TABLE samples.tpch.customer;
   ```

3. **Ver Detalles de las Tablas y Metadatos**  
   ```sql
   DESCRIBE DETAIL samples.tpch.orders;
   ```

4. **Examinar Relaciones entre Tablas**  
   Para entender relaciones entre tablas como `orders` y `customer`, inspecciona las columnas que funcionan como claves (por ejemplo, `customer.c_custkey` y `orders.o_custkey`):
   ```sql
   SELECT c.c_custkey, o.o_orderkey, o.o_totalprice
   FROM samples.tpch.customer c
   JOIN samples.tpch.orders o
   ON c.c_custkey = o.o_custkey
   LIMIT 10;
   ```

---

### **Consejos para la Investigación**

1. **Buscar en Internet**  
   Utiliza fuentes en línea para comprender el contexto general de TPC-H. Busca términos como:
   - "Qué es TPC-H"
   - "Esquema de base de datos TPC-H"
   - "Relaciones entre tablas en TPC-H"

2. **Usar la Documentación de Databricks**  
   La documentación oficial de Databricks puede contener información útil sobre cómo acceder y trabajar con las bases de datos de muestra.

3. **Analizar los Datos Manualmente**  
   Realiza consultas sencillas como `SELECT *` para explorar el contenido de las tablas y obtener una idea del tipo de datos que contienen.



## TPCH info tablas


# Información de las Tablas Principales en TPCH

La base de datos TPC-H es un esquema relacional que modela una organización ficticia que gestiona pedidos, clientes, productos y proveedores. A continuación, se detalla la información de las tablas principales:

---

## 1. CUSTOMER
**Descripción:** Contiene información sobre los clientes de la organización.

**Columnas principales:**
- **c_custkey**: Clave primaria del cliente.
- **c_name**: Nombre del cliente.
- **c_address**: Dirección del cliente.
- **c_nationkey**: Clave de la nación del cliente.
- **c_phone**: Número de teléfono del cliente.
- **c_acctbal**: Balance de la cuenta del cliente.
- **c_mktsegment**: Segmento de mercado del cliente.
- **c_comment**: Comentarios adicionales sobre el cliente.

---

## 2. ORDERS
**Descripción:** Registra los pedidos realizados por los clientes.

**Columnas principales:**
- **o_orderkey**: Clave primaria del pedido.
- **o_custkey**: Clave del cliente que realizó el pedido (relacionada con `c_custkey`).
- **o_orderstatus**: Estado del pedido (e.g., 'F' = Finalizado, 'O' = Pendiente).
- **o_totalprice**: Precio total del pedido.
- **o_orderdate**: Fecha en que se realizó el pedido.
- **o_orderpriority**: Prioridad del pedido.
- **o_clerk**: Encargado que gestionó el pedido.
- **o_shippriority**: Prioridad de envío.
- **o_comment**: Comentarios adicionales sobre el pedido.

---

## 3. LINEITEM
**Descripción:** Representa los artículos individuales de cada pedido.

**Columnas principales:**
- **l_orderkey**: Clave del pedido (relacionada con `o_orderkey`).
- **l_partkey**: Clave del producto asociado.
- **l_suppkey**: Clave del proveedor asociado.
- **l_linenumber**: Número de línea del artículo en el pedido.
- **l_quantity**: Cantidad del artículo.
- **l_extendedprice**: Precio extendido del artículo (cantidad * precio unitario).
- **l_discount**: Descuento aplicado al artículo.
- **l_tax**: Impuesto aplicado al artículo.
- **l_returnflag**: Indicador de devolución.
- **l_linestatus**: Estado de la línea.
- **l_shipdate**: Fecha de envío.
- **l_commitdate**: Fecha de compromiso.
- **l_receiptdate**: Fecha de recepción.
- **l_comment**: Comentarios adicionales sobre el artículo.

---

## 4. PART
**Descripción:** Contiene información sobre los productos disponibles.

**Columnas principales:**
- **p_partkey**: Clave primaria del producto.
- **p_name**: Nombre del producto.
- **p_mfgr**: Fabricante del producto.
- **p_brand**: Marca del producto.
- **p_type**: Tipo de producto.
- **p_size**: Tamaño del producto.
- **p_container**: Tipo de envase del producto.
- **p_retailprice**: Precio de venta del producto.
- **p_comment**: Comentarios adicionales sobre el producto.

---

## 5. SUPPLIER
**Descripción:** Detalla información sobre los proveedores.

**Columnas principales:**
- **s_suppkey**: Clave primaria del proveedor.
- **s_name**: Nombre del proveedor.
- **s_address**: Dirección del proveedor.
- **s_nationkey**: Clave de la nación del proveedor.
- **s_phone**: Número de teléfono del proveedor.
- **s_acctbal**: Balance de la cuenta del proveedor.
- **s_comment**: Comentarios adicionales sobre el proveedor.

---

## 6. PARTSUPP
**Descripción:** Asocia productos con sus proveedores y detalla información adicional.

**Columnas principales:**
- **ps_partkey**: Clave del producto (relacionada con `p_partkey`).
- **ps_suppkey**: Clave del proveedor (relacionada con `s_suppkey`).
- **ps_availqty**: Cantidad disponible.
- **ps_supplycost**: Costo de suministro del producto por el proveedor.
- **ps_comment**: Comentarios adicionales sobre el producto y proveedor.

---

## 7. NATION
**Descripción:** Representa las naciones asociadas con los clientes y proveedores.

**Columnas principales:**
- **n_nationkey**: Clave primaria de la nación.
- **n_name**: Nombre de la nación.
- **n_regionkey**: Clave de la región asociada.
- **n_comment**: Comentarios adicionales sobre la nación.

---

## 8. REGION
**Descripción:** Contiene información sobre las regiones geográficas.

**Columnas principales:**
- **r_regionkey**: Clave primaria de la región.
- **r_name**: Nombre de la región.
- **r_comment**: Comentarios adicionales sobre la región.

---

Si necesitas más detalles o ejemplos prácticos para alguna de estas tablas, ¡házmelo saber!



# SQL

## SQL Básico

# Introducción a SQL desde lo Básico hasta Consultas Avanzadas
---

## 1. SELECT: Consulta básica
### Descripción:
`SELECT` se usa para recuperar columnas específicas de una tabla.

### Ejemplo:
```sql
SELECT c_name, c_acctbal FROM samples.tpch.customer;
```

### Ejercicio:
Recupera los nombres y balances de los clientes.

---

## 2. WHERE: Filtrado de datos
### Descripción:
`WHERE` se usa para filtrar filas basándose en condiciones.

### Ejemplo:
```sql
SELECT c_name, c_acctbal FROM samples.tpch.customer WHERE c_acctbal > 5000;
```

### Ejercicio:
Obtén los nombres y balances de los clientes con balances mayores a 10,000.

---

## 3. JOIN: Combinar datos de múltiples tablas
### Descripción:
`JOIN` permite combinar filas de dos tablas basadas en una columna común.

### Ejemplo:
```sql
SELECT c.c_name, o.o_orderdate, o.o_totalprice
FROM samples.tpch.customer c
JOIN samples.tpch.orders o ON c.c_custkey = o.o_custkey;
```

### Ejercicio:
Recupera el nombre del cliente, la fecha del pedido y el precio total para todos los pedidos realizados.

---

## 4. Subconsultas: Consultas anidadas
### Descripción:
Las subconsultas son consultas dentro de otras consultas.

### Ejemplo:
Encuentra los clientes con el balance más alto:
```sql
SELECT c_name, c_acctbal
FROM samples.tpch.customer
WHERE c_acctbal = (SELECT MAX(c_acctbal) FROM samples.tpch.customer);
```

### Ejercicio:
Encuentra los pedidos con el precio total más alto.

---

## 5. Agregaciones: Operaciones con funciones como SUM, AVG, COUNT
### Descripción:
Las funciones de agregación resumen datos, como sumar, contar, o calcular promedios.

### Ejemplo:
Calcula el balance promedio de los clientes:
```sql
SELECT AVG(c_acctbal) AS avg_balance FROM samples.tpch.customer;
```

### Ejercicio:
Calcula el total de ingresos de todos los pedidos.

---

## 6. Agrupaciones (GROUP BY): Agrupar datos
### Descripción:
`GROUP BY` agrupa filas que tienen valores en común.

### Ejemplo:
Calcula el balance total por segmento de mercado:
```sql
SELECT c_mktsegment, SUM(c_acctbal) AS total_balance
FROM samples.tpch.customer
GROUP BY c_mktsegment;
```

### Ejercicio:
Calcula la cantidad total de pedidos realizados por cada cliente.

---

## 7. Filtrar grupos (HAVING): Filtrado tras agrupar
### Descripción:
`HAVING` filtra resultados después de aplicar `GROUP BY`.

### Ejemplo:
Encuentra los segmentos de mercado con balances totales mayores a 50,000:
```sql
SELECT c_mktsegment, SUM(c_acctbal) AS total_balance
FROM samples.tpch.customer
GROUP BY c_mktsegment
HAVING SUM(c_acctbal) > 50000;
```

### Ejercicio:
Encuentra clientes que hayan realizado más de 5 pedidos.

---

## 8. Ordenar datos (ORDER BY)
### Descripción:
`ORDER BY` ordena los resultados por una o más columnas.

### Ejemplo:
Ordena los clientes por balance en orden descendente:
```sql
SELECT c_name, c_acctbal
FROM samples.tpch.customer
ORDER BY c_acctbal DESC;
```

### Ejercicio:
Ordena los pedidos por precio total en orden ascendente.

---

## 9. Uniones de tablas (UNION)
### Descripción:
`UNION` combina los resultados de dos consultas eliminando duplicados.

### Ejemplo:
Recupera los nombres de todos los clientes y proveedores (sin duplicados):
```sql
SELECT c_name FROM samples.tpch.customer
UNION
SELECT s_name FROM samples.tpch.supplier;
```

### Ejercicio:
Recupera todas las naciones y regiones únicas.




## SQL Avanzado


**Ejercicios Avanzados con SQL**

A continuación, ejercicios avanzados para trabajar con SQL sobre el esquema TPCH. 
---

### Ejercicio 1: Análisis con CASE
**Objetivo:** Mostrar el balance de cuentas de los clientes con una clasificación según su segmento de mercado.

**Enunciado:**
Crea una consulta que muestre el nombre del cliente, el balance de la cuenta y una nueva columna "Categoria" que clasifique los balances:
- "Alto" si el balance es mayor a 10,000.
- "Medio" si está entre 5,000 y 10,000.
- "Bajo" si es menor a 5,000.

---

### Ejercicio 2: JOIN Múltiple
**Objetivo:** Analizar pedidos, clientes y naciones.

**Enunciado:**
Muestra los nombres de los clientes, el total de sus pedidos y el nombre de su nación.

---

### Ejercicio 3: Uso de UNION
**Objetivo:** Combinar resultados de diferentes consultas.

**Enunciado:**
Muestra los nombres de los clientes que tienen balance positivo o han realizado pedidos con prioridad alta.

---

### Ejercicio 4: JOIN con Agregación y Orden
**Objetivo:** Analizar a los proveedores con los costos de suministro.

**Enunciado:**
Lista los nombres de los proveedores junto con el costo total de suministro, ordenados por el costo total en orden descendente.

---

### Ejercicio 5: Uso de HAVING
**Objetivo:** Filtrar grupos basados en condiciones.

**Enunciado:**
Encuentra las naciones cuyos clientes tienen un promedio de balance mayor a 5,000.

---

### Ejercicio 6: Subconsulta en SELECT
**Objetivo:** Calcular información adicional por fila.

**Enunciado:**
Muestra el nombre del cliente y el número total de pedidos que ha realizado.

---

### Ejercicio 7: Subconsulta con Agregación
**Objetivo:** Identificar los clientes que tienen el balance de cuenta más alto en su nación.

**Enunciado:**
Encuentra el nombre del cliente y su balance, asegurándote de que cada cliente listado tiene el mayor balance dentro de su nación.

---



## SQL Aplicado a caso real

**Práctica final**

Extraer datos relevantes que serán utilizados en un informe de Power BI que mostrará varios KPI’s.

**1- Top 5 productos más vendidos por región**

**2- Evolución mensual de las ventas totales**

**3- Top 10 clientes con mayor volumen de compras**

**4- Número de clientes por región**

**5- Tiempo promedio de envío por región**
