In [2]:
-- connection: postgres://postgres:1234@localhost:5433/pec4

En este módulo didáctico ampliaremos los conocimientos que tenemos del SQL estándar; más concretamente, estudiaremos un conjunto de funcionali- dades que los sistemas de gestión de bases de datos (SGBD) implementan y que son muy útiles para el desarrollo de aplicaciones en entornos data wa- rehouse. Concretamente, trabajaremos con los conceptos de claves subrogadas, common table expression y funciones analíticas, conceptos que resultan de gran utilidad a la hora de implementar procesos de carga de datos (ETL) y desarrollo de informes analíticos.
Además, como información complementaria, estudiaremos la problemática de la existencia de valores nulos tanto en bases de datos (BD) operacionales como en almacenes de datos, y cómo solventar de manera eficiente estos problemas.

Por último, veremos el concepto de transacción y sus propiedades, y estudia- remos la problemática del acceso simultáneo a los datos por parte de los usua- rios, y cómo los SGBD gestionan estos escenarios de manera segura.

Hay que tener en cuenta que a menudo existen diferencias entre lo que dice el estándar SQL (cuya última versión en el momento de escribir este módulo es SQL:2012) y las implementaciones de los diversos proveedores de SGBD rela- cionales. En cada una de las secciones de este módulo se muestra, a modo de ejemplo, cómo aplicar los conceptos explicados utilizando el SGBD relacional PostgreSQL. Como información complementaria, se proporciona un anexo en el que se describe la implementación de estos mismos conceptos utilizando en este caso el SGBD relacional Oracle.

Las versiones utilizadas de estos dos SGBD relacionales son PostgreSQL 9.3 y Oracle 11g respectivamente, por lo que en sucesivas versiones será necesario consultar los manuales de cada uno de los fabricantes para identificar, si es el caso, los cambios respecto a la documentación presentada en este módulo didáctico.

> __`BD`__ Baso de datos  
> __`SGBD`__  Sistema gestor de bases de datos  
> __`ETL`__  Del inglés extract, transform and load, son el conjunto de procesos en entornos data warehouse que se encargan de la extracción de datos proceden- tes de múltiples orígenes, de la transformación de estos para adecuarlos a las nuevas estruc- turas, y de su carga final en el almacén de datos para su con- sumo.  
>  __`Almacén de datos`__  En inglés data warehouse, son bases de datos orientadas a áreas de interés de la empresa que integran datos de distintas fuentes con información histó- rica y no volátil, y que tienen como objetivo principal servir de apoyo en la toma de deci- siones.

# 1.Claves subrogadas

En los `SGBD`, las claves primarias de una tabla:
> __`clave primaria simple`:__ de una sola columna.  
> __`clave primaria compuesta`:__ una combinación de columnas.  

Existen casos en los que el `SGBD` incurre en un cierto nivel de ineficiencia a la hora de realizar operaciones de combinación en consultas, ineficiencia que se observa cuando el diseñador se ve obligado a generar las claves primarias de las tablas a partir de una cantidad considerable de columnas (lo que requiere que el SGBD realice operaciones de combinación sobre múltiples columnas), o incluso aun siendo una clave primaria simple, cuando los valores de dicha columna son lo suficientemente grandes en tamaño (asumiendo en este úl- timo caso un tipo de datos alfanumérico).  

Esta ineficiencia podría reducirse o eliminarse si el tipo de dato de la clave primaria fuese numérico y de me- nor tamaño, y por consiguiente, fuese una clave primaria simple. Con el fin de mejorar esta problemática, se propone el concepto de __claves subrogadas__.

## 1.1. Concepto
El concepto de claves subrogadas es muy utilizado dentro de implementaciones de data _warehouse_ y en entornos de _business intelligence_. Para entender el concepto de clave subrogada, es necesario definir primero el concepto de __clave de negocio__.  

> __`clave de negocio`__ (`business key`)  
el conjunto de columnas que conforman la clave primaria de una tabla, que gene- ralmente tiene un significado propio acorde con las reglas de negocio del sistema.  
>  
> __`clave subrogada`__ (`surrogate key`) el identificador único de una tabla que no se deriva de los datos de la aplicación y que generalmente no es visible al usuario. Suele construirse a partir de una secuencia numérica autogenerada (con valores enteros, sin decimales) en el que no existe una relación entre el significado de la fila y dicha clave. Una clave subrogada está siempre conformada por una única columna.  
> También reciben el nombre de 
>* claves sin significado (meaningless keys), 
>* claves enteras (integer keys), 
>* claves artificiales (artificial keys), 
>* claves no naturales (non-natural keys) o 
>* claves sustitutas (substitute keys).

La distinción entre __clave de negocio__ y __clave subrogada__ está muy presente en __`modelos multidimensionales`__(hechos y dimensiones de modo que los podemos situar en un espacio n-dimensional) y los __`procesos ETL`__. Dentro de este contexto:  
>* la __clave subrogada__ representa la `clave primaria de la tabla destino`, y 
>* la __clave de negocio__ representa la `clave primaria de la tabla origen` (desde la que se leen los datos) y que también se suele almacenar en la tabla destino.

In [19]:
CREATE SCHEMA teoria;

In [56]:
CREATE TABLE teoria.Asignatura(
    Id numeric primary key,
    Código varchar(10) not null,
    Nombre varchar(50) not null,
    Fecha_Alta varchar(10) not null);

In [57]:
INSERT INTO teoria.Asignatura(Id, Código, Nombre, Fecha_Alta)
VALUES
    ('1','UOC-12345','Bases de datos','10/01/2000'),
    ('2', 'UOC-66521' ,'Ingeniería del software', '10/01/2000'),
    ('3', 'UOC-98321', 'Programación', '10/01/2000'),
    ('4', 'UOC-21473', 'Álgebra', '10/01/2000');

__EJEMPLO  de claves de negocio y claves subrogadas en un modelo multidimensional__
>__`clave primaria y clave subrogada`__:  `id` (no tiene un significado aparente, es una secuencia numérica)  
>__`clave de negocio`__: `código` (con un significado especial dentro del sistema origen).  

In [58]:
SELECT * FROM teoria.Asignatura;

4 row(s) returned.


id,código,nombre,fecha_alta
1,UOC-12345,Bases de datos,10/01/2000
2,UOC-66521,Ingeniería del software,10/01/2000
3,UOC-98321,Programación,10/01/2000
4,UOC-21473,Álgebra,10/01/2000


> El hecho de mantener esta separación en modelos multidimensionales facilita el control de los cambios que los sistemas origen puedan sufrir en el caso de que estos reutilicen los valores de la clave de negocio a lo largo del tiempo. De esta manera, preservamos el histórico de cambios para facilitar el análisis de los datos.

__EJEMPLO de reutilización de claves de negocio__  
> Es frecuente que las __BD operacionales__ reutilicen valores de clave primaria tras un período de inactividad.  
Un caso concreto sería el de los números de teléfono móvil.

In [34]:
CREATE TABLE teoria.Números_de_telefono(
    Número_telefono integer primary key,
    Nombre_titular varchar(50));

In [36]:
INSERT INTO teoria.Números_de_telefono(Número_telefono, Nombre_titular)
VALUES
    ('655138007', 'Manuela Dominguín'),
    ('655138006','José López'),
    ('655138005','Juan Manuel Carrillo');

In [37]:
SELECT * FROM teoria.Números_de_telefono;

3 row(s) returned.


número_telefono,nombre_titular
655138007,Manuela Dominguín
655138006,José López
655138005,Juan Manuel Carrillo


__BASE DE DATOS OPERACIONAL__  
>  Base de datos destinada a gestionar el día a día de una organización, es decir, almacena la información en lo referente a la operativa diaria de una insti- tución.

In [38]:
UPDATE teoria.Números_de_telefono 
SET nombre_titular='José Sanchez' 
WHERE Número_telefono='655138007'

In [39]:
SELECT * FROM teoria.Números_de_telefono;

3 row(s) returned.


número_telefono,nombre_titular
655138006,José López
655138005,Juan Manuel Carrillo
655138007,José Sanchez


> En el caso en el que un cliente da de baja un número de teléfono, el número podría ser asignado de nuevo a otro cliente tras un período de inactividad (por ejemplo, doce meses). Este sería el caso del número 655138007, que, como se puede ver en la siguiente tabla, ha cambiado el titular a José Sánchez, a diferencia del titular que previamente tenía asignado dicho número de teléfono (Manuela Domínguez).
>  
>__PROBLEMA:__  
en este escenario, no mantenemos un histórico de los titulares. Este escenario se puede representar muy bien en modelos multidimensionales.  

__CON CLAVE SUBROGADA__ 
> Tenemos una dimensión de números de teléfono (que utiliza la tabla de la base de datos operacional como origen de datos) con una clave subrogada como clave primaria.

In [42]:
CREATE TABLE teoria.dimensión_de_números_de_teléfono(
    Id integer primary key,
    Número_teléfono integer,
    Nombre_titular varchar(50));

In [43]:
INSERT INTO teoria.dimensión_de_números_de_teléfono(Id, Número_teléfono, Nombre_titular)
VALUES
    ('1','655138007','Manuela Dominguín'),
    ('2','655138006','José López'),
    ('3','655138005','Juan Manuel Carrillo'),
    ('4','655138007','Jsé Sánchez');

In [44]:
SELECT * FROM teoria.dimensión_de_números_de_teléfono;

4 row(s) returned.


id,número_teléfono,nombre_titular
1,655138007,Manuela Dominguín
2,655138006,José López
3,655138005,Juan Manuel Carrillo
4,655138007,Jsé Sánchez


> Vemos que el número de teléfono 655138007 puede reutilizarse y mantener el titular original, separando así la clave de negocio de la clave subrogada. De esta forma podríamos, por ejemplo, asignar las llamadas realizadas por cada cliente de forma correcta.

__Almacén de datos (data warehouse)__  
> Son BD orientadas a áreas de interés de la empresa que integran datos de distintas fuentes con información histórica y no volátil, y que tienen como objetivo principal servir de apoyo en la toma de decisiones.

__CASO ESPECIAL DE INTERÉS en clave subrogada__
> A la hora de diseñar un almacén de datos, existe una tabla muy importante denominada __`Fecha`__ o __`Día`__, que representa los días del calendario, es decir, cada fila almacenará una fecha concreta: 1 Enero 2015, 15 Julio 2002, etc. y las características asociadas a cada fecha (día de la semana, si es fin de semana, si es festivo...). 
>  
> En el caso especial de esta tabla, la __`clave subrogada`__ se suele representar como un entero cuyo valor es la fecha representada en formato YYYYMMDD. Utilizando los ejemplos de fechas anteriores, el 1 Enero 2015 se representaría como 20150101, y el 15 Julio 2002 se representaría co- mo 20020715.

In [50]:
CREATE TABLE teoria.Dimensión_Fecha(
    Id_Fecha integer primary key,
    Fecha varchar(10),
    Día_de_la_Semana varchar(20),
    Mes varchar(20),
    Mes_Dígitos integer,
    Trimestre varchar(2),
    Año integer);

In [51]:
INSERT INTO teoria.Dimensión_Fecha(Id_Fecha, Fecha, Día_de_la_Semana, Mes, Mes_Dígitos, Trimestre, Año)
VALUES
    ('20150101','01/01/2015','Jueves','Enero','1','Q1','2015'),
    ('20150102','02/01/2015','Viernes','Enero','1','Q1','2015'),
    ('20150103','03/01/2015','Sabado','Enero','1','Q1','2015'),
    ('20150104','04/01/2015','Domingo','Enero','1','Q1','2015');

In [52]:
SELECT * FROM teoria.Dimensión_Fecha;

4 row(s) returned.


id_fecha,fecha,día_de_la_semana,mes,mes_dígitos,trimestre,año
20150101,01/01/2015,Jueves,Enero,1,Q1,2015
20150102,02/01/2015,Viernes,Enero,1,Q1,2015
20150103,03/01/2015,Sabado,Enero,1,Q1,2015
20150104,04/01/2015,Domingo,Enero,1,Q1,2015


Una de las razones principales por la que la __clave subrogada__ de la dimensión __Fecha__ tiene un significado es, a diferencia de otras, para facilitar un particionamiento físico de los datos eficiente: 
>la posibilidad de separar datos de forma física en base al valor de la columna Fecha permite no solamente mejorar el rendimiento de la consulta a la hora de consultar los datos de forma histórica, sino su mantenimiento, facilitando así la inserción de nuevos datos y el purgado de datos históricos sin que estas dos operaciones se afecten mutuamente.

## 1.2. Beneficios de las claves subrogadas en el diseño de almacenes de datos
Como ya se ha mencionado anteriormente, una de las principales ventajas de utilizar claves subrogadas es la de crear una separación en modelos multi- dimensionales para facilitar el control de los cambios en los sistemas origen a la hora de reutilizar valores de la clave de negocio (véase el ejemplo de los números de teléfono mostrado anteriormente).  

Otra ventaja muy importante es la mejora de rendimiento en operaciones de consulta. 
> Las operaciones de combinación (__JOIN__) entre las diferentes tablas dentro de un modelo multidimensional (dimensiones y hechos) __se realizarán mediante estas claves subrogadas__, cuyo tipo de datos es __numérico-entero__, y que comparados con otros tipos de datos como fechas o cadenas de caracteres alfanuméricas, suelen ocupar menos espacio.
>  
> El hecho de que ocupen menos espacio significa que las tablas de hechos, que contienen las claves foráneas de las dimensiones, sean más pequeñas, y por lo tanto sus índices serán también más pequeños. Esto se traduce en una reduc- ción en el número de páginas utilizadas para almacenar filas (podemos almacenar más filas por página), por lo que podremos leer más datos con menos operaciones de entrada/salida (E/S).
>  
> Otro de los beneficios importantes del uso de claves subrogadas es el de facilitar el seguimiento de cambios surgidos en las BD operacionales para facilitar el análisis de datos y mantener el histórico de valores y descripciones (al contrario que en un sistema operacional, tal y como hemos visto en el ejemplo de reutilización de números de teléfono).

__Ejemplo de seguimiento de cambios en un modelo multidimensional__

In [59]:
INSERT INTO teoria.Asignatura(Id, Código, Nombre, Fecha_Alta)
VALUES('5','UOC-21473','Programación Orientada a Objetos','15/09/2015');

> Supongamos que, en el ejemplo de la tabla Asignatura, la asignatura con código UOC-21473 (Álgebra) ya no se imparte más y su código es reutilizado por la asignatura Programación Orientada a Objetos. En este escenario, se añadiría una nueva fila con el mismo código, y el nuevo nombre y fecha de alta.

In [60]:
SELECT * FROM teoria.Asignatura;

5 row(s) returned.


id,código,nombre,fecha_alta
1,UOC-12345,Bases de datos,10/01/2000
2,UOC-66521,Ingeniería del software,10/01/2000
3,UOC-98321,Programación,10/01/2000
4,UOC-21473,Álgebra,10/01/2000
5,UOC-21473,Programación Orientada a Objetos,15/09/2015


__Ejemplo de uso de claves subrogadas para la integración de datos entre MÚLTIPLES ORÍGENES__  
> Las claves subrogadas facilitan también la __integración y consolidación de datos desde múltiples orígenes de datos__, aun cuando la clave de negocio en los diferentes sistemas no sea homogénea en todos ellos.

Supongamos que tenemos dos sistemas que almacenan información de usuario.  
Los usuarios en cada sistema se codifican de manera diferente: 
> * el primer sistema utiliza nombres de usuario en formato UXXXXX, donde XXXXX es una secuencia numérica, 
> * el segundo sistema utiliza un formato ADDXXXX, donde DD es el código de departamento y XXXX es un secuencia numérica. 

Este escenario se podría representar en un modelo multidimensional con claves subrogadas de la siguiente manera:

In [63]:
CREATE TABLE teoria.Usuario(
    Id INTEGER PRIMARY KEY,
    Id_Usuario VARCHAR(20),
    Sistema_Origen VARCHAR(20));

In [64]:
INSERT INTO teoria.Usuario(Id, Id_Usuario, Sistema_Origen)
VALUES
    ('1','U00001','SISTEMA 1'),
    ('2','U00002','SISTEMA 1'),
    ('3','AHR0001','SISTEMA 2'),
    ('4','AHR0002','SISTEMA 2'),
    ('5','U00003','SISTEMA 1');

In [65]:
SELECT * FROM teoria.Usuario;

5 row(s) returned.


id,id_usuario,sistema_origen
1,U00001,SISTEMA 1
2,U00002,SISTEMA 1
3,AHR0001,SISTEMA 2
4,AHR0002,SISTEMA 2
5,U00003,SISTEMA 1


__Ejemplo de valores por defecto__  
El uso de claves subrogadas también nos permite codificar de forma eficiente la falta de valores en una base de datos operacional. De esta forma, podemos asignar un valor de clave subrogada a un valor por defecto y mapearlo correctamente a la tabla de hechos.  

> Es común que exista una fila con una clave subrogada especial para mapear la inexistencia de valores en la base de datos operacional. En el ejemplo de Asignatura, se ha añadido una fila con clave subrogada `-1` que se utilizará para __identificar la falta de códigos de asignaturas__:

## 1.3. Construcción de claves subrogadas en PostgreSQL
Construir claves subrogadas utilizando el SGBD PostgreSQL.  

Supongamos que disponemos de la siguiente definición de la tabla 
>__Asignatura__: 
> * `asignatura_key` (clave subrogada y clave primaria), 
> * `cod_asignatura` (código de asignatura) y 
> * `nom_asignatura` (nombre de la asignatura). 

A continuación podemos ver la definición de esta tabla en lenguaje SQL.

In [6]:
CREATE TABLE asignatura2(
    asignatura_key INTEGER PRIMARY KEY,
    cod_asignatura CHARACTER VARYING(10) NOT NULL,
    nom_asignatura CHARACTER VARYING(100) NOT NULL
)

In [9]:
SELECT * FROM asignatura2

0 row(s) returned.


__Notación__.  
La notación para representar la sintaxis de las sentencias SQL será la siguiente:

• Las palabras en mayúsculas son palabras reservadas del lenguaje.  
• LaspalabrasenminúsculassonnombresdeestructurasdelaBDcreadasporelusuario (tablas, columnas, etc.).  
• La notación [...] quiere decir que lo que hay entre los corchetes es opcional.  
• Lanotación{A|...|B} quiere decir que hemos de escoger entre todas las opciones que hay entre las llaves, pero que debemos poner una obligatoriamente.

La generación de claves subrogadas se puede implementar de las siguientes formas: mediante el uso de secuencias y mediante el uso del tipo serial.

#### 1.3.1. Secuencias
La creación de una secuencia nos permite generar valores numéricos de forma consecutiva.  
La definición de secuencias en PostgreSQL es la siguiente:

In [None]:
CREATE [ TEMPORARY | TEMP ] SEQUENCE name 
[ INCREMENT [ BY] increment ]
[ MINVALUE minvalue | NO MINVALUE ] 
[ MAXVALUE maxvalue | NO MAXVALUE ]
[ START [ WITH] start ] 
[ CACHE cache ] 
[ [ NO ] CYCLE ]
[ OWNED BY { table_name.column_name | NONE } ]

Como ejemplo, definiremos la secuencia que utilizará la tabla __Asignatura__:
* http://www.postgresql.org/docs/9.3/static/sql-createsequence.html

In [10]:
CREATE SEQUENCE seq_asignatura_key INCREMENT BY 1 START WITH 1 NO CYCLE;

relation "seq_asignatura_key" already exists


Para hacer uso de la __secuencia__ y así `generar nuevos valores`:   
> disponemos de la función __`nextval(seq_name)`__, donde __`seq_name`__ representa el nombre de la secuencia a utilizar. 

__`nextval(seq_name)`__ se encarga de avanzar al siguiente valor de la secuencia y devolver dicho valor.  
Estas dos operaciones se realizan de forma atómica, por lo que múltiples sesiones pueden hacer uso de la misma secuencia sin preocuparse de que los valores se reutilicen.

In [11]:
SELECT nextval('seq_asignatura_key')

1 row(s) returned.


nextval
1


A la hora de insertar una fila nueva en la tabla, podemos hacer una llamada a la función como parte de la sentencia INSERT:

In [12]:
INSERT
INTO
    asignatura2
    (
        asignatura_key,
        cod_asignatura,
        nom_asignatura
    )
    VALUES
    (
        nextval('seq_asignatura_key'),
        'UOC-35298',
        'Arquitectura de Datos'
    )

Investigar el uso de las funciones de manipulación de secuencias en la siguiente URL:
* http://www.postgresql.org/docs/9.3/static/functions-sequence.html

In [13]:
SELECT * FROM asignatura2

1 row(s) returned.


asignatura_key,cod_asignatura,nom_asignatura
2,UOC-35298,Arquitectura de Datos


### 1.3.2. Tipo de dato serial
Otra forma de definir claves subrogadas es mediante la creación de una columna con tipo de datos serial (o bien smallserial y bigserial, dependiendo de la capacidad numérica que se necesite para almacenar los valores). 

Si decidimos utilizar este mecanismo, la tabla Asignatura2 se tendrá que definir de la siguiente manera (fijaos cómo la definición de la columna asignatura_key ha cambiado con respecto a la definición original):

In [None]:
CREATE TABLE asignatura2(
    asignatura_key SERIAL PRIMARY KEY,
    cod_asignatura CHARACTER VARYING(10) NOT NULL,
    nom_asignatura CHARACTER VARYING(100) NOT NULL
)

>  Cada vez que se inserta una nueva fila en la tabla, la columna asignatura_key generará un nuevo valor.

Véanse los siguientes ejemplos, en donde se pueden ver que se puede especificar el valor con la cláusula DEFAULT o, simplemente, no incluir dicha columna como parte de la sentencia INSERT:

In [16]:
INSERT INTO asignatura2(asignatura_key, cod_asignatura, nom_asignatura)
VALUES (DEFAULT, 'UOC-35299', 'Sistemas Operativos');

INSERT INTO asignatura2(cod_asignatura, nom_asignatura)
VALUES ('UOC-35298', 'Arquitectura de Datos');

null value in column "asignatura_key" violates not-null constraint
DETAIL:  Failing row contains (null, UOC-35299, Sistemas Operativos).


En realidad, los tipos de datos serial y sus variantes no son tipos de datos reales. Estos no son más que una notación especial en PostgreSQL que se traduce en la creación de una secuencia y la asignación de un valor por defecto a la columna en cuestión.  

Utilizando el ejemplo anterior, el resultado de crear dicha tabla con este tipo de dato sería equivalente a especificar las siguientes estructuras:

In [17]:
CREATE SEQUENCE seq_asignatura_key;

CREATE TABLE asignatura (
    asignatura_key INTEGER NOT NULL DEFAULT nextval('seq_asignatura_key') PRIMARY KEY,
    cod_asignatura CHARACTER VARYING(10) NOT NULL,
    nom_asignatura CHARACTER VARYING(100) NOT NULL
);

ALTER SEQUENCE seq_asignatura_key
    OWNED BY asignatura.asignatura_key;

relation "seq_asignatura_key" already exists
