In [2]:
-- connection: postgres://postgres:1234@localhost:5433/pec4

# 4. Tratamiento de valores nulos

Un valor nulo (representado en SQL por el marcador NULL) es la forma que los SGBD relacionales utilizan para indicar que no existe información en una columna de una fila de una tabla. En otras palabras, es una manera de representar la falta de información que bien no sea aplicable o bien porque es desconocida. Un valor nulo, por lo tanto, no tiene ningún tipo de datos asociado: no es un dato numérico, ni una cadena de caracteres ni tampoco es un tipo de dato fecha.

__Ejemplo de valor nulo__  
Supongamos que tenemos una tabla de empleados en una base de datos operacional de RRHH con la siguiente estructura: código, nombre, número de teléfono de la empresa y correo electrónico de la empresa, como se puede ver en la tabla inferior.

In [37]:
CREATE TABLE teoria.empleados2(
    codigo_empleado varchar(5) PRIMARY KEY,
    nombre_empleado varchar(50) NOT NULL,
    telefono        INTEGER,
    email           varchar(20)
);

INSERT INTO teoria.empleados2(codigo_empleado, nombre_empleado, telefono, email)
VALUES ('U0001','Alejandra Martinez','654738291','amartinez@edu'),
       ('U0002','José maria Llopis',NULL,'jmllopis@edu'),
       ('U0003','Victoria Suarez','600876291','vsuarez@edu'),
       ('U0004','Victoria Setan','600876291','vsetan@edu'),
       ('U0005','Victor Anllada',NULL,NULL);

In [38]:
SELECT * FROM teoria.empleados2

5 row(s) returned.


codigo_empleado,nombre_empleado,telefono,email
U0001,Alejandra Martinez,654738291.0,amartinez@edu
U0002,José maria Llopis,,jmllopis@edu
U0003,Victoria Suarez,600876291.0,vsuarez@edu
U0004,Victoria Setan,600876291.0,vsetan@edu
U0005,Victor Anllada,,


### 4.1. Valores nulos en BD operacionales
En las BD operacionales, los valores nulos nos permiten codificar la falta de información en tablas, como ya se ha comentado, bien porque no es aplicable o bien porque esta es desconocida. El uso de valores nulos en este tipo de BD puede causarnos dos tipos de problemas:
* 1) Problemas de eficiencia: este caso podría suceder cuando tenemos que ac- ceder a filas de una tabla que tienen columnas con valores nulos. En estos ca- sos, podría ser necesario revisar el modelo para generar una versión alternativa de la tabla, dependiendo de la proporción de datos (en relación con el total) que tengan valores nulos.

* 2) Problemas de construcción de consultas: el hecho de que las consultas puedan involucrar atributos con valores nulos, nos obliga a que, a la hora de construir la consulta, tengamos que prestar atención a que el resultado que nos devuelva sea el correcto, tanto en el caso de que existan valores nulos o no.


In [32]:
CREATE TABLE teoria.usuarios(
    usuario            varchar(50)primary key,
    acceso_campus      char(2),
    acceso_biblioteca  char(2)
);

INSERT INTO teoria.usuarios(usuario, acceso_campus, acceso_biblioteca)
VALUES ('amartinez@uoc.edu','si','no'),
       ('vsuarez@uod.edu','no','si'),
       (' vsetan@uoc.edu','si','si');
       

In [33]:
SELECT * FROM teoria.usuarios;

3 row(s) returned.


usuario,acceso_campus,acceso_biblioteca
amartinez@uoc.edu,si,no
vsuarez@uod.edu,no,si
vsetan@uoc.edu,si,si


> Queremos obtener aquellos empleados que no son usuarios. Las consultas propuestas son:

In [39]:
SELECT * FROM teoria.empleados2
WHERE email NOT IN (SELECT usuario FROM teoria.usuarios);

4 row(s) returned.


codigo_empleado,nombre_empleado,telefono,email
U0001,Alejandra Martinez,654738291.0,amartinez@edu
U0002,José maria Llopis,,jmllopis@edu
U0003,Victoria Suarez,600876291.0,vsuarez@edu
U0004,Victoria Setan,600876291.0,vsetan@edu


In [42]:
SELECT * FROM teoria.empleados2 e
WHERE NOT EXISTS (SELECT * FROM teoria.usuarios u WHERE e.email = u.usuario)

5 row(s) returned.


codigo_empleado,nombre_empleado,telefono,email
U0001,Alejandra Martinez,654738291.0,amartinez@edu
U0002,José maria Llopis,,jmllopis@edu
U0003,Victoria Suarez,600876291.0,vsuarez@edu
U0004,Victoria Setan,600876291.0,vsetan@edu
U0005,Victor Anllada,,


__LOGICA TERNARIA O TRIVALENTE__  
> Es importante destacar que el hecho de considerar valores nulos en un SGBD hace que podamos decir que dejamos de trabajar con una lógica binaria o bivalente (verdadero/falso) y comenzamos a trabajar con una lógica ternaria o trivalente (verdadero/falso/desconocido), que requiere de un tratamiento especial para identificar aquellos valores que son desconocidos o NULL (en SQL se realiza mediante las cláusulas IS NULL/IS NOT NULL). En las siguientes tablas podemos ver cómo se evaluarían las opera- ciones lógicas AND, OR y NOT en lógica ternaria a diferencia de la lógica binaria.

<img src="img2/8.png" width=550> 

## 4.2. Valores nulos en almacenes de datos
Al igual que lo visto anteriormente en las BD operacionales, es posible utilizar los valores nulos en los almacenes de datos para codificar la falta de información en las tablas. En cambio, dada la naturaleza de estos sistemas, la problemática del uso de valores nulos en este tipo de BD es ligeramente diferente a la expuesta en las BD operacionales. A continuación, vamos a ver cómo podemos realizar el tratamiento de nulos desde dos puntos de vista: tratamiento de nulos en tablas dimensiones y tratamiento de nulos en tablas de hechos.

### 4.2.1. Valores nulos en tablas de dimensiones
Las dimensiones, en el contexto de los almacenes de datos, representan el punto de vista que se utiliza en el análisis de los datos. Suelen almacenar información descriptiva o cualitativa, como nombres, códigos o descripciones, y se utilizan para darle un contexto a la información cuantitativa (métricas), la cual procede de las tablas de hechos.

Es muy común encontrarse casos en los que ciertas columnas que pertenecen a dimensiones no tienen datos, bien porque estos no existen en las BD ope- racionales, o simplemente porque la columna no es aplicable para la fila en cuestión.

> __Ejemplo de dimensión y datos desconocidos/no aplicables__
Un ejemplo de dimensión en almacenes de datos es Cliente. Para el cliente, se suele guardar el identificador del cliente, el nombre, la dirección, el código postal y la ciudad donde reside. Generalmente, estos datos suelen existir en los sistemas operacionales de una empresa, aunque no es inusual que el código postal no esté almacenado. Este es un ejemplo claro de dato que almacenará en origen un valor nulo.
>
>También existen columnas que solamente tienen sentido dependiendo de las caracterís- ticas de la fila. Por ejemplo, si se trata de un cliente individual, el sistema operacional podría almacenar información de estado civil. Este tipo de columna no tiene sentido si se trata de una corporación, por lo que en este caso se almacenaría en origen un valor nulo.

Aunque es común la utilización de valores nulos en BD operacionales, estos no suelen ser bien recibidos por parte de los diseñadores de almacenes de datos. Las razones principales son las siguientes:

>a) Diferentes SGBD tienen diferentes comportamientos a la hora de tratar va- lores nulos en cláusulas WHERE, agrupaciones (GROUP BY) y restricciones de integridad.
>
>b) Del mismo modo, diferentes herramientas de creación de informes pueden tratar los nulos de diferentes maneras, sobre todo a la hora de combinar datos procedentes de diferentes consultas a través de información conformada.
>
>c) Consultas multihecho (consultas que recuperan datos desde diferentes ta- blas de hecho utilizando dimensiones conformadas): la forma en la que estas consultas se realizan depende de las herramientas de creación de informes. Un mecanismo muy utilizado es la utilización de FULL OUTER JOIN, lo que per- mite combinar varias subconsultas que «atacan» a una tabla de hechos con- creta a partir de datos conformados. Asegurando valores por defecto, garanti- zamos la consistencia de los datos a la hora de mostrarlos en un informe. ( FULL OUTER JOIN
      Combinación externa (outer join) que nos permite obtener todos los valores de ambas ta- blas.)
>
>d) Evitar valores nulos en listas de valores de informes. 
>
>e) Existen productos OLAP en el mercado que no aceptan valores nulos, lo que
nos causaría problemas a la hora de generar cubos de datos. OLAP  On line analytical processing

__Ejemplo de consulta multihecho con FULL OUTER JOIN__  
Supongamos que tenemos un modelo en estrella para análisis de una empresa con Fecha, Cliente y Producto como dimensiones (D), y Ventas y Devoluciones como tablas de he- chos (F), tal y como se muestra en la figura 3.

<img src="img2/9.png" width=550> 
Los datos de cada una de estas tablas es el siguiente. Las claves primarias son claves su- brogadas.

In [60]:
CREATE TABLE teoria.ventas(
    id_ventas integer primary key,
    fecha_skey integer,
    cliente_skey integer,
    producto_skey integer,
    num_productos integer,
    ventas_eur decimal
);

CREATE TABLE teoria.fecha(
    fecha_skey    integer primary key, /*claves subrogadas de */
    fecha         varchar(20), 
    ano_mes       varchar(20),
    ano           integer
);

CREATE TABLE teoria.cliente(
    cliente_skey integer primary key,
    cliente      integer,
    nombre_cliente varchar(50),
    direccion    varchar(100),
    cod_postal   integer,
    ciudad       varchar(50)
);

CREATE TABLE teoria.producto2(
    producto_skey integer primary key,
    producto      varchar(10),
    nombre_producto varchar(50),
    precio_actual decimal
);

CREATE TABLE teoria.devoluciones(
    id_devoluciones integer primary key,
    fecha_skey integer,
    cliente_skey integer,
    producto_skey integer,
    num_productos integer,
    devuelto_eur decimal
);


In [59]:
DROP TABLE teoria.fecha;
DROP TABLE teoria.cliente;
DROP TABLE teoria.producto2;
DROP TABLE teoria.ventas;
DROP TABLE teoria.devoluciones;

In [61]:
INSERT INTO teoria.ventas(id_ventas, fecha_skey, cliente_skey, producto_skey, num_productos, ventas_eur)
VALUES ('1','20150101','1','1','10','24.5'),
       ('2','20150101','1','2','5','5'),
       ('3','20150101','2','3','3','4.5'),
       ('4','20150101','2','4','1','1.25'),
       ('5','20150101','3','5', NULL,'14.7');

INSERT INTO teoria.fecha(fecha_skey, fecha, ano_mes, ano)
VALUES ('20150101','01-01-2015','2015/01','2015'),
       ('20150102','02-01-2015','2015/01','2015'),
       ('20150103','03-01-2015','2015/01','2015'),
       ('20150104','04-01-2015','2015/01','2015');

INSERT INTO teoria.cliente(cliente_skey, cliente, nombre_cliente, direccion, cod_postal, ciudad)
VALUES ('1','1111','USACO S.A.','C/ Alpargata, 22', '31031', 'Barcelona'),
       ('2','2222','PENTEX S.A.','C/ Mediana, 22', '31067', 'Tarragona'),
       ('3','3333','SEMITEX S.A.','C/ Superior, 102', NULL, 'LLeida'),
       ('4','4444','FEDEX S.A.','C/ Inferior, 55', '30070', 'Barcelona');

INSERT INTO teoria.producto2(producto_skey, producto, nombre_producto, precio_actual)
VALUES ('1','P0001','GALLETAS SENSACION 100gr','2.45'),
       ('2','P0002','BARRA PAN 250gr','1'),
       ('3','P0003','MANZANAS GALA 1KG','2.45'),
       ('4','P0004','NARANJAS VALENCIA 1KG','1.25'),
       ('5','P0005','PLATANOS DE CANARIAS 1KG','0.98');

INSERT INTO teoria.devoluciones(id_devoluciones, fecha_skey, cliente_skey, producto_skey, num_productos, devuelto_eur)
VALUES ('1','20150103','1','1','5','12.25'),
       ('2','20150103','2','2','1','1'),
       ('3','20150103','3','3','1','1.5');

In [62]:
SELECT * FROM teoria.fecha;

4 row(s) returned.


fecha_skey,fecha,ano_mes,ano
20150101,01-01-2015,2015/01,2015
20150102,02-01-2015,2015/01,2015
20150103,03-01-2015,2015/01,2015
20150104,04-01-2015,2015/01,2015


In [63]:
SELECT * FROM teoria.cliente;

4 row(s) returned.


cliente_skey,cliente,nombre_cliente,direccion,cod_postal,ciudad
1,1111,USACO S.A.,"C/ Alpargata, 22",31031.0,Barcelona
2,2222,PENTEX S.A.,"C/ Mediana, 22",31067.0,Tarragona
3,3333,SEMITEX S.A.,"C/ Superior, 102",,LLeida
4,4444,FEDEX S.A.,"C/ Inferior, 55",30070.0,Barcelona


In [64]:
SELECT * FROM teoria.ventas;

5 row(s) returned.


id_ventas,fecha_skey,cliente_skey,producto_skey,num_productos,ventas_eur
1,20150101,1,1,10.0,24.5
2,20150101,1,2,5.0,5.0
3,20150101,2,3,3.0,4.5
4,20150101,2,4,1.0,1.25
5,20150101,3,5,,14.7


In [65]:
SELECT * FROM teoria.producto2;

5 row(s) returned.


producto_skey,producto,nombre_producto,precio_actual
1,P0001,GALLETAS SENSACION 100gr,2.45
2,P0002,BARRA PAN 250gr,1.0
3,P0003,MANZANAS GALA 1KG,2.45
4,P0004,NARANJAS VALENCIA 1KG,1.25
5,P0005,PLATANOS DE CANARIAS 1KG,0.98


In [46]:
SELECT * FROM teoria.devoluciones;

3 row(s) returned.


id_devoluciones,fecha_skey,cliente_skey,producto,num_productos,devuelto_eur
1,20150103,1,1,5,12.25
2,20150103,2,2,1,1.0
3,20150103,3,3,1,1.5


Los __valores__ de `Fecha, Cliente y Producto` referencian a las  
__claves subrogadas__ de las tablas de `Fecha, Cliente y Producto` respectivamente.

Imaginemos que nos piden generar la siguiente consulta: obtener 
>* el año/mes, 
>* nombre de cliente, 
>* código postal, 
>* ventas (en euros) y 
>* devoluciones (en euros) 
>* ordenados por nombre de cliente ascendentemente.

__CONSULTA MULTIHECHO__  
Como podéis imaginar, se trata de una __`consulta multihecho`__:  

debemos obtener:
>* usando la __tabla de hechos de ventas__: debemos obtener la fecha, el nombre del cliente y las ventas.
>  
>
>* usando la __tabla de hechos de devoluciones__: debemos obtener la fecha, el nombre de cliente y las devoluciones.
---
>Para obtener los __datos de ventas__ realizaremos la siguiente consulta:

In [70]:
SELECT
    fecha.ano_mes,
    cliente.nombre_cliente,
    cliente.cod_postal,
    SUM(ventas.ventas_eur) AS ventas_eur
FROM
    teoria.ventas
INNER JOIN teoria.fecha 
ON
    ventas.fecha_skey = fecha.fecha_skey
INNER JOIN teoria.cliente 
ON
    teoria.ventas.cliente_skey = teoria.cliente.cliente_skey
GROUP BY
    teoria.fecha.ano_mes,
    teoria.cliente.nombre_cliente,
    teoria.cliente.cod_postal
ORDER BY
    teoria.cliente.nombre_cliente

3 row(s) returned.


ano_mes,nombre_cliente,cod_postal,ventas_eur
2015/01,PENTEX S.A.,31067.0,5.75
2015/01,SEMITEX S.A.,,14.7
2015/01,USACO S.A.,31031.0,29.5


>Para obtener los __datos de devoluciones__ realizaremos la siguiente consulta:

In [72]:
SELECT
    fecha.ano_mes,
    cliente.nombre_cliente,
    cliente.cod_postal,
    SUM(devoluciones.devuelto_eur) AS devuelto_eur
FROM
    teoria.devoluciones
INNER JOIN  teoria.fecha 
ON
    devoluciones.fecha_skey = fecha.fecha_skey
INNER JOIN teoria.cliente 
ON
    devoluciones.cliente_skey = cliente.cliente_skey
GROUP BY
    fecha.ano_mes,
    cliente.nombre_cliente,
    cliente.cod_postal
ORDER BY
   cliente.nombre_cliente

3 row(s) returned.


ano_mes,nombre_cliente,cod_postal,devuelto_eur
2015/01,PENTEX S.A.,31067.0,1.0
2015/01,SEMITEX S.A.,,1.5
2015/01,USACO S.A.,31031.0,12.25


> El último paso es el de combinar ambas consultas en una sola.  
La propuesta de consulta, utilizando __FULL OUTER JOIN__, se puede ver a continuación:

In [88]:
/*COALESCE Devuelve el primer argumento que no es nulo.*/
SELECT COALESCE(consulta_1.ano_mes, consulta_2.ano_mes) AS ano_mes,
       COALESCE(consulta_1.nombre_cliente, consulta_2.nombre_cliente) AS nombre_cliente,
       COALESCE(consulta_1.cod_postal, consulta_2.cod_postal) AS cod_postal,
       consulta_1.ventas_eur,
       consulta_2.devuelto_eur
FROM(SELECT
        fecha.ano_mes,
        cliente.nombre_cliente,
        cliente.cod_postal,
        SUM(ventas.ventas_eur) AS ventas_eur
    FROM
        teoria.ventas
    INNER JOIN teoria.fecha ON ventas.fecha_skey = fecha.fecha_skey
    INNER JOIN teoria.cliente ON ventas.cliente_skey = cliente.cliente_skey
    GROUP BY
        fecha.ano_mes,
        cliente.nombre_cliente,
        cliente.cod_postal
    )consulta_1
    
FULL OUTER JOIN
    (SELECT
        fecha.ano_mes,
        cliente.nombre_cliente,
        cliente.cod_postal,
        SUM(devoluciones.devuelto_eur) AS devuelto_eur
    FROM
        teoria.devoluciones
    INNER JOIN teoria.fecha ON devoluciones.fecha_skey = fecha.fecha_skey
    INNER JOIN teoria.cliente ON devoluciones.cliente_skey = cliente.cliente_skey
    GROUP BY
        fecha.ano_mes,
        cliente.nombre_cliente,
        cliente.cod_postal
    ) consulta_2 ON 
        consulta_1.ano_mes = consulta_2.ano_mes 
    AND consulta_1.nombre_cliente = consulta_2.nombre_cliente
    AND consulta_1.cod_postal = consulta_2.cod_postal
ORDER BY
    nombre_cliente ASC

4 row(s) returned.


ano_mes,nombre_cliente,cod_postal,ventas_eur,devuelto_eur
2015/01,PENTEX S.A.,31067.0,5.75,1.0
2015/01,SEMITEX S.A.,,14.7,
2015/01,SEMITEX S.A.,,,1.5
2015/01,USACO S.A.,31031.0,29.5,12.25


Si ejecutamos esta consulta, los datos obtenidos serían los siguientes, que difieren ligeramente de los datos esperados, en concreto para el cliente SEMITEX S. A.

¿Por qué sucede esto? Vemos que en la __consulta multihecho__, una de las condiciones del FULL OUTER JOIN es __`consulta_1.cod_postal = consulta_2.cod_postal`__. 
>En este caso, el código postal es nulo para dicho cliente, por lo que la condición de igualdad no se cumple. 
>
>El resultado de los datos para este cliente aparece fracturado en dos filas: 
>* una con los datos de ventas y 
>* otra con los datos de devoluciones. 
>
>Véase también que, para los datos de ventas, el valor de devoluciones es NULL, y viceversa, el valor de ventas en devoluciones es NULL. Esto es así porque no existe información disponible para dicha columna desde la tabla de hechos a la que referencia.

Si dispusiésemos de valores por defecto, los resultados obtenidos serían diferentes. Asu- miendo un valor por defecto Desconocido para el código postal, los resultados obtenidos utilizando esta misma consulta serían los siguientes:

__METODOLOGÍA DEL DISEÑO DE MODELOS DIMENSIONALES__  
A partir de lo comentado anteriormente, la metodología de diseño de __modelos dimensionales__ recomienda que todas las columnas de las dimensiones tengan un valor por defecto. Esto es:

>* Para columnas con tipo de dato cadena de caracteres, se suele asignar un valor Desconocido o No Aplicable (N/A), dependiendo de su naturaleza.
>
>
>* Para columnas con tipo de dato numérico, se suele utilizar un valor 0.
>
>
>* Para columnas con tipo de dato fecha/hora, se suele utilizar una fecha lejana o temprana en el tiempo. Por ejemplo, 1900-01-01 o 9999-12-31, que suelen indicar «desde el inicio de la historia» y «hasta el fin de la historia» respectivamente.
>
>
>* Es importante destacar que los valores propuestos anteriormente son orien- tativos y que estos suelen acordarse con los usuarios a la hora de diseñar el almacén de datos.

### 4.2.2. Valores nulos en tablas de hechos 
Al contrario que las dimensiones, las __tablas de hechos__ contienen la información que queremos medir, información que denominamos __`cuantitativa`__. 
>Esta información es la que agregamos mediante las funciones de agregación (SUM, AVG, COUNT...), información que combinamos con dimensiones para obtener los diferentes puntos de vista que buscamos.

Las medidas, que generalmente suelen ser de tipo numérico, podrían no disponer de un valor concreto (bien por motivos de calidad de datos, o simplemente porque no era necesario guardarlo), siendo este un escenario bastante frecuente. 
>En estos casos, al ser valores que van a ser agregados, no tendríamos ningún problema en permitir valores nulos. La razón por la que esto es posible es por la naturaleza de estas funciones, que no consideran los nulos como un valor a considerar. 
>
>Por ejemplo, la suma (SUM) de valores nulos y no nulos equivale a sumar solamente aquellos valores que no son nulos. Lo mismo sucede con la función media (AVG), contar (COUNT), máximo (MAX) y mínimo (MIN).


__Ejemplo de agregación de valores nulos__  
Utilizando el ejemplo anterior de ventas, podemos ver que el valor de No. Productos en la venta realizada para el cliente con clave subrogada 3 (SEMITEX S. A.) tiene un valor

<img src="img2/11.png" width=550> 

Por otro lado, las tablas de hechos contienen referencias a las dimensiones. Estas referencias son las claves subrogadas que hemos estudiado anteriormen- te, y que identifican unívocamente a las filas de la dimensión. En ocasiones, es posible encontrarse casos en los que, a la hora de mapear el valor para obtener la clave subrogada de la dimensión para insertarla en la tabla de hechos, no es posible encontrar dicho valor (por ejemplo, si este nunca ha existido en el sistema operacional). En estos casos, al no obtener una clave subrogada, el valor a insertar sería un nulo.

Cuando nos encontramos en este escenario, la recomendación es utilizar un valor de clave subrogada especial para evitar tener valores nulos. Si recorda- mos lo visto en la sección de claves subrogadas, habíamos hablado de una fila especial con clave subrogada -1, que nos permitía identificar la falta de valores en los sistemas origen. Así, garantizaremos que todas las filas de la tabla de hechos estén vinculadas siempre a alguna fila existente en la dimensión.

__Ejemplo de fila especial para capturar falta de valores__  
Utilizando la dimensión Cliente como ejemplo, la fila especial con clave subrogada -1 se podría implementar de la siguiente forma. Así, conseguiríamos mapear correctamente las ventas y devoluciones asociadas a clientes que no podemos encontrar en la dimensión.

<img src="img2/12.png" width=550> 

Existen varias razones para utilizar este mecanismo:
>* Evitar violar la integridad referencial entre dimensiones y hechos.
>
>
>* Facilitar el uso de INNER JOIN en lugar de LEFT OUTER JOIN, mejorando el rendimiento de la consulta.
>
>
>* Asegurarse que los resultados agregados de la consulta son siempre correctos, independientemente de la dimensión que se utilice en el análisis, al estar todos los datos correctamente mapeados.
>
>
>* Facilitar la identificación de problemas de calidad de datos. Alrealizar informes y detectar valores DESCONOCIDO o similares puede ser una señal de que existen problemas en el sistema operacional.

De hecho, la recomendación es diseñar la integridad referencial entre dimen- siones y hechos con columnas que no permitan nulos (NOT NULL), forzando la utilización de estas filas especiales en los casos descritos anteriormente.