# 3. SQL para preparación de datos

In [4]:
# @title Postgress preloading (install server)
#The output of the installation is not displayed when %%capture is used at the start of the cell
%%capture
# Install postgresql server
!pip install ipython-sql

!sudo apt-get -y -qq update
!sudo apt-get -y -qq install postgresql
!sudo service postgresql start

# Setup a password `postgres` for username `postgres`
!sudo -u postgres psql -U postgres -c "ALTER USER postgres PASSWORD 'postgres';"
# Setup a database with name `sampledb` to be used
# !sudo -u postgres psql -U postgres -c 'DROP DATABASE IF EXISTS sampledb;'
# !sudo -u postgres psql -U postgres -c 'CREATE DATABASE sampledb;'

!curl https://raw.githubusercontent.com/limspiga/data-modeling/main/db/data.dump  -O
!sudo -u postgres psql -U postgres -c 'CREATE DATABASE sqlda;'

# !sudo -u postgres psql -U postgres -d 'sqlda' -f 'data.dump'

# https://thivyapriyaa.medium.com/setting-up-postgresql-on-google-colab-4d02166939fc

In [5]:
# @title Postgress preloading
# import
!sudo -u postgres psql -d sqlda < data.dump
%env DATABASE_URL=postgresql://postgres:postgres@localhost:5432/sqlda
#To load the sql extention to start using %%sql
%load_ext sql

SET
SET
SET
SET
SET
 set_config 
------------
 
(1 row)

SET
SET
SET
SET
CREATE EXTENSION
COMMENT
CREATE EXTENSION
COMMENT
ERROR:  duplicate key value violates unique constraint "pg_ts_dict_dictname_index"
DETAIL:  Key (dictname, dictnamespace)=(simple_dict, 2200) already exists.
ALTER TEXT SEARCH DICTIONARY
SET
SET
ERROR:  relation "closest_dealerships" already exists
ALTER TABLE
ERROR:  relation "countries" already exists
ALTER TABLE
ERROR:  relation "customer_sales" already exists
ALTER TABLE
ERROR:  relation "customer_search" already exists
ALTER TABLE
ERROR:  relation "customer_survey" already exists
ALTER TABLE
ERROR:  relation "customer_survey_search" already exists
ALTER TABLE
ERROR:  relation "customers" already exists
ALTER TABLE
ERROR:  relation "dealerships" already exists
ALTER TABLE
ERROR:  relation "emails" already exists
ALTER TABLE
ERROR:  relation "products" already exists
ALTER TABLE
ERROR:  relation "public_transportation_by_zip" already exists
ALTER TABLE
ERROR:  r

# 3.1 Introducción
Según Forbes, los analistas de datos pasan casi el 80% de su tiempo preparando datos. Trabajar con datos mal organizados puede resultar en análisis incorrectos. Aquí es donde SQL se vuelve una herramienta poderosa, ayudándote a ordenar y limpiar los datos eficientemente.

En este capítulo, explorarás el proceso de consolidación de datos provenientes de diversas fuentes mediante el uso de las instrucciones
- JOIN y
- UNION en SQL.

Del mismo modo, te introducirás a herramientas esenciales para la limpieza y el manejo eficiente de los datos, incluyendo las funciones
- CASE WHEN,
- COALESCE,
- NULLIF,
- así como LEAST y
- GREATEST.

Finalmente, aprenderás estrategias efectivas para prevenir la redundancia de información a través del comando
- DISTINCT.

Todo esto te permitirá trabajar con datos más limpios y precisos.

# 3.2 Ensamble de Datos

En el segundo capítulo abordaste operaciones básicas en SQL para el manejo de una sola tabla. En esta sección, aprenderás a trabajar con datos distribuidos en múltiples tablas, utilizando uniones y agrupaciones para consolidar la información.

## 3.2.1  Conexión de Tablas con JOIN
En numerosas ocasiones, la data que deseamos analizar se encuentra distribuida en varias tablas, lo que hace insuficiente el recurso `SELECT` aplicado a una sola tabla.

Afortunadamente, SQL pone a nuestra disposición potentes herramientas, como el comando `JOIN`, que nos permiten unificar tablas relacionadas y así obtener una vista más completa y enriquecida de la información.

Para que lo veas más claro, imagina que tenemos dos tablas en la base de datos ZoomZoom:

- una de concesionarios y otra de
- vendedores.

In [3]:
%%sql
-- Figura 3.1: Estructura de la tabla de concesionarios
SELECT
    column_name,
    data_type,
    character_maximum_length,
    is_nullable
FROM
    information_schema.columns
WHERE
    table_name = 'dealerships';

9 rows affected.


column_name,data_type,character_maximum_length,is_nullable
dealership_id,bigint,,YES
latitude,double precision,,YES
longitude,double precision,,YES
date_opened,timestamp without time zone,,YES
date_closed,timestamp without time zone,,YES
street_address,text,,YES
city,text,,YES
state,text,,YES
postal_code,text,,YES


Y la tabla de los vendedores se ve así:

In [4]:
%%sql
-- Figura 3.2: Estructura de la tabla de vendedores
SELECT
    column_name,
    data_type,
    character_maximum_length,
    is_nullable
FROM
    information_schema.columns
WHERE
    table_name = 'salespeople';

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


column_name,data_type,character_maximum_length,is_nullable
salesperson_id,bigint,,YES
dealership_id,bigint,,YES
hire_date,timestamp without time zone,,YES
termination_date,timestamp without time zone,,YES
last_name,text,,YES
suffix,text,,YES
username,text,,YES
gender,text,,YES
title,text,,YES
first_name,text,,YES


En la tabla que muestra los detalles de los vendedores, hay una columna etiquetada como `dealership_id`. Esta columna tiene un papel muy importante:
- nos dice a qué concesionario pertenece cada vendedor, conectándolo directamente con una entrada específica en la tabla de concesionarios a través de una coincidencia de `dealership_id`.

Esta conexión se establece mediante un concepto conocido como foreign key o clave extranjera, representada aquí por el campo `dealership_id` en la tabla  `salespeople`. Esta clave facilita una relación directa con el campo homólogo en otra tabla, estableciendo así un vínculo eficiente entre ambas.

Este enlace facilita la exploración y análisis de datos de manera diversa y enriquecedora. Supongamos que deseas identificar a los vendedores que operan en los concesionarios de California; podrías responder a esta pregunta de forma sencilla.

- El primer paso sería determinar cuáles concesionarios se ubican en California, para luego
- utilizar esta data para hallar a los vendedores pertinentes.

A continuación, demostraremos cómo lograrlo a través de una consulta SQL:


In [5]:
%%sql
-- Figura 3.3: Concesionarios en California
SELECT *
FROM dealerships
WHERE state='CA';

 * postgresql://postgres:***@localhost:5432/sqlda
2 rows affected.


dealership_id,street_address,city,state,postal_code,latitude,longitude,date_opened,date_closed
2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
5,2210 Bunker Hill Drive,San Mateo,CA,94402,37.524487,-122.343609,2017-01-26 00:00:00,


Ahora que sabes que los únicos dos concesionarios en California tienen los IDs 2 y 5, respectivamente, puedes entonces consultar la tabla de vendedores, de la siguiente manera:


In [20]:
%%sql
-- Figura 3.4: Vendedores en California (hay 35)
SELECT *
FROM salespeople
WHERE dealership_id in (2, 5)
ORDER BY 1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,
57,5,,Spense,Pithcock,,spithcock1k,Male,2020-08-11 00:00:00,
61,5,,Ludvig,Baynam,,lbaynam1o,Male,2019-04-22 00:00:00,
62,2,,Carroll,Pudan,,cpudan1p,Female,2019-01-12 00:00:00,
63,2,,Adrianne,Otham,,aotham1q,Female,2017-08-16 00:00:00,
71,2,,Georgianna,Bastian,,gbastian1y,Female,2021-08-19 00:00:00,
75,2,,Saundra,Shoebottom,,sshoebottom22,Female,2020-11-12 00:00:00,
108,2,,Hale,Brigshaw,,hbrigshaw2z,Male,2018-03-26 00:00:00,
112,2,,Karney,Jakolevitch,,kjakolevitch33,Male,2020-03-19 00:00:00,


Aunque el método actual permite obtener la información deseada, requiere dos consultas separadas, resultando algo tedioso. Sería más práctico fusionar los datos de concesionarios y vendedores en una única tabla para, posteriormente, filtrar y obtener solo los registros de California. Por suerte, SQL nos brinda una solución eficaz a través de la cláusula JOIN, la cual facilita la unión de dos o más tablas bajo criterios específicos definidos por nosotros

## Tipos de Joins
En este capítulo, explorarás los tres tipos fundamentales de joins, ilustrados en la siguiente figura: joins internos, externos y cross joins

<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/7b05c1b2-f698-4eea-8593-cfebb8519a76.png?raw=true' width="300" />
<figcaption>
Figura 3.5: Tipos principales de joins</figcaption></center>
</figure>





### Inner Joins

Un Inner Join es un recurso que utilizamos para fusionar datos procedentes de dos tablas distintas, siempre y cuando satisfagan una condición específica que determinamos, conocida como "predicado de join". Habitualmente, esta condición se basa en una relación de igualdad, donde un elemento en una tabla corresponde exactamente a un elemento en la otra.

Puedes visualizarlo como un filtro selectivo que solo permite el paso de aquellas combinaciones de filas que cumplen con la condición establecida. Las combinaciones que no la satisfacen son excluidas del conjunto de resultados.

Para ejecutar un Inner Join, se contrasta cada fila de la primera tabla con todas las filas de la segunda, evaluando si cumplen con el criterio del "join". Solo las combinaciones que verifican positivamente la condición se presentarán en los resultados finales.

A continuación, exploraremos cómo se articula esto desde un enfoque técnico en SQL:

```sql
SELECT {columns}
FROM {table1}
INNER JOIN {table2}
  ON {table1}.{common_key_1}={table2}.{common_key_2};
```


En este contexto, {columns} representa las columnas que deseas extraer de la tabla resultante, {table1} se refiere a la primera tabla involucrada y {table2} a la segunda. Por otro lado, {common_key_1} y {common_key_2} son las columnas de {table1} y {table2}, respectivamente, que deseas utilizar para realizar la unión.

Retomando el ejemplo de las tablas que abordamos anteriormente, concesionarios y vendedores, sería beneficioso integrar la información de la tabla de concesionarios a la de vendedores para conocer el estado de cada concesionario. Para este caso, asumiremos que todos los IDs de los vendedores están correctamente asociados a un dealership_id válido.

La unión de estas tablas se puede llevar a cabo utilizando un predicado de unión basado en una condición de igualdad, tal como se muestra a continuación:


In [29]:
%%sql
-- Figura 3.6: La tabla de vendedores unida a la tabla de concesionarios
SELECT salespeople.first_name, dealerships.street_address, dealerships.state
FROM salespeople
INNER JOIN dealerships
  ON salespeople.dealership_id = dealerships.dealership_id
ORDER BY 1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


first_name,street_address,state
Abby,2120 Walnut Street,PA
Abie,2437 NW 28th Street,FL
Ad,2437 NW 28th Street,FL
Adrianne,808 South Hobart Boulevard,CA
Afton,3650 Gunston Road,VA
Agnella,2120 Walnut Street,PA
Aile,1447 Hardesty Avenue,MO
Alanna,16801 Lee Road,TX
Alaric,7315 California Avenue,WA
Alberik,4311 San Jacinto Street,TX


Como se observa en el resultado anterior, la nueva tabla creada es el fruto de la fusión de las tablas de vendedores y concesionarios. Es importante señalar que la tabla de vendedores, que es la primera mencionada en la consulta, aparece en la parte izquierda del resultado, mientras que la de concesionarios se sitúa a la derecha. Esta distinción izquierda-derecha tendrá un papel crucial en la siguiente sección donde exploraremos los joins externos, ya que dependiendo de la posición de las tablas, los resultados pueden variar significativamente. En el caso de los joins internos, el orden de las tablas no afecta los resultados cuando se utiliza una condición de igualdad para el predicado de unión.

Examinando más detalladamente, se puede ver que el campo 'dealership_id' de la tabla de vendedores se alinea perfectamente con el 'dealership_id' de la tabla de concesionarios, cumpliendo así con la condición estipulada en el predicado de unión. Con la ejecución de esta consulta, has generado un nuevo 'superconjunto de datos' que amalgama la información de ambas tablas en base a la igualdad entre los valores de 'dealership_id'.

Con este 'superconjunto de datos' a tu disposición, tienes la libertad de ejecutar consultas SELECT tal como lo harías con una tabla convencional, utilizando los conocimientos adquiridos en el Capítulo 2 sobre los fundamentos de SQL para análisis. Retomando el caso inicial donde buscábamos determinar qué vendedores operan en California, este nuevo conjunto de datos facilita la solución al permitirte responderlo con una única y sencilla consulta:


In [28]:
%%sql
-- Figura 3.7: Vendedores en California con una consulta
SELECT salespeople.first_name, dealerships.street_address, dealerships.state
FROM salespeople
INNER JOIN dealerships
  ON salespeople.dealership_id = dealerships.dealership_id
WHERE dealerships.state = 'CA'
ORDER BY 1 LIMIT 9;

 * postgresql://postgres:***@localhost:5432/sqlda
9 rows affected.


first_name,street_address,state
Adrianne,808 South Hobart Boulevard,CA
Amabelle,808 South Hobart Boulevard,CA
Beauregard,808 South Hobart Boulevard,CA
Beniamino,2210 Bunker Hill Drive,CA
Carroll,808 South Hobart Boulevard,CA
Cary,2210 Bunker Hill Drive,CA
Emelita,808 South Hobart Boulevard,CA
Evaleen,2210 Bunker Hill Drive,CA
Ferdie,2210 Bunker Hill Drive,CA



Esto te da el siguiente resultado, que muestra las primeras filas del conjunto de resultados completo:


Observarás que el resultado en la Figura 3.6 y la Figura 3.7 es casi idéntico, siendo la excepción que la tabla en la Figura 3.7 tiene los datos de los concesionarios añadidos también. Si quieres recuperar solo la parte de la tabla de vendedores de esto, puedes seleccionar las columnas de vendedores usando la siguiente sintaxis de estrella:


In [37]:
%%sql
-- # Figura 3.8: Vendedores en California con SELECT alias de tabla
SELECT salespeople.*
FROM salespeople
INNER JOIN dealerships
  ON dealerships.dealership_id = salespeople.dealership_id
WHERE dealerships.state = 'CA'
ORDER BY 1 LIMIT 9;

 * postgresql://postgres:***@localhost:5432/sqlda
9 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,
57,5,,Spense,Pithcock,,spithcock1k,Male,2020-08-11 00:00:00,
61,5,,Ludvig,Baynam,,lbaynam1o,Male,2019-04-22 00:00:00,
62,2,,Carroll,Pudan,,cpudan1p,Female,2019-01-12 00:00:00,
63,2,,Adrianne,Otham,,aotham1q,Female,2017-08-16 00:00:00,
71,2,,Georgianna,Bastian,,gbastian1y,Female,2021-08-19 00:00:00,
75,2,,Saundra,Shoebottom,,sshoebottom22,Female,2020-11-12 00:00:00,
108,2,,Hale,Brigshaw,,hbrigshaw2z,Male,2018-03-26 00:00:00,




Hay otro atajo que puede ayudar al escribir sentencias con varias cláusulas JOIN. Puedes asignar un alias a los nombres de las tablas para evitar escribir el nombre completo de la tabla cada vez. Simplemente escribe el nombre del alias después de la primera mención de la tabla después de la cláusula JOIN, y podrás ahorrar una cantidad considerable de escritura. Por ejemplo, para la consulta anterior, si quisieras asignar un alias a "salespeople" con "s" y a "dealerships" con "d", podrías escribir la siguiente sentencia:

In [38]:
%%sql
SELECT s.*
FROM salespeople s
INNER JOIN dealerships d
  ON d.dealership_id = s.dealership_id
WHERE d.state = 'CA'
ORDER BY 1
LIMIT 9;


 * postgresql://postgres:***@localhost:5432/sqlda
9 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,
57,5,,Spense,Pithcock,,spithcock1k,Male,2020-08-11 00:00:00,
61,5,,Ludvig,Baynam,,lbaynam1o,Male,2019-04-22 00:00:00,
62,2,,Carroll,Pudan,,cpudan1p,Female,2019-01-12 00:00:00,
63,2,,Adrianne,Otham,,aotham1q,Female,2017-08-16 00:00:00,
71,2,,Georgianna,Bastian,,gbastian1y,Female,2021-08-19 00:00:00,
75,2,,Saundra,Shoebottom,,sshoebottom22,Female,2020-11-12 00:00:00,
108,2,,Hale,Brigshaw,,hbrigshaw2z,Male,2018-03-26 00:00:00,


Alternativamente, también podrías colocar la palabra clave AS entre el nombre de la tabla y el alias para hacer el alias más explícito:

In [40]:
%%sql
SELECT s.*
FROM salespeople AS s
INNER JOIN dealerships AS d
  ON d.dealership_id = s.dealership_id
WHERE d.state = 'CA'
ORDER BY 1
LIMIT 9;

 * postgresql://postgres:***@localhost:5432/sqlda
9 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,
57,5,,Spense,Pithcock,,spithcock1k,Male,2020-08-11 00:00:00,
61,5,,Ludvig,Baynam,,lbaynam1o,Male,2019-04-22 00:00:00,
62,2,,Carroll,Pudan,,cpudan1p,Female,2019-01-12 00:00:00,
63,2,,Adrianne,Otham,,aotham1q,Female,2017-08-16 00:00:00,
71,2,,Georgianna,Bastian,,gbastian1y,Female,2021-08-19 00:00:00,
75,2,,Saundra,Shoebottom,,sshoebottom22,Female,2020-11-12 00:00:00,
108,2,,Hale,Brigshaw,,hbrigshaw2z,Male,2018-03-26 00:00:00,


Ahora que has cubierto los conceptos básicos de las uniones internas (inner joins), es hora de discutir las uniones externas (outer joins).


### Uniones Externas (Outer Joins)
Las uniones internas solo retornan filas que satisfacen el predicado de unión en ambas tablas. Si deseas obtener todas las filas de una tabla, incluyendo las que no encuentran correspondencia en la otra, puedes usar una unión externa. En este caso, los campos de la tabla sin correspondencias mostrarán NULL.

Las uniones externas se dividen en tres tipos: izquierdas, derechas y completas. La unión externa izquierda, realizada con las palabras clave "`LEFT OUTER JOIN"` o simplemente "`LEFT JOIN`", retorna todas las filas de la tabla izquierda y las filas correspondientes de la derecha; si no hay correspondencia, aparecerá `NULL` en los campos de la tabla derecha.

Para identificar a los clientes que no han recibido un correo electrónico, se puede utilizar una unión externa izquierda entre las tablas de clientes y correos electrónicos. Esta unión ayudará a listar todos los clientes, incluyendo aquellos que no tienen correspondencia en la tabla de correos electrónicos, facilitando así identificar a quienes aún no se les ha enviado un correo. Se limitará la salida a las primeras 1000 filas para gestionar mejor los resultados.

In [58]:
%%sql
-- Figure 3.9: Customers left-joined to emails
SELECT C.customer_id, c.first_name, c.last_name, e.email_subject
FROM
 customers c
LEFT OUTER JOIN
  emails e ON e.customer_id=c.customer_id
-- WHERE e.email_subject IS NULL
-- WHERE c.customer_id = 27
ORDER BY
  c.customer_id
LIMIT
10;


 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


customer_id,first_name,last_name,email_subject
27,Anson,Fellibrand,


Cuando observas el resultado de la consulta, deberías ver que están presentes las entradas de la tabla de clientes. Sin embargo, para algunas de las filas, como la del customer_id 27, que se puede ver en la Figura 3.9, las columnas que pertenecen a la tabla de correos electrónicos están completamente llenas de valores NULL. Esta configuración explica cómo el outer join es diferente del inner join. Si se hubiera utilizado el inner join, la fila del customer_id 27 no aparecería, porque no hay un registro correspondiente en la tabla de correos electrónicos.

Esta consulta, sin embargo, sigue siendo útil porque ahora puedes utilizarla para encontrar a las personas que nunca han recibido un correo electrónico. Debido a que esos clientes a los que nunca se les envió un correo electrónico tienen una columna customer_id nula en los valores devueltos de la tabla de correos electrónicos, puedes encontrar a todos estos clientes verificando la columna customer_id en la tabla de correos electrónicos, de la siguiente manera:

In [60]:
%%sql
-- Figura 3.10: Clientes a los que no se les ha enviado correos electrónicos
SELECT
    c.customer_id,
    c.title,
    c.first_name,
    c.last_name,
    c.suffix,
    c.email,
    e.email_id,
    e.email_subject,
    e.opened,
    e.clicked,
    e.bounced,
    e.sent_date,
    e.opened_date,
    e.clicked_date
FROM
  customers c
LEFT OUTER JOIN
  emails e ON c.customer_id = e.customer_id
WHERE
  e.customer_id IS NULL
ORDER BY
  c.customer_id
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


customer_id,title,first_name,last_name,suffix,email,email_id,email_subject,opened,clicked,bounced,sent_date,opened_date,clicked_date
27,,Anson,Fellibrand,,afellibrandq@topsy.com,,,,,,,,
32,,Hamnet,Purselowe,,hpurselowev@oaic.gov.au,,,,,,,,
70,,Caty,Woolveridge,,cwoolveridge1x@netscape.com,,,,,,,,
77,,Donal,Lattey,,dlattey24@examiner.com,,,,,,,,
112,,Harcourt,Cripps,,hcripps33@goodreads.com,,,,,,,,
113,,Giffy,Bennington,Jr,gbennington34@nsw.gov.au,,,,,,,,
125,,Bernard,Jirka,,bjirka3g@weibo.com,,,,,,,,
192,,Selina,Hearl,,shearl5b@com.com,,,,,,,,
199,,Mercy,Martschik,,mmartschik5i@hatena.ne.jp,,,,,,,,
212,,Norma,Goldis,,ngoldis5v@paginegialle.it,,,,,,,,


Como puedes ver, todas las entradas están en blanco en la columna email_id de la tabla de correos electrónicos, lo que indica que el cliente de esa fila no ha recibido ningún correo electrónico. Simplemente podrías tomar los correos electrónicos de esta unión para obtener a todos los clientes que no han recibido un correo electrónico.

• Unión externa derecha: Una unión externa derecha es muy similar a una unión externa izquierda, excepto que ahora la tabla de la "derecha" (la segunda tabla listada) tendrá todas las filas visibles, y la tabla de la "izquierda" tendrá valores NULL si no se cumple la condición de UNIÓN. Para ilustrar, vamos a "invertir" la última consulta uniendo por la derecha la tabla de correos electrónicos a la tabla de clientes con la siguiente consulta:

In [6]:
%%sql
-- Figura 3.11: Correos electrónicos unidos por la derecha a la tabla de clientes
SELECT
    e.email_id,
    e.email_subject,
    e.opened,
    e.clicked,
    e.bounced,
    e.sent_date,
    e.opened_date,
    e.clicked_date,
    c.customer_id,
    c.title,
    c.first_name,
    c.last_name,
    c.suffix,
c.email
FROM emails e
RIGHT OUTER JOIN customers c
  ON e.customer_id=c.customer_id
-- WHERE c.customer_id = 27
ORDER BY
  c.customer_id
LIMIT 10;

10 rows affected.


email_id,email_subject,opened,clicked,bounced,sent_date,opened_date,clicked_date,customer_id,title,first_name,last_name,suffix,email
282584,Black Friday. Green Cars.,t,f,f,2020-07-21 15:00:00,2020-07-23 01:12:32,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
323983,Save the Planet with some Holiday Savings.,f,f,f,2021-07-20 15:00:00,,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
370722,"A New Year, And Some New EVs",f,f,f,2021-09-03 15:00:00,,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
282584,Black Friday. Green Cars.,t,f,f,2020-07-21 15:00:00,2020-07-23 01:12:32,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
323983,Save the Planet with some Holiday Savings.,f,f,f,2021-07-20 15:00:00,,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
370722,"A New Year, And Some New EVs",f,f,f,2021-09-03 15:00:00,,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
282584,Black Friday. Green Cars.,t,f,f,2020-07-21 15:00:00,2020-07-23 01:12:32,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
323983,Save the Planet with some Holiday Savings.,f,f,f,2021-07-20 15:00:00,,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
370722,"A New Year, And Some New EVs",f,f,f,2021-09-03 15:00:00,,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com
282584,Black Friday. Green Cars.,t,f,f,2020-07-21 15:00:00,2020-07-23 01:12:32,,1,,Arlena,Riveles,,ariveles0@stumbleupon.com


Observa que este resultado es similar al que se produjo en la Figura 3.9, excepto que los datos de la tabla de correos electrónicos están ahora en el lado izquierdo, y los datos de la tabla de clientes están en el lado derecho. Una vez más, el customer_id 27 tiene NULL para el correo electrónico. Esto muestra la simetría entre una unión por la derecha y una unión por la izquierda.

Unión externa completa (FULL OUTER JOIN): Este tipo de unión devuelve todas las filas de las tablas involucradas, ya sea que satisfagan o no el predicado de unión. Cuando una fila de una tabla coincide con la otra según el criterio establecido, ambas se fusionan, similar a lo que ocurre en una unión interna. En caso contrario, la fila se muestra de manera individual, complementando los campos faltantes con valores NULL. Para implementar esta unión, se utiliza la cláusula "FULL OUTER JOIN" seguida del predicado de unión correspondiente. Aquí te presentamos cómo se estructura esta unión:

In [8]:
%%sql
-- Figura 3.12: Los correos electrónicos están completamente unidos por fuera a la tabla de clientes
SELECT *
FROM emails e
FULL OUTER JOIN
  customers c
  ON e.customer_id=c.customer_id
LIMIT 5;

 * postgresql://postgres:***@localhost:5432/sqlda
5 rows affected.


email_id,customer_id,email_subject,opened,clicked,bounced,sent_date,opened_date,clicked_date,customer_id_1,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address,city,state,postal_code,latitude,longitude,date_added
285737,3802,Black Friday. Green Cars.,f,f,f,2020-07-21 15:00:00,,,3802,,Forster,Ccomini,,fccomini2xl@posterous.com,M,67.104.15.190,413-153-1748,6492 Warner Plaza,Springfield,MA,1105.0,42.0999,-72.5783,2018-09-16 00:00:00
285737,3802,Black Friday. Green Cars.,f,f,f,2020-07-21 15:00:00,,,3802,,Forster,Ccomini,,fccomini2xl@posterous.com,M,67.104.15.190,413-153-1748,6492 Warner Plaza,Springfield,MA,1105.0,42.0999,-72.5783,2018-09-16 00:00:00
317333,41956,Black Friday. Green Cars.,f,f,f,2020-07-21 15:00:00,,,41956,,Sarita,Blow,,sblowwdf@furl.net,F,195.191.36.226,,,,,,,,2020-02-25 00:00:00
317333,41956,Black Friday. Green Cars.,f,f,f,2020-07-21 15:00:00,,,41956,,Sarita,Blow,,sblowwdf@furl.net,F,195.191.36.226,,,,,,,,2020-02-25 00:00:00
318203,43031,Black Friday. Green Cars.,f,f,f,2020-07-21 15:00:00,,,43031,,Linnea,Samme,,lsammex7a@tmall.com,F,136.114.68.115,217-899-1609,,,,,,,2012-12-23 00:00:00


En esta sección, aprendiste cómo implementar tres tipos diferentes de uniones externas. En la siguiente sección, aprenderás sobre la unión cruzada.

# Uniones Cruzadas (Cross Joins)
Unión cruzada (CROSS JOIN): Esta unión no requiere un predicado de unión, resultando en que cada fila de la tabla "izquierda" se asocie con todas las filas de la tabla "derecha", estén relacionadas o no. Es una operación que genera un producto cartesiano, nombrado así en referencia al matemático René Descartes, quien introdujo este concepto. Se implementa mediante la cláusula "CROSS JOIN", seguida del nombre de la otra tabla.

Para ilustrar su uso, consideremos el análisis de cesta de mercado, una técnica que analiza las combinaciones de productos que se venden juntos frecuentemente, ayudando a identificar oportunidades para estrategias de marketing.
- Por ejemplo, en una campaña promocional de dos meses para pañales, podrías querer saber todas las posibles parejas de productos que podrías promocionar juntos, incluyendo combinaciones populares como pañales y toallitas para bebés. La unión cruzada permite obtener todas las combinaciones posibles de productos para tal estrategia, como se muestra en la siguiente consulta SQL:

In [None]:
sql_exec_query('''
SELECT
  P1.product_id, p1.model,
  P2.product_id, p2.model
FROM
  products p1
CROSS JOIN
  products p2;
''')

# Figure 3.13: The cross join of a product to itself

En este escenario, se ha efectuado una unión de cada valor de cada campo de una tabla con cada valor correspondiente en otra tabla. Como resultado, la consulta arroja 144 filas, una cifra que equivale a la multiplicación del número de productos en una tabla por el número de productos en la otra (12 x 12). Este proceso, que prescinde de un predicado de unión, es lo que caracteriza a las uniones cruzadas.

Es importante señalar que las uniones cruzadas son menos frecuentes en la práctica debido a que pueden generar conjuntos de datos extremadamente grandes, lo que a su vez puede sobrecargar y potencialmente colapsar un sistema de base de datos. Por ejemplo, la unión cruzada de dos tablas sustanciales puede dar lugar a un conjunto de datos que consta de cientos de miles de millones de filas. Por ello, es crucial proceder con cautela cuando se opta por utilizar una unión cruzada.

## Ejercicio 3.01: Usando Uniones para Analizar una Concesionaria de Ventas
En este ejercicio, estarás trabajando con uniones para consolidar tablas que tienen una relación entre ellas.

Imagina que el director de ventas de tu compañía solicita un registro detallado de todos los clientes que han efectuado la compra de un vehículo. Tu misión es diseñar una consulta que, no solo recupere los ID de los clientes que han adquirido un auto, sino que también proporcione sus nombres, apellidos y números de contacto válidos.

Para completar este ejercicio, realiza los siguientes pasos:
1. Usa una unión interna para juntar las tablas de ventas, clientes y productos, la cual devolverá datos para los ID de los clientes, nombres, apellidos y números de teléfono válidos:

In [10]:
%%sql
-- # Figure 3.14: Customers who bought a car
SELECT
  c.customer_id, c.first_name,
  c.last_name, c.phone
FROM sales s
INNER JOIN
  customers c ON c.customer_id=s.customer_id
INNER JOIN
  products p ON p.product_id=s.product_id
WHERE
  p.product_type='automobile'
  AND c.phone IS NOT NULL
  LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


customer_id,first_name,last_name,phone
46003,Anabelle,Southby,410-100-8687
46003,Anabelle,Southby,410-100-8687
35824,Wyatan,Dickie,405-786-0858
35824,Wyatan,Dickie,405-786-0858
13206,Stace,Tuison,810-769-8255
13206,Stace,Tuison,810-769-8255
2958,Kirstyn,Draysay,208-534-6858
2958,Kirstyn,Draysay,208-534-6858
32636,Kile,Fishlee,937-207-1484
32636,Kile,Fishlee,937-207-1484


Puedes ver que ejecutar la consulta te ayudó a unir los datos de las tablas de ventas, clientes y productos y obtener una lista de clientes que compraron un coche y tienen un número de teléfono.

En este ejercicio, has empleado uniones para integrar tablas relacionadas de forma sencilla y eficaz. A menudo, te encontrarás en la necesidad de fusionar los resultados de distintas consultas para elaborar nuevas interrogantes, permitiéndote así edificar análisis de datos más complejos basándote en los ya existentes.

# Subconsultas (Subqueries)
Hasta ahora, has estado obteniendo datos de tablas. Puedes haber notado que los resultados de todas las consultas SELECT son relaciones bidimensionales que se asemejan a las tablas en una base de datos relacional.

- **Dado esto, podrías preguntarte si existe alguna manera de utilizar las relaciones generadas por las consultas SELECT en lugar de hacer referencia a una tabla ya existente en tu base de datos.**

La respuesta es "sí". Simplemente puedes tomar una consulta, colocarla entre un par de paréntesis y asignarle un alias. Esto facilitará la construcción de análisis más profundos basados en análisis preexistentes, minimizando así los errores y optimizando la eficiencia.

Por ejemplo, si quisieras identificar a todos los vendedores que operan en California y obtener resultados similares a los presentados en la Figura 3.7, podrías estructurar la consulta de la siguiente manera:

In [12]:
%%sql
-- Figure 3.14: Customers who bought a car
SELECT *
FROM
  salespeople
INNER JOIN (
  SELECT
* FROM
     dealerships
  WHERE
dealerships.state = 'CA' )d
ON d.dealership_id = salespeople.dealership_id
ORDER BY 1
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date,dealership_id_1,street_address,city,state,postal_code,latitude,longitude,date_opened,date_closed
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,,5,2210 Bunker Hill Drive,San Mateo,CA,94402,37.524487,-122.343609,2017-01-26 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,,5,2210 Bunker Hill Drive,San Mateo,CA,94402,37.524487,-122.343609,2017-01-26 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,,5,2210 Bunker Hill Drive,San Mateo,CA,94402,37.524487,-122.343609,2017-01-26 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,,5,2210 Bunker Hill Drive,San Mateo,CA,94402,37.524487,-122.343609,2017-01-26 00:00:00,
57,5,,Spense,Pithcock,,spithcock1k,Male,2020-08-11 00:00:00,,5,2210 Bunker Hill Drive,San Mateo,CA,94402,37.524487,-122.343609,2017-01-26 00:00:00,
57,5,,Spense,Pithcock,,spithcock1k,Male,2020-08-11 00:00:00,,5,2210 Bunker Hill Drive,San Mateo,CA,94402,37.524487,-122.343609,2017-01-26 00:00:00,


Aquí, en lugar de unir las dos tablas y filtrar las filas donde el estado es igual a 'CA', primero encuentras los concesionarios donde el estado es igual a 'CA', y luego unes internamente las filas de esa consulta con los vendedores.

Si una consulta solo tiene una columna, puedes usar una subconsulta con la palabra clave IN en una cláusula WHERE. Por ejemplo, otra forma de extraer los detalles de la tabla de vendedores usando el ID del concesionario para el estado de California sería como sigue:

In [13]:
%%sql
SELECT *
FROM
  salespeople
  WHERE dealership_id IN (
  SELECT dealership_id FROM dealerships
  WHERE dealerships.state = 'CA'
  )
ORDER BY 1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,
51,5,,Lanette,Gerriessen,,lgerriessen1e,Female,2021-02-18 00:00:00,
57,5,,Spense,Pithcock,,spithcock1k,Male,2020-08-11 00:00:00,
57,5,,Spense,Pithcock,,spithcock1k,Male,2020-08-11 00:00:00,
61,5,,Ludvig,Baynam,,lbaynam1o,Male,2019-04-22 00:00:00,
61,5,,Ludvig,Baynam,,lbaynam1o,Male,2019-04-22 00:00:00,
62,2,,Carroll,Pudan,,cpudan1p,Female,2019-01-12 00:00:00,
62,2,,Carroll,Pudan,,cpudan1p,Female,2019-01-12 00:00:00,


Como se ilustra en todos estos ejemplos, es bastante fácil escribir la misma consulta utilizando múltiples técnicas. En la próxima sección, aprenderás sobre uniones.

# Uniones (Unions)
Hasta este punto en el capítulo, te has enfocado en aprender a combinar datos horizontalmente, un método que te permite incrementar el número de columnas añadiendo nueva información a cada fila. No obstante, en ocasiones podrías estar interesado en combinar múltiples consultas de manera vertical, manteniendo las mismas columnas pero incrementando el número de filas con datos adicionales. Para ofrecer una comprensión más profunda de este concepto, revisemos el siguiente ejemplo.

Imagina que deseas visualizar en Google Maps las direcciones tanto de los concesionarios como de los clientes. Para llevar a cabo esta tarea, requerirás compilar las direcciones de ambas partes involucradas. A continuación, te guiaré en cómo construir una consulta que agrupe todas las direcciones de los clientes:

In [15]:
%%sql
SELECT
  street_address, city, state, postal_code
FROM
  customers
WHERE
  street_address IS NOT NULL LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


street_address,city,state,postal_code
1214 Judy Avenue,El Paso,TX,88579
419 Dakota Lane,Mobile,AL,36628
15623 Surrey Pass,York,PA,17405
5 Dexter Park,Charleston,WV,25313
08 Debra Court,Tacoma,WA,98447
9 International Pass,Visalia,CA,93291
57760 Mendota Point,Reston,VA,22096
1435 Bowman Point,Newark,DE,19714
2573 Fordem Parkway,Saint Louis,MO,63116
5651 Kennedy Park,Pensacola,FL,32590



También podrías recuperar las direcciones de los concesionarios con la siguiente consulta:

In [16]:
%%sql
SELECT
  street_address, city, state, postal_code
FROM
  dealerships
WHERE
  street_address IS NOT NULL
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


street_address,city,state,postal_code
52 Hillside Terrace,Millburn,NJ,7039
808 South Hobart Boulevard,Los Angeles,CA,90005
16801 Lee Road,Houston,TX,77032
2437 NW 28th Street,Miami,FL,33242
2210 Bunker Hill Drive,San Mateo,CA,94402
7315 California Avenue,Seattle,WA,98136
3650 Gunston Road,Arlington,VA,22202
5938 Cornfoot Road,Portland,OR,97218
2340 NV-648,Reno,NV,89595
7425 Wilson Avenue,Chicago,IL,60706


Para reducir la complejidad, sería ideal si hubiera una forma de ensamblar las dos consultas en una lista con una única consulta. Aquí es donde entra en juego la palabra clave UNION. Puedes usar las dos consultas anteriores y crear la siguiente consulta:

In [17]:
%%sql
-- Figure 3.15: Union of addresses
( SELECT
  street_address, city, state, postal_code
FROM
  customers
WHERE
  street_address IS NOT NULL
)UNION ( SELECT
  street_address, city, state, postal_code
FROM
  dealerships
WHERE
  street_address IS NOT NULL
)
ORDER BY 1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


street_address,city,state,postal_code
00003 Continental Crossing,Suffolk,VA,23436
00003 Sullivan Road,Des Moines,IA,50981
00006 Birchwood Plaza,Lakeland,FL,33805
00006 Roth Plaza,Fort Smith,AR,72916
00006 Vidon Place,Dallas,TX,75358
00027 Judy Place,Houston,TX,77293
00031 Redwing Drive,Minneapolis,MN,55446
0003 Novick Trail,Montpelier,VT,5609
0004 Northport Alley,Boise,ID,83705
0004 Superior Alley,New Brunswick,NJ,8922


1. Al utilizar "UNION", es esencial que las subconsultas involucradas tengan el mismo número de columnas y que estas columnas compartan tipos de datos compatibles; de lo contrario, la consulta fallará.
2. "UNION" elimina automáticamente las filas duplicadas del resultado final, mostrando solo entradas únicas.
3. Para preservar todas las filas, incluyendo duplicados, se debe utilizar "UNION ALL" en lugar de "UNION".
4. El uso de "UNION ALL" permitirá la inclusión de entradas idénticas provenientes de diferentes consultas en el conjunto de resultados.



## Ejercicio 3.02: Generando una Lista de Invitados de Clientes Élite Usando UNION
En este ejercicio, tu tarea será fusionar dos consultas mediante el uso del comando `UNION`. El objetivo es asistir al equipo de marketing en la promoción del nuevo Modelo Chi, para lo cual planean organizar un evento exclusivo dirigido a una selección de los clientes más acaudalados de ZoomZoom en Los Ángeles, California.

Para que el evento sea un éxito, necesitarán tu ayuda para crear una lista de invitados meticulosamente curada que incluya tanto a clientes selectos que residan en Los Ángeles, California, como a los vendedores que están empleados en la sucursal de ZoomZoom en esa misma ubicación.

La lista de invitados deberá especificar detalles cruciales como el nombre completo de cada individuo y deberá distinguir si la persona es un cliente o un miembro del personal de ZoomZoom. Este detalle facilitará una interacción fluida durante el evento, ayudando a forjar conexiones significativas que podrían ser beneficiosas para la marca en el largo plazo.


Para completar la tarea, ejecuta lo siguiente:


  1. Escribe una consulta que haga una lista de los clientes de ZoomZoom y los empleados de la empresa que viven en Los Ángeles, CA. La lista de invitados debe contener nombres y apellidos y si el invitado es un cliente o un empleado:

In [19]:
%%sql
-- Figure 3.16: Customer and employee guest list in Los Angeles, CA
( SELECT
  first_name, last_name, 'Customer' as guest_type
FROM
  customers
WHERE
  city='Los Angeles'
  AND state='CA'
)
UNION (
  SELECT
  first_name, last_name,
  'Employee' as guest_type
FROM
  salespeople s
INNER JOIN
  dealerships d ON d.dealership_id=s.dealership_id
WHERE
  d.city='Los Angeles'
  AND d.state='CA'
) LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


first_name,last_name,guest_type
Euell,MacWhirter,Customer
Martainn,Tordoff,Customer
Truman,Cutmore,Customer
Asher,Drogan,Customer
Kelley,Christley,Customer
Megan,McCourtie,Customer
Free,Errol,Customer
Dick,Steward,Customer
Bing,Connal,Customer
Rea,Arnason,Customer


  Puedes ver la lista de invitados de clientes y empleados de Los Ángeles, CA, después de ejecutar la consulta UNION.

2. Para demostrar el uso de UNION ALL, primero ejecuta una consulta simple que combine la tabla de productos con todas las filas:

In [20]:
%%sql
SELECT * FROM products
UNION
SELECT * FROM products
ORDER BY 1;

 * postgresql://postgres:***@localhost:5432/sqlda
12 rows affected.


product_id,model,year,product_type,base_msrp,production_start_date,production_end_date
1,Lemon,2013,scooter,399.99,2012-10-28 00:00:00,2015-02-03 00:00:00
2,Lemon Limited Edition,2014,scooter,799.99,2013-08-30 00:00:00,2013-11-24 00:00:00
3,Lemon,2016,scooter,499.99,2015-12-27 00:00:00,2021-08-24 00:00:00
4,Model Chi,2017,automobile,115000.0,2017-02-17 00:00:00,2021-08-24 00:00:00
5,Blade,2017,scooter,699.99,2017-02-17 00:00:00,2017-09-23 00:00:00
6,Model Sigma,2018,automobile,65500.0,2017-12-10 00:00:00,2021-05-28 00:00:00
7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
8,Bat Limited Edition,2020,scooter,699.99,2019-10-13 00:00:00,
9,Model Epsilon,2020,automobile,35000.0,2019-10-13 00:00:00,
10,Model Gamma,2020,automobile,85750.0,2019-10-13 00:00:00,


Puedes ver que la consulta devuelve 12 filas y no hay filas duplicadas, justo como la tabla de productos original. Sin embargo, supongamos que ejecutas la siguiente consulta:

In [21]:
%%sql
SELECT * FROM products
UNION ALL
SELECT * FROM products
ORDER BY 1;

 * postgresql://postgres:***@localhost:5432/sqlda
48 rows affected.


product_id,model,year,product_type,base_msrp,production_start_date,production_end_date
1,Lemon,2013,scooter,399.99,2012-10-28 00:00:00,2015-02-03 00:00:00
1,Lemon,2013,scooter,399.99,2012-10-28 00:00:00,2015-02-03 00:00:00
1,Lemon,2013,scooter,399.99,2012-10-28 00:00:00,2015-02-03 00:00:00
1,Lemon,2013,scooter,399.99,2012-10-28 00:00:00,2015-02-03 00:00:00
2,Lemon Limited Edition,2014,scooter,799.99,2013-08-30 00:00:00,2013-11-24 00:00:00
2,Lemon Limited Edition,2014,scooter,799.99,2013-08-30 00:00:00,2013-11-24 00:00:00
2,Lemon Limited Edition,2014,scooter,799.99,2013-08-30 00:00:00,2013-11-24 00:00:00
2,Lemon Limited Edition,2014,scooter,799.99,2013-08-30 00:00:00,2013-11-24 00:00:00
3,Lemon,2016,scooter,499.99,2015-12-27 00:00:00,2021-08-24 00:00:00
3,Lemon,2016,scooter,499.99,2015-12-27 00:00:00,2021-08-24 00:00:00


Verás que la consulta devuelve 24 filas, en las que cada fila se repite dos veces. Esto se debe a que la instrucción UNION ALL mantiene las filas duplicadas de ambas tablas de productos.

En el ejercicio, usaste la palabra clave UNION para combinar filas de diferentes consultas sin esfuerzo. En la próxima sección, explorarás expresiones de tabla común (CTEs).

## Expresiones de tabla común (CTEs)
Las CTEs son simplemente una versión diferente de las subconsultas. Las CTEs establecen tablas temporales utilizando la cláusula WITH. Para entender mejor esta cláusula, observa la siguiente consulta, que usaste anteriormente para encontrar a los vendedores basados en California:

In [24]:
%%sql
SELECT *
FROM
  salespeople
INNER JOIN (
  SELECT
* FROM
    dealerships
  WHERE
dealerships.state = 'CA' )d
ON d.dealership_id = salespeople.dealership_id
ORDER BY 1
LIMIT 4;

 * postgresql://postgres:***@localhost:5432/sqlda
4 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date,dealership_id_1,street_address,city,state,postal_code,latitude,longitude,date_opened,date_closed
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,


Esto podría escribirse usando CTEs, de la siguiente manera:

In [27]:
%%sql
WITH d as (
  SELECT
* FROM
    dealerships
  WHERE
    dealerships.state = 'CA'
  )
SELECT *
FROM
  salespeople
INNER JOIN
  d ON d.dealership_id = salespeople.dealership_id
ORDER BY 1
LIMIT 4;


 * postgresql://postgres:***@localhost:5432/sqlda
4 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date,dealership_id_1,street_address,city,state,postal_code,latitude,longitude,date_opened,date_closed
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,
23,2,,Beauregard,Peschke,,bpeschkem,Male,2021-05-09 00:00:00,,2,808 South Hobart Boulevard,Los Angeles,CA,90005,34.057754,-118.305423,2017-01-26 00:00:00,


Una de las características destacadas de las CTEs (Common Table Expressions) es su capacidad para ser recursivas, lo que significa que pueden hacer referencia a sí mismas. Esta propiedad única permite abordar y resolver problemas complejos que están fuera del alcance de las consultas convencionales. Sin embargo, profundizar en el potencial de las CTEs recursivas sobrepasa los límites de este libro.

Habiendo explorado diversas estrategias para unificar datos dispersos en una base de datos, es momento de dirigir nuestra atención hacia la transformación de los datos obtenidos a través de estos métodos de unión.

# Limpieza y Transformación de Datos

Los datos brutos que se obtienen a través de una consulta no siempre cumplen con los requisitos estéticos o funcionales que necesitamos; puede haber necesidad de
- eliminar ciertos valores,
- reemplazarlos o
- redireccionarlos a otros valores alternativos.

Afortunadamente, SQL nos brinda una serie de declaraciones y funciones altamente versátiles para facilitar estos procesos. Estas funciones trabajan recibiendo inputs determinados, como una columna o un valor específico, y luego procesan estos inputs para ofrecer un output ajustado a nuestras necesidades.

## Utilizando la Función CASE WHEN
La función `CASE WHEN` se presenta como una herramienta invaluable en SQL, permitiéndonos mapear distintos valores presentes en una columna hacia otros valores deseados, ofreciendo una gran flexibilidad en la manipulación de datos. A continuación, exploraremos la estructura típica de una declaración `CASE WHEN`:



```sql
CASE
  WHEN condition1 THEN value1
  WHEN condition2 THEN value2
  ...
  WHEN conditionX THEN valueX
  ELSE else_value
END;
```



En este contexto, "condition1", "condition2", hasta "conditionX" son las distintas condiciones booleanas que se verificarán; "valor1", "valor2", hasta "valorX", representan los distintos resultados que se asignarán dependiendo de qué condición booleana se cumpla; finalmente, "else_value" es el resultado por defecto que se asignará en caso de que ninguna de las condiciones anteriores se satisfaga. Durante la ejecución, el sistema evaluará cada fila empezando con la primera condición booleana y descenderá secuencialmente hasta encontrar una que se cumpla, devolviendo el valor correspondiente. Si ninguna condición se cumple, se asignará el valor especificado en la cláusula ELSE.

Supongamos que deseas añadir una columna de clasificación de clientes basada en su código postal en tu consulta a la tabla de clientes. Imagina que quieres etiquetar como "Cliente Élite" a los individuos que residen en la zona con código postal 33111, como "Cliente Premium" a aquellos en la 33124 y, para el resto, utilizar la denominación "Cliente Estándar". Para llevar a cabo esto, deberás crear una columna adicional llamada "customer_type". A continuación, te presento cómo podrías estructurar una instrucción CASE WHEN para realizar esta tarea:

In [28]:
%%sql
-- Figure 3.17: The customer_type query
SELECT CASE
    WHEN postal_code='33111' THEN 'Elite Customer'
    WHEN postal_code='33124' THEN 'Premium Customer'
      ELSE 'Standard Customer'
  END AS customer_type,
  *
FROM customers LIMIT 12;

 * postgresql://postgres:***@localhost:5432/sqlda
12 rows affected.


customer_type,customer_id,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address,city,state,postal_code,latitude,longitude,date_added
Standard Customer,716,,Jarred,Bester,,jbesterjv@nih.gov,M,216.51.110.28,,,,,,,,2018-09-19 00:00:00
Standard Customer,1228,,Ag,Smerdon,,asmerdony3@house.gov,F,117.161.100.72,,,,,,,,2021-12-23 00:00:00
Standard Customer,1876,,Giuditta,Eim,,geim1g3@typepad.com,F,222.23.231.134,202-227-5491,,,,,,,2014-03-13 00:00:00
Standard Customer,1991,,Nichole,Rosle,,nrosle1ja@ning.com,M,37.231.217.159,614-146-7408,,,,,,,2015-04-24 00:00:00
Standard Customer,2275,,Chic,Bryning,,cbryning1r6@pcworld.com,M,117.177.14.194,512-939-4727,,,,,,,2016-11-05 00:00:00
Standard Customer,2360,,Jessee,Lytell,,jlytell1tj@intel.com,M,175.24.207.52,,,,,,,,2017-11-07 00:00:00
Standard Customer,2552,,Tova,Simao,,tsimao1yv@yahoo.co.jp,F,148.224.240.142,,,,,,,,2019-06-05 00:00:00
Standard Customer,3050,,Huberto,Colerick,,hcolerick2cp@360.cn,M,28.156.44.20,513-537-8523,,,,,,,2017-12-21 00:00:00
Standard Customer,3236,,Sherwynd,Lammert,,slammert2hv@tmall.com,M,236.100.61.192,,,,,,,,2021-02-15 00:00:00
Standard Customer,3615,,Hayyim,Tuftin,,htuftin2se@nih.gov,M,229.140.153.89,281-129-7442,,,,,,,2018-01-26 00:00:00


Como puedes ver en la tabla anterior, hay una columna llamada customer_type que indica el tipo de cliente que es un usuario. La instrucción CASE WHEN mapeó efectivamente un código postal a una cadena que describe el tipo de cliente. Utilizando una instrucción CASE WHEN, puedes mapear valores de cualquier manera que desees.

## Ejercicio 3.03: Uso de la función CASE WHEN para obtener listas regionales
El objetivo de este ejercicio es crear una consulta que mapee varios valores en una columna a otros valores. Por ejemplo, el jefe de ventas tiene una idea para intentar crear equipos de ventas regionales especializados que puedan vender scooters a los clientes en regiones específicas, en lugar de equipos de ventas genéricos.

Para hacer realidad su idea, el jefe de ventas desea una lista de todos los clientes clasificados por regiones. Para los clientes de los estados de MA, NH, VT, ME, CT o RI, desean que se les etiquete como Nueva Inglaterra. A los clientes de los estados de GA, FL, MS, AL, LA, KY, VA, NC, SC, TN, VI, WV o AR, les gustaría que se les etiquetase como Sureste. Los clientes de cualquier otro estado deben ser etiquetados como Otros.

Para completar este ejercicio, realiza los siguientes pasos:

1. Crea una consulta que produzca una columna de customer_id y una columna llamada región, con los estados categorizados como en el siguiente escenario:

In [29]:
%%sql
-- Figure 3.18: The regional query output
SELECT
  c.customer_id,
  CASE
    WHEN c.state in (
      'MA', 'NH', 'VT', 'ME',
      'CT', 'RI')
    THEN 'New England'
    WHEN c.state in (
      'GA', 'FL', 'MS',
      'AL', 'LA', 'KY', 'VA',
      'NC', 'SC', 'TN', 'VI',
      'WV', 'AR')
    THEN 'Southeast'
ELSE 'Other'
  END as region
FROM
  customers c
ORDER BY 1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


customer_id,region
1,Other
1,Other
2,Other
2,Other
3,Southeast
3,Southeast
4,Southeast
4,Southeast
5,Southeast
5,Southeast


Esta consulta asignará un estado a una de las regiones dependiendo de si el estado está en la condición CASE WHEN indicada para esa línea. Deberías obtener el siguiente resultado

En el resultado anterior, en el caso de cada cliente, se ha asignado una región basándose en el estado donde reside el cliente.

En este ejercicio, aprendiste cómo asignar diversos valores en una columna a otros valores utilizando la función CASE WHEN. En la próxima sección, aprenderás sobre una función útil, COALESCE, que ayudará a reemplazar los valores NULL.

## La función COALESCE
Otro procedimiento frecuente en la gestión de bases de datos es la sustitución de los valores NULL por un valor predeterminado. Este requerimiento puede satisfacerse fácilmente con la ayuda de la función `COALESCE`. Esta herramienta permite listar una serie de columnas y valores escalares; el sistema verifica cada elemento de la lista en orden, y si encuentra un valor NULL, lo reemplaza con el siguiente valor no NULL en la lista. Este proceso se repite iterativamente hasta hallar un valor válido o hasta agotar todos los elementos de la lista, retornando NULL en este último caso.

Para ofrecer un ejemplo práctico del uso de `COALESCE`, consideremos la tabla de clientes, donde se observa que algunos registros carecen de información en el campo de teléfono. Veamos cómo podemos abordar esto:

<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/8a3515a9-c8cc-44c6-ba13-4f6d505209ad.png?raw=true' width="400" />
<figcaption>
Figura 3.19: La consulta COALESCE</figcaption></center>
</figure>


In [30]:
%%sql
-- Figura 3.20: La consulta COALESCE
SELECT
  first_name, last_name,
  COALESCE(phone, 'NO PHONE') as phone
FROM
customers
ORDER BY 1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


first_name,last_name,phone
Aaren,Sadat,504-559-3464
Aaren,Whelpdale,607-761-2568
Aaren,Lamlin,414-937-4628
Aaren,Deeman,NO PHONE
Aaren,Norrey,NO PHONE
Aaren,Deeman,NO PHONE
Aaren,Whelpdale,607-761-2568
Aaren,Lamlin,414-937-4628
Aaren,Norrey,NO PHONE
Aaren,Sadat,504-559-3464


Cuando se trata de crear valores predeterminados y evitar NULL, COALESCE siempre será útil.

# La función NULLIF

La función NULLIF, contrapuesta a COALESCE, sirve para reemplazar valores específicos por NULL, en lugar de sustituir NULL por valores determinados. Esta función toma dos valores como parámetros y devuelve NULL si ambos son iguales.

Pongamos por caso una situación donde el departamento de marketing está preparando un material publicitario nuevo y se encuentra con la restricción de que no puede procesar títulos que superen los tres caracteres. Dado que en la base de datos el único título que rebasa este límite es "Honorable", se necesita una lista que excluya este título, reemplazándolo por NULL, pero manteniendo las direcciones válidas. A continuación, se ilustrará cómo crear esta lista mediante una consulta que utiliza la función NULLIF:

In [32]:
%%sql
-- Figure 3.21: The NULLIF query
SELECT customer_id,
        NULLIF(title, 'Honorable') as title,
        first_name,
        last_name,
        suffix,
        email,
        gender,
        ip_address,
        phone,
        street_address,
        city,
        state,
        postal_code,
        latitude,
        longitude,
        date_added
FROM
  customers c
ORDER BY 1
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


customer_id,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address,city,state,postal_code,latitude,longitude,date_added
1,,Arlena,Riveles,,ariveles0@stumbleupon.com,F,98.36.172.246,,,,,,,,2019-12-19 00:00:00
1,,Arlena,Riveles,,ariveles0@stumbleupon.com,F,98.36.172.246,,,,,,,,2019-12-19 00:00:00
2,Dr,Ode,Stovin,,ostovin1@npr.org,M,16.97.59.186,314-534-4361,2573 Fordem Parkway,Saint Louis,MO,63116.0,38.5814,-90.2625,2017-05-29 00:00:00
2,Dr,Ode,Stovin,,ostovin1@npr.org,M,16.97.59.186,314-534-4361,2573 Fordem Parkway,Saint Louis,MO,63116.0,38.5814,-90.2625,2017-05-29 00:00:00
3,,Braden,Jordan,,bjordan2@geocities.com,M,192.86.248.59,,5651 Kennedy Park,Pensacola,FL,32590.0,30.6143,-87.2758,2021-06-23 00:00:00
3,,Braden,Jordan,,bjordan2@geocities.com,M,192.86.248.59,,5651 Kennedy Park,Pensacola,FL,32590.0,30.6143,-87.2758,2021-06-23 00:00:00
4,,Jessika,Nussen,,jnussen3@salon.com,F,159.165.138.166,615-824-2506,224 Village Circle,Nashville,TN,37215.0,36.0986,-86.8219,2020-04-30 00:00:00
4,,Jessika,Nussen,,jnussen3@salon.com,F,159.165.138.166,615-824-2506,224 Village Circle,Nashville,TN,37215.0,36.0986,-86.8219,2020-04-30 00:00:00
5,,Lonnie,Rembaud,,lrembaud4@discovery.com,F,18.131.58.65,786-499-3431,38 Lindbergh Way,Miami,FL,33124.0,25.5584,-80.4582,2016-10-31 00:00:00
5,,Lonnie,Rembaud,,lrembaud4@discovery.com,F,18.131.58.65,786-499-3431,38 Lindbergh Way,Miami,FL,33124.0,25.5584,-80.4582,2016-10-31 00:00:00


A continuación, aprenderás sobre otros tipos de funciones, como las funciones LEAST y GREATEST.

# Las Funciones MENOR/MAYOR ( LEAST/GREATEST)
Las funciones MENOR y MAYOR son herramientas fundamentales para la gestión y análisis de datos, facilitando la identificación y selección del valor mínimo o máximo de un conjunto de valores, respectivamente.

Estas funciones pueden trabajar con un amplio rango de argumentos; pueden ser valores explícitos o hacer referencia a datos almacenados en campos numéricos de una base de datos. Al utilizar la función MENOR con, por ejemplo, los valores 600 y 900, el resultado será 600, el valor más pequeño de ambos. Contrariamente, al emplear la función MAYOR en el mismo conjunto de valores, se obtendrá 900 como resultado, al ser este el valor más grande.

Uno de los contextos prácticos donde estas funciones pueden ser de gran utilidad es en la moderación de valores en un rango determinado. Por ejemplo, el equipo de ventas de una compañía podría estar interesado en configurar una lista de ventas que establezca un precio máximo de $600 para cada scooter. Para alcanzar este objetivo, se puede elaborar una consulta SQL utilizando la función MENOR, garantizando que ningún scooter supere el precio tope establecido.

A continuación, se presenta una consulta ilustrativa que te permitirá profundizar en la utilización práctica de estas funciones:

In [34]:
%%sql
-- Figura 3.22: Scooters más económicos
SELECT
  product_id, model,
  year, product_type,
  LEAST(600.00, base_msrp) as base_msrp,
  production_start_date,
  production_end_date
FROM
  products
WHERE
  product_type='scooter'
ORDER BY 1;

 * postgresql://postgres:***@localhost:5432/sqlda
14 rows affected.


product_id,model,year,product_type,base_msrp,production_start_date,production_end_date
1,Lemon,2013,scooter,399.99,2012-10-28 00:00:00,2015-02-03 00:00:00
1,Lemon,2013,scooter,399.99,2012-10-28 00:00:00,2015-02-03 00:00:00
2,Lemon Limited Edition,2014,scooter,600.0,2013-08-30 00:00:00,2013-11-24 00:00:00
2,Lemon Limited Edition,2014,scooter,600.0,2013-08-30 00:00:00,2013-11-24 00:00:00
3,Lemon,2016,scooter,499.99,2015-12-27 00:00:00,2021-08-24 00:00:00
3,Lemon,2016,scooter,499.99,2015-12-27 00:00:00,2021-08-24 00:00:00
5,Blade,2017,scooter,600.0,2017-02-17 00:00:00,2017-09-23 00:00:00
5,Blade,2017,scooter,600.0,2017-02-17 00:00:00,2017-09-23 00:00:00
7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,


Desde la salida, puedes ver que si base_msrp fuera menor que 600, la consulta SQL devolverá el valor original de base_msrp. Pero si base_msrp es mayor que 600, obtendrás 600 como resultado. Es el valor más bajo entre base_msrp y 600 el que devuelve la consulta, que es lo que se supone que debe hacer la función LEAST().


## La Función de Conversión (Casting)
Una práctica habitual en la transformación de datos es modificar el tipo de datos de una columna durante una consulta. Este procedimiento, que se lleva a cabo para aprovechar funciones específicas asociadas a ciertos tipos de datos, se realiza utilizando la sintaxis `columna::tipo_de_datos`, donde "columna" se refiere al nombre de la columna a transformar y "tipo_de_datos" indica el nuevo tipo de datos que se desea asignar.

Un ejemplo práctico sería convertir una columna que contiene años (en formato numérico) en una columna de texto dentro de una consulta en la tabla de productos, tal y como se muestra a continuación en una consulta ilustrativa:

In [35]:
%%sql
-- Figura 3.23: La columna de año como texto
SELECT
  product_id,
  model,
  year::TEXT,
  product_type,
  base_msrp,
  production_start_date,
  production_end_date
FROM
  products;

 * postgresql://postgres:***@localhost:5432/sqlda
24 rows affected.


product_id,model,year,product_type,base_msrp,production_start_date,production_end_date
1,Lemon,2013,scooter,399.99,2012-10-28 00:00:00,2015-02-03 00:00:00
2,Lemon Limited Edition,2014,scooter,799.99,2013-08-30 00:00:00,2013-11-24 00:00:00
3,Lemon,2016,scooter,499.99,2015-12-27 00:00:00,2021-08-24 00:00:00
5,Blade,2017,scooter,699.99,2017-02-17 00:00:00,2017-09-23 00:00:00
7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
8,Bat Limited Edition,2020,scooter,699.99,2019-10-13 00:00:00,
12,Lemon Zester,2022,scooter,349.99,2021-10-01 00:00:00,
4,Model Chi,2017,automobile,115000.0,2017-02-17 00:00:00,2021-08-24 00:00:00
6,Model Sigma,2018,automobile,65500.0,2017-12-10 00:00:00,2021-05-28 00:00:00
9,Model Epsilon,2020,automobile,35000.0,2019-10-13 00:00:00,


Esto convertirá la columna de año a texto. Ahora puedes aplicar funciones de texto a esta columna transformada. Ten en cuenta que no todos los tipos de datos se pueden convertir a un tipo de datos específico. Por ejemplo, la fecha y hora (datetime) no se puede convertir a tipos de datos de punto flotante (float). Tu cliente de SQL mostrará un error si alguna vez realizas una conversión inesperada.

# Transformación de Datos

Cada conjunto de datos y cada escenario empresarial en los que se emplean son únicos, lo que implica que las estrategias para procesar y transformar estos datos también deben ser personalizadas. A pesar de esta variabilidad, hay ciertos métodos de procesamiento que se utilizan recurrentemente en el ámbito profesional. En esta sección, te presentaremos algunos de los más comunes.

## Utilización de las Funciones DISTINCT y DISTINCT ON

En la exploración de un conjunto de datos, a menudo surge la necesidad de identificar los valores únicos presentes en una o varias columnas. Para este propósito, se utiliza la función DISTINCT.

Por ejemplo, si estás interesado en listar todos los años de modelo únicos representados en tu tabla de productos, podrías emplear la siguiente consulta:

In [36]:
%%sql
-- Figure 3.24: Distinct model years
SELECT DISTINCT year
FROM products
ORDER BY 1;

 * postgresql://postgres:***@localhost:5432/sqlda
8 rows affected.


year
2013
2014
2016
2017
2018
2019
2020
2022


También puedes usarlo con múltiples columnas para obtener todas las combinaciones distintas de columnas presentes. Por ejemplo, para encontrar todos los años de modelo distintos y los tipos de productos que se lanzaron para esos años de modelo, simplemente puedes usar lo siguiente:

In [37]:
%%sql
-- Figure 3.25: Distinct model years and product types
SELECT DISTINCT year, product_type
FROM products
ORDER BY 1, 2;

 * postgresql://postgres:***@localhost:5432/sqlda
11 rows affected.


year,product_type
2013,scooter
2014,scooter
2016,scooter
2017,automobile
2017,scooter
2018,automobile
2019,scooter
2020,automobile
2020,scooter
2022,automobile


Otra palabra clave relacionada con DISTINCT es DISTINCT ON. Ahora, DISTINCT ON te permite asegurarte de que solo se devuelva una fila y que una o más columnas siempre sean únicas en el conjunto. La sintaxis general de una consulta DISTINCT ON es la siguiente:

```sql
SELECT DISTINCT ON (distinct_column)
column_1,
column_2,
...
column_n
FROM table
ORDER BY order_column;
```



Aquí, distinct_column es la(s) columna(s) que deseas que sean distintas en tu consulta, column_1 hasta column_n son las columnas que deseas en la consulta, y order_column te permite determinar la primera fila que se devolverá en una consulta DISTINCT ON si varias columnas tienen el mismo valor para distinct_column.

Para order_column, la primera columna mencionada debe ser distinct_column. Si no se especifica una cláusula ORDER BY, la primera fila se decidirá de manera aleatoria.

Por ejemplo, deseas obtener una lista única de vendedores donde cada vendedor tenga un primer nombre único. En el caso de que dos vendedores tengan el mismo primer nombre, se devolverá el que se unió a la empresa antes. Esta consulta se vería de la siguiente manera:

In [39]:
%%sql
-- Figure 3.26: DISTINCT ON first_name
SELECT DISTINCT ON (first_name)
  *
FROM
  salespeople
ORDER BY
  first_name, hire_date
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


salesperson_id,dealership_id,title,first_name,last_name,suffix,username,gender,hire_date,termination_date
189,17,,Abby,Drewery,,adrewery58,Male,2018-04-28 00:00:00,
137,4,,Abie,Brydell,,abrydell3s,Male,2019-07-02 00:00:00,
27,4,,Ad,Loding,,alodingq,Male,2020-02-22 00:00:00,
63,2,,Adrianne,Otham,,aotham1q,Female,2017-08-16 00:00:00,
272,7,,Afton,Limon,,alimon7j,Female,2017-04-28 00:00:00,
35,17,,Agnella,Linke,,alinkey,Female,2021-06-19 00:00:00,
161,18,,Aile,Dobbing,,adobbing4g,Female,2017-04-10 00:00:00,2019-05-31 00:00:00
136,3,,Alanna,Dufaire,,adufaire3r,Female,2017-02-21 00:00:00,
147,6,,Alaric,Sterrick,,asterrick42,Male,2017-02-11 00:00:00,
221,19,,Alberik,Polglase,,apolglase64,Male,2018-07-16 00:00:00,


Esta tabla asegura que cada fila represente un nombre de usuario único. En situaciones donde existan varios individuos compartiendo el mismo nombre de pila, la consulta dará prioridad al usuario que se haya unido a la empresa en una fecha más temprana.

Por ejemplo, si tenemos varias entradas correspondientes al nombre "Abby" en la tabla de vendedores, la primera Abby que aparece en los resultados (tal como se observa en la Figura 3.26) denota a la primera persona con ese nombre que fue contratada por la empresa. Este principio también se aplica en casos donde se encuentren dos empleados con el mismo nombre. La consulta los organizará basándose en sus respectivas fechas de incorporación a la empresa.

Para ilustrarlo con un caso concreto, consideremos dos empleados: Andrey Haack, quien empezó a trabajar el 10 de enero de 2016, y Andrey Kures, que se unió más tarde, el 17 de mayo de 2016. Según nuestra configuración de consulta, Andrey Haack será el primero en la lista, respetando así su mayor antigüedad en la empresa.

# Actividad 3.01: Construcción de un Modelo de Ventas Utilizando Técnicas de SQL

En esta actividad, tendrás la tarea de acondicionar y organizar la información para que esté lista para ser analizada, utilizando herramientas y comandos SQL. El objetivo final es asistir al equipo de ciencia de datos en la creación de un modelo avanzado que permita identificar a los clientes con mayor potencial para una próxima campaña de remarcación.

Recientemente, un nuevo miembro se ha unido al equipo de ciencia de datos y tu rol será guiarle en el proceso de elaborar y reunir todos los datos necesarios que facilitarán el entrenamiento del modelo futuro. Para lograr esto, deberás escribir una consulta SQL que permita compilar un conjunto de datos bien estructurado y optimizado para este fin.

A continuación, se presentan los pasos que debes seguir:

1. Utiliza INNER JOIN para unir la tabla de clientes con la tabla de ventas.


In [41]:
%%sql
SELECT *
FROM sales s
JOIN customers c
ON s.customer_id = c.customer_id LIMIT 6;

 * postgresql://postgres:***@localhost:5432/sqlda
6 rows affected.


customer_id,product_id,sales_transaction_date,sales_amount,channel,dealership_id,customer_id_1,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address,city,state,postal_code,latitude,longitude,date_added
27275,7,2021-03-16 08:40:24,539.991,internet,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00
27275,7,2021-03-16 08:40:24,539.991,internet,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00
2017,7,2019-12-27 07:36:20,599.99,internet,,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00
2017,7,2019-12-27 07:36:20,599.99,internet,,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00
7213,7,2021-12-04 18:43:30,479.992,internet,,7213,,Selby,Heathcott,,sheathcott5kc@skyrock.com,M,110.1.222.145,,60583 Ridgeview Point,Greensboro,NC,27499,36.0807,-80.0244,2021-08-28 00:00:00
7213,7,2021-12-04 18:43:30,479.992,internet,,7213,,Selby,Heathcott,,sheathcott5kc@skyrock.com,M,110.1.222.145,,60583 Ridgeview Point,Greensboro,NC,27499,36.0807,-80.0244,2021-08-28 00:00:00


2. Utiliza INNER JOIN para unir la tabla de productos con la tabla de ventas.


In [42]:
%%sql
SELECT *
FROM sales s
JOIN customers c
ON s.customer_id = c.customer_id
JOIN products p
  ON s.product_id = p.product_id LIMIT 6;

 * postgresql://postgres:***@localhost:5432/sqlda
6 rows affected.


customer_id,product_id,sales_transaction_date,sales_amount,channel,dealership_id,customer_id_1,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address,city,state,postal_code,latitude,longitude,date_added,product_id_1,model,year,product_type,base_msrp,production_start_date,production_end_date
27275,7,2021-03-16 08:40:24,539.991,internet,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,7,2021-03-16 08:40:24,539.991,internet,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,7,2021-03-16 08:40:24,539.991,internet,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,7,2021-03-16 08:40:24,539.991,internet,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
2017,7,2019-12-27 07:36:20,599.99,internet,,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
2017,7,2019-12-27 07:36:20,599.99,internet,,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,


3. Utiliza LEFT JOIN para unir la tabla de concesionarios (tabla derecha) con la tabla de ventas (tabla izquierda).


In [43]:
%%sql
SELECT *
FROM sales s
LEFT JOIN dealerships d
  ON d.dealership_id = s.dealership_id
JOIN customers c
  ON s.customer_id = c.customer_id
JOIN products p
  ON s.product_id = p.product_id LIMIT 6;

 * postgresql://postgres:***@localhost:5432/sqlda
6 rows affected.


customer_id,product_id,sales_transaction_date,sales_amount,channel,dealership_id,dealership_id_1,street_address,city,state,postal_code,latitude,longitude,date_opened,date_closed,customer_id_1,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address_1,city_1,state_1,postal_code_1,latitude_1,longitude_1,date_added,product_id_1,model,year,product_type,base_msrp,production_start_date,production_end_date
27275,7,2021-03-16 08:40:24,539.991,internet,,,,,,,,,,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,7,2021-03-16 08:40:24,539.991,internet,,,,,,,,,,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,7,2021-03-16 08:40:24,539.991,internet,,,,,,,,,,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,7,2021-03-16 08:40:24,539.991,internet,,,,,,,,,,,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
2017,7,2019-12-27 07:36:20,599.99,internet,,,,,,,,,,,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
2017,7,2019-12-27 07:36:20,599.99,internet,,,,,,,,,,,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,


4. Devuelve todas las columnas de la tabla de clientes y la tabla de productos.



In [44]:
%%sql
SELECT
  c.*, p.*
FROM sales s
LEFT JOIN dealerships d
  ON d.dealership_id = s.dealership_id
JOIN customers c
  ON s.customer_id = c.customer_id
JOIN products p
  ON s.product_id = p.product_id
   LIMIT 6;

 * postgresql://postgres:***@localhost:5432/sqlda
6 rows affected.


customer_id,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address,city,state,postal_code,latitude,longitude,date_added,product_id,model,year,product_type,base_msrp,production_start_date,production_end_date
27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,


5. Devuelve la columna dealership_id de la tabla de ventas, pero llena dealership_id en ventas con -1 si es NULL.


In [45]:
%%sql
SELECT
COALESCE(s.dealership_id, -1) sales_dealership,
c.*, p.*
FROM sales s
LEFT JOIN dealerships d
ON d.dealership_id = s.dealership_id
JOIN customers c
ON s.customer_id = c.customer_id
JOIN products p
ON s.product_id = p.product_id
   LIMIT 6;

 * postgresql://postgres:***@localhost:5432/sqlda
6 rows affected.


sales_dealership,customer_id,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address,city,state,postal_code,latitude,longitude,date_added,product_id,model,year,product_type,base_msrp,production_start_date,production_end_date
-1.0,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,


6. Agrega una columna llamada "high_savings" que devuelva 1 si el monto de la venta fue de 500 dólares menos que base_msrp o menos. De lo contrario, devuelve 0. Asegúrate de realizar la consulta en una tabla unida.


In [46]:
%%sql
SELECT
  COALESCE(s.dealership_id, -1) sales_dealership,
  CASE
WHEN sales_amount < base_msrp - 500 THEN 1
    ELSE 0
  END high_savings,
  c.*, p.*
FROM sales s
LEFT JOIN dealerships d
  ON d.dealership_id = s.dealership_id
JOIN customers c
  ON s.customer_id = c.customer_id
JOIN products p
  ON s.product_id = p.product_id
   LIMIT 6;

 * postgresql://postgres:***@localhost:5432/sqlda
6 rows affected.


sales_dealership,high_savings,customer_id,title,first_name,last_name,suffix,email,gender,ip_address,phone,street_address,city,state,postal_code,latitude,longitude,date_added,product_id,model,year,product_type,base_msrp,production_start_date,production_end_date
-1.0,0,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,0,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,0,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,0,27275,,Vonni,Bickerstaff,,vbickerstaffl1m@scribd.com,F,243.25.198.130,713-436-3552,0868 South Plaza,Houston,TX,77218,29.834,-95.4342,2020-05-12 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,0,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,
-1.0,0,2017,,Noll,Mewton,,nmewton1k0@nhs.uk,M,86.106.66.4,816-147-3517,01 Redwing Terrace,Independence,MO,64054,39.11,-94.4401,2019-12-31 00:00:00,7,Bat,2019,scooter,599.99,2019-06-07 00:00:00,



Resultado Esperado:

La siguiente figura muestra algunas de las filas del resultado de esta actividad. Puedes ver que varios dealership_id son reemplazados por -1 en la consulta, ya que en realidad son NULL. Esto se debe a que las ventas por Internet no pasan por un concesionario y, por lo tanto, no tienen un valor de dealership_id. Algunas de las filas también tienen su valor en la columna high_savings marcado como 1, lo que indica que el monto de la venta es de $500 o más por debajo de base_msrp. Puedes revisar algunas filas, intentar obtener los datos originales y confirmar que el SQL esté escrito correctamente:


<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/b070c5a4-93d0-4ec6-8a0f-a012406e0617.png?raw=true' width="500" />
<figcaption>
Figure 3.27: Building a sales model query</figcaption></center>
</figure>

# Resumen
En este capítulo, adquiriste habilidades para manipular y limpiar datos usando SQL. Iniciaste con el aprendizaje del uso de la función JOIN, que te permite fusionar dos o más tablas según las columnas que tienen en común, existiendo varios tipos para elegir según tus necesidades específicas. Posteriormente, descubriste cómo hacer uso de subconsultas y Expresiones de Tabla Común (CTE) para guardar y reutilizar los resultados de las consultas, así como las funciones UNION y UNION ALL para combinar resultados de dos consultas similares.

Seguido a esto, aprendiste a transformar datos mediante el uso de funciones como CASE WHEN, que permite modificar expresiones según condiciones definidas, y COALESCE y NULLIF, que facilitan la gestión de valores NULL. Adicionalmente, exploraste cómo cambiar el tipo de datos de una columna y cómo utilizar DISTINCT para listar valores únicos.

Con estos conocimientos, estás preparado para el siguiente capítulo, donde te enfocarás en extraer información valiosa de tu conjunto de datos mediante el uso de funciones de agregación.