# 4. Funciones de Agregación para el Análisis de Datos


In [1]:
# @title Postgress preloading (install server)
#The output of the installation is not displayed when %%capture is used at the start of the cell
%%capture
# Install postgresql server
!sudo apt-get -y -qq update
!sudo apt-get -y -qq install postgresql
!sudo service postgresql start
# Setup a password `postgres` for username `postgres`
!sudo -u postgres psql -U postgres -c "ALTER USER postgres PASSWORD 'postgres';"
# Setup a database with name `sampledb` to be used
# !sudo -u postgres psql -U postgres -c 'DROP DATABASE IF EXISTS sampledb;'
# !sudo -u postgres psql -U postgres -c 'CREATE DATABASE sampledb;'

!curl https://raw.githubusercontent.com/limspiga/data-modeling/main/db/data.dump  -O
!sudo -u postgres psql -U postgres -c 'CREATE DATABASE sqlda;'

# !sudo -u postgres psql -U postgres -d 'sqlda' -f 'data.dump'

# https://thivyapriyaa.medium.com/setting-up-postgresql-on-google-colab-4d02166939fc


In [None]:
# @title Postgress preloading
# import
!sudo -u postgres psql -d sqlda < data.dump
%env DATABASE_URL=postgresql://postgres:postgres@localhost:5432/sqlda
#To load the sql extention to start using %%sql
%load_ext sql


# Introducción
En el capítulo previo, aprendiste cómo usar SQL para acondicionar datos para su análisis. El objetivo principal de esta preparación es asegurar que los datos estén listos y claros para ser analizados. Una vez acondicionados, el próximo paso es su análisis. Típicamente, los científicos de datos y analistas buscan entender y resumir los datos identificando patrones clave. SQL facilita este proceso a través de funciones de agregación. Estas funciones procesan múltiples filas y generan información relevante a partir de ellas. A continuación, te introducirás a estas funciones de agregación.

En este capítulo, comprenderás los fundamentos de las funciones de agregación a través de los siguientes temas:

- Funciones de Agregación
- Funciones de Agregación con la Cláusula GROUP BY
- Funciones de Agregación con la Cláusula HAVING
- Uso de Agregaciones para Limpiar Datos y Examinar la Calidad de los Datos

# Funciones de Agregación
Para analizar datos de manera efectiva, es crucial ir más allá de examinar filas individuales y enfocarse en las características generales de una columna o tabla. Supongamos que recibes un conjunto de datos de ZoomZoom. Si deseas averiguar **cuántos** clientes tiene ZoomZoom en su base de datos, podrías intentar seleccionar todas las filas y contarlas manualmente, pero esto sería un proceso tedioso. Afortunadamente, SQL proporciona funciones especializadas que permiten realizar cálculos sobre grandes volúmenes de datos: **las funciones de agregación.**

Estas funciones trabajan sobre una o más columnas con múltiples filas y devuelven un solo valor representativo. A continuación, se presenta un resumen de las principales funciones de agregación en SQL:

<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/cf9bf93b-3a6b-41d3-946d-eb670935630d.png?raw=true' width="500" />
<figcaption>
Figure 4.1: Major aggregate functions</figcaption></center>
</figure>

Las funciones de agregación más utilizadas con frecuencia incluyen SUM(), AVG(), MIN(), MAX(), COUNT() y STDDEV(). También notarás la función CORR(), que se discutió en el Capítulo 1, Comprensión y Descripción de Datos. SQL proporciona esta función para que no necesites calcularla manualmente.

Las funciones de agregación pueden ayudarte a realizar varias tareas de manera eficiente, como las siguientes:

- Las funciones de agregación se pueden utilizar con la cláusula WHERE para calcular valores agregados para subconjuntos específicos de datos. Por ejemplo, si deseas saber cuántos clientes tiene ZoomZoom en California, podrías utilizar la siguiente consulta:

In [3]:
%%sql
SELECT
  COUNT(*)
FROM
  customers
WHERE
  state='CA';

1 rows affected.


count
5038


Puedes realizar aritmética con funciones agregadas. En la siguiente consulta, puedes dividir la cantidad de filas en la tabla de clientes por 2:

In [4]:
%%sql
-- query
SELECT
  COUNT(*)/2
FROM
  customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


?column?
25000


Puedes combinar las funciones de agregación con otras operaciones matemáticas para realizar cálculos más avanzados. Si, por ejemplo, deseas calcular el valor promedio de una columna específica, puedes utilizar la función AVG. Para determinar el *Precio de Venta al Público Sugerido por el Fabricante (MSRP)* promedio de los productos en ZoomZoom, simplemente puedes aplicar `AVG(base_msrp) `en tu consulta. Además, es posible calcular el promedio manualmente usando las funciones `SUM y COUNT`, de la siguiente manera:

El resultado obtenido será:

In [None]:
%%sql
-- Figura 4.4: Resultado del cálculo de la función
SELECT
  SUM(base_msrp)/COUNT(*) AS avg_base_msrp
FROM
  Products;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


avg_base_msrp
33358.3275


Un escenario que se ve con frecuencia es un cálculo que involucra la función COUNT(). Por ejemplo, puedes utilizar la función COUNT para contar el número total de clientes de ZoomZoom contando las filas totales en la tabla de clientes:

La función COUNT devolverá el número de filas sin un valor NULL en la columna. Dado que la columna customer_id es una clave primaria y no puede ser NULL, la función COUNT devolverá el número de filas en la tabla. En este caso, la consulta devolverá la siguiente salida:



In [5]:
%%sql
-- Figura 4.5: Resultado de la columna COUNT
SELECT
  SUM(base_msrp)/COUNT(*) AS avg_base_msrp
FROM
  Products;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


avg_base_msrp
33358.3275


Como se muestra aquí, la función COUNT funciona con una única columna y cuenta cuántos valores no NULL tiene. Sin embargo, si la columna tiene al menos un valor NULL, no podrás determinar cuántas filas hay. Para obtener un conteo del número de filas en esa situación, podrías utilizar la función COUNT con un asterisco entre paréntesis, (*), para obtener el conteo total de filas:

In [6]:
%%sql
-- Figura 4.5: Resultado de la columna COUNT
SELECT
  COUNT(customer_id)
FROM
  customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


count
50000


Esta consulta también devolverá 50000:

In [7]:
%%sql
-- Figura 4.6: Resultado de COUNT(*) comparado con la columna COUNT
SELECT
  COUNT(*)
FROM
  customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


count
50000


Uno de los aspectos clave en el análisis de datos es que este solo resulta valioso cuando existe una variación significativa entre los datos. Una columna en la que todos los valores son idénticos no suele ser especialmente útil. Para detectar este posible inconveniente, a menudo es recomendable determinar cuántos valores únicos hay en una columna. Para medir la cantidad de valores distintos en una columna, puedes emplear la función COUNT DISTINCT. La estructura de una consulta de este tipo sería la siguiente:

```sql
SELECT
  COUNT (DISTINCT {column1})
FROM
  {table1}
```

Aquí, `{column1}` es la columna que quieres contar y `{table1}` es la tabla con la columna.

Por ejemplo, supongamos que quieres verificar que tus clientes están basados en todos los
50 estados de EE. UU., posiblemente con la adición de Washington D.C., que técnicamente es un territorio federal pero se trata como un estado en tu sistema. Para esto, necesitas saber el número de estados únicos en la lista de clientes. Puedes utilizar `COUNT(DISTINCT expression)` para procesar la consulta:


In [8]:
%%sql
-- Figura 4.7: Resultado de COUNT DISTINCT
SELECT
  COUNT(DISTINCT state)
FROM
  customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


count
51


Este resultado confirma que tienes una base de clientes distribuida en los 50 estados y Washington D.C. Además, puedes calcular el número promedio de clientes por estado utilizando la siguiente consulta en SQL:


In [None]:
%%sql
-- Figura 4.8: Resultado de la división de COUNT con casting
SELECT
  COUNT(customer_id)::numeric / COUNT(DISTINCT state) AS "Número promedio de clientes por estado"
FROM
  customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


Número promedio de clientes por estado
980.3921568627451


1. Es importante tener en cuenta que en el SQL anterior, el conteo de ID de cliente se convierte en un valor numérico. La razón de esto es que la función `COUNT()` siempre devuelve un entero. PostgreSQL maneja la división entre enteros de manera diferente a la división entre números de punto flotante, ya que ignora la parte decimal del resultado. Por ejemplo, al dividir 7 entre 2 como enteros en PostgreSQL, obtendrás 3 en lugar de 3.5. En el ejemplo anterior, si no especificas la conversión (casting), el SQL y su resultado serán los siguientes:


In [9]:
%%sql
-- Figura 4.9: Resultado de la división de COUNT sin casting
SELECT
  COUNT(customer_id) / COUNT(DISTINCT state)
FROM
  customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


?column?
980


2. Para obtener un resultado más preciso, que incluya la parte decimal, debes convertir uno de los valores en un flotante. Una forma sencilla de convertir un entero a flotante es multiplicarlo por 1.0. Dado que 1.0 es un valor numérico, cualquier cálculo con un entero dará como resultado un valor numérico. Por ejemplo, el siguiente SQL generará el mismo resultado que el SQL mostrado en el bloque de código antes de la Figura 4.8:


In [10]:
%%sql
SELECT
  COUNT(customer_id) * 1.0 / COUNT(DISTINCT state)
FROM
  customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


?column?
980.3921568627451


## Ejercicio 4.01: Uso de Funciones Agregadas para Analizar Datos

En este ejercicio, analizarás y calcularás el precio de un producto utilizando diferentes funciones agregadas. Por ejemplo, supongamos que tienes curiosidad sobre los datos de tu empresa y estás interesado en conocer algunas estadísticas básicas sobre los precios de los productos de ZoomZoom. Ahora, deseas calcular el precio más bajo, el precio más alto, el precio promedio y la desviación estándar de los precios de todos los productos que la empresa ha vendido.

Sigue estos pasos para completar el ejercicio:


1. Calcula el precio más bajo, el precio más alto, el precio promedio y la desviación estándar del precio utilizando las funciones agregadas `MIN`, `MAX`, `AVG` y `STDDEV`, respectivamente, desde la tabla de productos:



In [None]:
%%sql
-- Figura 4.10: Estadísticas del precio del producto
SELECT
  MIN(base_msrp),
  MAX(base_msrp),
  AVG(base_msrp),
  STDDEV(base_msrp)
FROM
  products;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


min,max,avg,stddev
349.99,115000.0,33358.3275,44484.40866379


A partir de la salida anterior, puedes observar que el precio mínimo es 349.99, el precio máximo es 115,000.00, el precio promedio es 33,358.33 y la desviación estándar del precio es 44,484.41.


# Funciones Agregadas con la Cláusula GROUP BY

Hasta ahora, has utilizado funciones agregadas para calcular estadísticas de una columna completa. Sin embargo, en muchos casos, no solo te interesa el valor agregado de toda la tabla, sino también los valores correspondientes a grupos más pequeños dentro de la misma. Para ilustrarlo, volvamos a la tabla de clientes. Sabes que el número total de clientes es de 50,000, pero quizás quieras saber cuántos clientes hay en cada estado. ¿Cómo podrías calcular esto?

Podrías determinar cuántos estados hay utilizando la siguiente consulta:


In [11]:
%%sql
-- Figura 4.10: Estadísticas del precio del producto
SELECT DISTINCT
  state
FROM
  customers LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state
KS
""
CA
NH
OR
ND
TX
NV
KY
OH


Verás 50 estados distintos, Washington D.C. y `NULL` como resultado de la consulta anterior, sumando un total de 52 filas. Una vez que tengas la lista de estados, podrías ejecutar la siguiente consulta para cada estado:



```sql
SELECT
  COUNT(*)
FROM
  customers
WHERE
  state='{state}'
```



Aunque puedes hacerlo de esta manera, sería increíblemente tedioso y consumiría mucho tiempo si tienes muchos estados. La cláusula `GROUP BY` ofrece una solución mucho más eficiente.


# La Cláusula GROUP BY

`GROUP BY` es una cláusula que divide las filas de un conjunto de datos en múltiples grupos, según una clave especificada. A continuación, se aplica una función agregada a todas las filas dentro de cada grupo para producir un único valor representativo para ese grupo. Tanto la clave de `GROUP BY` como el valor agregado para cada grupo se muestran en la salida SQL. El siguiente diagrama ilustra este proceso general:


<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/75c0fefe-fece-4f74-8e54-d7e45368314c.png?raw=true' width="300" />
<figcaption>
Figura 4.11: Modelo general del cálculo con `GROUP BY`
</figcaption></center>
</figure>


En el diagrama anterior, puedes observar que el conjunto de datos se divide en múltiples grupos (Grupo 1, Grupo 2, ..., Grupo N). En cada grupo, se aplica la función agregada a todas las filas dentro del Grupo 1, generando el resultado Agregado 1. Luego, la función agregada se aplica a todas las filas en el Grupo 2, produciendo el resultado Agregado 2, y así sucesivamente.

Las sentencias `GROUP BY` suelen tener la siguiente estructura:

``` sql
SELECT
  {KEY},
  {AGGFUNC(column1)}
FROM
  {table1}
GROUP BY
{KEY}
```

Aquí, `{KEY}` es una columna o una función aplicada a una columna que se utiliza para formar grupos individuales. Para cada valor de `{KEY}`, se crea un grupo. `{AGGFUNC(column1)}` es una función agregada que se calcula sobre una columna para todas las filas dentro de cada grupo. `{table1}` es la tabla o conjunto de tablas unidas de las que se extraen las filas para agrupar.

Para ilustrar este concepto, puedes contar el número de clientes en cada estado de EE. UU. utilizando una consulta `GROUP BY`:


In [12]:
%%sql
SELECT
  state, COUNT(*)
FROM
  customers
GROUP BY
  state LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,count
KS,619
,5467
CA,5038
NH,77
OR,386
ND,93
TX,4865
NV,643
KY,598
OH,1656


Para ilustrar este concepto, puedes contar el número de clientes en cada estado de EE. UU. utilizando una consulta `GROUP BY`:



<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/50980e65-44dc-40aa-ae82-0ed1c505ff56.png?raw=true' width="300" />
<figcaption>
Figure 4.12: Customer count by the state computational model</figcaption></center>
</figure>

Aquí, AK, AL, AR y las demás claves corresponden a las abreviaturas de los estados de EE. UU. Este proceso de agrupación se lleva a cabo en dos pasos. En el primer paso, SQL crea grupos basados en los estados presentes en los datos, generando un grupo por cada estado y etiquetándolo con su respectiva abreviatura. Luego, SQL asigna a los clientes a los diferentes grupos según el estado en el que se encuentren.

Una vez que todos los clientes han sido asignados a sus respectivos grupos estatales, se pasa al segundo paso. En esta fase, SQL aplica la función agregada a cada grupo y asocia el resultado con la etiqueta del grupo, que en este caso es el estado. La salida de la consulta será un conjunto de resultados de la función agregada, cada uno acompañado por su respectiva etiqueta de estado. Deberías obtener una salida como la siguiente, donde el estado actúa como la etiqueta y el conteo es el resultado agregado:


<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/c1d03a26-12a2-4d80-a1ce-1bc08a616ae4.png?raw=true' width="200" />
<figcaption>
Figura 4.13: Salida de la consulta de conteo de clientes por estado</figcaption></center>
</figure>




El valor `{KEY}` para la operación `GROUP BY` también puede ser el resultado de una función aplicada a una o más columnas. En el siguiente ejemplo, se cuentan los clientes basándose en el año en que fueron añadidos a la base de datos. Aquí, el año se obtiene utilizando la función `TO_CHAR` aplicada a la columna `date_added`:



In [13]:
%%sql
-- Figure 4.14: Customer count GROUP BY function
SELECT
  TO_CHAR(date_added, 'YYYY'),
  COUNT(*)
FROM
  customers
GROUP BY
  TO_CHAR(date_added, 'YYYY')
ORDER BY 1;

 * postgresql://postgres:***@localhost:5432/sqlda
11 rows affected.


to_char,count
2012,743
2013,5292
2014,5358
2015,5452
2016,5348
2017,5373
2018,5470
2019,5375
2020,5349
2021,5493


También puedes usar el número de la columna para realizar una operación GROUP BY:

In [None]:
%%sql
SELECT
  state,
  COUNT(*)
FROM
  customers
GROUP BY
1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,count
KS,619
,5467
CA,5038
NH,77
OR,386
ND,93
TX,4865
NV,643
KY,598
OH,1656


Este SQL devolverá el mismo resultado que el anterior, que usaba el nombre de la columna en la cláusula GROUP BY.

Si quieres que la salida se devuelva en orden alfabético, simplemente usa la siguiente consulta:

In [None]:
%%sql
SELECT
  state,
  COUNT(*)
FROM
  customers
GROUP BY
  state
ORDER BY
  state
LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,count
AK,188
AL,922
AR,232
AZ,931
CA,5038
CO,1042
CT,576
DC,1447
DE,149
FL,3748


Alternativamente, puedes escribir la consulta utilizando el número de orden de las columnas en las cláusulas `GROUP BY` y `ORDER BY` en lugar de usar los nombres de las columnas:


In [None]:
%%sql
-- Figure 4.15: Customer count by the state query output in alphabetical order
SELECT
  state,
  COUNT(*)
FROM
  customers
GROUP BY
1 ORDER BY 1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,count
AK,188
AL,922
AR,232
AZ,931
CA,5038
CO,1042
CT,576
DC,1447
DE,149
FL,3748


A menudo, sin embargo, podrías estar interesado en ordenar los resultados de las funciones agregadas. Por ejemplo, podrías querer conocer el número de clientes en cada estado en orden ascendente, para identificar qué estados tienen menos clientes. Esta información podría ayudarte a tomar decisiones comerciales, como lanzar una nueva campaña de marketing en los estados donde tu presencia es menor. Para lograr esto, necesitas ordenar los resultados agregados. Esto se puede hacer utilizando `ORDER BY`, de la siguiente manera:


In [None]:
%%sql
-- Figura 4.16: Salida de la consulta del conteo de clientes por estado en orden ascendente
SELECT
  state,
  COUNT(*)
FROM
  customers
GROUP BY
  state
ORDER BY
COUNT(*) LIMIT 10; --  ordenar los agregados en sí mismos.

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,count
VT,16
WY,23
ME,25
RI,47
NH,77
ND,93
MT,122
SD,124
DE,149
HI,172


También podrías querer contar solo un subconjunto de los datos, como el número total de clientes masculinos en un estado en particular. Para calcular el número total de clientes masculinos, puedes usar la siguiente consulta:


In [None]:
%%sql
-- Figura 4.17: Salida de la consulta del conteo de clientes masculinos por estado en orden alfabético
SELECT
  state, COUNT(*)
FROM
  customers
WHERE
  gender='M' -- clientes masculinos
GROUP BY
  state
ORDER BY
  State LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,count
AK,87
AL,489
AR,120
AZ,415
CA,2572
CO,526
CT,301
DC,713
DE,74
FL,1849


Agrupar por columna proporciona información valiosa, permitiéndote explorar diferentes aspectos del conjunto de datos. Estas observaciones te ayudan a formular y comprobar hipótesis. Por ejemplo, podrías determinar las ventas y el número de clientes por estado o analizar un segmento específico. Con un análisis bivariado, como el presentado en el Capítulo 1, podrías descubrir relaciones entre el volumen de ventas y ciertos grupos de clientes, lo que te permitiría desarrollar estrategias para aumentar las ventas o comprender la baja participación de otros segmentos.


## Agrupación por múltiples columnas (GROUP BY)

Si bien el uso de `GROUP BY` con una sola columna es útil, puedes ir más allá y agrupar por múltiples columnas. Por ejemplo, supongamos que deseas obtener no solo el conteo de clientes que ZoomZoom tiene en cada estado, sino también cuántos de esos clientes son hombres y cuántos son mujeres en cada estado. Esto lo puedes lograr utilizando múltiples columnas con `GROUP BY`, de la siguiente manera:


In [None]:
%%sql
-- # Figura 4.18: Salida de la consulta de conteo de clientes por estado y género en orden alfabético
SELECT
  state, gender, COUNT(*)
FROM
  customers
GROUP BY
  state, gender
ORDER BY
  state, gender LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,gender,count
AK,F,101
AK,M,87
AL,F,433
AL,M,489
AR,F,112
AR,M,120
AZ,F,516
AZ,M,415
CA,F,2466
CA,M,2572


Cualquier número de columnas puede ser utilizado en una operación `GROUP BY`, tal como se muestra en el ejemplo anterior. En este caso, SQL creará un grupo para cada combinación única de valores de las columnas, como un grupo para `state=AK` y `gender=F`, otro para `state=AK` y `gender=M`, y así sucesivamente. Luego, calculará la función agregada para cada grupo y etiquetará el resultado con los valores de todas las columnas de agrupación.

Ahora, pon a prueba tu comprensión implementando la cláusula `GROUP BY` en un ejercicio.







## Ejercicio 4.02: Calcular el costo por tipo de producto utilizando GROUP BY

En este ejercicio, analizarás y calcularás el costo de los productos utilizando funciones de agregación y la cláusula `GROUP BY`. El gerente de marketing desea conocer el mínimo, el máximo, el promedio y la desviación estándar del precio para cada tipo de producto que vende ZoomZoom, con el fin de planificar una campaña de marketing. Sigue los siguientes pasos para completar este ejercicio:

1. Calcula el precio más bajo, el más alto, el precio promedio y la desviación estándar del precio utilizando las funciones de agregación `MIN`, `MAX`, `AVG` y `STDDEV` de la tabla de productos, y emplea `GROUP BY` para verificar los precios de los distintos tipos de productos:


In [None]:
%%sql
-- Figure 4.19: Basic price statistics by product type
SELECT
  product_type,
  MIN(base_msrp),
  MAX(base_msrp),
  AVG(base_msrp),
  STDDEV(base_msrp)
FROM
  products
GROUP BY 1
ORDER BY 1;

 * postgresql://postgres:***@localhost:5432/sqlda
2 rows affected.


product_type,min,max,avg,stddev
automobile,35000.0,115000.0,79250.0,30477.45068079
scooter,349.99,799.99,578.5614285714286,167.971085947212


A partir de la salida anterior, el gerente de marketing podrá verificar y comparar los precios de los distintos productos que vende ZoomZoom para la campaña.

En este ejercicio, calculaste las estadísticas básicas por tipo de producto utilizando funciones de agregación y la cláusula `GROUP BY`. A continuación, aprenderás cómo implementar conjuntos de agrupamiento.


## Agrupaciones de Conjuntos

Es muy común querer analizar las características estadísticas de un conjunto de datos desde múltiples perspectivas. Por ejemplo, supongamos que deseas contar el número total de clientes en cada estado, y al mismo tiempo, quieres saber cuántos de esos clientes son hombres y cuántos son mujeres en cada estado. Una forma de lograr esto es utilizando la palabra clave `UNION ALL`, como se discutió en el Capítulo 2, *Los conceptos básicos de SQL para análisis*:

Esta consulta produce el siguiente resultado:


In [None]:
%%sql
-- Figura 4.20: Recuento de clientes por estado y género mostrado en orden alfabético
( SELECT
    state,
    NULL as gender,
    COUNT(*)
  FROM
    customers
  GROUP BY
    1, 2
  ORDER BY
1, 2 )
UNION ALL
( SELECT
    state,
    gender,
    COUNT(*)
  FROM
    customers
  GROUP BY
    1, 2
  ORDER BY
    1, 2
)
ORDER BY 1, 2 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,gender,count
AK,F,101
AK,M,87
AK,,188
AL,F,433
AL,M,489
AL,,922
AR,F,112
AR,M,120
AR,,232
AZ,F,516


Fundamentalmente, lo que estás haciendo aquí es crear múltiples conjuntos de agregación: uno agrupado por estado y otro agrupado por estado y género, para luego unirlos. Esta operación se llama agrupaciones de conjuntos, lo que significa que se generan varios conjuntos utilizando `GROUP BY`. Sin embargo, usar `UNION ALL` puede ser tedioso y requerir la escritura de consultas extensas.

Una forma alternativa de lograr esto es utilizando la declaración `GROUPING SETS`. Esta declaración permite a un usuario crear múltiples agrupaciones de manera más eficiente, similar a lo que hace `UNION ALL`. Por ejemplo, utilizando la palabra clave `GROUPING SETS`, podrías reescribir la consulta con `UNION ALL` de la siguiente manera:




In [None]:
%%sql
SELECT
  state,
gender,
  COUNT(*)
FROM
  customers
GROUP BY GROUPING SETS (
(state),
  (state, gender)
)
ORDER BY 1, 2 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,gender,count
AK,F,101
AK,M,87
AK,,188
AL,F,433
AL,M,489
AL,,922
AR,F,112
AR,M,120
AR,,232
AZ,F,516


Esto genera el mismo resultado que la consulta con `UNION ALL` anterior. A continuación, aprenderás cómo funcionan los agregados de conjuntos ordenados en la siguiente sección.


## Agregados de Conjuntos Ordenados

Hasta ahora, ninguno de los agregados discutidos dependía del orden de los datos. Esto se debe a que ninguna de las funciones agregadas (como `COUNT`, `SUM`, `AVG`, `MIN`, `MAX`, etc.) que has visto hasta este punto era ordinal. Puedes ordenar los datos usando `ORDER BY`, pero esto no es necesario para completar el cálculo, y el orden no afecta el resultado. Sin embargo, existe un subconjunto de funciones agregadas cuyo cálculo depende del orden de los datos. Por ejemplo, calcular la mediana de una columna requiere especificar el orden de los valores.

Para abordar estos casos, SQL ofrece una serie de funciones conocidas como *funciones agregadas de conjuntos ordenados*. La siguiente tabla muestra las principales funciones agregadas de conjuntos ordenados:


<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/6a166ff4-f3b3-469e-b7c7-86e82a43700a.png?raw=true' width="500" />
<figcaption>
Figure 4.21: Major ordered set aggregate functions</figcaption></center>
</figure>

Estas funciones se utilizan en el siguiente formato:

```SQL
SELECT
  {ordered_set_function} WITHIN GROUP (ORDER BY {order_column})
FROM {table};
```

Aquí, `{ordered_set_function}` es la función agregada de conjunto ordenado, `{order_column}` es la columna por la que se ordenan los resultados para la función, y `{table}` es la tabla donde se encuentra dicha columna. Por ejemplo, puedes calcular el precio mediano de la tabla de productos utilizando la siguiente consulta:


In [None]:
%%sql
SELECT
  PERCENTILE_CONT(0.5)
  WITHIN GROUP (ORDER BY base_msrp)
  AS median
FROM
  products;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


median
749.99


Con las funciones de agregación de conjuntos ordenados, ahora tienes las herramientas necesarias para calcular prácticamente cualquier estadística agregada que sea de interés para un conjunto de datos. En la siguiente sección, aprenderás a utilizar las agregaciones para gestionar la calidad de los datos.


# Funciones de agregación con la cláusula HAVING

En este capítulo, has explorado la cláusula `WHERE` en las instrucciones `SELECT` para filtrar filas basadas en ciertas condiciones de la tabla original. También has visto cómo combinar funciones de agregación con `WHERE`. Es importante recordar que `WHERE` siempre actúa sobre el conjunto de datos inicial, antes de cualquier agrupación.

Por otro lado, el proceso de `GROUP BY` tiene dos etapas: primero, agrupa las filas según ciertos criterios, y segundo, aplica las funciones de agregación a estos grupos. La cláusula `WHERE` se aplica en la primera etapa, filtrando los datos antes de que se realice el agrupamiento.


<figure>
<center><img src='https://github.com/limspiga/data-modeling/raw/main/images/0e1e3d21-83cd-40b5-98e0-ae58ba071450.png' width="400" />
</center>
</figure>


Si deseas filtrar después de la agregación, eso ocurre en la segunda etapa del proceso de `GROUP BY`. Un ejemplo sería si deseas contar clientes, pero solo considerar aquellos lugares con al menos 1,000 clientes. Podrías sentirte tentado a estructurar tu consulta de la siguiente manera:


In [None]:
%%sql
-- Figura 4.23: Error que muestra que la consulta no funciona
SELECT
  state, COUNT(*)
FROM
  customers
WHERE
  COUNT(*)>=1000
GROUP BY
  state
ORDER BY
  state;


Esto se debe a que `COUNT(*)` se calcula en el segundo paso, después de que los grupos han sido agregados. Por lo tanto, este filtro solo puede aplicarse a los grupos agregados, no al conjunto de datos original. Usar la cláusula `WHERE` en funciones de agregación generará un error. Para aplicar un filtro en funciones de agregación, es necesario utilizar una nueva cláusula: `HAVING`.

La cláusula `HAVING` es similar a la cláusula `WHERE`, pero está diseñada específicamente para consultas que incluyen `GROUP BY`. Aplica el filtro de condición a los grupos agregados en lugar de al conjunto de datos original.

La estructura general de una operación `GROUP BY` con una declaración `HAVING` es la siguiente:


```sql
SELECT
  {KEY},
  {AGGFUNC(column1)}
FROM
  {table1}
GROUP BY
{KEY} HAVING
  {OTHER_AGGFUNC(column2)_CONDITION}
```

Aquí, `{KEY}` es una columna o una función aplicada a una columna que se utiliza para crear grupos individuales, `{AGGFUNC(column1)}` es una función de agregación aplicada a una columna que se calcula para todas las filas dentro de cada grupo, `{table}` es la tabla o conjunto de tablas unidas de las que se separan las filas en grupos, y `{OTHER_AGGFUNC(column2)_CONDITION}` es una condición, similar a la que usarías en una cláusula `WHERE`, pero que involucra una función de agregación.

Ahora, pon a prueba tu comprensión implementando un ejercicio utilizando la cláusula `HAVING`.



## Ejercicio 4.03: Calcular y Mostrar Datos Usando la Cláusula HAVING

En este ejercicio, calcularás y mostrarás datos utilizando la cláusula `HAVING`. El gerente de ventas de ZoomZoom quiere conocer el conteo de clientes para los estados que tienen al menos 1,000 clientes que han comprado algún producto de ZoomZoom. Sigue los siguientes pasos para ayudar al gerente a extraer los datos:

1. Calcula el conteo de clientes por estado con al menos 1,000 clientes utilizando la cláusula `HAVING`:


In [None]:
%%sql
SELECT
  state, COUNT(*)
FROM
  customers
GROUP BY
  state
HAVING
  COUNT(*)>=1000
ORDER BY
  state LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


state,count
AL,1844
AZ,1862
CA,10076
CO,2084
CT,1152
DC,2894
FL,7496
GA,2502
IL,2188
IN,1868


# Usando Agregaciones para Limpiar Datos y Examinar la Calidad de los Datos

En el Capítulo 3, *SQL para la Preparación de Datos*, aprendiste cómo SQL puede ser utilizado para limpiar datos. Aunque las técnicas discutidas en ese capítulo son efectivas para limpiar datos, las agregaciones ofrecen un conjunto adicional de técnicas que pueden facilitar y hacer más exhaustiva la limpieza de los datos. En esta sección, exploraremos algunas de estas técnicas.

## Encontrando Valores Faltantes con GROUP BY

Como se mencionó en el Capítulo 3, uno de los mayores desafíos al limpiar datos es manejar los valores faltantes. Aprendiste cómo encontrar y solucionar el problema de los datos faltantes. Ahora, aprenderás a determinar el alcance de los datos faltantes en un conjunto de datos.

Usando agregaciones, puedes identificar cuántos datos faltan y determinar no solo qué columnas contienen datos faltantes, sino también la usabilidad de esas columnas en función de la cantidad de datos faltantes. Dependiendo de la magnitud de este problema, deberás decidir si tiene sentido eliminar las filas con datos faltantes, rellenar esos valores o simplemente eliminar las columnas si no contienen suficientes datos para sacar conclusiones válidas.

La manera más sencilla de identificar si faltan valores en una columna es utilizar una declaración `CASE WHEN` modificada, que ofrece lógica flexible para verificar si se cumple una condición. Combinando esto con las funciones `SUM` y `COUNT`, puedes determinar qué porcentaje de datos está ausente. La consulta se vería de la siguiente manera:




```sql
SELECT SUM(
CASE WHEN
    {column1} IS NULL
      OR
    {column1} IN ({missing_values})
      THEN 1
ELSE 0 END
  )::FLOAT/COUNT(*)
FROM
{table1}
```



Aquí, {column1} es la columna que quieres revisar para encontrar valores faltantes, {missing_values} es una lista separada por comas de valores que se consideran faltantes, y {table1} es la tabla o subconsulta con los valores faltantes.

Basándote en los resultados de esta consulta, tal vez necesites variar tu estrategia para lidiar con los datos faltantes. Si un porcentaje muy pequeño de tus datos está faltante (<1%), entonces podrías considerar simplemente filtrar o eliminar los datos faltantes de tu análisis. Si falta una parte de tus datos (<20%), podrías considerar llenar tus datos faltantes con un valor típico, como la media o la moda, para realizar un análisis preciso. Si más del 20% de tus datos está faltante, tendrás que eliminar la columna de tu análisis de datos, ya que no habría suficientes datos para hacer conclusiones precisas basadas en los valores de la columna.

Ahora, trabaja en un ejemplo y observa los datos faltantes en la tabla de clientes. Específicamente, observa los datos faltantes en la columna de estado. Basándose en algunos conocimientos previos, el equipo de negocios ha determinado que si la columna de estado en una fila contiene NULL o es una cadena vacía (''), este valor se considera un valor faltante. Ahora necesitas determinar el alcance de los valores faltantes para ver si esta columna de estado sigue siendo útil. Lo harás dividiendo el número de registros que tienen el valor faltante en la columna de estado por el número total de registros:

In [None]:
%%sql
-- Figura 4.25: Resultado del cálculo del porcentaje de valores NULL y faltantes
SELECT SUM(
CASE
  WHEN state IS NULL OR state IN ('') THEN 1
ELSE 0 END
  )::FLOAT/COUNT(*) AS missing_state
FROM
customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


missing_state
0.10934



Como se muestra aquí, un poco menos del 11% de los datos del estado están faltantes. Para propósitos de análisis, podrías querer considerar que estos clientes son de California, ya que CA es el estado más común en los datos. Sin embargo, lo mucho más preciso sería encontrar y completar los datos faltantes.

Si solo te preocupan los valores NULL y no hay necesidad de verificar otros valores faltantes, también puedes usar una función COUNT(), que cuenta desde la columna. Tal función COUNT() solo contará los valores no NULL. Dividiendo este valor por el conteo total, obtendrás el porcentaje de valores no NULL. Restando el porcentaje de no NULL del 100%, obtendrás el porcentaje de valores NULL en el conteo total:

In [None]:
%%sql
SELECT
  ROUND(COUNT(state) * 1.0 / COUNT(*), 4) AS non_null_state,
  ROUND(1 - COUNT(state) * 1.0 / COUNT(*), 4) AS null_state
FROM
  customers;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


non_null_state,null_state
0.8907,0.1093


Puedes ver que el valor null_state aquí es el mismo que el valor missing_state en el SQL anterior. Esto muestra que en realidad no hay ningún valor con una cadena vacía (''). Todos los valores faltantes son NULL.

## Midiendo la Unicidad de los Datos con Agregaciones
Otra tarea común que podrías querer realizar es determinar si cada valor en una columna es único. Aunque en muchos casos esto puede resolverse estableciendo una restricción de LLAVE PRIMARIA en una columna, esto no siempre puede ser posible. Para resolver este problema, puedes escribir la siguiente consulta:



```sql
SELECT
  COUNT (DISTINCT {column1})=COUNT(*)
FROM
  {table1}
```



Aquí, {column1} es la columna que quieres contar y {table1} es la tabla que contiene la columna. Si esta consulta retorna Verdadero, entonces la columna tiene un valor único para cada fila; de lo contrario, al menos uno de los valores está repetido. Si los valores están repetidos en una columna que esperas que sea única, puede haber algunos problemas con la Extracción, Transformación y Carga (ETC) de datos o puede haber una unión que ha causado que una fila se repita.
Como un simple ejemplo, verifica que la columna customer_id en customers es única:

In [None]:
%%sql
-- Figure 4.27: Result of comparing COUNT DISTINCT versus COUNT(*)
SELECT
  COUNT(DISTINCT customer_id)=COUNT(*) AS equals_ids
FROM
  customers LIMIT 5000;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


equals_ids
False


# Actividad 4.01: Análisis de Datos de Ventas Utilizando Funciones de Agregación
En esta actividad, analizarás datos utilizando funciones de agregación. El CEO, COO y CFO de ZoomZoom desean obtener información sobre las características estadísticas comunes de las ventas, ahora que la empresa siente que tienen un equipo de análisis lo suficientemente sólido con tu llegada. La tarea te ha sido asignada, y tu jefe te ha informado amablemente que este es el proyecto más importante en el que el equipo de análisis ha trabajado. Realiza los siguientes pasos para completar esta actividad:

1. Calcula el número total de unidades vendidas por la empresa.


In [None]:
%%sql
SELECT
  COUNT(*)
FROM sales;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


count
75422


2. Calcula el monto total de ventas en dólares para cada estado.


In [None]:
%%sql
SELECT
  c.state,
  SUM(s.sales_amount)::DECIMAL(12,2)
FROM
sales s JOIN
  customers c
ON
  s.customer_id = c.customer_id
GROUP BY
  c.state
ORDER BY
1;

3. Identifica los cinco mejores concesionarios en términos de la mayor cantidad de unidades vendidas (ignora las ventas por internet).


In [None]:
%%sql
-- Figure 4.31: Result of top five dealerships by sales
SELECT
  s.dealership_id,
  COUNT(*)
FROM sales s
WHERE
 channel <> 'internet'
GROUP BY
  s.dealership_id
ORDER BY
2 DESC LIMIT
5;

 * postgresql://postgres:***@localhost:5432/sqlda
5 rows affected.


dealership_id,count
10.0,3562
7.0,3166
18.0,2930
11.0,2624
1.0,2594


4. Calcula el monto promedio de ventas para cada canal, tal como se muestra en la tabla de ventas, y observa el monto promedio de ventas, primero por canal de ventas, luego por product_id y finalmente ambos juntos.
Salida Esperada:

In [None]:
%%sql
SELECT
  channel,
product_id,
  AVG(sales_amount)
FROM
  sales
GROUP BY grouping sets (
  (channel),
  (product_id),
  (channel, product_id)
);

 * postgresql://postgres:***@localhost:5432/sqlda
36 rows affected.


channel,product_id,avg
dealership,9.0,33402.68456375839
internet,7.0,573.096416565227
internet,8.0,668.7823398285801
internet,2.0,757.3238666666672
dealership,10.0,81270.11217948717
internet,11.0,89750.0
dealership,6.0,62563.37638376384
dealership,3.0,477.2537376077065
internet,12.0,335.4508008565284
internet,1.0,382.3604322250575


<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/6d5ed490-97f9-4a59-bb4c-9ff76bcccd54.png?raw=true' width="500" />
<figcaption>
Figure 4.28: Sales after the GROUPING SETS channel and product_id</figcaption></center>
</figure>

6. Calcula el porcentaje de transacciones de ventas que tienen un concesionario NULL.



In [None]:
%%sql
SELECT
  1 - COUNT(dealership_id) * 1.0 / COUNT(*)
FROM
  sales;

 * postgresql://postgres:***@localhost:5432/sqlda
1 rows affected.


?column?
0.5585372968099493


7. Calcula el porcentaje de ventas por internet que la empresa ha realizado para cada año. Ordena los años de manera oportuna y obtendrás datos de series temporales. ¿Sugiere esta serie temporal algo?

In [None]:
%%sql
SELECT
  TO_CHAR(sales_transaction_date, 'yyyy'),
  SUM(sales_amount)
FROM sales
WHERE
  channel = 'internet'
GROUP BY 1
ORDER BY 1;

 * postgresql://postgres:***@localhost:5432/sqlda
11 rows affected.


to_char,sum
2012,60398.48999999998
2013,836940.779999993
2014,908537.2859999908
2015,158576.206
2016,1797964.0399999758
2017,25446750.531997666
2018,56133461.603998825
2019,60640307.53599834
2020,61838151.38799822
2021,57537887.59999817



Solo con mirar los números, parece que las ventas aumentan tanto en el canal de internet como en el canal no relacionado con internet, simultáneamente. Por lo tanto, se trata de un aumento general en todo el portafolio de ventas de ZoomZoom. En este punto, ahora que has obtenido cierta comprensión de las características estadísticas comunes de las ventas, puedes regresar al gerente de ventas y presentar tus hallazgos, trabajar con el equipo de negocios para profundizar en las posibles razones de este aumento y tratar de aplicar los hallazgos a la estrategia de ventas de la empresa.

Utilizando funciones de agregación, has descubierto patrones que ayudarán a tu empresa a comprender cómo generar más ingresos y mejorar la empresa en general.

# Resumen
En este capítulo, aprendiste cómo calcular las propiedades estadísticas de un conjunto de datos utilizando funciones de agregación, como el promedio, el recuento, el mínimo, el máximo y la desviación estándar. Las funciones de agregación se aplican a todo el conjunto de datos. Para utilizarlas para analizar las estadísticas de subconjuntos de datos dentro de un conjunto de datos más grande, también aprendiste acerca de la cláusula GROUP BY de la instrucción SELECT, que divide un conjunto de datos grande en conjuntos más pequeños según las claves que proporcionaste y aplica funciones de agregación a cada uno de los grupos.
Para hacer que la cláusula GROUP BY sea más útil, se introdujeron varias propiedades adicionales, siendo la más importante la cláusula HAVING. Esta cláusula HAVING se utiliza para filtrar los valores de los grupos agregados. Se aplica en la segunda etapa de la ejecución de la cláusula GROUP BY y debe distinguirse de la cláusula WHERE, que se aplica a la tabla de datos original o al conjunto de tablas y se aplica en la primera etapa de la ejecución de GROUP BY.
Nota

La solución para esta actividad se puede encontrar a través de este enlace.

Ahora que has aprendido sobre las funciones de agregación y la cláusula GROUP BY, puedes proceder a utilizar herramientas para examinar la calidad de los datos a nivel de conjunto de datos, en lugar de a nivel de entrada de datos, como lo hiciste en el Capítulo 3, SQL para la Preparación de Datos. Esto incluye verificar el porcentaje de valores faltantes y confirmar la unicidad de una columna. Luego practicaste algunas de estas habilidades en una actividad.
Hasta ahora, has aprendido acerca de dos tipos de funciones. Las funciones a nivel de fila que aprendiste en el Capítulo 3, SQL para la Preparación de Datos, como CASE, NULLIF y COALESCE, se aplican a una fila de datos y generarán un valor de salida para cada fila en los datos originales. Las funciones de agregación que aprendiste en este capítulo, como COUNT y SUM, se aplican a un conjunto de datos de muchas filas y generarán un valor de salida para todo el conjunto de datos. Las primeras se pueden utilizar para analizar las características de un punto de datos, mientras que las segundas se pueden utilizar para analizar las estadísticas de un conjunto de datos. Hay un tipo más de función, que estudia las características de una fila en relación con otras filas en el conjunto de datos. Esta función generará una salida para cada fila en un conjunto de datos y se llama función de ventana. Aprenderás todo sobre las funciones de ventana en el Capítulo 5, Funciones de Ventana para el Análisis de Datos.