# Funciones de Agregación

La agregación de datos implica combinar varias filas de una tabla y resumirlas en una
sola fila, proporcionando información resumida sobre los datos. Esto es especialmente
útil cuando se trabaja con grandes conjuntos de datos y se requiere obtener
información precisa.

El siguiente ejemplo es una base de datos de ventas que tiene las siguientes tablas

`Productos:` Tabla que almacena información de los productos que pueden ser vendidos.

`Clientes:` Tabla que almacena datos de los clientes.

`Pedidos:` Tabla principal que registra cada pedido, asociándolo a un cliente.

`Detalle de pedidos:` Tabla que relaciona los productos con los pedidos, incluyendo la cantidad
comprada y el precio

## Funciones de agregación en SQL

- `Sum:` calcula la suma de los valores de una columna numérica en una tabla.

- `Count:` cuenta el número de filas en una tabla.

- `Avg:` calcula el promedio de los valores en una columna numérica

- `Max:` obtiene el valor máximo de una columna

- `Min:` obtiene el valor mínimo de una columna

- `Stddev:` Devuelve la desviación del estándar para un conjunto de números.

- `Variance:` Devuelve la variación para un conjunto de números.

- `Mid:` Retorna un número determinado de caracteres que comienza en el caracter
indicado

- `Length:` Retorna la longitud de la cadena

- `Ucase:` Retorna la cadena en mayúsculas

- `Lcase:` Retorna la cadena en minúsculas

- `Concat(cadena1,cadena2):` Une cadenas.

- `Concat_ws(separador,cadena):` Une cadenas incluyendo un separador

In [4]:
import mysql.connector
import pandas as pd

In [2]:
mydb = mysql.connector.connect(
    host="localhost",
    user="root",
    password="x",
    database="ciencia_de_datos"
)
print(mydb)

<mysql.connector.connection_cext.CMySQLConnection object at 0x7f3c10315d30>


## Ejemplos

### Obtener todos los productos y su stock

In [6]:
sql = "SELECT * FROM productos"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_producto,nombre,descripcion,precio,stock,fecha_creacion
0,1,Producto A,Descripción del Producto A,10.0,100,2024-12-05 19:30:07
1,2,Producto B,Descripción del Producto B,15.5,50,2024-12-05 19:30:07
2,3,Producto C,Descripción del Producto C,20.75,150,2024-12-05 19:32:55
3,4,Producto D,Descripción del Producto D,5.0,200,2024-12-05 19:32:55
4,5,Producto E,Descripción del Producto E,12.99,80,2024-12-05 19:32:55
5,6,Producto F,Descripción del Producto F,7.5,300,2024-12-05 19:32:55
6,7,Producto G,Descripción del Producto G,25.0,120,2024-12-05 19:35:22
7,8,Producto H,Descripción del Producto H,30.0,50,2024-12-05 19:35:22
8,9,Producto I,Descripción del Producto I,18.5,60,2024-12-05 19:35:22
9,10,Producto J,Descripción del Producto J,40.0,90,2024-12-05 19:35:22


### Ver productos con bajo stock (menos de 50 unidades)

In [11]:
sql = "SELECT * FROM productos WHERE stock < 50"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_producto,nombre,descripcion,precio,stock,fecha_creacion
0,11,Producto K,Descripción del Producto K,9.99,10,2024-12-05 19:35:22
1,13,Producto M,Descripción del Producto M,50.0,45,2024-12-05 19:35:22


### Ver la cantidad de pedidos de un determinado cliente

In [24]:
sql = "SELECT c.id_cliente,c.nombre,p.id_pedido FROM clientes c INNER JOIN pedidos p ON c.id_cliente = p.id_cliente WHERE c.id_cliente=1"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_cliente,nombre,id_pedido
0,1,Juan Pérez,1
1,1,Juan Pérez,5
2,1,Juan Pérez,12


Agregamos la función `COUNT` para contar las veces que aparece `id_pedido`

In [12]:
sql = "SELECT c.id_cliente,c.nombre,COUNT(p.id_pedido) as cantidadPedidos FROM clientes c INNER JOIN pedidos p ON c.id_cliente = p.id_cliente WHERE c.id_cliente=1"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_cliente,nombre,cantidadPedidos
0,1,Juan Pérez,3


In [25]:
sql = "SELECT c.id_cliente,c.nombre,p.total as pedidos FROM clientes c INNER JOIN pedidos p ON c.id_cliente = p.id_cliente WHERE c.id_cliente=1"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_cliente,nombre,pedidos
0,1,Juan Pérez,30.0
1,1,Juan Pérez,30.0
2,1,Juan Pérez,150.0


Agregamos la función `SUM` para sumar `pedidos`

In [14]:
sql = "SELECT c.id_cliente, c.nombre,SUM(p.total) as totalPedidos FROM clientes c INNER JOIN pedidos p ON c.id_cliente = p.id_cliente WHERE c.id_cliente=1"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_cliente,nombre,totalPedidos
0,1,Juan Pérez,210.0


### Ver la cantidad de pedidos de los clientes

In [26]:
sql = "SELECT c.nombre, p.id_pedido AS id_pedido FROM clientes c INNER JOIN pedidos p ON c.id_cliente = p.id_cliente"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,nombre,id_pedido
0,Juan Pérez,1
1,Juan Pérez,5
2,Juan Pérez,12
3,María López,2
4,María López,13
5,Carlos García,3
6,Carlos García,14
7,Ana Torres,4
8,Ana Torres,15
9,Luis Fernández,6


Para que solo tengamos un solo nombre, agrupamos con `GROUP BY` por el `id_cliente`

In [16]:
sql = "SELECT c.nombre, p.id_pedido AS total_pedidos FROM clientes c INNER JOIN pedidos p ON c.id_cliente = p.id_cliente GROUP BY c.id_cliente"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,nombre,total_pedidos
0,Juan Pérez,1
1,María López,2
2,Carlos García,3
3,Ana Torres,4
4,Luis Fernández,6
5,Paula Martínez,7
6,Ricardo Díaz,8
7,Sofía Reyes,9
8,Fernando Ortiz,10
9,Gabriela Silva,11


In [17]:
sql = "SELECT c.nombre, COUNT(p.id_pedido) AS total_pedidos FROM clientes c INNER JOIN pedidos p ON c.id_cliente = p.id_cliente GROUP BY c.id_cliente"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,nombre,total_pedidos
0,Juan Pérez,3
1,María López,2
2,Carlos García,2
3,Ana Torres,2
4,Luis Fernández,1
5,Paula Martínez,1
6,Ricardo Díaz,1
7,Sofía Reyes,1
8,Fernando Ortiz,1
9,Gabriela Silva,1


### Ver clientes con más de un pedido

Agregamos un condicional `HAVING` para filtrar que el numero de `id_pedido` sea mayor que 1

In [18]:
sql = "SELECT c.nombre, COUNT(p.id_pedido) AS total_pedidos FROM clientes c JOIN pedidos p ON c.id_cliente = p.id_cliente GROUP BY c.id_cliente HAVING COUNT(p.id_pedido) > 1"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,nombre,total_pedidos
0,Juan Pérez,3
1,María López,2
2,Carlos García,2
3,Ana Torres,2


### Cantidad total de productos vendidos

In [29]:
sql = "SELECT id_pedido,cantidad AS total_productos_vendidos FROM detalle_pedidos"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_pedido,total_productos_vendidos
0,1,2
1,2,2
2,2,1
3,3,10
4,3,2
5,4,20
6,4,3
7,5,2
8,5,10
9,6,20


Con la función  

In [20]:
sql = "SELECT SUM(cantidad) AS total_productos_vendidos FROM detalle_pedidos"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,total_productos_vendidos
0,163.0


### Obtener los productos más vendidos

In [21]:
sql = "SELECT *, cantidad as totalCantidad FROM `detalle_pedidos`"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_detalle,id_pedido,id_producto,cantidad,precio_unitario,subtotal,totalCantidad
0,1,1,1,2,10.0,20.0,2
1,2,2,3,2,20.75,41.5,2
2,3,2,1,1,10.0,10.0,1
3,4,3,4,10,5.0,50.0,10
4,5,3,5,2,12.99,25.98,2
5,6,4,6,20,7.5,150.0,20
6,7,4,2,3,15.5,46.5,3
7,8,5,7,2,50.0,100.0,2
8,9,5,8,10,6.5,65.0,10
9,10,6,9,20,15.0,300.0,20


In [22]:
sql = "SELECT *, cantidad as totalCantidad FROM `detalle_pedidos` ORDER BY id_producto"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,id_detalle,id_pedido,id_producto,cantidad,precio_unitario,subtotal,totalCantidad
0,1,1,1,2,10.0,20.0,2
1,16,9,1,30,10.0,300.0,30
2,3,2,1,1,10.0,10.0,1
3,15,8,2,2,15.5,31.0,2
4,7,4,2,3,15.5,46.5,3
5,2,2,3,2,20.75,41.5,2
6,17,9,3,12,20.75,249.0,12
7,4,3,4,10,5.0,50.0,10
8,12,7,4,3,40.0,120.0,3
9,5,3,5,2,12.99,25.98,2


In [23]:
sql = "SELECT P.nombre, SUM(cantidad) as totalCantidad FROM detalle_pedidos DP INNER JOIN productos P ON DP.id_producto=P.id_producto GROUP BY(DP.id_producto)"
datos = pd.read_sql(sql,mydb)
datos

  datos = pd.read_sql(sql,mydb)


Unnamed: 0,nombre,totalCantidad
0,Producto A,33.0
1,Producto B,5.0
2,Producto C,14.0
3,Producto D,13.0
4,Producto E,8.0
5,Producto F,44.0
6,Producto G,2.0
7,Producto H,10.0
8,Producto I,20.0
9,Producto J,5.0
