<a href="https://colab.research.google.com/github/rubuntu/uaa-417-sistemas-de-gestion-de-bases-de-datos-avanzados/blob/main/11_SQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
%matplotlib inline
import matplotlib
import seaborn as sns
matplotlib.rcParams['savefig.dpi'] = 144

In [None]:
%%capture
!apt-get install postgresql postgresql-contrib
!pip install prettytable==0.7.2
!pip install ipython-sql psycopg2-binary

In [None]:
!service postgresql start
!sudo -u postgres createdb testdb
!sudo -u postgres psql -c "ALTER USER postgres PASSWORD 'postgres';"

 * Starting PostgreSQL 14 database server
   ...done.
ALTER ROLE


# Structured Query Language (SQL)
<!-- requirement: data/customers.csv -->
<!-- requirement: data/products.csv -->
<!-- requirement: data/orders.csv -->

SQL es uno de los lenguajes informáticos más utilizados para trabajar con datos en la actualidad. Es un lenguaje estandarizado para acceder y manipular bases de datos relacionales. Si bien es relativamente limitado en comparación con un lenguaje de programación general como Python, está altamente optimizado para la recuperación y agregación eficiente de datos de las tablas de bases de datos. Su amplio soporte y uso prácticamente garantizan que cualquier científico o analista de datos profesional se encontrará con SQL en algún momento. Además, SQL es a menudo el paradigma utilizado para analizar el modelo de datos relacionales, que tiene implicaciones que se aplican más allá de las bases de datos compatibles con SQL.

Exploraremos SQL desde Python, lo que nos permitirá trabajar con SQL en un entorno familiar y también ver oportunidades de compatibilidad entre el mundo de las bases de datos relacionales y las herramientas de ciencia de datos dentro de Python.

## Modelo de datos relacionales

El modelo de datos relacionales se corresponde en gran medida con nuestra noción intuitiva de tabla. Cada fila es una **relación**, que normalmente representa algún objeto, evento o idea. Cada columna se corresponde con un **atributo** que caracteriza la relación. Para reducir la redundancia en una base de datos, al crear una tabla normalmente incluimos la cantidad mínima de atributos necesarios para definir completamente una relación. Esta directriz (ciertamente vaga) se formaliza en la idea de [normalización de bases de datos](https://en.wikipedia.org/wiki/Database_normalization).

Por ejemplo, considere la siguiente tabla que representa los pedidos de un minorista en línea.



Customer | ID | Order ID | Product ID | Price | Delivery Address | Billing Address
:-------:|:--:|:--------:|:----------:|:-----:|:----------------:|:---------------:
   Omar  | 435|   62353  |    103     |  6.95 |  ***** Munich, Germany | ***** Berlin, Germany |
   Omar  | 435|   62353  |    4028    |  35.50|  ***** Tunis, Tunisia  | ***** Berlin, Germany |
  Stuart |5692|   64598  |    103     |  6.95 |  ***** Dover, UK | ***** Dover, UK |
  Vidhya |6127|   64921  |    3158    | 101.99|  ***** Mumbai, India | ***** Mumbai, India |
  Vidhya |6127|   64989  |    2561    | 21.35 |  ***** Mumbai, India | ***** Mumbai, India |
  Vidhya |6127|   64989  |     89     | 16.95 |  ***** Mumbai, India | ***** Mumbai, India |
  Stuart |5692|   65271  |    103     |  6.95 |  ***** Dover, UK | ***** Dover, UK |  


En la tabla anterior, hemos reproducido muchos valores varias veces, como nombres e identificaciones de clientes, direcciones, precios, etc. Podríamos dividir esta tabla en varias tablas más pequeñas en las que las relaciones contengan la cantidad mínima de atributos necesarios para definir la relación. Por ejemplo, podríamos tener una tabla para clientes, una tabla para productos y una tabla para pedidos.

  Customer | ID | Billing Address
 :--------:|:--:|:---------------:
    Omar   | 435| ***** Berlin, Germany
   Stuart  |5692| ***** Dover, UK
   Vidhya  |6127| ***** Mumbai, India

 Product ID | Price
:----------:|:-----:
    103     |  6.95
   4028     | 35.50
   3158     | 101.99
   2561     | 21.35
    89      | 16.95

 Order ID | Customer ID | Product ID | Delivery Address
:--------:|:-----------:|:----------:|:----------------:
   62353  |     435     |    103     | ***** Munich, Germany
   62353  |     435     |    4028    | ***** Tunis, Tunisia
   64598  |    5692     |    103     | ***** Dover, UK
   64921  |    6127     |    3158    | ***** Mumbai, India
   64989  |    6127     |    2561    | ***** Mumbai, India
   64989  |    6127     |     89     | ***** Mumbai, India
   65271  |    5692     |    103     | ***** Dover, UK

Antes almacenábamos 7 filas x 7 columnas = 49 celdas; ahora almacenamos solo 7 x 4 + 5 x 2 + 3 x 3 = 47 celdas. Puede que esto no parezca una gran mejora, pero, siendo realistas, un minorista en línea puede tener millones de pedidos de un producto en particular. Reproducir el precio en cada pedido en lugar de almacenarlo una vez por producto podría resultar bastante costoso cuando se amplía la escala.

Exploremos cómo se implementaría esto en SQL. Usaremos `PosgreSQL`, un administrador de bases de datos SQLque es útil para análisis de datos.  

## Carga de datos en SQL

In [None]:
%load_ext sql
#%sql sqlite:///testdb.sqlite
%sql postgresql://postgres:postgres@localhost/testdb

In [None]:
%%sql
-- Eliminar las tablas si ya existen (PostgreSQL permite este comando)
DROP TABLE IF EXISTS customers CASCADE;
DROP TABLE IF EXISTS products CASCADE;
DROP TABLE IF EXISTS orders CASCADE;

-- Crear la tabla customers
CREATE TABLE customers (
    id                 SERIAL PRIMARY KEY,  -- SERIAL es común en PostgreSQL para auto-incrementar
    name               VARCHAR(255) NOT NULL,  -- Usar VARCHAR para texto
    billing_address    VARCHAR(255) NOT NULL  -- VARCHAR con longitud definida para cadenas de texto
);

-- Crear la tabla products
CREATE TABLE products (
    id                 SERIAL PRIMARY KEY,  -- SERIAL para auto-incremento en PostgreSQL
    price              NUMERIC NOT NULL  -- Usar NUMERIC para números decimales o enteros
);

-- Crear la tabla orders
CREATE TABLE orders (
    id                 SERIAL PRIMARY KEY,  -- SERIAL para auto-incremento
    customer_id        INTEGER NOT NULL,
    product_id         INTEGER NOT NULL,
    delivery_address   VARCHAR(255) NOT NULL,
    FOREIGN KEY(customer_id) REFERENCES customers(id),  -- Llaves foráneas
    FOREIGN KEY(product_id) REFERENCES products(id)
);


 * postgresql://postgres:***@localhost/testdb
Done.
Done.
Done.
Done.
Done.
Done.


[]

Nuestras tablas están inicialmente vacías, pero hemos definido el **esquema** o estructura de las tablas. Hemos especificado ciertas opciones en nuestro esquema, como el hecho de que no aceptamos valores nulos en ningún campo y que ciertos campos son claves primarias únicas. Hay muchas más opciones posibles, incluyendo la configuración de valores predeterminados para campos que de otra manera podrían ser nulos o la instrucción a SQL para que asigne automáticamente valores incrementales. Si aún no lo has entendido, ¡la arquitectura de bases de datos es un tema extenso!

Podemos inspeccionar la tabla usando `SELECT`.

In [None]:
%%sql

SELECT * FROM customers;

 * postgresql://postgres:***@localhost/testdb
0 rows affected.


id,name,billing_address


Vamos a "INSERTAR" datos en nuestras tablas.

Tenemos que tener cuidado de hacer esto en un orden determinado; cuando definimos la tabla "pedidos", definimos una relación entre los atributos "customer_id" y "product_id" y los atributos "id" en las tablas "customer" y "product" respectivamente. Solo podemos "INSERTAR" datos en la tabla de pedidos una vez que los clientes y productos apropiados existan en sus tablas.

In [None]:
%%sql

--# Starting with customers

INSERT INTO customers (id, name, billing_address)
    VALUES (435, 'Omar', 'Berlin, Germany'), (5692, 'Stuart', 'Dover, UK'), (6127, 'Vidhya', 'Mumbai, India');

INSERT INTO products (id, price)
    VALUES (103, 6.95), (4028, 35.5), (3158, 101.99), (2561, 21.35), (89, 16.95);

INSERT INTO orders (id, customer_id, product_id, delivery_address)
    VALUES (62353, 435, 103, 'Munich, Germany'), (62354, 435, 4028, 'Tunis, Tunisia');

INSERT INTO orders (id, customer_id, product_id, delivery_address)
    VALUES (64598, 5692, 103, 'Dover, UK'), (65271, 5692, 103, 'Dover, UK');

INSERT INTO orders (id, customer_id, product_id, delivery_address)
    VALUES (64921, 6127, 3158, 'Mumbai, India'), (64989, 6127, 2561, 'Mumbai, India'), (64990, 6127, 89, 'Mumbai, India');

 * postgresql://postgres:***@localhost/testdb
3 rows affected.
5 rows affected.
2 rows affected.
2 rows affected.
3 rows affected.


[]

Confirmemos que nuestras tablas se han actualizado con los datos de nuestro ejemplo.

In [None]:
%%sql

SELECT * FROM customers;

 * postgresql://postgres:***@localhost/testdb
3 rows affected.


id,name,billing_address
435,Omar,"Berlin, Germany"
5692,Stuart,"Dover, UK"
6127,Vidhya,"Mumbai, India"


In [None]:
%%sql

SELECT * FROM products;

 * postgresql://postgres:***@localhost/testdb
5 rows affected.


id,price
103,6.95
4028,35.5
3158,101.99
2561,21.35
89,16.95


In [None]:
%%sql

SELECT * FROM orders;

 * postgresql://postgres:***@localhost/testdb
7 rows affected.


id,customer_id,product_id,delivery_address
62353,435,103,"Munich, Germany"
62354,435,4028,"Tunis, Tunisia"
64598,5692,103,"Dover, UK"
65271,5692,103,"Dover, UK"
64921,6127,3158,"Mumbai, India"
64989,6127,2561,"Mumbai, India"
64990,6127,89,"Mumbai, India"


Las bases de datos se utilizan habitualmente para el almacenamiento de datos persistentes y, por lo tanto, es habitual añadir o eliminar filas a medida que se crean nuevos datos (por ejemplo, cuando alguien realiza un pedido) o se destruyen (por ejemplo, cuando se discontinúa un producto). Esto se puede realizar de forma automática a través de la **conexión de base de datos** de una aplicación; utilizaremos conexiones de base de datos más adelante en este cuaderno. Sin embargo, mientras tanto, cargaremos una versión más grande del conjunto de datos anterior desde un archivo para su análisis.

In [None]:
!mkdir data
!curl https://raw.githubusercontent.com/rubuntu/uaa-417-sistemas-de-gestion-de-bases-de-datos-avanzados/refs/heads/main/data/customers.csv -o data/customers.csv
!curl https://raw.githubusercontent.com/rubuntu/uaa-417-sistemas-de-gestion-de-bases-de-datos-avanzados/refs/heads/main/data/products.csv -o data/products.csv
!curl https://raw.githubusercontent.com/rubuntu/uaa-417-sistemas-de-gestion-de-bases-de-datos-avanzados/refs/heads/main/data/orders.csv -o data/orders.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 13783  100 13783    0     0  35065      0 --:--:-- --:--:-- --:--:-- 35160
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  9757  100  9757    0     0  25380      0 --:--:-- --:--:-- --:--:-- 25408
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 39437  100 39437    0     0  72620      0 --:--:-- --:--:-- --:--:-- 72627


In [None]:
%%sql
-- Eliminar las tablas si ya existen (PostgreSQL permite este comando)
DROP TABLE IF EXISTS customers CASCADE;
DROP TABLE IF EXISTS products CASCADE;
DROP TABLE IF EXISTS orders CASCADE;

 * postgresql://postgres:***@localhost/testdb
Done.
Done.
Done.


[]

In [None]:
import pandas as pd
#import sqlite3
import psycopg2
from sqlalchemy import create_engine, text

customers = pd.read_csv('data/customers.csv')
products = pd.read_csv('data/products.csv')
orders = pd.read_csv('data/orders.csv')

#conn = sqlite3.connect("testdb.sqlite")
#customers.to_sql("customers", conn, index=False, if_exists="replace")
#products.to_sql("products", conn, index=False, if_exists="replace")
#orders.to_sql("orders", conn, index=False, if_exists="replace")

# Configurar la conexión a PostgreSQL
DATABASE_TYPE = 'postgresql'
DBAPI = 'psycopg2'
ENDPOINT = 'localhost'  # Usualmente localhost
USER = 'postgres'
PASSWORD = 'postgres'
PORT = 5432  # El puerto de PostgreSQL por defecto
DATABASE = 'testdb'

# Crear una cadena de conexión para SQLAlchemy
engine = create_engine(f"{DATABASE_TYPE}+{DBAPI}://{USER}:{PASSWORD}@{ENDPOINT}:{PORT}/{DATABASE}")

# Insertar los datos en las tablas PostgreSQL usando pandas
customers.to_sql("customers", engine, index=False, if_exists="replace")
products.to_sql("products", engine, index=False, if_exists="replace")
orders.to_sql("orders", engine, index=False, if_exists="replace")

1000

## Filtrado y ordenamiento de datos

El filtrado se realiza principalmente mediante el comando `WHERE`.

In [None]:
%%sql

SELECT id, delivery_country FROM orders
WHERE delivery_country = 'India'
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


id,delivery_country
0,India
60,India
60,India
60,India
64,India
66,India
66,India
68,India
103,India
103,India


In [None]:
%%sql

SELECT * FROM products
WHERE price > 20
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


id,price
0,21.78
2,24.17
3,29.71
4,20.12
5,27.55
7,26.75
8,21.49
9,26.35
10,31.74
11,22.28


También podemos combinar `WHERE` con `LIKE` para coincidencia de patrones y `IN` para pertenencia a una lista de valores.

In [None]:
%%sql

SELECT id, delivery_country FROM orders
WHERE delivery_country like 'S%'
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


id,delivery_country
2,Spain
11,Senegal
16,Sweden
16,Sweden
16,Sweden
21,Spain
21,Slovakia
30,Spain
38,South Korea
45,Sweden


In [None]:
%%sql

SELECT * FROM orders
WHERE customer_id IN (10, 200, 400);

 * postgresql://postgres:***@localhost/testdb
6 rows affected.


id,customer_id,product_id,delivery_country
211,200,858,Madagascar
211,200,434,Mexico
542,400,80,Sweden
542,400,405,Sweden
818,10,778,Canada
818,10,60,Canada


También podemos combinarlos con los operadores lógicos habituales: «AND», «OR» y «NOT».

In [None]:
%%sql

SELECT * FROM orders
WHERE customer_id IN (10, 200, 400)
AND delivery_country NOT IN ('Madagascar', 'Canada');

 * postgresql://postgres:***@localhost/testdb
3 rows affected.


id,customer_id,product_id,delivery_country
211,200,434,Mexico
542,400,80,Sweden
542,400,405,Sweden


In [None]:
%%sql

SELECT * FROM products
WHERE price < 10 OR price > 30
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


id,price
10,31.74
17,7.27
22,33.03
41,8.98
44,5.8
54,35.6
57,6.67
72,33.26
78,9.01
104,33.24


Para ordenar nuestros resultados, podemos usar la función `ORDER BY` (ORDENAR POR) en una o más columnas. También podemos elegir si queremos ordenar en orden ascendente (`ASC`) o descendente (`DESC`). SQL ordena en orden ascendente de forma predeterminada.

In [None]:
%%sql

SELECT * FROM orders
ORDER BY customer_id
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


id,customer_id,product_id,delivery_country
189,1,508,Poland
189,1,307,Canada
949,1,431,Canada
949,1,592,Canada
391,5,635,Czech Republic
146,5,864,USA
391,5,380,USA
146,5,263,USA
146,5,688,USA
146,5,293,USA


In [None]:
%%sql

SELECT * FROM orders
ORDER BY customer_id ASC, product_id DESC
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


id,customer_id,product_id,delivery_country
949,1,592,Canada
189,1,508,Poland
949,1,431,Canada
189,1,307,Canada
146,5,864,USA
146,5,688,USA
391,5,635,Czech Republic
977,5,523,USA
391,5,497,Slovenia
391,5,380,USA


## Agregación de datos

La mayoría de las funciones de agregación de datos estándar están disponibles en SQL (`COUNT`, `SUM`, `DISTINCT`, `MAX`, etc.), aunque lo que está disponible y cómo se llama varía según el dialecto.

In [None]:
%%sql

SELECT AVG(price), MAX(price) FROM products;

 * postgresql://postgres:***@localhost/testdb
1 rows affected.


avg,max
19.98996999999997,39.91


Como es habitual, a menudo nos interesa agrupar nuestros datos dentro de ciertos grupos. Como en Pandas, utilizaremos "GROUP BY" para lograrlo. Recuerde: si estamos realizando un "groupby", cualquier otro atributo que seleccionemos debe agregarse mediante alguna función de agregación.

In [None]:
%%sql

SELECT delivery_country, COUNT(DISTINCT(id)) FROM orders
GROUP BY delivery_country
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


delivery_country,count
Albania,9
Algeria,17
Angola,7
Armenia,2
Austria,9
Azerbaijan,4
Bahrain,5
Belarus,17
Benin,8
Bosnia,3


## Unir tablas

Dado que hemos dividido nuestros datos en varias tablas para reducir la redundancia, tendremos que unir tablas para calcular ciertos valores que podrían interesarnos. Por ejemplo, ¿cómo podríamos calcular los ingresos totales de todos los pedidos? Podríamos tomar una suma del precio asociado con cada artículo en cada pedido, pero para hacerlo, debemos unir la tabla `products` con la tabla `orders` `ON` el atributo compartido: `product_id` (de la tabla `orders`) e `id` (de la tabla `products`).

Dado que las uniones involucran campos de varias tablas, con frecuencia le pondremos un alias a una tabla `AS` con alguna abreviatura para ahorrarnos algo de escritura.

In [None]:
%%sql

SELECT SUM(p.price) FROM orders AS o
JOIN products AS p ON o.product_id = p.id;

 * postgresql://postgres:***@localhost/testdb
1 rows affected.


sum
39988.81000000004


A menudo, existen varias formas de realizar una unión. Normalmente, podemos confiar en nuestro software de gestión de bases de datos para determinar los detalles de la forma más eficiente de realizar la unión, aunque existen excepciones.

In [None]:
%%sql

SELECT SUM(p.price)
FROM orders o, products p
WHERE p.id = o.product_id;

 * postgresql://postgres:***@localhost/testdb
1 rows affected.


sum
39988.81000000004


In [None]:
%%sql

SELECT c.name, SUM(p.price) total
FROM orders o, products p, customers c
WHERE p.id = o.product_id AND c.id = o.customer_id
GROUP BY c.name
ORDER BY total
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


name,total
Navjot Nalini,7.9
Theresa Feher,9.82
Wijdan Al-Ansar,10.23
Isarn Boirot,10.9
Tehpoe Michieka,11.36
Alexander Carlsson,11.54
Lan Dan,11.88
Damian Schaeffer,12.33
Crear Amin,13.26
Vojtech Kask,13.36


Probemos algo más complejo. Averigüemos la cantidad total de dinero gastado en pedidos con envío internacional para cada país de facturación.

In [None]:
%%sql

SELECT shp.bill, SUM(shp.rev) spent
FROM (
    SELECT c.billing_country AS bill, o.delivery_country AS deliver, SUM(p.price) AS rev
    FROM orders o
    JOIN customers c ON o.customer_id = c.id
    JOIN products p ON o.product_id = p.id
    GROUP BY c.billing_country, o.delivery_country
    HAVING c.billing_country != o.delivery_country
) AS shp
GROUP BY shp.bill
ORDER BY spent DESC
LIMIT 10;

 * postgresql://postgres:***@localhost/testdb
10 rows affected.


bill,spent
Germany,751.01
China,684.0699999999999
India,678.2499999999998
USA,442.7600000000001
Russia,397.93
Japan,373.27
South Korea,354.81999999999994
Italy,343.0799999999999
France,287.71
Canada,237.47000000000003


El ejemplo anterior utiliza una subconsulta. Las subconsultas suelen utilizarse para construir tablas intermedias que podemos utilizar en el cálculo de una consulta más grande y se utilizan con frecuencia como parte de uniones o para realizar uniones.

## Conexión a una base de datos desde Python

Para cargar los datos de nuestro ejemplo en nuestra base de datos, creamos una **conexión de base de datos**. Luego leímos nuestros archivos de datos con Pandas y los enviamos a través de la conexión a la base de datos. Podríamos haber leído estos datos directamente en SQL, pero las conexiones de base de datos nos permiten pasar datos entre Python y SQL, lo que permite que las aplicaciones web o los modelos de aprendizaje automático que operan en Python accedan fácilmente a bases de datos persistentes.

En nuestro caso, usamos el módulo `psycopg2` porque estamos creando una conexión a PosgreSQL. Hay otros conectores para otros dialectos, como `sqlite3` para sqlite y `mysql` para MySQL. Otros paquetes, como `SQLAlchemy`, proporcionan conectores y mapeo de relación de objetos (ORM), que analizaremos más adelante.

Las conexiones de base de datos generalmente se parecerán al ejemplo:

```python
conn = sqlite3.connect("testdb.sqlite")
```

posiblemente usando una URL para conectarse a una base de datos alojada de forma remota (o local) y parámetros adicionales para la autenticación. Podemos combinar la conexión con los métodos de Pandas para [leer desde](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html) y [escribir en](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_sql.html) SQL.