# Guía SQL Avanzado


## 1. Introducción

---

Durante esta clase vamos a aprender los conceptos avanzados de SQL. Vamos a aprender a anidar consultas, hacer agregación y algunos comandos especiales.

### 1.1 Requisitos

Para esta actividad, así como en las siguientes actividades de SQL vamos a utilizar

- Python 3
- Jupyter
- La librería `ipython-sql`. Para instalarla pueden hacerlo con `pip3`:
```
pip3 install ipython-sql
```
- SQLite3, que viene junto con la instalación de Python

**Importante**: si vas a correr este notebook de forma local, te recomendamos usar una versión de `sqlalchemy`inferior a la 1.4.0, por lo que tendrás que ejecutar la siguiente celda (descomenta las líneas antes de ejecutar):

In [None]:
#pip3 uninstall sqlalchemy
#pip3 install --upgrade "sqlalchemy<1.4.0"

**TE RECOMENDAMOS QUE USES GOOGLE COLAB PARA TRABAJAR SOBRE ESTE NOTEBOOK!**

**Importante**: Si vas a correr este notebook en **google colab**, ejecuta la siguiente celda (descomenta las líneas antes de ejecutar y escribe `y` cuando la consola te lo pida):

In [None]:
#!pip3 uninstall sqlalchemy
#!pip3 install --upgrade "sqlalchemy<1.4.0"

### 1.2 Outline

En esta actividad aprenderemos:


- Agregación y agrupación
- Consultas anidadas
- Nulos
- Insersión y eliminación más compleja


### 1.3 Esquema

Para esta actividad vamos a trabajar con el siguiente esquema que, como recordarás, corresponde al de la actividad pasada:

- `Capitanes(cid INT PRIMARY KEY, cnombre VARCHAR(100), crating FLOAT, cedad INT)`
- `Botes(bid INT PRIMARY KEY, bnombre VARCHAR(100), bcolor VARCHAR(100))`
- `Reservas(cid INT, bid INT, fecha DATE, PRIMARY KEY(cid, bid))`

Que corresponde a capitanes que reservan ciertos botes. El `cid` y `bid` en la tabla `Reservas` proviene de las tablas `Capitanes` y `Botes` respectivamente.

### 1.4 Base de datos

Corre las siguiente celdas para tener acceso a SQL, crear la base de datos y poblarla.

In [None]:
%load_ext sql

In [None]:
%sql sqlite:///capitanes.db

In [None]:
%%sql
DROP TABLE IF EXISTS Capitanes;
CREATE TABLE Capitanes(cid INT PRIMARY KEY, cnombre VARCHAR(100), crating FLOAT, cedad INT);
INSERT INTO Capitanes VALUES(23, 'King Arturo', 8, 31);
INSERT INTO Capitanes VALUES(29, 'Juan', 1, 33);
INSERT INTO Capitanes VALUES(31, 'Andy', 8, 55);
INSERT INTO Capitanes VALUES(32, 'Felipe', 8.4, 25);
INSERT INTO Capitanes VALUES(58, 'Oscar', 10, 35);
INSERT INTO Capitanes VALUES(64, 'Isidora', 7.5, 35);
INSERT INTO Capitanes VALUES(71, 'Pedro', 10, 16);
INSERT INTO Capitanes VALUES(74, 'Isidora', 9, 35);
INSERT INTO Capitanes VALUES(85, 'Rosa', 3, 25);
INSERT INTO Capitanes VALUES(95, 'Romano', 5.5, 63);


DROP TABLE IF EXISTS Reservas;
CREATE TABLE Reservas(cid INT, bid INT, fecha DATE, PRIMARY KEY(cid, bid));
INSERT INTO Reservas VALUES(23, 101, '2016-10-10');
INSERT INTO Reservas VALUES(23, 102, '2016-10-10');
INSERT INTO Reservas VALUES(23, 103, '2016-10-08');
INSERT INTO Reservas VALUES(23, 104, '2017-10-07');
INSERT INTO Reservas VALUES(31, 102, '2017-11-10');
INSERT INTO Reservas VALUES(31, 103, '2018-11-06');
INSERT INTO Reservas VALUES(31, 104, '2018-11-12');
INSERT INTO Reservas VALUES(64, 101, '2018-09-05');
INSERT INTO Reservas VALUES(64, 102, '2018-09-08');
INSERT INTO Reservas VALUES(74, 103, '2018-09-08');

DROP TABLE IF EXISTS Botes;
CREATE TABLE Botes(bid INT PRIMARY KEY, bnombre VARCHAR(100), bcolor VARCHAR(100));
INSERT INTO Botes VALUES(101, 'Catamaran', 'Azul');
INSERT INTO Botes VALUES(102, 'Catamaran', 'Rojo');
INSERT INTO Botes VALUES(103, 'Endurance', 'Verde');
INSERT INTO Botes VALUES(104, 'Yate', 'Rojo');

Luego de esto, tus tablas deberían verse de la siguiente forma:


#### Capitanes

| cid | cnombre     | crating | cedad |
|-----|-------------|---------|-------|
| 23  | King Arturo | 8       | 31    |
| 29  | Juan        | 1       | 33    |
| 31  | Andy        | 8       | 55    |
| 32  | Felipe      | 8.4     | 25    |
| 58  | Oscar       | 10      | 35    |
| 64  | Isidora     | 7.5     | 35    |
| 71  | Pedro       | 10      | 16    |
| 74  | Isidora     | 9       | 35    |
| 85  | Rosa        | 3       | 25    |
| 95  | Romano      | 5.5     | 63    |


#### Botes

| bid | bnombre   | bcolor |
|-----|-----------|--------|
| 101 | Catamaran | Azul   |
| 102 | Catamaran | Rojo   |
| 103 | Endurance | Verde  |
| 104 | Yate      | Rojo   |



#### Reservas

| cid | bid | fecha    |
|-----|-----|----------|
| 23  | 101 | 10/10/16 |
| 23  | 102 | 10/10/16 |
| 23  | 103 | 8/10/16  |
| 23  | 104 | 7/10/17  |
| 31  | 102 | 10/11/17 |
| 31  | 103 | 6/11/18  |
| 31  | 104 | 12/11/18 |
| 64  | 101 | 5/9/18   |
| 64  | 102 | 8/9/18   |
| 74  | 103 | 8/9/18   |

## 2. Actividad

---



### 2.1 Agregación

En general SQL soporta varias funciones de agregación: `MAX`, `MIN` (mínimo), `AVG` (promedio), `SUM` (suma). Intenta hacer las siguientes consultas:

**1.** Encuentra el rating promedio de los capitanes mayores a 45 años.

In [None]:
%sql

También podemos usar `COUNT` para contar tuplas. Hay dos versiones (pruébalas!):

- `SELECT COUNT(*) FROM Tabla` cuenta cuantas tuplas tiene la tabla.
- `SELECT COUNT(DISTINCT cnombre) FROM Capitanes` cuenta cuantos nombres distintos hay en Capitanes.

En general `SELECT COUNT(*) FROM Tabla` y S`ELECT COUNT(atributo) FROM Tabla` es lo mismo, pero hay casos en los que es distinto: cuando las tablas tienen valores nulos o indefinidos. Hablaremos sobre esto más abajo.

Ahora realiza las siguientes consultas.

**2.** Encuentra cuantos capitanes menores de 40 años hay.

In [None]:
%sql

**3.** Cuenta la cantidad de reservas hechas a botes de color rojo.

In [None]:
%sql

Finalmente podemos usar `GROUP BY` para ir agrupando los resultados. Prueba con la consulta:

In [None]:
%%sql
SELECT cnombre, SUM(cedad)
FROM Capitanes
GROUP BY cnombre

¿Qué pasó con Isidora? Lo que hacemos es agrupar a las dos tuplas con nombre Isidora en una, y sumamos la edad. Prueba ahora:

In [None]:
%%sql
SELECT bcolor, count(bcolor)
FROM Botes
GROUP BY bcolor

Ahora realiza las siguientes consultas:

**4.** Encuentra para los capitanes el promedio del rating por cada edad distinta.

In [None]:
%sql

**5.** Encuentra el número de reservas por cada color de bote.

In [None]:
%sql

**6.** Encuentra el número de reservas por capitán y por color de bote.

In [None]:
%sql

### 2.2 Consultas Anidadas

Has observado que cada consulta entrega una tabla, los atributos de esa tabla son lo que pones en el SELECT. Esto significa que podemos poner cualquier consulta SQL en el FROM. Vamos a ver cómo realizar esto.

**7.** Escribe una consulta que entregue los nombres de los capitanes junto a los bid de los botes que han reservado, pero contando solo las reservas hechas después del primero de octubre del 2017.

In [None]:
%sql

Sea $Q$ la consulta anterior. ¿Qué va a retornar la siguiente consulta? (Ojo, tienes que reemplazar el valor de $Q$ en la celda siguiente)

In [None]:
%%sql
SELECT Botes.bid, bnombre, bcolor
FROM Botes, (Q) AS Res2017
WHERE Botes.bid = Res2017.bid

**Importante**: cada vez que quieras anidar una consulta en el `FROM`, debes darle un alias. En el caso anterior el alias es Res2017.

Ahora:

**8.** Encuentra los nombres de los capitanes que tienen más de 20 años y que no han reservado un bote rojo. ¿Puedes escribir esto sin usar consultas anidadas?

In [None]:
%sql

**9.** Encuentra el nombre del capitán con el mejor rating. Utiliza consultas anidadas.

In [None]:
%sql

**10.** Encuentra los capitanes cuya edad es menor que el promedio.

In [None]:
%sql

**11.** Encuentra los botes que no han sido reservados por el capitán con peor rating.

In [None]:
%sql

**12.** Encuentre los nombres de los capitanes que han reservado todos los botes. ¿Puedes escribir esto sin usar consultas anidadas?

In [None]:
%sql

### 2.3 Nulos

Hasta el momento hemos asumido que cada valor de las tuplas es conocida, pero ahora veremos que pueden no serlo. En SQL tenemos el valor especial `null` para estos casos. Por ejemplo, cuando un capitán se une al club de yates, puede no tener un rating asignado aún. En este caso, podríamos agregar a la tabla `Capitanes`la tupla `(98, 'Constanza', null, 20)`.

In [None]:
%%sql
INSERT INTO Capitanes VALUES(98, 'Constanza', null, 20);
SELECT * FROM Capitanes;

Comparar `crating` con diferentes valores nos dará como resultado `unknown`. Prueba ejecutando la siguiente consulta, luego cambia el `=` por un `<`, luego por `>` y finalmente por `<>` para ver qué pasa. 

In [None]:
%%sql
SELECT * 
FROM Capitanes 
WHERE crating = 8;

En SQL tenemos el operador `IS NULL` para saber si el valor de una columna es *null*. Ejecuta la siguiente consulta. Luego cambia `IS NULL` por `IS NOT NULL`.

In [None]:
%%sql
SELECT * 
FROM Capitanes 
WHERE crating IS NULL;

También existen unas variantes de *join*, llamados **_outer joins_** que dependen de valores nulos. Para ejemplificar, agreguemos las siguientes tuplas a la tabla `Reservas`.

In [None]:
%%sql
INSERT INTO Reservas VALUES(98, 101, '2018-09-10');
INSERT INTO Reservas VALUES(98, 102, null);

Primero veamos el resultado de hacer *join* como lo estábamos haciendo hasta el momento:

In [None]:
%%sql
SELECT * 
FROM Capitanes C, Reservas R
WHERE C.cid = R.cid;

Al realizar un *left outer join* de `Capitanes` con `Reservas` las filas con capitanes que no hayan hecho reservas aparecen en el resultado. Para hacer un *left outer join* puedes hacer lo siguiente:

```sql
SELECT * 
FROM Capitanes LEFT OUTER JOIN Reservas ON Capitanes.cid = Reservas.cid;
```
Que también es equivalente a:

```sql
SELECT * 
FROM Capitanes NATURAL LEFT OUTER JOIN Reservas;
```
Bueno, casi equivalente. Puedes probar para ver la diferencia.

`NATURAL JOIN` infiere como hacer el join verificando que columnas tienen el mismo nombre en ambas tablas. Son útiles cuando estamos haciendo consultas a modo explorativo sin mucha importancia puesto que nos ahorramos algunos carácteres, pero son una mala práctica de desarrollo de software porque no son legibles y son mucho mas susceptibles a romperse de forma inesperada por cambios en el esquema.

Si ejecutas la siguiente consulta, verás que capitanes como Juan, Andy, Felipe, Oscar, Pedro, Rosa y Romano, que no habían hecho reservas, están en el resultado y que además tiene la información de la reserva como nulos.

In [None]:
%%sql
SELECT * 
FROM Capitanes LEFT OUTER JOIN Reservas ON Capitanes.cid = Reservas.cid;

SQLite no soporta *right outer join* ni *full outer join*, pero las consultas se verían de la siguiente forma:

**Right Outer Join:**

```sql
SELECT * 
FROM Capitanes NATURAL RIGHT OUTER JOIN Reservas;
```
Equivalente a

```sql
SELECT * 
FROM Capitanes RIGHT OUTER JOIN Reservas ON Capitanes.cid = Reservas.cid;
```

**Full Outer Join:**

```sql
SELECT * 
FROM Capitanes NATURAL FULL OUTER JOIN Reservas;
```
Equivalente a

```sql
SELECT * 
FROM Capitanes FULL OUTER JOIN Reservas ON Capitanes.cid = Reservas.cid;
```

Agreguemos la siguiente tupla a la tabla de `Botes` para realizar las siguientes consultas:

In [None]:
%sql INSERT INTO Botes VALUES (105, 'El Catán', 'Blanco')

**13.** Para cada color de bote, obtén el promedio de la edad de los capitanes que reservaron un bote de ese color. No dejes ningún color fuera del resultado.

In [None]:
%sql

**14.** Para cada nombre de bote, obtén el rating máximo de los capitanes que lo han reservado. No dejes ningún nombre fuera del resultado.

In [None]:
%sql

Si no quisiéramos permitir el uso de nulos en una cierta columna, podemos especificar `NOT NULL` al definir la tabla. Por ejemplo, si no queremos nulos en el nombre de los capitanes, podemo hacer:

```sql
CREATE TABLE Capitanes(cid INT PRIMARY KEY, cnombre VARCHAR(100) NOT NULL, crating FLOAT, cedad INT);
```

### 2.4 Inserción y eliminación más compleja

Lo último que veremos es una forma de insertar y eliminar tuplas de forma más compleja. Por ejemplo podemos insertar valores de una consulta.

**15.** Crea una tabla `CapitanesTop(cid INT, cnombre VARCHAR(100))`

In [None]:
%sql

Ahora ejecuta la siguiente inserción. Nota que para insertar desde una consulta no debemos escribir la instrucción `VALUES`.

In [None]:
%%sql
INSERT INTO CapitanesTop
SELECT cid,cnombre
FROM Capitanes
WHERE crating > 8

Finalmente, si quieres dejar capitanes que tienen un rating igual o superior a 9 puedes escribir la siguiente consulta:

In [None]:
%%sql
DELETE FROM CapitanesTop
WHERE cid IN
  (SELECT cid
  FROM Capitanes
  WHERE crating < 9)