# Lenguaje de consultas SQL
### **Ingeniería de datos**
**Profesor: Domagoj Vrgoč**

### Introducción

Durante esta actividad vamos a aprender los conceptos básicos de SQL. Vamos a aprender a definir tablas, e insertar, eliminar y actualizar datos de esta tabla. También, realizaremos las consultas básicas en SQL.

### Requisitos

Para esta actividad, así como en las siguientes actividades de SQL vamos a utilizar *Google colab* (https://colab.research.google.com), que es un entorno virtual permitiendo armar un servidor de bases de datos, y conectarse con este servidor. Para la conexión ocuparemos la herramienta llamada Jupyter Notebooks. Esta herramienta permite conectarse con un servidor SQL de la misma manera cómo hacerlo a través de la consola en un servidor local. 

El motor de bases de datos que ocuparemos en este curso se llama PostgreSQL, y uno siempre puede instalarlo localmente en su computador. Idea de ocupar Google colab es saltarse este paso, y no tener problemas con instalar, habilitar, o correr un motor de bases de datos.

Por lo tanto, para una actividad de SQL, en este curso siempre ocuparemos Jupyter Notebooks con Google colab. Para esto, se les entregará un archivo con extensión .ipynb, cual hay que subir a la plataforma Google Colab. Al inicio del tutorial mostraremos cómo funciona este proceso.

### Outline

En esta actividad aprenderemos a:

- Habilitar un servidor de PostgreSQL en Google colab con un Jupyter notebook.
- Definir esquema de una tabla relacional.
- Insertar datos.
- Crear llaves en las tablas.
- Modificar al esquema.
- Eliminar/modificar a los datos.
- Consultar a los datos.

### Esquema

Para esta actividad vamos a trabajar con el siguiente esquema:

- `Productos(pid, nombre, precio, stock)`

- `Usuarios(uid, nombre, correo)`

- `Compras(cid, uid, valor)`

- `ProductosComprados(cid, pid, cantidad)`

Que corresponde a películas, actores, y la información de los roles interpretados por una actor en una película.

Las llaves en nuestro caso son:
1. `pid`, para `Productos`
2. `uid` para `Usuarios`
3. `cid` para `Compras`
4. `(cid,pid)` para `ProductosComprados`.

## Tutorial

Lo primero que hay que hacer es subir este notebook a https://colab.research.google.com

### Iniciar el servidor

Para iniciar el servidor virtual, *instalar* la base de datos postgres debe correr el siguiente bloque:

In [1]:
# install
!apt update
!apt install postgresql postgresql-contrib &>log
!service postgresql start
!sudo -u postgres psql -c "CREATE USER root WITH SUPERUSER"
# set connection
%load_ext sql
%config SqlMagic.feedback=False 
%config SqlMagic.autopandas=True
%sql postgresql+psycopg2://@/postgres

[33m0% [Working][0m            Get:1 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease [3,626 B]
[33m0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.36)] [[0m[33m0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.36)] [[0m[33m0% [1 InRelease gpgv 3,626 B] [Waiting for headers] [Connecting to security.ubu[0m                                                                               Get:2 http://ppa.launchpad.net/c2d4u.team/c2d4u4.0+/ubuntu bionic InRelease [15.9 kB]
[33m0% [1 InRelease gpgv 3,626 B] [Waiting for headers] [Connecting to security.ubu[0m                                                                               Hit:3 http://archive.ubuntu.com/ubuntu bionic InRelease
[33m0% [1 InRelease gpgv 3,626 B] [Waiting for headers] [Waiting for headers] [Wait[0m[33m0% [1 InRelease gpgv 3,626 B] [Waiting for headers] [Waiting for headers] [Wait[0m                                       

'Connected: @postgres'

### DDL y DML

Acuerdense que:


*   DDL: Lenguaje de definición de datos
 * Crear y modificar tablas, atributos y llaves
*   DML: Lenguaje de manipulación de datos
 * Consultar una o más tablas
 * Insertar, eliminar, modificar tuplas


Típicamente ocupados juntos.


### Definiendo un esquema

Para crear las tablas disponemos varios tipos de datos. Por ahora destacamos los siguientes:

- Caracteres (_Strings_):
  - `CHAR(20)`: _Strings_ de largo fijo.
  - `VARCHAR(20)`: _Strings_ de largo variable.
  
- Números:
  - `INT`
  - `FLOAT`
  - `SMALLINT`
  
- Tiempos y fechas:
  - `DATE`: fecha.
  - `TIME`: hora.
  - `TIMESTAMP`: fecha y hora.


Empezaremos definiendo nuestro esquema con la tabla `Productos`:

In [5]:
%%sql

CREATE TABLE Productos(
    pid int PRIMARY KEY,
    nombre varchar(20),
    precio float,
    stock int
);


 * postgresql+psycopg2://@/postgres
(psycopg2.errors.DuplicateTable) relation "productos" already exists

[SQL: CREATE TABLE Productos(
    pid int PRIMARY KEY,
    nombre varchar(20),
    precio float,
    stock INT
);]
(Background on this error at: https://sqlalche.me/e/14/f405)


**Ojo**: cada vez que anteponemos `%sql` es porque esa línea corresponde a un comando a SQL que va a la base de datos en la que estamos trabajando. Si queremos tener todo un bloque con instrucciones SQL tenemos que usar `%%sql` (habrán ejemplos de esto a lo largo del *notebook*).

En este momento, nuestro servidor cuenta con la tabla `Productos` definida arriba. Si intentamos crear la tabla de nuevo, recibiremos un error.

In [6]:
%%sql

CREATE TABLE Productos(
    pid int PRIMARY KEY,
    nombre varchar(20),
    precio float,
    stock int
);


 * postgresql+psycopg2://@/postgres
(psycopg2.errors.DuplicateTable) relation "productos" already exists

[SQL: CREATE TABLE Productos(
    pid int PRIMARY KEY,
    nombre varchar(20),
    precio float,
    stock INT
);]
(Background on this error at: https://sqlalche.me/e/14/f405)


Si queremos asegurarnos que no crearemos una tabla de nuevo, siempre podemos validar esto ocupando el siguiente comando:

In [7]:
%%sql

CREATE TABLE IF NOT EXISTS Productos(
    pid int PRIMARY KEY,
    nombre varchar(20),
    precio float,
    stock int
);


 * postgresql+psycopg2://@/postgres


Nos faltan las tablas:

- `Usuarios(uid, nombre, correo)`

- `Compras(cid, uid, valor)`

- `ProductosComprados(cid, pid, cantidad)`



In [9]:
%%sql

CREATE TABLE IF NOT EXISTS Usuarios(
    uid int PRIMARY KEY,
    nombre varchar(40),
    correo varchar(40)
);

CREATE TABLE IF NOT EXISTS Compras(
    cid int PRIMARY KEY,
    uid int,
    valor float
);

CREATE TABLE IF NOT EXISTS ProductosComprados(
    cid int,
    pid int,
    cantidad int,
    PRIMARY KEY (cid,pid)
);


 * postgresql+psycopg2://@/postgres


### Insertar datos en la tabla

Para revisar el contenido de una tabla, podemos correr la consulta `SELECT * FROM NombreTabla` (más de esto en la siguiente clase).

Si ejecutamos la consulta `SELECT * FROM Peliculas` notaremos que el resultado es vacío. Esto ocurre porque todavía no hemos insertado ningun dato a la tabla.

In [10]:
%sql SELECT * FROM Productos;

 * postgresql+psycopg2://@/postgres


Para insertar valores, la forma básica es la siguiente:

```SQL
INSERT INTO <Nombre Tabla> 
VALUES (<valor atributo 1> , ..., <valor atributo N>)
```


In [11]:
%sql INSERT INTO Productos VALUES(1, 'iPad 78895', 900000,21)

 * postgresql+psycopg2://@/postgres


Al revisar el contenido de la tabla de nuevo, ahora tenemos:

In [12]:
%sql SELECT * FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,pid,nombre,precio,stock
0,1,iPad 78895,900000.0,21


Siguiendo con este proceso:

In [13]:
%%sql 

INSERT INTO Productos VALUES(2, 'iPad 4', 700000,2);
INSERT INTO Productos VALUES(3, 'Dell XPS 13 Plus', 1700000,12);

SELECT * FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,pid,nombre,precio,stock
0,1,iPad 78895,900000.0,21
1,2,iPad 4,700000.0,2
2,3,Dell XPS 13 Plus,1700000.0,12


Para las otras tablas:

In [14]:
%%sql 

INSERT INTO Usuarios VALUES(1, 'Juan Reutter', 'jreutter@dcc.uc.cl');
INSERT INTO Usuarios VALUES(2, 'Adri+an Soto', 'asoto@uai.cl');
INSERT INTO Usuarios VALUES(3, 'criveros22@dcc.uc.cl', 'jreutter@dcc.uc.cl');

SELECT * FROM Usuarios;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,uid,nombre,correo
0,1,Juan Reutter,jreutter@dcc.uc.cl
1,2,Adri+an Soto,asoto@uai.cl
2,3,criveros22@dcc.uc.cl,jreutter@dcc.uc.cl


#Borando las tablas

Si boramos una tabla, ya no la podemos consultar:

In [15]:
%%sql

DROP TABLE Usuarios;

SELECT * FROM Usuarios;

 * postgresql+psycopg2://@/postgres
(psycopg2.errors.UndefinedTable) relation "usuarios" does not exist
LINE 1: SELECT * FROM Usuarios;
                      ^

[SQL: SELECT * FROM Usuarios;]
(Background on this error at: https://sqlalche.me/e/14/f405)


#Modificando en esquema de una tabla existente

Si ya no nos interesa mantener el stock en la tabla `Productos`, podemos eliminar a este atributo.

In [16]:
%sql SELECT * FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,pid,nombre,precio,stock
0,1,iPad 78895,900000.0,21
1,2,iPad 4,700000.0,2
2,3,Dell XPS 13 Plus,1700000.0,12


In [21]:
%%sql

ALTER TABLE Productos DROP COLUMN stock;

SELECT * FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,pid,nombre,precio
0,1,iPad 78895,900000.0
1,2,iPad 4,700000.0
2,3,Dell XPS 13 Plus,1700000.0


A la tabla productos le podemos de nuevo agregar el atributo `stock`, esta vez con un valor por defecto igual a 0:

In [22]:
%%sql

ALTER TABLE Productos ADD COLUMN stock int DEFAULT 21;

SELECT * FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,pid,nombre,precio,stock
0,1,iPad 78895,900000.0,21
1,2,iPad 4,700000.0,21
2,3,Dell XPS 13 Plus,1700000.0,21


### Consultando con SQL

La forma más básica de consultar con SQL es:

```
SELECT atributos
FROM tablas
WHERE condiciones
```

Todas las tuplas de una tabla:

In [23]:
%%sql

SELECT *
FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,pid,nombre,precio,stock
0,1,iPad 78895,900000.0,21
1,2,iPad 4,700000.0,21
2,3,Dell XPS 13 Plus,1700000.0,21


Nombre y precio de todos los productos

In [24]:
%%sql

SELECT nombre, precio
FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,nombre,precio
0,iPad 78895,900000.0
1,iPad 4,700000.0
2,Dell XPS 13 Plus,1700000.0


Precio del `iPad 4`:

In [25]:
%%sql

SELECT precio
FROM Productos
WHERE nombre = 'iPad 4';

 * postgresql+psycopg2://@/postgres


Unnamed: 0,precio
0,700000.0


Productos con precio ente 1M y 2M:

In [26]:
%%sql

SELECT nombre
FROM Productos
WHERE precio BETWEEN 1000000 AND 2000000;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,nombre
0,Dell XPS 13 Plus


Productos con iPad en su nombre:

In [28]:
%%sql

SELECT nombre
FROM Productos
WHERE nombre LIKE '%iPad%';

 * postgresql+psycopg2://@/postgres


Unnamed: 0,nombre
0,iPad 78895
1,iPad 4


Ojo, sin % o _ se hace matching exacto:

In [29]:
%%sql

SELECT nombre
FROM Productos
WHERE nombre LIKE 'iPad';

 * postgresql+psycopg2://@/postgres


#Actualizando a las tuplas

In [31]:
%%sql

UPDATE Productos
SET stock = 0
WHERE nombre LIKE '%iPad%';

SELECT *
FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,pid,nombre,precio,stock
0,3,Dell XPS 13 Plus,1700000.0,21
1,1,iPad 78895,900000.0,0
2,2,iPad 4,700000.0,0


# Borando las tuplas:

In [33]:
%%sql

DELETE FROM Productos
WHERE stock = 0;

SELECT *
FROM Productos;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,pid,nombre,precio,stock
0,3,Dell XPS 13 Plus,1700000.0,21


#Ordenando los resultados

In [34]:
%%sql 

INSERT INTO Productos VALUES(2, 'iPad 4', 700000,2);
INSERT INTO Productos VALUES(1, 'iPad 3', 900000,12);

SELECT nombre, precio
FROM Productos
ORDER BY precio;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,nombre,precio
0,iPad 4,700000.0
1,iPad 3,900000.0
2,Dell XPS 13 Plus,1700000.0


Orden descendente (por defecto es ASC o ascending):

In [35]:
%%sql 

SELECT nombre, precio
FROM Productos
ORDER BY precio DESC;

 * postgresql+psycopg2://@/postgres


Unnamed: 0,nombre,precio
0,Dell XPS 13 Plus,1700000.0
1,iPad 3,900000.0
2,iPad 4,700000.0
