# Introducción a SQL: 2

***
<div class="panel panel-danger">
    <div class='panel-heading'>
    <h4>Antes de empezar</h4>
    </div>
    <div class='panel-body'>
    <p>Para poder ejecutar queries a la base de datos, necesitamos tener instalado antes el paquete [ipython-sql](https://github.com/catherinedevlin/ipython-sql).
    
    <p>Este paquete nos permite escribir las queries sql en las celdas del notebook y visualizar el resultado como tablas html renderizadas
    <p>Ejecuta `!pip install ipython-sql` si es la primera vez que usas este notebook
    </div>
</div>

In [None]:
!pip install ipython-sql

Una vez instalado, podemos invocar el entorno `SQL` usando `%load_ext sql`.
Esto nos permitira usar el magic de ipython `%%sql` al principo de **cada** celda y ejecutar comandos sql directamente

<div class="panel panel-success">
    <div class='panel-heading'>
    <h4>Empecemos</h4>
    </div>
</div>


Los objetivos de este notebook son:



# 1. Creando una base de datos

En la sesión anterior vimos como hacer consultas básicas a una base de datos. En esta sesión veremos como podemos crear y modificar nuestra propia base de datos relacional de forma sencilla.

Las tareas que necesitaremos saber se pueden resumir en:

1. Crear tablas
2. Modificar tablas
3. Eliminar tablas

Para empezar, cargaremos el modulo `sql` que nos permitirá hacer las consultas SQL directamente desde el notebook.

Crear una base de datos `sqlite` es muy sencillo. Para ello, simplemente hay que escribir el comando sql pertinente que es:

`%sql sqlite:///nombredelaBDD.sqlite`

y nos creará el archivo donde podremos crear y modificar tablas.

#### Carga el modulo sql y crea una nueva base de datos sqlite

```python
%load_ext sql
%sql sqlite:///newdb.sqlite

#check table works and is empty
%sql SELECT name FROM sqlite_master WHERE type='table'
```

In [None]:
#copia y pega el snippet anterior
%load_ext sql
%sql sqlite:///newdb.sqlite

#check table works and is empty
%sql SELECT name FROM sqlite_master WHERE type='table'

## Creando tablas

### CREATE TABLE
Para crear una tabla, escribimos:
```SQL
CREATE TABLE table_name ([schema])
```

### INSERT INTO
Para insertar valores en una tabla existente

```SQL
INSERT INTO table_name ([column]) VALUES ([values]);
```

### DROP TABLE
Para eliminar una tabla existente

```SQL
DROP TABLE IF EXISTS table_name
```

**Ojo!:**
 - Cuando trabajamos con cadenas de caracteres 'hola' debemos usar comillas simples.  (SQLite and MySQL no importa, Postgres (aws-redshift) sí!
 - Si no especificamos la PK cuando insertamos una fila, se asignará una PK automáticamente. Si intentamos crear una nueva fila con un PK que ya existe en la tabla, nos devolverá un error.
 - Es una buena práctica preceder la creación de una tabla con la eliminación de la misma, just in case! 


## Schemas
SQL es tipado. Eso implica que cada columna de la tabla debe tener un tipo de datos específico. Al crear la tabla, deberemos especificar el **tipo** y otros atributos. Los tipos y atributos básicos son:

- `INTEGER` (or `INT`): integer-valued numeric data
- `FLOAT`: non-integer numeric data
- `TEXT`: strings or textual data
- `DATE`: a date object

Columns can have optional attributes:

- `PRIMARY KEY`: Especifica la clave primaria.
- `NOT NULL`: Por defecto, los valores de una columna pueden ser nulos. `NOT NULL` obliga a la tabla a que todos los valores de la columna sean especificados.
- `DEFAULT`: specify the default value in this column.

### Ejemplo

Elimina la tabla alumnos si existe y la crea con tres campos: id_alumno, nombre, y edad. El nombre no puede ser nulo mientras que la edad es opcional.

```SQL
DROP TABLE IF EXISTS alumnos;
CREATE TABLE alumnos (
    id_alumno INTEGER PRIMARY KEY,
    nombre TEXT NOT NULL,
    edad INT
);

INSERT INTO alumnos (nombre) VALUES ('Otelo');
INSERT INTO alumnos (nombre, edad) VALUES ('Desdémona', 20);

SELECT * FROM alumnos;
```
Si quisieramos que la edad tuviera un valor por defecto, deberíamos añadir el atributo `DEFAULT` seguido del valor por defecto. 

#### Ejercicio 1: Crea la tabla anterior y haz que la edad tenga por defecto un valor de -1

In [None]:
%%sql

## Modificar tablas

Existen queries que nos permiten modificar tablas.

```SQL
DELETE FROM table_name [WHERE condition]
```

Elimina las filas de la tabla especificada segun la condición.

```SQL
UPDATE table_name SET column_name1=value [WHERE condition]
```

Actualiza los valores de la columna especificada. Podemos especificar condiciones, por ejemplo, a que identificador lo queremos cambiar o imputar valores nulos de forma persistente.

Si queremos modificar columnas, los comandos son:

```SQL
ALTER TABLE table_name DROP COLUMN column_name (no soportado en sqlite)
```

```SQL
ALTER TABLE table_name ADD COLUMN column_name column_type;
```


#### Ejercicio 2: En la tabla alumnos que has creado en el Ejercicio 1, actualiza la edad de Otelo a 23

In [None]:
%%sql

#### Ejercicio 3: En la tabla alumnos, añade la columna `genero` con el valor que corresponde a cada uno de los dos personajes

In [None]:
%%sql


#### Ejercicio 4: En la tabla alumnos, elimina la entrada de Desdemona y añade una nueva

In [None]:
%%sql


#### Ejercicio 5: Haz una query a toda la tabla y guardala en un csv usando pandas

In [None]:
import sqlite3

## Creando tablas SQL: Un atajo con pandas

A estas alturas ya deberíamos estar convenvidos de que pandas es una herramienta increible en muchos aspectos. Uno de ellos es que nos permite crear tablas en bases de datos de forma automática. Si tenemos un pandas.DataFrame() y una conexión a una base de datos, pandas nos creara de forma automática las queries necesarias para crear el esquema y la tabla e insertar todas las filas.

```python
import pandas as pd
import sqlite3

conn = sqlite3.connect('newdb.sqlite')

df = pd.read_csv('somedata.csv')
df.to_sql('table_name', conn, if_exists= "replace", index=False)
```



#### Ejercicio 6: Crea una base de datos nueva `bdd_notas.sqlite`, lee los ficheros csv de la carpeta `data` y crea las tablas estudiantes, asignaturas y notas.

# 2. SQL
---

## Query básica

En resumen, la query básica para leer datos de **Una** tabla de nuestra base de datos sería:

```SQL
SELECT expression1, expression2, ...
FROM table_name
[WHERE condition]
[GROUP BY columns]
[HAVING condition]
[ORDER BY columns]
[LIMIT number];
```

---

## Joins

Esta opción nos permite combinar información de distintas tablas y hacer consultas sobre este nuevo conjunto.

### Inner JOIN

Nos devuelve la intersección de las tablas seleccionadas, es decir, aquellas filas donde las distintas columnas tienen valores no nulos.

```SQL
SELECT a.col1,
       a.col2,
       b.col1,
       b.col2
FROM table_a as a
INNER JOIN table_be as b
ON a.key = b.key
```

### LEFT JOIN

El comando LEFT JOIN devuelve todos lor registros de la tabla de la izquierda (LEFT) y los registros correspondientes de la otra tabla, en caso en que no existan devuelve NULL.

```SQL
SELECT a.col1,
       a.col2,
       b.col1,
       b.col2
FROM table_a as a
LEFT JOIN table_be as b
ON a.key = b.key
```



In [None]:
import pandas as pd
import sqlite3

conn = sqlite3.connect('bdd_notas.sqlite')

query = """
SELECT name FROM sqlite_master WHERE type='table'
"""

df = pd.read_sql(query, conn)
df

#### Ejercicio 0: Saca la primera fila con todas las columnas de cada una de las tablas 

#### Ejercicio 1: Haz un LEFT JOIN de todas las tablas

In [None]:
query = """ Aqui la query """

pd.read_sql(query, conn)

#### Ejercicio 2: Qué asignatura que tiene peor nota media de todas?

In [None]:
query = """ Aqui la query """

pd.read_sql(query, conn)

#### Ejercicio 3: Que estudiantes tienen una nota media menor que 5. Agrupalo por años.

In [None]:
query = """ Aqui la query """

pd.read_sql(query, conn)

#### Ejercicio 4: Que asignaturas son las peores de cada año? Haz una query para cada año.

In [None]:
# 2015
query = """ Aquí la query"""

pd.read_sql(query, conn)

In [None]:
# 2016

query = """ Aquí la query"""

pd.read_sql(query, conn)

In [None]:
# 2017

query = """ Aquí la query"""

pd.read_sql(query, conn)

### UNION and UNION ALL

Estos comando se usan para unir tablas o resultados de consultas que tienen las mismas columnas.
La diferencia entre `UNION` y `UNION ALL` es que la primera elimina los registros duplicados mientras que la última no.

Cómo puedes imaginar, estos comandos se pueden usar para filtrar y agregar.

La sintaxis básica es:

```SQL
(SELECT statement)
 UNION [ALL]
(SELECT STATEMENT)```


Recuerda que las SELECT deben tener el mismo número de columnas.

#### Ejercicio 4.b: Realiza la misma consulta que en el Ejercicio 4 pero en una sola query usando UNION ALL

In [None]:
query = """ Aquí la query """

pd.read_sql(query, conn)

Imagina que tenemos 15 años distintos. Sería una tarea un tanto repetitiva la de picar a mano una query que nos devolviera lo mismo la peor asignatura de cada año.

Una de las ventajas de integrar el flujo de SQL en python (pandas) es que podemos hacer este tipo de tareas de forma programática.

Vamos a intentar automatizar el proceso. De esta forma, si hay alguna nueva entrada en la tabla o base de datos, al volver a ejecutar este trozo tendremos el resultado actualizado

In [None]:
# Haz una query que te devuelva todos los años distintos de la tabla notas

query_years = """ """
years_unique = pd.read_sql(query_years, conn)

#1. Inicializa una lista vacia

#2. Haz un barrido para todas los años en la columna year de years_unique.
#     2.a Escribe una query donde le pases como variable el año. (Tip: "Hola {j}".foógicarmat(j='juan'))
#     2.b Realiza una consulta a la BDD con la query y guarda el resultado en un df
#     2.c Guarda el resultado en el último puesto de la lista (Tip: append())

#3. Haz una concatenación de los df en la lista (TIP: pd.concat())

#4. Haz un print del resultado

## Subqueries

En el ejemplo anterior, podríamos haber decidido que en vez de filtrar año a año y unir las tablas lo que nos resulta más eficiente es primero realizar una agregación por año y asignatura para después realizar un filtrado del resultado y quedarnos con el menor.

SQL permite realizar este tipo de acciones mediante el anidado de queries. Es decir, sustituir alguno de los campos en la query por otra query que nos haga un primer filtrado.

Por ejemplo,

```SQL

SELECT nota
FROM notas
WHERE asign_id = (SELECT asign_id
                  FROM asignaturas
                  WHERE asignatura='Mates')
```

Nos devolvería las notas de la asignatura de matemáticas.

#### Ejercicio 5: Encuentra la peor asignatura de cada año:
1. 5a: Realiza una query que devuelva la media de cada asignatura por año y comprueba que funciona
1. 5b: Usa la consulta del punto anterior como tabla en el FROM y devuelve la menor de las notas de cada año

#### Ejercicio 6: Que estudiantes no se han presentado a ningún examen?

#### Ejercicio 7: Quienes son los mejores estudiantes de cada asignatura de cada año?