## Laboratorio 10 - Índices

#### Bienvenida

Este laboratorio tiene por objetivo verificar las mejoras en el desempeño de los queries en SQL cuando se trabajan los índices adecuados.

Iniciaremos cargando la extensión de python que nos permitirá interactuar con bases de datos SQLite:

In [1]:
%load_ext sql

Ejercicio 1
===========

En este ejercicio trabajaremos con el dataset [consumer complaint database](https://catalog.data.gov/dataset/consumer-complaint-database) proveniente de from data.gov:

In [2]:
%sql sqlite:///complaint.db

'Connected: @complaint.db'

Adicionalmente utilizaremos una nueva extensión para poder estudiar los tiempos de respuesta de nuestros queries:

In [3]:
import time

Iniciemos verificando de qué datos disponemos en la base de datos.

Escriba a continuación los queries necesarios para estudiar de qué tablas y atributos dispone en la base de datos:

In [4]:
%sql SELECT * FROM sqlite_master;

 * sqlite:///complaint.db
Done.


type,name,tbl_name,rootpage,sql
table,complaints,complaints,2,"CREATE TABLE complaints(Date_received,Product,Subproduct,Issue,Subissue, Consumer_narrative,Company_public_response,Company,State,ZIP_code,Submitted_via, Date_sent_to_company,Company_response,Timely_response, Consumer_disputed,Complaint_ID)"
table,sqlite_stat1,sqlite_stat1,18222,"CREATE TABLE sqlite_stat1(tbl,idx,stat)"


### (a) Queries sin índices (5 puntos)

Escriba a continuación un query para encontrar el producto, estado y cantidad de complaints de los cinco pares (producto, estado) con la mayor cantidad de complaints.

Utilice sintaxis de una sola linea de forma que pueda utilizar `%time` para estudiar el tiempo de ejecución:

In [5]:
%time %sql SELECT Product,State,count(*) FROM complaints GROUP BY Product, State

 * sqlite:///complaint.db
Done.
Wall time: 172 ms


Product,State,count(*)
,,13451
,,1
,01/01/2016,1
,01/02/2016,7
,01/03/2016,9
,01/04/2016,17
,01/05/2016,16
,01/06/2016,19
,01/07/2016,26
,01/08/2016,17


### (b) Queries con un índice de un solo campo (10 puntos)

A continuación cree un indice de un solo campo que mejore el tiempo de respuesta de su query.

Recuerde que la sintaxis para creación de queries es:

> DROP INDEX IF EXISTS index_name;
> CREATE INDEX index_name ON table(attributes);

In [6]:
%sql DROP INDEX IF EXISTS test; CREATE INDEX test ON complaints(Product, State);

 * sqlite:///complaint.db
Done.
Done.


[]

Ejecute nuevamente su query inicial para verificar que el tiempo de respuesta mejoró:

In [7]:
%time %sql SELECT Product,State,count(*) FROM complaints GROUP BY Product, State

 * sqlite:///complaint.db
Done.
Wall time: 31.2 ms


Product,State,count(*)
,,13451
,,1
,01/01/2016,1
,01/02/2016,7
,01/03/2016,9
,01/04/2016,17
,01/05/2016,16
,01/06/2016,19
,01/07/2016,26
,01/08/2016,17


### (c) Covering indexes (10 puntos)

A continuación investigue y describa qué es un _covering index_ y defina un _convering index_ que cubra el query anterior:

Un index donde todas la columnas existen y en el caso de sql se optimisa para que no se tenga que acceder a las filas de la tabla

In [8]:
%%sql
DROP INDEX IF EXISTS cover;
CREATE INDEX cover
    ON complaints
     ( Product, State );

 * sqlite:///complaint.db
Done.
Done.


[]

Ejecute nuevamente su query inicial para verificar que el tiempo de respuesta mejoró:

In [9]:
%time %sql SELECT Product,State,count(*) FROM complaints GROUP BY Product, State

 * sqlite:///complaint.db
Done.
Wall time: 46.9 ms


Product,State,count(*)
,,13451
,,1
,01/01/2016,1
,01/02/2016,7
,01/03/2016,9
,01/04/2016,17
,01/05/2016,16
,01/06/2016,19
,01/07/2016,26
,01/08/2016,17


### (d) EXPLAIN (5 puntos)

Investigue y utilice la versión SQLite de EXPLAIN para mostrar que SQLite reconoció y está utilizando su _covering index_.

La sintaxis va algo así:

> EXPLAIN QUERY PLAN your_query_here;

In [None]:
%%sql

-- Inserte su query aqui


Ejercicio 2
=========

Ahora veamos cómo aplicar estos conceptos a una base de datos un poco más pesada.

Cargue a continuación la base de datos **ontime-2017-2018.db** utilizada durante su proyecto 1.

Recuerde que puede consultar los detalles de los atributos [aqui](https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236).

In [None]:
%sql sqlite:///ontime-2017-2018.db

Escriba a continuación el query necesario para mostrar los índices existentes en esta base de datos:

In [None]:
%sql -- Inserte su query aquí

### (a) Uso de índices en Flights (20 puntos)

Ahora considere el siguiente query:

```
SELECT f.dest
FROM ontime f
GROUP BY f.dest
```

Haga uso de EXPLAIN QUERY PLAN y de `%time` para mostrar, utilizando múltiples celdas, la diferencia en el tiempo de respuesta cuando existe un índice sobre `ontime.dest`.

_Nota_: Para responder a este ejercicio deberá eliminar el índice creado sobre este campo. Es probable que luego deba reiniciar la el kernel del Juyper notebook para lograr que el query plan ya no muestre al índice eliminado.

### (b) Uso de covering indexes (20 puntos)

El siguiente query reporta el promedio de retraso en el tiempo de llegada por cada aerolínea que vuela hacia el aeropuerto JFK:

```
SELECT a.description, AVG(f.ArrDelay) as ArrDelayAverage
FROM ontime f
    LEFT JOIN unique_carriers a ON f.reporting_airline = a.code
WHERE a.code IN (
    SELECT DISTINCT f2.reporting_airline
    FROM ontime f2
    WHERE f2.dest = 'JFK'
)
GROUP BY a.description
ORDER BY ArrDelayAverage DESC;
```

Defina un covering index que mejore el desempeño del query, y muestre la respectiva mejora:

### (c) Optimización de queries del proyecto (30 puntos)

Utilizando las herramientas aprendidas durante este laboratorio mejore el tiempo dejecución de uno de los queries propuestos para su proyecto 1, o justique por qué no es posible mejorar ese tiempo de respuesta agregando nuevos índices.