## Laboratorio 10 - Índices

#### Bienvenida

Este laboratorio tiene por objetivo verificar las mejoras en el desempeño de los queries en SQL cuando se trabajan los índices adecuados.

Iniciaremos cargando la extensión de python que nos permitirá interactuar con bases de datos SQLite:

In [1]:
%load_ext sql

Ejercicio 1
===========

En este ejercicio trabajaremos con el dataset [consumer complaint database](https://catalog.data.gov/dataset/consumer-complaint-database) proveniente de from data.gov:

In [2]:
%sql sqlite:///complaint.db

'Connected: @complaint.db'

Adicionalmente utilizaremos una nueva extensión para poder estudiar los tiempos de respuesta de nuestros queries:

In [3]:
import time

Iniciemos verificando de qué datos disponemos en la base de datos.

Escriba a continuación los queries necesarios para estudiar de qué tablas y atributos dispone en la base de datos:

In [4]:
%sql SELECT * FROM sqlite_master;

 * sqlite:///complaint.db
Done.


type,name,tbl_name,rootpage,sql
table,complaints,complaints,2,"CREATE TABLE complaints(Date_received,Product,Subproduct,Issue,Subissue, Consumer_narrative,Company_public_response,Company,State,ZIP_code,Submitted_via, Date_sent_to_company,Company_response,Timely_response, Consumer_disputed,Complaint_ID)"
table,sqlite_stat1,sqlite_stat1,18222,"CREATE TABLE sqlite_stat1(tbl,idx,stat)"


### (a) Queries sin índices (5 puntos)

Escriba a continuación un query para encontrar el producto, estado y cantidad de complaints de los cinco pares (producto, estado) con la mayor cantidad de complaints.

Utilice sintaxis de una sola linea de forma que pueda utilizar `%time` para estudiar el tiempo de ejecución:

In [5]:
%time %sql  SELECT State,count(*) FROM complaints GROUP BY State HAVING count(*)>1;

 * sqlite:///complaint.db
Done.
Wall time: 201 ms


State,count(*)
,21501
,562
""""" No",2
""""" confirming my request to update my address. '' When I asked for said letter that I purportedly sent to change my address to said Kentucky address",2
2016,3
Order Vacating Final Judgment ( XXXX/XXXX/XXXX ),2
XX/XX/XXXX,2
XXXX,14
XXXX XXXX,11
XXXX/XXXX/XXXX,2


### (b) Queries con un índice de un solo campo (10 puntos)

A continuación cree un indice de un solo campo que mejore el tiempo de respuesta de su query.

Recuerde que la sintaxis para creación de queries es:

> DROP INDEX IF EXISTS index_name;
> CREATE INDEX index_name ON table(attributes);

In [6]:
%%sql

CREATE INDEX indiceComplaints ON complaints (Product)

 * sqlite:///complaint.db
Done.


[]

Ejecute nuevamente su query inicial para verificar que el tiempo de respuesta mejoró:

In [8]:
%time %sql SELECT Product,count(*) FROM complaints GROUP BY Product HAVING count(*) >1;

 * sqlite:///complaint.db
Done.
Wall time: 12 ms


Product,count(*)
,13451
,2667
"a TSYS Company""",4
2015,6
2016,7
"I am requesting disclosure of the """" original creditors documentation ''",2
I checked my FICO score and it was XXXX. Within one week ( today ),2
"INC.""",3
"Inc""",43
Inc.,2


### (c) Covering indexes (10 puntos)

A continuación investigue y describa qué es un _covering index_ y defina un _convering index_ que cubra el query anterior:


In [9]:
%%sql

CREATE INDEX covering_index ON complaints (Product,State);

 * sqlite:///complaint.db
Done.


[]

Ejecute nuevamente su query inicial para verificar que el tiempo de respuesta mejoró:

In [10]:
%time %sql  SELECT Product,count(*) FROM complaints GROUP BY Product HAVING count(*) >1;

 * sqlite:///complaint.db
Done.
Wall time: 15 ms


Product,count(*)
,13451
,2667
"a TSYS Company""",4
2015,6
2016,7
"I am requesting disclosure of the """" original creditors documentation ''",2
I checked my FICO score and it was XXXX. Within one week ( today ),2
"INC.""",3
"Inc""",43
Inc.,2


### (d) EXPLAIN (5 puntos)

Investigue y utilice la versión SQLite de EXPLAIN para mostrar que SQLite reconoció y está utilizando su _covering index_.

La sintaxis va algo así:

> EXPLAIN QUERY PLAN your_query_here;

In [11]:
%%sql
EXPLAIN QUERY PLAN 

SELECT Product,count(*) FROM complaints GROUP BY Product HAVING count(*) >1;


 * sqlite:///complaint.db
Done.


selectid,order,from,detail
0,0,0,SCAN TABLE complaints USING COVERING INDEX indiceComplaints


Ejercicio 2
=========

Ahora veamos cómo aplicar estos conceptos a una base de datos un poco más pesada.

Cargue a continuación la base de datos **ontime-2017-2018.db** utilizada durante su proyecto 1.

Recuerde que puede consultar los detalles de los atributos [aqui](https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236).

In [17]:
%sql sqlite:///ontime-2017-2018.db

'Connected: @ontime-2017-2018.db'

Escriba a continuación el query necesario para mostrar los índices existentes en esta base de datos:

In [18]:
%sql PRAGMA index_list(ontime);

   sqlite:///complaint.db
 * sqlite:///ontime-2017-2018.db
Done.


seq,name,unique,origin,partial
0,DestAirportId,0,c,0
1,OriginAirportId,0,c,0
2,Flight_Number_Reporting_Airline,0,c,0
3,IATA_CODE_Reporting_Airline,0,c,0
4,DOT_ID_Reporting_Airline,0,c,0
5,Reporting_Airline,0,c,0
6,dest,0,c,0
7,origin,0,c,0
8,date,0,c,0
9,year,0,c,0


### (a) Uso de índices en Flights (20 puntos)

Ahora considere el siguiente query:

```
SELECT f.dest
FROM ontime f
GROUP BY f.dest
```

Haga uso de EXPLAIN QUERY PLAN y de `%time` para mostrar, utilizando múltiples celdas, la diferencia en el tiempo de respuesta cuando existe un índice sobre `ontime.dest`.

_Nota_: Para responder a este ejercicio deberá eliminar el índice creado sobre este campo. Es probable que luego deba reiniciar la el kernel del Juyper notebook para lograr que el query plan ya no muestre al índice eliminado.

In [19]:
%time %sql SELECT dest FROM ontime GROUP BY dest

   sqlite:///complaint.db
 * sqlite:///ontime-2017-2018.db
Done.
Wall time: 1.37 s


Dest
ABE
ABI
ABQ
ABR
ABY
ACK
ACT
ACV
ACY
ADK


### (b) Uso de covering indexes (20 puntos)

El siguiente query reporta el promedio de retraso en el tiempo de llegada por cada aerolínea que vuela hacia el aeropuerto JFK:

```
SELECT a.description, AVG(f.ArrDelay) as ArrDelayAverage
FROM ontime f
    LEFT JOIN unique_carriers a ON f.reporting_airline = a.code
WHERE a.code IN (
    SELECT DISTINCT f2.reporting_airline
    FROM ontime f2
    WHERE f2.dest = 'JFK'
)
GROUP BY a.description
ORDER BY ArrDelayAverage DESC;
```

Defina un covering index que mejore el desempeño del query, y muestre la respectiva mejora:

In [30]:
%time %sql SELECT a.description, AVG(f.ArrDelay) as ArrDelayAverage FROM ontime f LEFT JOIN unique_carriers a ON f.reporting_airline = a.code WHERE a.code IN ( SELECT DISTINCT f2.reporting_airline FROM ontime f2 WHERE f2.dest = 'JFK' ) GROUP BY a.description ORDER BY ArrDelayAverage DESC;

   sqlite:///complaint.db
 * sqlite:///ontime-2017-2018.db
Done.
Wall time: 17.7 s


Description,ArrDelayAverage
JetBlue Airways,11.06766326674436
Virgin America,9.18475729894322
ExpressJet Airlines Inc.,8.374455319308508
PSA Airlines Inc.,8.305114410562421
SkyWest Airlines Inc.,7.048937941356593
Envoy Air,5.198894251215769
American Airlines Inc.,4.769178094730314
Endeavor Air Inc.,4.611915978102092
Republic Airline,3.164816096346716
Hawaiian Airlines Inc.,1.1979325408920043


In [39]:
%sql CREATE INDEX covering_index ON ontime (reporting_airline,DOT_ID_Reporting_Airline);

   sqlite:///complaint.db
 * sqlite:///ontime-2017-2018.db
(sqlite3.OperationalError) index covering_index already exists [SQL: 'CREATE INDEX covering_index ON ontime (reporting_airline,DOT_ID_Reporting_Airline);'] (Background on this error at: http://sqlalche.me/e/e3q8)


In [38]:
%time %sql SELECT a.description, AVG(f.ArrDelay) as ArrDelayAverage FROM ontime f LEFT JOIN unique_carriers a ON f.reporting_airline = a.code WHERE a.code IN ( SELECT DISTINCT f2.reporting_airline FROM ontime f2 WHERE f2.dest = 'JFK' ) GROUP BY a.description ORDER BY ArrDelayAverage DESC;

   sqlite:///complaint.db
 * sqlite:///ontime-2017-2018.db
Done.
Wall time: 17 s


Description,ArrDelayAverage
JetBlue Airways,11.06766326674436
Virgin America,9.18475729894322
ExpressJet Airlines Inc.,8.374455319308508
PSA Airlines Inc.,8.305114410562421
SkyWest Airlines Inc.,7.048937941356593
Envoy Air,5.198894251215769
American Airlines Inc.,4.769178094730314
Endeavor Air Inc.,4.611915978102092
Republic Airline,3.164816096346716
Hawaiian Airlines Inc.,1.1979325408920043


### (c) Optimización de queries del proyecto (30 puntos)

Utilizando las herramientas aprendidas durante este laboratorio mejore el tiempo dejecución de uno de los queries propuestos para su proyecto 1, o justique por qué no es posible mejorar ese tiempo de respuesta agregando nuevos índices.

In [25]:
%time %sql SELECT airline_id.Code, airline_id.Description, count(ontime.Flights)/1000 AS Vuelos FROM ontime INNER JOIN airline_id ON ontime.DOT_ID_Reporting_Airline = airline_id.Code GROUP BY airline_id.Code ORDER BY Vuelos DESC;

   sqlite:///complaint.db
 * sqlite:///ontime-2017-2018.db
Done.
Wall time: 27.6 s


Code,Description,Vuelos
19393,Southwest Airlines Co.: WN,2588
19790,Delta Air Lines Inc.: DL,1811
19805,American Airlines Inc.: AA,1748
20304,SkyWest Airlines Inc.: OO,1427
19977,United Air Lines Inc.: UA,1163
20409,JetBlue Airways: B6,581
20366,ExpressJet Airlines Inc.: EV,533
19930,Alaska Airlines Inc.: AS,412
20416,Spirit Air Lines: NK,319
20452,Republic Airline: YX,290


Agregando un indice:

In [27]:
%sql CREATE INDEX indiceSupremo ON ontime (DOT_ID_Reporting_Airline)

   sqlite:///complaint.db
 * sqlite:///ontime-2017-2018.db
Done.


[]

In [28]:
%time %sql SELECT airline_id.Code, airline_id.Description, count(ontime.Flights)/1000 AS Vuelos FROM ontime INNER JOIN airline_id ON ontime.DOT_ID_Reporting_Airline = airline_id.Code GROUP BY airline_id.Code ORDER BY Vuelos DESC;

   sqlite:///complaint.db
 * sqlite:///ontime-2017-2018.db
Done.
Wall time: 7.14 s


Code,Description,Vuelos
19393,Southwest Airlines Co.: WN,2588
19790,Delta Air Lines Inc.: DL,1811
19805,American Airlines Inc.: AA,1748
20304,SkyWest Airlines Inc.: OO,1427
19977,United Air Lines Inc.: UA,1163
20409,JetBlue Airways: B6,581
20366,ExpressJet Airlines Inc.: EV,533
19930,Alaska Airlines Inc.: AS,412
20416,Spirit Air Lines: NK,319
20452,Republic Airline: YX,290
