# Práctica de SQL

En esta actividad vamos a aprender cómo ejecutar sentencias SQL desde el IPython notebook y practicar algunas queries sobre la Base de Datos “Northwind” (https://northwinddatabase.codeplex.com/) ya utilizada en una clase anterior.

Se puede acceder a la misma a través de la siguiente Base de Datos:

    psql -h dsdh2017.czhhonxqfjlj.sa-east-1.rds.amazonaws.com -p 5432 -U master dsdh2017
    password: awsdh2017

O bien:

    psql -h dsi.c20gkj5cvu3l.us-east-1.rds.amazonaws.com -p 5432 -U dsi_student northwind
    password: gastudents


Primero se debe instalar la extensión ipython-sql. Se puede descargar, así como obtener más información, desde: https://pypi.python.org/pypi/ipython-sql

In [None]:
## !pip install ipython-sql

Veamos si funciona:

In [None]:
%load_ext sql

In [None]:
%%sql postgresql://dsi_student:gastudents@dsi.c20gkj5cvu3l.us-east-1.rds.amazonaws.com/northwind
        
select * from orders limit 5;

Si pudimos ver los primeros registros de la tabla "orders" entonces estamos en condiciones de continuar.

In [None]:
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

## 1: Inspeccionar la Base de Datos

Si nos conectamos desde la consola, una manera de listar todas las tablas es mediante el comando `\dt`. Además es posible acceder a la información de la tabla realizando una consulta sobre la tabla `information_schema.tables`.

### 1.a: Listar tablas

1. Escribir una sentencia `SELECT` que liste todas las tablas en el schema público de la Base de Datos `northwind`, ordenadas alfabéticamente.

In [None]:
%sql select * from information_schema.tables where TABLE_SCHEMA = 'public' ORDER BY TABLE_NAME;

### 1.b: Mostrar schemas

La tabla `INFORMATION_SCHEMA.COLUMNS` contiene la información de cada schema.

Consultarla para mostrar los schemas de todas las tablas públicas. En particular nos interesa en ver los nombres de las columnas y sus tipos de dato.

In [None]:
%sql select table_name, column_name, data_type from INFORMATION_SCHEMA.COLUMNS where TABLE_SCHEMA = 'public' ORDER BY table_name, column_name;

### 1.c: Espiar sobre una tabla

Otra manera de inspeccionar rápidamente la información de una tabla es consultar algunos de sus primeros registros. Realizar esto sobre algunas tablas, por ejemplo: `orders`, `products`, `usstates`. Mostrar sólo los primeros 3 registros de las mismas.


In [None]:
%sql select * from orders limit 3;
%sql select * from products limit 3;
%sql select * from usstates limit 3;

Como se puede ver, algunas tablas (como `usstates` o `region`) contienen información que tienen menor probabilidad de alterarse que otras tablas (como `orders` u `order_details`). Esta Base de Datos está bien organizada para evitar duplicaciones innecesarias. Continuar indagando sobre los datos.

## 2: Productos

¿Qué productos está vendiendo la compañia? Las tablas `products` y `categories` contienen información para responder a esta pregunta.

Utilizar una combinación de consultas SQL y Pandas merge para responder las siguientes preguntas:

- ¿Qué categorías de productos vende la compañia?
- ¿Cuántos productos por categoría contiene el catálogo?
- Focalizarse sólo en los productos que no han sido discontinuados. ¿Cuántos de ellos hay por categoría?
- ¿Cuáles son los 5 productos (no discontinuos) más caros?
- ¿Cuántas unidades de cada uno de esos 5 productos se encuentran en stock?
- Dibujar un gráfico de torta de las categorías, cuyas porciones representen el número de productos en esa categoría (sólo para aquellos no discontinuados).

### 2.a: ¿Qué categorías de productos vende la compañia?

Recordar que PostgreSQL es case-sensitive.

In [None]:
resul_categ = %sql select * from categories;
tbl_categ = resul_categ.DataFrame()
tbl_categ

### 2.b: ¿Cuántos productos por categoría contiene el catálogo?

Recordar que se puede guardar un resultado %sql en una estructura pandas utilizando el método `.DataFrame()`.

In [None]:
resul_prod = %sql select * from products;
tbl_prod = resul_prod.DataFrame()

resul = pd.merge(tbl_prod, tbl_categ, on='CategoryID')
resul.groupby('CategoryName').size()

### 2.c: Focalizarse sólo en los productos que no han sido discontinuados. ¿Cuántos de ellos hay por categoría?

In [None]:
resul.query('Discontinued == 0').groupby('CategoryName').size()

### 2.d: ¿Cuáles son los 5 productos (no discontinuos) más caros?

In [None]:
tbl_prod.query('Discontinued == 0').sort_values(['UnitPrice'], ascending=False).head(5)[['ProductName','UnitPrice']]

### 2.e: ¿Cuántas unidades de cada uno de esos 5 productos se encuentran en stock?

In [None]:
# tbl_prod[(tbl_prod['Discontinued'] == 0) & (tbl_prod['UnitsInStock'] > 0)].sort_values(['UnitPrice'], ascending=False).head(5)[['ProductName','UnitPrice']]
tbl_prod.query('Discontinued == 0').sort_values(['UnitPrice'], ascending=False).head(5)[['ProductName','UnitPrice','UnitsInStock']]

### 2.f: Gráfico de torta

Utilizar pandas para dibujar un gráfico de torta.

In [None]:
tbl_prod.query('Discontinued == 0').sort_values(['UnitPrice'], ascending=False).head(5)['UnitsInStock'].plot.pie(labels=tbl_prod.query('Discontinued == 0').sort_values(['UnitPrice'], ascending=False).head(5)['ProductName'], subplots=True, autopct='%.2f', figsize=(6, 6))

## 3: Ordenes

Una vez comprendidos los productos de la compañia, se comienza a indagar en la información de las órdenes.

- ¿Cuántas órdenes hay en total?
- ¿Cuántas órdenes por año?
- ¿Cuántas órdenes por trimestre?
- ¿Qué país está recibiendo la mayor cantidad de órdenes?
- ¿Qué país está recibiendo la menor cantidad de órdenes?
- ¿Cuál es el tiempo promedio de envío (ShippedDate - OrderDate)?
- ¿Qué cliente está realizando la mayor cantidad de órdenes?
- ¿Qué cliente está generando los mayores ingresos (es necesario relacionar con order_details mediante pd.merge)
- ¿Qué fracción de los ingresos es generada por el top 5 de clientes?

### 3.a: ¿Cuántas órdenes hay en total?

In [None]:
resul_order = %sql select * from orders;
tbl_order = resul_order.DataFrame()
print "En total hay",tbl_order['OrderID'].count(),"órdenes"

### 3.b: ¿Cuántas órdenes por año?

In [None]:
tbl_order.groupby(tbl_order['OrderDate'].map(lambda x: x.strftime('%Y'))).size()

In [None]:
# import datetime as dt
tbl_order.groupby(tbl_order['OrderDate'].map(lambda x: x.strftime('%Y-%m'))).size()


### 3.c: ¿Cuántas órdenes por trimestre?

Realizar un gráfico de linea para estas órdenes.

In [None]:
fig, ax = plt.subplots(1, 1)
ax.get_xaxis().set_visible(False)
tbl_order.groupby(tbl_order['OrderDate'].map(lambda x: x.strftime('%Y-%m'))).size().plot(table=True, ax=ax, figsize=(18,6))

# Está por Mes. Averiguar cómo agrupar las fechas por Trimestre y luego graficar.

### 3.d: ¿Qué país está recibiendo la mayor cantidad de órdenes?

In [None]:
tbl_order.groupby('ShipCountry').size().nlargest(1)

### 3.e: ¿Qué país está recibiendo la menor cantidad de órdenes?

In [None]:
tbl_order.groupby('ShipCountry').size().nsmallest(1)

### 3.f: ¿Cuál es el tiempo promedio de envío (ShippedDate - OrderDate)?

In [None]:
#(tbl_order['ShippedDate']-tbl_order['OrderDate']).sum() ## 6870 días
#tbl_order['OrderID'].count() ## 830 órdenes
x = (tbl_order['ShippedDate']-tbl_order['OrderDate']).sum()/tbl_order['OrderID'].count() ## 715142168674698 nanosegundos
dias = x.astype('timedelta64[D]')
dias / np.timedelta64(1, 'D') ## Convertir nanosegundos en días. Aprox. 8 días

### 3.g: ¿Qué cliente está realizando la mayor cantidad de órdenes?

In [None]:
tbl_order.groupby('CustomerID').size().nlargest(1)

### 3.h: ¿Qué cliente está generando los mayores ingresos (es necesario relacionar con order_details mediante pd.merge)

In [None]:
resul_ordet = %sql select * from order_details;
tbl_ordet = resul_ordet.DataFrame()

# Traer el detalle de las órdenes
resul_ord = pd.merge(tbl_order, tbl_ordet, on='OrderID')
# Generar el Total de cada Orden
resul_ord['Total'] = resul_ord['UnitPrice']*(1-resul_ord['Discount'])*resul_ord['Quantity']
# Agrupar los totales por Cliente y mostrar el que más pagó
resul_ord.groupby('CustomerID').agg({'Total' : np.sum}).nlargest(1, columns='Total')


### 3.i: ¿Qué fracción de los ingresos es generada por el top 5 de clientes?

Comparar esa fracción contra el total de clientes.

In [None]:
# Generar el Total de cada Orden
resul_ord['Total'] = resul_ord['UnitPrice']*(1-resul_ord['Discount'])*resul_ord['Quantity']
# Agrupar los totales por Cliente y mostrar el que más pagó
resul_ord.groupby('CustomerID').agg({'Total' : np.sum}).nlargest(5, columns='Total').sum()/resul_ord.groupby('CustomerID').agg({'Total' : np.sum}).sum()
# 33,2% de los ingresos es generada por el Top 5 de clientes

Epa! 5.5% de los clientes generan la tercera parte de los ingresos!

## Bonus: Otras tablas

Investigar el contenido de otras tablas, en particular de `suppliers`, `shippers` y `employees`.