# Uso de SQL y Pandas
Realizaremos consultas SQL (como hemos venido trabajando) pero, además, plantearemos la solución equivalente a los distintos problemas empleando métodos de Pandas (operaciones con *Dataframes*)

DER de la base de datos Northwind

<img src='https://www.campusmvp.es/recursos/image.axd?picture=Northwind_Tablas.png' />

### 1. Productos

¿Qué productos está vendiendo la compañia? Las tablas `products` y `categories` contienen información para responder a esta pregunta.

Utilizar una combinación de consultas SQL y Pandas *merge* para responder las siguientes preguntas:

1. ¿Qué categorías de productos vende la compañia?
2. ¿Cuántos productos por categoría contiene el catálogo?
3. Focalizarse sólo en los productos que no han sido discontinuados ¿Cuántos de ellos hay por categoría?
4. ¿Cuáles son los 5 productos (no discontinuados) más caros?
5. ¿Cuántas unidades de cada uno de esos 5 productos se encuentran en stock?
6. Realizar un gráfico de torta de las categorías, cuyas porciones representen el número de productos en esa categoría (sólo para aquellos no discontinuados).

### 1.1 ¿Qué categorías de productos vende la compañia?

Recordar que se puede guardar un resultado `%sql`  en una estructura *Pandas* utilizando el método `.DataFrame()`.

In [None]:
%%sql
SELECT *
FROM Categories;

In [6]:
categories_sql = %sql SELECT * FROM Categories;
categories_table = categories_sql.DataFrame()

### 1.2 ¿Cuántos productos por categoría contiene el catálogo?

In [None]:
# Utilizando SQL directo
prods_by_catg = %sql SELECT "CategoryID", COUNT(*) FROM Products GROUP BY "CategoryID";

In [None]:
# Utilizando Pandas Merge
products = %sql SELECT * FROM Products;
products_table = products.DataFrame()

result = pd.merge(categories_table, products_table, on="CategoryID")
result.groupby("CategoryName").size()

### 1.3 Focalizarse sólo en los productos que no han sido discontinuados ¿Cuántos de ellos hay por categoría?

In [None]:
# Utilizando SQL solamente
%%sql
SELECT "CategoryID", COUNT(*) AS NumActiveProds
FROM Products
WHERE "Discontinued" = False
GROUP BY "CategoryID";

In [None]:
# Reutilizando el Dataframe del Merge Prods/Categs del item anterior
result.query("Discontinued == 0").groupby("CategoryName").size()

### 1.4 ¿Cuáles son los 5 productos (no discontinuados) más caros?

In [None]:
# Utilizando SQL solamente
%%sql
SELECT "ProductName", "UnitPrice"
FROM Products
WHERE "Discontinued" = False
ORDER BY "UnitPrice" DESC
LIMIT 5;

In [None]:
# Reutilizando DataFrame de Products (Pandas)
result.query("Discontinued == 0")
      .sort_values(by=['UnitPrice'], ascending=False)
      .head()[['ProductName', 'UnitPrice']]

### 1.5 ¿Cuántas unidades de cada uno de esos 5 productos se encuentran en stock?

In [None]:
# Aplico Subquery para practicarlo simplemente
%%sql
SELECT ep."ProductsName", ep."UnitsStock"
FROM (
    SELECT "ProductName", "UnitPrice", "UnitsInStock"
    FROM Products
    WHERE "Discontinued" = False
    ORDER BY "UnitPrice" DESC
    LIMIT 5;
) AS ep;

In [None]:
products_table..query("Discontinued == 0")
      .sort_values(by=['UnitPrice'], ascending=False)
      .head()[['ProductName', 'UnitsInStock']]

### 1.6 Gráfico de torta
Realizar un gráfico de torta de las categorías, cuyas porciones representen el número de productos en esa categoría (sólo aquellos no discontinuados).

In [None]:
prods_by_catg = result.query("Discontinued == 0").groupby("CategoryName").size()

In [None]:
fig1, ax1 = plt.subplots()
ax1.pie(prods_by_catg.values, labels=prods_by_catg.index)
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()

In [None]:
# otra forma
products_by_catg.plot.pie(
    labels=products_by_catg.index,
    subplots=True,
    autopct='%.2f',
    figsize=(6, 6)
)

## 2. Ordenes

Una vez comprendidos los productos de la compañia, se comienza a indagar en la información de las órdenes.

1. ¿Cuántas órdenes hay en total?
2. ¿Cuántas órdenes por año?
3. ¿Cuántas órdenes por trimestre?
4. ¿Qué país está recibiendo la mayor cantidad de órdenes?
5. ¿Qué país está recibiendo la menor cantidad de órdenes?
6. ¿Cuál es el tiempo promedio de envío (ShippedDate - OrderDate)?
7. ¿Qué cliente está realizando la mayor cantidad de órdenes?
8. ¿Qué cliente está generando los mayores ingresos? (es necesario relacionar con *order_details* mediante *pd.merge*)
9. ¿Qué fracción de los ingresos es generada por el top 5 de clientes?

### 2.1 ¿Cuántas órdenes hay en total?

In [None]:
%%sql
SELECT COUNT(*) AS TotalOrders
FROM Orders;

In [None]:
# Usando Pandas DataFrame
orders_sql = %sql SELECT * FROM Orders;
orders_table = orders_sql.DataFrame()

# cantidad de ordenes
orders_table.shape[0]

### 2.2 ¿Cuántas órdenes por año?

In [None]:
%%sql
SELECT EXTRACT(YEAR FROM "OrderDate") AS Year, COUNT(*) AS NumOrders
FROM Orders
GROUP BY Year
ORDER BY Year DESC;

# si quisiera tmb discriminar por mes
%%sql
SELECT EXTRACT(YEAR FROM "OrderDate") AS Year,
       EXTRACT(MONTH FROM "OrderDate") AS Month
       COUNT(*) AS NumOrders
FROM Orders
GROUP BY Year, Month
ORDER BY Year DESC, Month DESC;

In [None]:
# usando Pandas Dataframe
orders_table.groupby(
    orders_table(["OrderDate"]).map(lambda x: x.strftime('%Y'))
).size()

### 2.3 ¿Cuántas órdenes por trimestre?

Realizar un gráfico de linea para estas órdenes.

In [None]:
%%sql
SELECT EXTRACT(YEAR FROM "OrderDate") AS Year,
       round(datepart("month", "OrderDate")/4) + 1 AS Trimester,
       COUNT(*) AS NumOrders
FROM Orders
GROUP BY Year, Trimester
ORDER BY Year, Trimester;

In [None]:
# guardao el resultado en un Dataframe y lo grafico
orders_by_trim_sql = %sql SELECT EXTRACT(YEAR FROM "OrderDate") AS Year, \
       round(datepart("month", "OrderDate")/4) + 1 AS Trimester, \
       COUNT(*) AS NumOrders \
FROM Orders \
GROUP BY Year, Trimester \
ORDER BY Year, Trimester;

orders_by_trim = orders_by_trim_sql.DataFrame()
orders_by_trim

In [None]:
# todo: plot

### 2.4 ¿Qué país está recibiendo la mayor cantidad de órdenes?

In [None]:
%%sql
SELECT "ShipCountry", COUNT(*) AS NumOrders
FROM Orders
GROUP BY "ShipCountry"
ORDER BY NumOrders DESC
LIMIT 1;

In [None]:
orders_table.groupby("ShipCountry").size().nlargest(1)

### 2.5 ¿Qué país está recibiendo la menor cantidad de órdenes?

In [None]:
%%sql
SELECT "ShipCountry", COUNT(*) AS NumOrders
FROM Orders
GROUP BY "ShipCountry"
ORDER BY NumOrders ASC
LIMIT 1;

In [None]:
orders_table.groupby("ShipCountry").size().nsmallest(1)

### 2.6 ¿Cuál es el tiempo promedio de envío (ShippedDate - OrderDate)?

In [None]:
%%sql
SELECT AVG("ShippedDate" - "OrderDate")
FROM Orders;

In [None]:
import numpy as np

# Demora en nanosegundos
# avg_shipp_time = (orders_table["ShippedDate"] - orders_table["ShippedDate"]).sum() / orders_table["OrderID"].count()
avg_shp_time = (orders_table["ShippedDate"] - orders_table["ShippedDate"]).mean()

# Convierto a Dias
avg_shp_days = avg_shp_time.astype('timedelta64[D]')
avg_shp_days = avg_shp_days / np.timedelta64(1, 'D')

### 2.7 ¿Qué cliente está realizando la mayor cantidad de órdenes?

In [None]:
%%sql
SELECT "CustomerID", COUNT(*) AS NumOrders
FROM Orders
GROUP BY "CustomerID"
ORDER BY NumOrders DESC
LIMIT 1;

In [None]:
orders_table.groupby("CustomerID").size().nlargest(1)

### 2.8 ¿Qué cliente está generando los mayores ingresos?

In [None]:
%%sql
SELECT o."CustomerID",
       SUM(od."UnitPrice" * od."Quantity" * (1 - od."Discount")) AS CustomerTotal
FROM Orders AS o
INNER JOIN order_datails AS od ON o."OrderID" = od."OrderID"
GROUP BY o."CustomerID"
ORDER BY CustomerTotal DESC
LIMIT 1;

In [None]:
# utilizando Pandas Dataframe
# Debo merge Orders y OrdersDetails
order_details_sql = %sql SELECT * FROM order_details; 
order_details_table = order_details_sql.DataFrame()

orders_with_details = pd.merge(orders_table, order_details_table, on="OrderID")

# genero los totales de cada item (detail_order)
orders_with_details["DetailTotal"] = orders_with_details["UnitPrice"] * orders_with_details["Quantity"] * (1-orders_with_details["Discount"])

total_by_customer = orderS_with_details.groupby("CustomerID")["DetailTotal"].sum()
best_client = total_by_customer.nlargest(1, column="Total")
best_client

### 2.9 ¿Qué fracción de los ingresos es generada por el top 5 de clientes?

In [2]:
total_income = total_by_customer.sum()
top_clients_income = total_by_customer.nlargest(5, column="Total").sum()

# porcentaje que representan ingresos de los top 5 sobre el total
top_percentage_total = top_clients_income/total_income * 100
print("El top 5 de clientes representa un {:.2f}\% de los ingresos.".format(top_percentage_total))

# cuanto representa de mi cartera 5 clientes
num_clients = total_by_customer.count()
five_clients_perc_total = 5/num_clients * 100;
print("Estos 5 clientes representan un {:.2f}\% de mi cartera total".format(five_clients_perc_total))