## SUBQUERYs
DER de la base de datos Northwind

<img src='https://www.campusmvp.es/recursos/image.axd?picture=Northwind_Tablas.png' />

In [1]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [2]:
%load_ext sql

In [3]:
#%sql postgresql://dhuser:dhpass@192.168.1.100/nw
%sql postgresql://dsi_student:gastudents@dsi.c20gkj5cvu3l.us-east-1.rds.amazonaws.com/northwind

In [2]:
%%sql
SELECT 'Si' AS "Funciona?";

### 1. Extraer todas las órdenes de clientes de Francia.

In [None]:
%%sql
SELECT "OrderID"
FROM orders
WHERE "CustomerID" IN (
        SELECT "CustomerID"
        FROM Customers
        WHERE "Country" = "France"
    );

Sin utilizar *subquery*, se realizaría de la siguiente manera, mediante *JOIN*:

In [None]:
%%sql
SELECT Orders."OrderID"
FROM Orders
JOIN Customers ON Orders."CustomerID" = Customers."CustomerID"
WHERE Customers."Country" = "France";

### 2. Mostrar los 5 productos más baratos, cuyos precios sean mayores a la media, imprimiendo su *categoría*, *nombre* y *precio*.


In [None]:
%%sql
SELECT "CategoryName", "ProductName", "UnitPrice"
FROM products AS p
JOIN categories AS c ON p."CategoryID" = c."CategoryID"
WHERE p."UnitPrice" > (
    SELECT AVG("UnitPrice")
    FROM products
)
ORDER BY p."UnitPrice"
LIMIT 5;

### 3. Dado que se prevee un gran incremento en los costos de transporte, se desea analizar los países de los proveedores de las categorías más importantes, basándonos sólo en aquellas 2 que están generando mayores ventas a la empresa (sin tener en cuenta los descuentos).

Visualizar, agrupando por categoría y país del proveedor, la cantidad total de productos vendidos y porcentaje del total. El resultado debe estar ordenado primero por la categoría más importante y, luego, por la importancia de los países en el aporte a esa categoría.

Resolveremos el problema en pasos, para luego utilizar las soluciones parciales como *subquerys*. En primer lugar, obtengo las 2 categorias con mayores ingresos, retornando el nombre, id de categoria, ingresos y cantidad de productos vendidos

In [1]:
%%sql 
SELECT c."CategoryName", c."CategoryID", SUM(od."UnitPrice" * od."Quantity") AS Ingresos, 
       SUM(od."Quantity") AS ProductosVendidos
FROM order_details AS od
INNER JOIN Products AS p ON od."ProductID" = p."ProductID"
INNER JOIN Categories AS c ON p."CategoryID" = c."CategoryID"
GROUP BY c."CategoryID"
ORDER BY Ingresos DESC
LIMIT 2;

Habiendo obtenido las categorías más importantes, vamos a consultar el país del proveedor de cada producto de las mismas, como así también, las órdenes y cantidad de unidades involucradas.

En el resultado mostraremos la categoría, el país del proveedor, la cantidad de unidades vendidas y el porcentaje respecto del total.
 
Ordenaremos el resultado, en primera instancia, por la categoría más importante, y, luego, según el aporte de cada país.

In [2]:
%%sql
SELECT bc."CategoryName", s."Country" AS SupplierCountry,
       SUM(od."Quantity") AS Cantidad, (100*(Cantidad / bc."ProductosVendidos")) AS Porcentaje
FROM Products AS p
INNER JOIN Suppliers AS s ON p."SupplierID" = s."SupplierID"
INNER JOIN (
    SELECT c."CAtegoryName", c."CategoryID", SUM(od."UnitPrice" * od."Quantity") AS Ingresos, 
           SUM(od."Quantity") AS ProductosVendidos
    FROM order_details AS od
    INNER JOIN Products AS p ON od."ProductID" = p."ProductID"
    INNER JOIN Categories AS c ON p."CategoryID" = c."CategoryID"
    GROUP BY c."CategoryID"
    ORDER BY Ingresos DESC
    LIMIT 2;
) AS bc ON p."CategoryID" = bc."CategoryID"
LEFT JOIN order_details AS od ON p."ProductID" = od."ProductID"
GROUP BY bc."CategoryName", SupplierCountry
ORDER BY MAX(bc."Ingresos") DESC, Cantidad DESC

### 4. Se sospecha que algunos vendedores están haciendo negocios poco honestos, ofreciendo descuentos extraordinarios a algunos de sus clientes para obtener beneficios personales.

Buscar ordenes que tengan descuentos totales superiores a la *media + 2 desvíos* y mostrar los clientes hayan sido beneficiados más veces por estos descuentos extraordinarios.

En primer lugar, se calcula para *order_detail* el precio sin descuento y con descuento, para luego poder calcular el descuento total de la orden

In [None]:
SELECT "OrderID", ("UnitPrice"*"Quantity") AS SinDescuento,
       ("UnitPrice"*"Quantity" * (1-"Discount")) AS ConDescuento,
       "Discount"
FROM order_details

Ahora se calcula el descuento total para la orden

In [None]:
SELECT "OrderID",
       (SUM(("UnitPrice"*"Quantity") - ("UnitPrice"*"Quantity" * (1-"Discount")))
        /SUM("UnitPrice"*"Quantity")) AS DescuentoOrden
FROM order_details    
GROUP BY "OrderID"

# si quisiera reutilizar la subquery anterior
# SELECT "OrderID", SUM(SinDescuento-ConDescuento)/SUM(SinDescuento) AS DescuentoOrden
# FROM (
#     SELECT "OrderID", ("UnitPrice"*"Quantity") AS SinDescuento,
#            ("UnitPrice"*"Quantity" * (1-"Discount")) AS ConDescuento,
#            "Discount"
#     FROM order_details
# )

Teniendo el descuento total de cada orden, se puede calcular la "*media + 2 desvíos*", obteniendo así la cota que define las órdenes que nos interesan.

In [None]:
%%sql
SELECT (AVG(o.DescuentoOrden) + 2*STDDEV(o.DescuentoOrden)) AS MediaDescuento
FROM (
    SELECT "OrderID",
           (SUM(("UnitPrice"*"Quantity") - ("UnitPrice"*"Quantity" * (1-"Discount")))
            /SUM(("UnitPrice"*"Quantity"))) AS DescuentoOrden,
    FROM order_details  
    GROUP BY "OrderID"
) AS o

Ahora, se filtran todas las órdenes que tengan un descuento total mayor a la "*media + 2 desvíos*".

In [None]:
%%sql
SELECT "OrderID",
       (SUM(("UnitPrice"*"Quantity") - ("UnitPrice"*"Quantity" * (1-"Discount")))
        /SUM(("UnitPrice"*"Quantity"))) AS DescuentoOrden
FROM order_details    
GROUP BY "OrderID"
HAVING DescuentoOrden > (
    SELECT AVG(o.DescuentoOrden) + 2*STDDEV(o.DescuentoOrden) AS MediaDescuento
    FROM (
        SELECT "OrderID",
               (SUM(("UnitPrice"*"Quantity") - ("UnitPrice"*"Quantity" * (1-"Discount")))
                /SUM(("UnitPrice"*"Quantity"))) AS DescuentoOrden,
        FROM order_details  
        GROUP BY "OrderID"
    ) AS o
);

Por último se determina cuáles son los clientes de estas órdenes, los cuales han sido mas beneficiados.

In [None]:
#ob -> OrdenesBeneficiadas (descuento > media)
%%sql
SELECT o."CustomerID", COUNT(*) AS VecesBeneficiado
FROM (
    SELECT "OrderID",
           (SUM(("UnitPrice"*"Quantity") - ("UnitPrice"*"Quantity" * (1-"Discount")))
            /SUM(("UnitPrice"*"Quantity"))) AS DescuentoOrden
    FROM order_details    
    GROUP BY "OrderID"
    HAVING DescuentoOrden > (
        SELECT AVG("DescuentoOrden") + 2*STDDEV("DescuentoOrden") AS MediaDescuento
        FROM (
            SELECT "OrderID",
                   (SUM(("UnitPrice"*"Quantity") - ("UnitPrice"*"Quantity" * (1-"Discount")))
                    /SUM(("UnitPrice"*"Quantity"))) AS DescuentoOrden,
            FROM order_details  
            GROUP BY "OrderID"
        )
    ) 
) AS ob
INNER JOIN Orders AS o ON o."CustomerID" = ob."CustomerID"
GROUP BY o."CustomerID"
ORDER BY VecesBeneficiado DESC;