# Encontrar a nuestros vendedores y productos con mejor desempeño

## Introduccion

**Contexto empresarial.** Trabaja para AdventureWorks, una empresa que vende equipos deportivos al aire libre. La compañía tiene muchas ubicaciones diferentes y ha estado registrando las ventas de diferentes ubicaciones en varios productos. A usted, su nuevo científico de datos, se le ha encomendado la siguiente pregunta: **"¿Cuáles son nuestros mejores productos y vendedores y cómo podemos utilizar esta información para mejorar nuestro rendimiento general?"**

Se le ha dado acceso a los archivos de datos relevantes con documentación del departamento de TI. Su trabajo consiste en extraer información valiosa de estos archivos de datos para ayudar a aumentar las ventas. Primero, observará los mejores productos y tratará de ver cómo se comportan los diferentes productos en diferentes categorías. En segundo lugar, analizará a los mejores vendedores para ver si el porcentaje de comisión los motiva a vender más.

**Problema comercial.** Su tarea es **construir una base de datos a partir de los archivos CSV proporcionados y luego escribir consultas en SQL para llevar a cabo el análisis solicitado**.

**Contexto analítico.** Recibirá los datos (almacenados en la carpeta ```data / csvs```) como un conjunto de archivos CSV separados, cada uno de los cuales representa una tabla. Construirá una nueva base de datos en formato SQL

La compañía ha sido bastante vaga sobre cómo esperan que extraiga información, pero ha elaborado el siguiente plan de ataque:

1. Cree la base de datos y asegúrese de poder ejecutar consultas básicas en ella.
2. Observa cómo se relacionan las calificaciones de los productos y las ventas totales.
3. Vea cómo se venden los productos en diferentes subcategorías (bicicletas, cascos, calcetines, etc.)
4. Calcule qué vendedores se desempeñaron mejor en el último año.
5. Ver si las ventas totales están correlacionadas con su porcentaje de comisión.

Por supuesto, este es solo su plan inicial. A medida que explora la base de datos, su estrategia cambiará.

## Overview of the data

La data que se encuentra dentro del directorio ```./data/csvs```; representa la data proporcionada por ```AdventureWorks``` . Nos enfocarmeos en las Ventas y las categorias de los productos. Mas informacion la encontrara en  [AQUI](https://dataedo.com/download/AdventureWorks.pdf). 

**Product Tables:**
* **Product**: one row per product that the company sells
* **ProductReview**: one row per rating and review left by customers
* **ProductModelProductDescriptionCulture**: a link between products and their longer descriptions also indicating a "culture" - which language and region the product is for
* **ProductDescription**: a longer description of each product, for a specific region
* **ProductCategory**: the broad categories that products fit into
* **ProductSubCategory**: the narrower subcategories that products fit into

**Sales Tables:**
* **SalesPerson**: one row per salesperson, including information on their commission and performance
* **SalesOrderHeader**: one row per sale summarizing the sale
* **SalesOrderDetail**: many rows per sale, detailing each product that forms part of the sale
* **SalesTerritory**: the different territories where products are sold, including performance

**Region Tables:**
* **CountryRegionCurrency**: the currency used by each region
* **CurrencyRate**: the average and closing exchange rates for each currency compared to the USD

## Creando la database y adiconando la data
Es necesario relaizar un procedimiento previo con la tabla productmodeldescriptionculture

In [110]:
import pandas as pd
productmodelproductdescriptionculture=pd.read_csv('data/csvs/productmodelproductdescriptionculture.csv')
productmodelproductdescriptionculture['cultureid']=productmodelproductdescriptionculture['cultureid'].str.strip()
productmodelproductdescriptionculture.to_csv('data/csvs/productmodelproductdescriptionculture.csv', sep=",")  
productmodelproductdescriptionculture.head()

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,Unnamed: 0.1.1,Unnamed: 0.1.1.1,Unnamed: 0.1.1.1.1,Unnamed: 0.1.1.1.1.1,Unnamed: 0.1.1.1.1.1.1,Unnamed: 0.1.1.1.1.1.1.1,Unnamed: 0.1.1.1.1.1.1.1.1,productmodelid,productdescriptionid,cultureid,modifieddate
0,0,0,0,0,0,0,0,0,0,1,1199,en,2013-04-30 00:00:00
1,1,1,1,1,1,1,1,1,1,1,1467,ar,2013-04-30 00:00:00
2,2,2,2,2,2,2,2,2,2,1,1589,fr,2013-04-30 00:00:00
3,3,3,3,3,3,3,3,3,3,1,1712,th,2013-04-30 00:00:00
4,4,4,4,4,4,4,4,4,4,1,1838,he,2013-04-30 00:00:00


In [111]:
import pandas as pd
from sqlalchemy import create_engine, text

#maximum number of rows to display
pd.options.display.max_rows = 10

engine=create_engine('sqlite://')
df = pd.read_csv('data/csvs/product.csv').to_sql('product', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/productreview.csv').to_sql('productreview', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/productmodelproductdescriptionculture.csv').to_sql('productmodelproductdescriptionculture', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/productdescription.csv').to_sql('productdescription', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/salesorderdetail.csv').to_sql('salesorderdetail', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/productcategory.csv').to_sql('productcategory', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/productsubcategory.csv').to_sql('productsubcategory', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/salesperson.csv').to_sql('salesperson', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/salesorderheader.csv').to_sql('salesorderheader', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/salesterritory.csv').to_sql('salesterritory', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/countryregioncurrency.csv').to_sql('countryregioncurrency', engine, if_exists='replace', index=False)
df = pd.read_csv('data/csvs/currencyrate.csv').to_sql('currencyrate', engine, if_exists='replace', index=False)



def runQuery(sql):
    result = engine.connect().execute((text(sql)))
    return pd.DataFrame(result.fetchall(), columns=result.keys())

## Encontrando los productos mas populares

Como se comentó, a la empresa le gustaría saber cuál de sus productos es el más popular entre los clientes. Calcula que la calificación promedio otorgada en las reseñas está correlacionada con el número de ventas de un producto en particular (que los productos con críticas más altas tienen más ventas).

### Ejercicio 1: (15 min)

Usando las tablas ```product``` y ```productreview```, ```JOIN``` y clasifica los productos de acuerdo con su calificación promedio de revisión. ¿Cuáles son los nombres y las identificaciones de los 5 productos principales?


**Respuesta**

In [112]:
query1 = """SELECT productreview.productID AS ID,name,productreview.Rating
FROM product p
INNER JOIN productreview ON p.productID=ID
GROUP BY name
ORDER BY AVG(rating) DESC"""
runQuery(query1)

Unnamed: 0,ID,name,rating
0,798,"Road-550-W Yellow, 40",5
1,709,"Mountain Bike Socks, M",5
2,937,HL Mountain Pedal,2


Los unicos productos que tienen una revisión es Road-550-W Yellow,40 identificado con 789 con 5 puntos,  Mountain Bike Socks, M	identificado con 709 con 5 puntos y HL Mountain Pedal identicado con 937 con un total de 2

### Ejercicio 2: (30 min)

Para su decepción, ¡solo hay tres productos con calificaciones y solo cuatro reseñas en total! Esto no es lo suficientemente cerca como para realizar un análisis de la correlación entre las revisiones y las ventas totales.

Sin embargo, su gerente quiere la **descripción en inglés** de estos productos para una próxima venta. ¡Utilice la documentación proporcionada anteriormente si necesita ayuda para navegar por la estructura para extraer esto!

**Respuesta.**

In [113]:
query2="""
WITH product_model
AS (
    SELECT productreview.productID AS ID,name,productmodelid AS PI
    FROM product p
    INNER JOIN productreview ON p.productID=ID
    ),
product_des
AS (
    SELECT product_model.ID AS Productid,
    product_model.name AS NAME,
    product_model.PI AS PMP,
    cultureid,
    productdescription.productdescriptionid AS PPI,
    productdescription.description AS Product_description
    FROM productmodelproductdescriptionculture PDC
    INNER JOIN product_model
        ON PDC.productmodelid = PMP
    INNER JOIN productdescription
        ON PDC.productdescriptionid=PPI
    GROUP BY PMP
    )
SELECT Productid,NAME,Product_description,cultureid
FROM product_des
WHERE cultureid LIKE '%en'
"""

runQuery(query2)

Unnamed: 0,Productid,NAME,Product_description,cultureid
0,709,"Mountain Bike Socks, M",Combination of natural and synthetic fibers st...,en
1,798,"Road-550-W Yellow, 40",Same technology as all of our Road series bike...,en
2,937,HL Mountain Pedal,Stainless steel; designed to shed mud easily.,en


### Ejercicio 3: (30 min)

Dado que no podemos inferir los productos más populares de las revisiones, optaremos por una estrategia alternativa.

Obtenga la ID del modelo, el nombre, la descripción y el número total de ventas de cada producto y muestre los 10 productos más vendidos. Puede inferir con qué frecuencia se han vendido los productos mirando la tabla `salesorderdetail` (cada fila puede indicar más de una venta, así que tome nota de` OrderQty`).

In [114]:
query3="""
WITH product_id
AS(
   SELECT productid AS ID,
   SUM(orderqty) AS quantity
   FROM salesorderdetail
   GROUP BY productid
   ),
product_model
AS(
    SELECT product_id.ID AS ID,name,productmodelid AS PI,
    name,
    product_id.quantity AS quantity
    FROM product p
    INNER JOIN product_id ON p.productid=ID
   ),
product_des
AS(
   SELECT product_model.PI AS Model_id,
   product_model.name AS Name,
   product_model.quantity AS quantity,
   productdescription.productdescriptionid AS PPI,
   productdescription.description AS Product_description
   FROM productmodelproductdescriptionculture PDC
   INNER JOIN product_model
         ON PDC.productmodelid=Model_id
   INNER JOIN productdescription
         ON PDC.productdescriptionid=PPI
   GROUP BY Model_id
   )
SELECT Model_id,Name,Product_description,quantity
FROM Product_des
GROUP BY Model_id
ORDER BY quantity DESC limit 10;
"""

runQuery(query3)

Unnamed: 0,Model_id,Name,Product_description,quantity
0,2.0,AWC Logo Cap,Traditional style with a flip-up brim; one-siz...,8311
1,111.0,Water Bottle - 30 oz.,AWC logo water bottle - holds 30 oz; leak-proof.,6815
2,33.0,"Sport-100 Helmet, Red","Universal fit, well-vented, lightweight , snap...",6266
3,1.0,"Classic Vest, S","Light-weight, wind-resistant, packs to fit int...",4247
4,114.0,Patch Kit/8 Patches,"Includes 8 different size patches, glue and sa...",3865
5,119.0,Bike Wash - Dissolver,Washes off the toughest road grime; dissolves ...,3319
6,37.0,"Women's Mountain Shorts, S","Heavy duty, abrasion-resistant shorts feature ...",3296
7,118.0,Hitch Rack - 4-Bike,"Carries 4 bikes securely; steel construction, ...",3166
8,92.0,Mountain Tire Tube,Self-sealing tube.,3095
9,107.0,Hydration Pack - 70 oz.,Versatile 70 oz hydration pack offers extra st...,2761


### Ejercicio 4: (30 min)

Calcule las cantidades totales de `salesorderdetail` nuevamente y agrupe los productos por subcategoría

**Respuesta.** 

In [115]:
query4="""
WITH product_qtys
AS (
    SELECT productid,
        SUM(orderqty) AS quantity
    FROM salesorderdetail
    GROUP BY productid
    ),
product_price_qty
AS (
    SELECT pc.name AS category,
        ps.name AS subcategory,
        p.listprice,
        sum(product_qtys.quantity) AS quantity
    FROM product p
    INNER JOIN product_qtys
        ON p.productid = product_qtys.productid
    INNER JOIN productsubcategory ps
        ON p.productsubcategoryid = ps.productsubcategoryid
    INNER JOIN productcategory pc
        ON ps.productcategoryid = pc.productcategoryid
    GROUP BY pc.name,
        ps.name,
        p.listprice
    )
SELECT subcategory,
    sum(quantity) AS total_qty
FROM product_price_qty ppq
GROUP BY subcategory
ORDER BY total_qty DESC limit 10;
"""

runQuery(query4)

Unnamed: 0,subcategory,total_qty
0,Road Bikes,47196
1,Mountain Bikes,28321
2,Jerseys,22711
3,Helmets,19541
4,Tires and Tubes,18006
5,Touring Bikes,14751
6,Gloves,13012
7,Road Frames,11753
8,Mountain Frames,11621
9,Bottles and Cages,10552


## Encontrar a nuestros mejores vendedores

Como se mencionó anteriormente, queremos encontrar a nuestros mejores vendedores y ver si podemos o no incentivarlos de manera adecuada. Es decir, queremos determinar si el porcentaje de comisión que les damos los motiva a realizar más y mayores ventas.

### Ejercicio 5: (10 min)

Encuentre los cinco vendedores con mejor desempeño usando la columna `salesytd` (Sales, year-to-date). (Solo necesitamos conocer el `businessentityid` de cada vendedor, ya que esto identifica de forma única a cada uno). ¿Por qué podría ser escéptico con estos números en este momento?

**Respuesta.**

In [116]:
query5="""SELECT businessentityid,salesytd
FROM salesperson
ORDER BY salesytd DESC limit 5;
"""

runQuery(query5)

Unnamed: 0,businessentityid,salesytd
0,276,4251369.0
1,289,4116871.0
2,275,3763178.0
3,277,3189418.0
4,290,3121616.0


Se podria ser escéptico con estos números ya que estos numeros se encuentran establecidos en las tablas y no conocemos como se actualiza este valor y no es calculado dinamicamente.


### Ejercicio 6: (15 min)

Usando ```salesorderheader```, busque los 5 mejores vendedores que hicieron la mayor cantidad de ventas **en el año más reciente** (2014). (Hay una columna llamada `subtotal`; úsela). Las ventas que no tienen un vendedor asociado deben excluirse de sus cálculos y producción final. Se deben incluir todos los pedidos que se realizaron dentro del año calendario 2014.

**Pista:** Puedes usar la sintaxis `'1970-01-01'` para generar un punto de comparacion en el tiempo

**Respuesta.**

In [166]:
query6="""
SELECT salesperson.businessentityid AS VendedorID,sum(subtotal) AS total
FROM salesorderheader s
INNER JOIN salesperson ON VendedorID=salespersonid
WHERE orderdate >='2014-01-01'
GROUP BY VendedorID
ORDER BY total DESC limit 5;
"""
runQuery(query6)

Unnamed: 0,VendedorID,total
0,289,1382997.0
1,276,1271089.0
2,275,1057247.0
3,282,1044811.0
4,277,1040093.0


### Ejercicio 7: (30 min)
Al mirar la documentación, verá que el `subtotal` en la tabla ```salesorderheader``` se calcula a partir de otras tablas en la base de datos. Para validar esta cifra (en lugar de confiar ciegamente en ella), calculemos el `subtotal` manualmente. Utilizando las tablas ```salesorderdetail``` y ```salesorderheader```, calcule las ventas de cada vendedor durante **el año pasado** (2014) y muestre los resultados de los 5 principales vendedores.

**Sugerencia:** Tendrá que ```JOIN``` ```salesorderdetail``` en ```salesorderheader``` para obtener al vendedor, calcular los totales de línea para cada venta usando los descuentos apropiados, luego sumar todos los totales de la línea para obtener la venta total. Querrá usar las cláusulas ```WITH``` nuevamente para mantener las cosas cuerdas.

**Respuesta.**

In [165]:
query7="""
WITH Sales_detail
AS (
   SELECT salesorderid,sum(unitprice*(1 - unitpricediscount) * orderqty) AS total
   FROM salesorderdetail SO
   GROUP BY salesorderid
),
Vendor_detail
AS (
   SELECT salespersonid AS VendedorID,
   Sales_detail.salesorderid AS OrderID,
   sum(Sales_detail.total) AS total,
   orderdate
   FROM salesorderheader s
   INNER JOIN Sales_detail ON OrderID=s.salesorderid
   WHERE orderdate >='2014-01-01'
   GROUP BY VendedorID
   )
SELECT VendedorID,sum(total) AS Total
FROM Vendor_detail
WHERE VendedorID != 'NaN'
GROUP BY VendedorID
ORDER BY Total DESC limit 5;
"""
runQuery(query7)

Unnamed: 0,VendedorID,Total
0,289.0,1382997.0
1,276.0,1271089.0
2,275.0,1057247.0
3,282.0,1044811.0
4,277.0,1040093.0


No se encuentrar diferencias entre las 2 tablas, la entregada y la calculada dinamicamente


### Exercise 8: (20 min)
¿Recuerda cómo mencionamos que los productos se vendían en muchas regiones? Esta es la razón por la que tuvo que trabajar con el valor de `culture` antes para obtener las descripciones del idioma inglés. Para empeorar las cosas, se le dice que las ventas se registran en moneda **local**, por lo que su análisis anterior es defectuoso, y debe convertir todos los montos a USD si desea comparar a los diferentes vendedores de manera justa.

Utilice la tabla `countryregioncurrency` en combinación con las de` salesperson` y `salesterritory` para averiguar el símbolo de moneda relevante para cada uno de los principales vendedores.

**Respuesta.**

In [174]:
query8="""
WITH Sales_detail
AS (
   SELECT salesorderid,sum(unitprice*(1 - unitpricediscount) * orderqty) AS total
   FROM salesorderdetail SO
   GROUP BY salesorderid
),
Vendor_detail
AS (
   SELECT salespersonid AS VendedorID,
   Sales_detail.salesorderid AS OrderID,
   sum(Sales_detail.total) AS total,
   orderdate
   FROM salesorderheader s
   INNER JOIN Sales_detail ON OrderID=s.salesorderid
   WHERE orderdate >= '2014-01-01'
   GROUP BY VendedorID
   ),
pais
AS (
    SELECT Vendor_detail.VendedorID AS VendedorID,
    sum(Vendor_detail.total) AS total,
    salesterritory.territoryid AS IDpais,
    salesterritory.countryregioncode AS contrycode
    FROM salesperson SP
    INNER JOIN Vendor_detail 
          ON VendedorID = SP.businessentityid
    INNER JOIN salesterritory  
          ON IDpais= SP.territoryid
    GROUP BY VendedorID
    ),
Moneda
AS (
    SELECT pais.VendedorID AS VendedorId,
    pais.contrycode AS contry,
    currencycode AS currency,
    pais.total AS total
    FROM countryregioncurrency 
    INNER JOIN pais 
          ON contry=countryregioncurrency.countryregioncode
    GROUP BY VendedorID
    )
SELECT VendedorID,contry,sum(total) AS Total,currency
FROM Moneda
WHERE VendedorID != 'NaN'
GROUP BY VendedorID;
"""
runQuery(query8)

Unnamed: 0,VendedorId,contry,Total,currency
0,275.0,US,1.057247e+06,USD
1,276.0,US,1.271089e+06,USD
2,277.0,US,1.040093e+06,USD
3,278.0,CA,4.359490e+05,CAD
4,279.0,US,7.872044e+05,USD
...,...,...,...,...
9,284.0,US,6.009972e+05,USD
10,286.0,AU,5.857558e+05,AUD
11,288.0,DE,5.816079e+05,DEM
12,289.0,GB,1.382997e+06,GBP


### Ejercicio 9: (45 min)

Ahora que tenemos los códigos de moneda asociados con cada vendedor, vuelva a realizar el ejercicio 7 para tener en cuenta el cambio de moneda. Si hay vendedores en el top 5 que no estaban antes, explique por qué.

**Sugerencia:** Las tasas en la tabla ```currencyrate``` siempre van de` FromCurrencyCode = USD` a `ToCurrencyCode = <Código de moneda deseado>`, y se enumeran todos los días. Al calcular los totales de las líneas, use el "AverageRate" 


**Respuesta.**

In [177]:
query10="""
SELECT *
FROM currencyrate"""
runQuery(query10)

Unnamed: 0,currencyrateid,currencyratedate,fromcurrencycode,tocurrencycode,averagerate,endofdayrate,modifieddate
0,1,2011-05-31 00:00:00,USD,ARS,1.0000,1.0002,2011-05-31 00:00:00
1,2,2011-05-31 00:00:00,USD,AUD,1.5491,1.5500,2011-05-31 00:00:00
2,3,2011-05-31 00:00:00,USD,BRL,1.9379,1.9419,2011-05-31 00:00:00
3,4,2011-05-31 00:00:00,USD,CAD,1.4641,1.4683,2011-05-31 00:00:00
4,5,2011-05-31 00:00:00,USD,CNY,8.2781,8.2784,2011-05-31 00:00:00
...,...,...,...,...,...,...,...
13527,13528,2014-05-27 00:00:00,USD,USD,1.0000,1.0000,2014-01-02 17:39:45.26
13528,13529,2014-05-28 00:00:00,USD,USD,1.0000,1.0000,2014-01-02 17:39:45.26
13529,13530,2014-05-29 00:00:00,USD,USD,1.0000,1.0000,2014-01-02 17:39:45.26
13530,13531,2014-05-30 00:00:00,USD,USD,1.0000,1.0000,2014-01-02 17:39:45.26


In [185]:
query9="""
WITH Sales_detail
AS (
   SELECT salesorderid,sum(unitprice*(1 - unitpricediscount) * orderqty) AS total
   FROM salesorderdetail SO
   GROUP BY salesorderid
),
Vendor_detail
AS (
   SELECT salespersonid AS VendedorID,
   Sales_detail.salesorderid AS OrderID,
   sum(Sales_detail.total) AS total,
   orderdate
   FROM salesorderheader s
   INNER JOIN Sales_detail ON OrderID=s.salesorderid
   WHERE orderdate >= '2014-01-01'
   GROUP BY VendedorID
   ),
pais
AS (
    SELECT Vendor_detail.VendedorID AS VendedorID,
    sum(Vendor_detail.total) AS total,
    salesterritory.territoryid AS IDpais,
    salesterritory.countryregioncode AS contrycode
    FROM salesperson SP
    INNER JOIN Vendor_detail 
          ON VendedorID = SP.businessentityid
    INNER JOIN salesterritory  
          ON IDpais= SP.territoryid
    GROUP BY VendedorID
    ),
Moneda
AS (
    SELECT pais.VendedorID AS VendedorId,
    pais.contrycode AS contry,
    currencycode AS currency,
    pais.total AS total
    FROM countryregioncurrency 
    INNER JOIN pais 
          ON contry=countryregioncurrency.countryregioncode
    GROUP BY VendedorID
    ),
Moneda_adjusted
AS(
   SELECT Moneda.VendedorID AS VendedorID,
   Moneda.currency,
   Moneda.total/averagerate AS Total_Dolar
   FROM currencyrate CU
   INNER JOIN Moneda
         ON Moneda.currency=CU.tocurrencycode
   GROUP BY VendedorID
   )
SELECT VendedorID,Total_dolar
FROM Moneda_adjusted
WHERE VendedorID != 'NaN'
GROUP BY VendedorID
ORDER BY Total_dolar DESC limit 5;
"""
runQuery(query9)

Unnamed: 0,VendedorID,Total_Dolar
0,289.0,2236773.0
1,276.0,1271089.0
2,275.0,1057247.0
3,277.0,1040093.0
4,290.0,894625.8
