# NORTHWIND DATABASE

El **objetivo** de este ejercicio es generar una serie de consultas SQL que permitan extraer información relevante de la base de datos y luego exportar los resultados para construir dashboards o visualizaciones que proporcionen insights valiosos para la toma de decisiones empresariales.

La base de datos Northwind es una base de datos de ejemplo clásica que simula las operaciones de una empresa minorista. Contiene tablas relacionales que representan diferentes aspectos del negocio, como productos, clientes, pedidos y empleados. Utilizando consultas SQL, podrás explorar y analizar estos datos para comprender mejor el desempeño del negocio en diferentes áreas.

Una vez que hayas realizado las consultas SQL y obtenido los resultados, podrás utilizarlos para herramientas de visualización de datos como Tableau, Power BI, Streamlit o cualquier otra herramienta de tu elección. 

![img](./img/northwind-er-diagram.png)

Tendrás que elegir uno de los retos a resolver:

In [3]:
import sqlite3
import pandas as pd
from sqlalchemy import create_engine

# Connect to the DB
conn = sqlite3.connect("./data/northwind.db")
c = conn.cursor()

with open("./data/northwind_script.sql", 'r') as script:
    lines = script.readlines()

#c.execute("""PRAGMA foreign_keys = ON;""")

c.executescript("".join(lines));

engine = create_engine('sqlite:///data/northwind.db', echo=False)
connection = engine.connect()


In [4]:
c.execute("""SELECT name FROM sqlite_master WHERE type='table';""").fetchall()

[('sqlite_sequence',),
 ('CustomerCustomerDemo',),
 ('CustomerDemographics',),
 ('EmployeeTerritories',),
 ('Regions',),
 ('Territories',),
 ('Categories',),
 ('Customers',),
 ('Employees',),
 ('Shippers',),
 ('Suppliers',),
 ('Products',),
 ('Orders',),
 ('OrderDetails',)]

In [5]:
# Con esta función leemos los datos y lo pasamos a un DataFrame de Pandas y ejecutamos una sentencia
def sql_query(query):

    # Ejecuta la query
    c.execute(query)

    # Almacena los datos de la query 
    ans = c.fetchall()

    # Obtenemos los nombres de las columnas de la tabla
    names = [description[0] for description in c.description]

    return pd.DataFrame(ans,columns=names)



###### ejemplo para ejecutar el def sql_query
# Nombre de la tabla de la que quieres obtener los campos
nombre_tabla = 'OrderDetails'

# Ejecutar la consulta PRAGMA para obtener la información de las columnas
query = f'PRAGMA table_info({nombre_tabla});'
df_columnas = sql_query(query)

# Mostrar el DataFrame con la información de las columnas
print(df_columnas)

   cid           name     type  notnull dflt_value  pk
0    0  OrderDetailID  INTEGER        0       None   1
1    1        OrderID  INTEGER        0       None   0
2    2      ProductID  INTEGER        0       None   0
3    3       Quantity  INTEGER        0       None   0


In [30]:
query = """
SELECT count(*), OrderID, OrderDate
FROM orders 
GROUP BY OrderDate
"""
pd.read_sql(query, con=connection)

Unnamed: 0,count(*),OrderID,OrderDate
0,1,18429,2012-07-10 15:40:46
1,1,25506,2012-07-10 20:28:57
2,1,26048,2012-07-11 01:09:16
3,1,16958,2012-07-11 20:26:28
4,1,25877,2012-07-11 21:17:36
...,...,...,...
15927,1,11298,2023-10-25 13:00:29
15928,1,23676,2023-10-26 06:28:53
15929,1,13789,2023-10-27 06:38:44
15930,1,25677,2023-10-27 18:17:38


In [5]:
res = c.execute("SELECT name FROM sqlite_master WHERE type='view'")
for name in res:
    print(name[0])

Alphabetical list of products
Current Product List
Customer and Suppliers by City
Invoices
Orders Qry
Order Subtotals
Product Sales for 1997
Products Above Average Price
Products by Category
Quarterly Orders
Sales Totals by Amount
Summary of Sales by Quarter
Summary of Sales by Year
Category Sales for 1997
Order Details Extended
Sales by Category
ProductDetails_V


### **1. Análisis de Ventas por Región**
Analiza las ventas de productos por región. El objetivo es identificar las regiones que generan más ingresos y las
 tendencias de ventas a lo largo del tiempo en esas regiones. 
Pista: Utiliza gráficos de barras y líneas para mostrar la evolución de las ventas, así como mapas geográficos para
 visualizar la distribución de ingresos por región.

In [9]:
query = """
SELECT *
FROM Shippers 

"""
pd.read_sql(query, con=connection)

Unnamed: 0,ShipperID,ShipperName,Phone
0,1,Speedy Express,(503) 555-9831
1,2,United Package,(503) 555-3199
2,3,Federal Shipping,(503) 555-9931


In [None]:
   cid           name     type  notnull dflt_value  pk
0    0  OrderDetailID  INTEGER        0       None   1
1    1        OrderID  INTEGER        0       None   0
2    2      ProductID  INTEGER        0       None   0
3    3       Quantity  INTEGER        0       None   0

In [None]:
query1 = '''
CREATE VIEW ShipRegion_mejor AS
SELECT o.OrderID, o.ShipRegion, 
FROM orders o, ;
'''


c.execute(query1)


#sql_query(query)

### **2. Análisis de Desempeño de Productos**
Analiza el desempeño de los productos de la empresa. Examina las ventas de productos por categoría, identificando los productos más vendidos y los menos vendidos. 

Pista: Utiliza gráficos de barras y de tarta para visualizar la participación de mercado de cada categoría y los ingresos generados por los productos individuales.

### **3. Análisis de Rentabilidad de Clientes**
Analiza la rentabilidad de los clientes de la empresa. Examina los ingresos generados por cada cliente, así como los costos asociados con el servicio o producto proporcionado. 

Pista: Utiliza gráficos de dispersión y tablas dinámicas para identificar los clientes más rentables y aquellos que requieren mayor atención.

### **4. Análisis de Inventarios y Proveedores**
Analiza los niveles de inventario y la gestión de proveedores de la empresa. Examina el inventario disponible por categoría de productos, así como el rendimiento de los proveedores en términos de puntualidad de entrega y calidad de los productos. 

Pista: Utiliza gráficos de líneas y tablas dinámicas para mostrar tendencias y comparar el desempeño de los proveedores.


### **5. Análisis de Comportamiento de Empleados**
Analiza el comportamiento de los empleados de la empresa. Examina las ventas realizadas por cada empleado, así como su eficiencia en el manejo de pedidos y su puntualidad en la entrega de productos. 

Pista: Utiliza gráficos de barra y de dispersión para comparar el desempeño de los empleados y identificar áreas de mejora.