# **Fundamentos de Data Warehousing**

En este notebook, exploraremos los conceptos básicos de un Data Warehouse (almacén de datos). Un Data Warehouse es un sistema de almacenamiento de datos diseñado para el análisis y la generación de reportes, que permite la consolidación de datos de diversas fuentes.

## **1. Configuración del Entorno**

Simularemos un esquema de Data Warehouse utilizando una base de datos SQLite en memoria para crear y manipular tablas de hecho y dimensiones.

In [1]:
import sqlite3
import pandas as pd

# Crear una conexión a la base de datos en memoria
conn = sqlite3.connect(':memory:')

## **2. Creación de Tablas Dimensionales**

En un Data Warehouse, una **tabla de dimensión** contiene atributos descriptivos que proporcionan contexto a los datos numéricos. A continuación, crearemos dos tablas de dimensiones: `dim_customers` y `dim_products`.

In [2]:
# Crear tabla de dimensión 'dim_customers' y agregar datos de ejemplo
cursor = conn.cursor()
cursor.execute('''
CREATE TABLE dim_customers (
    customer_id INTEGER PRIMARY KEY,
    customer_name TEXT,
    region TEXT
)
''')

customers_data = [
    (1, 'Alice', 'North'),
    (2, 'Bob', 'South'),
    (3, 'Charlie', 'East')
]

cursor.executemany('INSERT INTO dim_customers VALUES (?, ?, ?)', customers_data)
conn.commit()

In [3]:
# Crear tabla de dimensión 'dim_products' y agregar datos de ejemplo
cursor.execute('''
CREATE TABLE dim_products (
    product_id INTEGER PRIMARY KEY,
    product_name TEXT,
    category TEXT
)
''')

products_data = [
    (1, 'Laptop', 'Electronics'),
    (2, 'Desk', 'Furniture'),
    (3, 'Chair', 'Furniture')
]

cursor.executemany('INSERT INTO dim_products VALUES (?, ?, ?)', products_data)
conn.commit()

## **3. Creación de una Tabla de Hechos**

Una **tabla de hechos** contiene datos numéricos (medidas) y claves de referencia a las tablas de dimensiones. Crearemos una tabla de hechos llamada `fact_sales` para registrar transacciones de ventas.

In [4]:
# Crear la tabla de hechos 'fact_sales' y agregar datos de ejemplo
cursor.execute('''
CREATE TABLE fact_sales (
    sale_id INTEGER PRIMARY KEY,
    date TEXT,
    customer_id INTEGER,
    product_id INTEGER,
    amount REAL,
    FOREIGN KEY (customer_id) REFERENCES dim_customers(customer_id),
    FOREIGN KEY (product_id) REFERENCES dim_products(product_id)
)
''')

sales_data = [
    (1, '2023-01-01', 1, 1, 1200.50),
    (2, '2023-01-05', 2, 2, 350.00),
    (3, '2023-01-10', 3, 3, 200.00),
    (4, '2023-01-15', 1, 3, 150.75)
]

cursor.executemany('INSERT INTO fact_sales VALUES (?, ?, ?, ?, ?)', sales_data)
conn.commit()

## **4. Consultas en el Data Warehouse**

Ahora que hemos creado un esquema de Data Warehouse básico con tablas de dimensión y de hechos, podemos realizar consultas para obtener información útil. 

### a. Consulta de Ventas por Cliente

Consultemos las ventas totales realizadas por cada cliente.

In [5]:
# Consulta de ventas totales por cliente
query = '''
SELECT dim_customers.customer_name, SUM(fact_sales.amount) AS total_sales
FROM fact_sales
JOIN dim_customers ON fact_sales.customer_id = dim_customers.customer_id
GROUP BY dim_customers.customer_name
'''
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,customer_name,total_sales
0,Alice,1351.25
1,Bob,350.0
2,Charlie,200.0


### b. Consulta de Ventas por Categoría de Producto

Podemos analizar las ventas por categoría de producto para ver cuáles son las más vendidas.

In [6]:
# Consulta de ventas totales por categoría de producto
query = '''
SELECT dim_products.category, SUM(fact_sales.amount) AS total_sales
FROM fact_sales
JOIN dim_products ON fact_sales.product_id = dim_products.product_id
GROUP BY dim_products.category
'''
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,category,total_sales
0,Electronics,1200.5
1,Furniture,700.75


### c. Consulta de Ventas por Fecha

Finalmente, podemos analizar las ventas por fecha para ver cómo varían las ventas a lo largo del tiempo.

In [7]:
# Consulta de ventas totales por fecha
query = '''
SELECT date, SUM(amount) AS total_sales
FROM fact_sales
GROUP BY date
ORDER BY date
'''
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,date,total_sales
0,2023-01-01,1200.5
1,2023-01-05,350.0
2,2023-01-10,200.0
3,2023-01-15,150.75
