# Actividad de Aprendizaje 1 - Base de Datos Analítica

## Objetivo
Aplicar los conceptos de la Unidad 1 para formular una problemática real que requiera una base de datos analítica, diseñar el modelo entidad–relación, crear la base de datos, insertar información y documentar el proceso.

---

## Sección 1: Problema y Dataset (Kaggle)


### 1.1 Planteamiento del Problema

**Problemática:** Análisis de transacciones de retail online para optimización de ventas y estrategias de negocio

**¿Qué?** 
Necesitamos analizar las transacciones de ventas de un negocio de retail online para identificar patrones de compra, comportamiento de clientes, productos más vendidos, y tendencias temporales.

**¿Para quién?**
- **Gerentes de ventas:** Para identificar productos estrella y oportunidades de crecimiento
- **Equipo de marketing:** Para segmentar clientes y diseñar campañas personalizadas
- **Analistas de negocio:** Para predecir demanda y optimizar inventario
- **Ejecutivos:** Para tomar decisiones estratégicas basadas en datos

**¿Por qué requiere analítica?**
- **Análisis de comportamiento del cliente:** Identificar clientes de alto valor, patrones de compra recurrentes y segmentación
- **Optimización de inventario:** Predecir demanda de productos y evitar stockouts o sobreinventario
- **Análisis de rentabilidad:** Calcular ingresos por producto, cliente y región para optimizar estrategias
- **Detección de tendencias:** Identificar productos en crecimiento o declive, estacionalidad
- **Análisis geográfico:** Entender diferencias de comportamiento por país/región
- **Prevención de fraude:** Detectar transacciones anómalas o patrones sospechosos

Esta problemática requiere una **base de datos analítica** porque necesitamos:
- Almacenar grandes volúmenes de transacciones históricas
- Realizar consultas complejas que crucen múltiples dimensiones (tiempo, producto, cliente, geografía)
- Agregar datos para análisis de tendencias y métricas de negocio
- Mantener integridad referencial entre entidades relacionadas


### 1.2 Dataset Seleccionado

**Dataset:** Online Retail Transactions Dataset

**Enlace:** https://www.kaggle.com/datasets/abhishekrp1517/online-retail-transactions-dataset

**Justificación de la selección:**
Este dataset es ideal para nuestra problemática porque:
- Contiene transacciones reales de un negocio de retail online
- Incluye información completa de facturas, productos, clientes y ubicaciones
- Tiene un volumen significativo de datos (más de 500,000 registros) que permite análisis robustos
- Contiene variables temporales que permiten análisis de tendencias
- Incluye información de clientes que permite análisis de comportamiento
- Tiene datos geográficos para análisis por región/país
- Es un dataset limpio y bien estructurado que facilita el modelado de base de datos

El dataset se relaciona directamente con nuestra problemática ya que contiene todas las dimensiones necesarias para realizar análisis de ventas, comportamiento de clientes, productos y geografía.


### 1.3 Descripción de Variables Relevantes

A continuación se describen las variables del dataset y su utilidad para nuestro caso de uso:

**Variables del Dataset:**

1. **InvoiceNo** (Número de Factura)
   - **Tipo:** Categórica (Identificador)
   - **Descripción:** Número único que identifica cada transacción/factura
   - **Utilidad:** Permite agrupar productos comprados en la misma transacción, calcular totales por factura y analizar el comportamiento de compra por transacción

2. **StockCode** (Código de Producto)
   - **Tipo:** Categórica (Identificador)
   - **Descripción:** Código único que identifica cada producto en el catálogo
   - **Utilidad:** Permite identificar productos individuales, realizar análisis de productos más vendidos, seguimiento de inventario y análisis de rendimiento por producto

3. **Description** (Descripción del Producto)
   - **Tipo:** Texto
   - **Descripción:** Nombre descriptivo del producto
   - **Utilidad:** Proporciona información contextual sobre los productos, útil para análisis de categorías, búsquedas y comprensión del catálogo

4. **Quantity** (Cantidad)
   - **Tipo:** Numérica (Entera)
   - **Descripción:** Cantidad de unidades del producto vendidas en la transacción
   - **Utilidad:** Permite calcular el volumen de ventas, analizar el tamaño promedio de pedidos, identificar patrones de compra y detectar transacciones anómalas

5. **InvoiceDate** (Fecha de Factura)
   - **Tipo:** Fecha/Hora
   - **Descripción:** Fecha y hora exacta en que se realizó la transacción
   - **Utilidad:** Fundamental para análisis temporal como tendencias de ventas, estacionalidad, horarios pico de compra, análisis de cohortes y predicción de demanda

6. **UnitPrice** (Precio Unitario)
   - **Tipo:** Numérica (Decimal)
   - **Descripción:** Precio de una unidad del producto en libras esterlinas (£)
   - **Utilidad:** Permite calcular ingresos totales (Quantity × UnitPrice), analizar estrategias de precios, calcular márgenes de ganancia y realizar análisis de rentabilidad

7. **CustomerID** (ID del Cliente)
   - **Tipo:** Categórica (Identificador)
   - **Descripción:** Identificador único de cada cliente
   - **Utilidad:** Esencial para análisis de comportamiento del cliente, segmentación de clientes, cálculo del valor de vida del cliente (CLV), identificación de clientes de alto valor y análisis de retención

8. **Country** (País)
   - **Tipo:** Categórica
   - **Descripción:** País donde se registró la transacción
   - **Utilidad:** Permite análisis geográfico, identificación de mercados clave, personalización de estrategias por región y comprensión de diferencias culturales en patrones de compra


---

## Sección 2: Modelo Entidad-Relación (ERD)


### 2.1 Diseño del Modelo ER

El modelo entidad-relación se ha diseñado siguiendo un esquema de estrella (star schema) típico para bases de datos analíticas, con tablas de dimensiones y una tabla de hechos.

**Estructura del modelo:**
- **1 Tabla de Dimensión Temporal (Dim_Tiempo)**: Para análisis temporal y agregaciones por fecha
- **1 Tabla de Dimensión de Productos (Dim_Productos)**: Información maestra de productos
- **1 Tabla de Hechos de Transacciones (Fact_Transacciones)**: Registro de todas las transacciones de venta


### 2.2 Diagrama Entidad-Relación

A continuación se muestra el diagrama entidad-relación del modelo de base de datos analítica:

![Diagrama Entidad-Relación](bigdata/static/img/ERD.png)



### 2.3 Descripción del Modelo ER

#### **Tabla 1: Dim_Tiempo (Dimensión Temporal)**

**Propósito:** Tabla de dimensión temporal que permite análisis por diferentes niveles de agregación temporal (año, mes, trimestre, día).

**Clave Primaria:** `fecha_id` (INTEGER) - Identificador único de cada fecha

**Atributos:**
- `fecha` (DATE): Fecha completa en formato estándar
- `año` (INTEGER): Año de la transacción (ej: 2010, 2011)
- `mes` (INTEGER): Mes del año (1-12)
- `dia` (INTEGER): Día del mes (1-31)
- `trimestre` (INTEGER): Trimestre del año (1-4)
- `año_mes` (INTEGER): Año y mes combinados para facilitar agrupaciones (ej: 201012)
- `dia_semana` (VARCHAR): Nombre del día de la semana (Lunes, Martes, etc.)
- `es_fin_semana` (INTEGER): Indicador binario (0=No, 1=Sí) para análisis de fin de semana

**Cardinalidad con Fact_Transacciones:** Uno a Muchos (1:N)
- Una fecha puede tener múltiples transacciones
- Cada transacción tiene una única fecha

---

#### **Tabla 2: Dim_Productos (Dimensión de Productos)**

**Propósito:** Tabla de dimensión que almacena información maestra de los productos del catálogo.

**Clave Primaria:** `stock_code` (VARCHAR) - Código único del producto

**Atributos:**
- `description` (VARCHAR): Descripción completa del producto
- `unit_price` (DECIMAL): Precio unitario estándar del producto (puede variar en transacciones específicas)

**Cardinalidad con Fact_Transacciones:** Uno a Muchos (1:N)
- Un producto puede aparecer en múltiples transacciones
- Cada transacción referencia un único producto

---

#### **Tabla 3: Fact_Transacciones (Tabla de Hechos)**

**Propósito:** Tabla de hechos que registra todas las transacciones de venta. Esta es la tabla central del modelo analítico.

**Clave Primaria:** `transaccion_id` (INTEGER, AUTO_INCREMENT) - Identificador único de cada registro de transacción

**Claves Foráneas:**
- `stock_code` (VARCHAR) → Referencia a `Dim_Productos.stock_code`
- `fecha_id` (INTEGER) → Referencia a `Dim_Tiempo.fecha_id`

**Atributos:**
- `invoice_no` (VARCHAR): Número de factura/transacción (puede repetirse si una factura tiene múltiples productos)
- `customer_id` (INTEGER): Identificador del cliente que realizó la compra
- `country` (VARCHAR): País donde se registró la transacción
- `quantity` (INTEGER): Cantidad de unidades vendidas
- `unit_price` (DECIMAL): Precio unitario en el momento de la transacción (puede diferir del precio estándar)
- `total_linea` (DECIMAL): Total calculado de la línea (quantity × unit_price)

**Cardinalidades:**
- Con `Dim_Tiempo`: Muchos a Uno (N:1) - Muchas transacciones pueden ocurrir en la misma fecha
- Con `Dim_Productos`: Muchos a Uno (N:1) - El mismo producto puede venderse en múltiples transacciones

---

#### **Relaciones del Modelo:**

1. **Dim_Tiempo ↔ Fact_Transacciones**
   - **Tipo:** Uno a Muchos (1:N)
   - **Descripción:** Cada transacción ocurre en una fecha específica, pero una fecha puede tener múltiples transacciones
   - **Clave Foránea:** `Fact_Transacciones.fecha_id` → `Dim_Tiempo.fecha_id`

2. **Dim_Productos ↔ Fact_Transacciones**
   - **Tipo:** Uno a Muchos (1:N)
   - **Descripción:** Cada transacción involucra un producto específico, pero un producto puede aparecer en múltiples transacciones
   - **Clave Foránea:** `Fact_Transacciones.stock_code` → `Dim_Productos.stock_code`


---

## Sección 3: Creación de Base de Datos e Inserción de Información


### 3.1 Instalación de Dependencias

Primero instalamos las librerías necesarias para trabajar con la base de datos:


In [1]:
# Instalar pandas y sqlalchemy si no están instalados
import sys
import subprocess

def install_package(package):
    try:
        __import__(package)
        print(f"{package} ya está instalado")
    except ImportError:
        print(f"Instalando {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"{package} instalado correctamente")

install_package("pandas")
install_package("sqlalchemy")


pandas ya está instalado
sqlalchemy ya está instalado


### 3.2 Importación de Librerías y Configuración

Importamos las librerías necesarias y creamos la conexión a la base de datos SQLite. La base de datos se guardará en un archivo dentro de `static/database`:


In [2]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from pathlib import Path
import os

# Crear directorio para la base de datos si no existe
db_dir = Path('bigdata/static/database')
db_dir.mkdir(parents=True, exist_ok=True)

# Ruta completa de la base de datos
db_path = db_dir / 'retail_analytics.db'

# Crear engine de SQLite apuntando al archivo
engine = create_engine(f'sqlite:///{db_path}', echo=False)

print("=" * 60)
print("BASE DE DATOS SQLITE CREADA")
print("=" * 60)
print("Engine SQLAlchemy configurado")
print("=" * 60)


BASE DE DATOS SQLITE CREADA
Engine SQLAlchemy configurado


In [3]:
# Cargar el dataset CSV
csv_path = Path('bigdata/static/csv/Online Retail.csv')

print("=" * 60)
print("CARGANDO DATASET CSV")
print("=" * 60)

df = pd.read_csv(csv_path, encoding='latin-1')

print(f"Dataset cargado: {len(df):,} registros")
print(f"Columnas: {list(df.columns)}")
print(f"\nPrimeras 3 filas del dataset:")
df.head(3)


CARGANDO DATASET CSV
Dataset cargado: 541,909 registros
Columnas: ['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'UnitPrice', 'CustomerID', 'Country']

Primeras 3 filas del dataset:


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,United Kingdom


In [4]:
# Limpiar datos
print("=" * 60)
print("LIMPIEZA Y PROCESAMIENTO DE DATOS")
print("=" * 60)

# Eliminar filas con valores nulos críticos
df_clean = df.dropna(subset=['InvoiceNo', 'StockCode'])
print(f"Registros después de eliminar nulos en InvoiceNo/StockCode: {len(df_clean):,}")

# Convertir InvoiceDate a datetime
df_clean['InvoiceDate'] = pd.to_datetime(df_clean['InvoiceDate'], errors='coerce')

# Eliminar filas donde InvoiceDate no se pudo convertir
df_clean = df_clean.dropna(subset=['InvoiceDate'])
print(f"Registros finales válidos: {len(df_clean):,}")

# Convertir tipos de datos
df_clean['Quantity'] = pd.to_numeric(df_clean['Quantity'], errors='coerce')
df_clean['UnitPrice'] = pd.to_numeric(df_clean['UnitPrice'], errors='coerce')

# Eliminar filas con Quantity o UnitPrice inválidos
df_clean = df_clean.dropna(subset=['Quantity', 'UnitPrice'])
print(f"Registros después de validar Quantity/UnitPrice: {len(df_clean):,}")

print("\nDatos limpiados y procesados")


LIMPIEZA Y PROCESAMIENTO DE DATOS
Registros después de eliminar nulos en InvoiceNo/StockCode: 541,909
Registros finales válidos: 541,909
Registros después de validar Quantity/UnitPrice: 541,909

Datos limpiados y procesados


In [5]:
# Extraer componentes de fecha
df_clean['fecha'] = df_clean['InvoiceDate'].dt.date
df_clean['año'] = df_clean['InvoiceDate'].dt.year
df_clean['mes'] = df_clean['InvoiceDate'].dt.month
df_clean['dia'] = df_clean['InvoiceDate'].dt.day
df_clean['trimestre'] = df_clean['InvoiceDate'].dt.quarter
df_clean['año_mes'] = df_clean['año'] * 100 + df_clean['mes']
df_clean['dia_semana'] = df_clean['InvoiceDate'].dt.day_name()
df_clean['es_fin_semana'] = (df_clean['InvoiceDate'].dt.dayofweek >= 5).astype(int)

# Crear DataFrame único de fechas para Dim_Tiempo
dim_tiempo_df = df_clean[['fecha', 'año', 'mes', 'dia', 'trimestre', 'año_mes', 'dia_semana', 'es_fin_semana']].drop_duplicates()
dim_tiempo_df = dim_tiempo_df.sort_values('fecha').reset_index(drop=True)

# Agregar fecha_id como índice (será la clave primaria)
dim_tiempo_df['fecha_id'] = range(1, len(dim_tiempo_df) + 1)

# Reordenar columnas: fecha_id primero
dim_tiempo_df = dim_tiempo_df[['fecha_id', 'fecha', 'año', 'mes', 'dia', 'trimestre', 'año_mes', 'dia_semana', 'es_fin_semana']]

print("=" * 60)
print("TABLA Dim_Tiempo CREADA")
print("=" * 60)
print(f"Registros únicos: {len(dim_tiempo_df):,}")
print(f"Rango: {dim_tiempo_df['fecha'].min()} a {dim_tiempo_df['fecha'].max()}")
print(f"\nPrimeras 5 filas:")
dim_tiempo_df.head()


TABLA Dim_Tiempo CREADA
Registros únicos: 305
Rango: 2010-12-01 a 2011-12-09

Primeras 5 filas:


Unnamed: 0,fecha_id,fecha,año,mes,dia,trimestre,año_mes,dia_semana,es_fin_semana
0,1,2010-12-01,2010,12,1,4,201012,Wednesday,0
1,2,2010-12-02,2010,12,2,4,201012,Thursday,0
2,3,2010-12-03,2010,12,3,4,201012,Friday,0
3,4,2010-12-05,2010,12,5,4,201012,Sunday,1
4,5,2010-12-06,2010,12,6,4,201012,Monday,0


In [6]:
# Crear la tabla Dim_Tiempo usando pandas to_sql
dim_tiempo_df.to_sql('Dim_Tiempo', engine, if_exists='replace', index=False)

print("Tabla Dim_Tiempo creada en la base de datos")


Tabla Dim_Tiempo creada en la base de datos


In [7]:
# Crear DataFrame único de productos
# Para cada producto, tomamos la descripción más común y el precio promedio
dim_productos_df = df_clean.groupby('StockCode').agg({
    'Description': lambda x: x.mode()[0] if len(x.mode()) > 0 else 'Sin descripción',
    'UnitPrice': 'mean'
}).reset_index()
dim_productos_df.columns = ['stock_code', 'description', 'unit_price']

# Limpiar descripciones
dim_productos_df['description'] = dim_productos_df['description'].str.strip()

# Redondear precio a 2 decimales
dim_productos_df['unit_price'] = dim_productos_df['unit_price'].round(2)

print("=" * 60)
print("TABLA Dim_Productos CREADA")
print("=" * 60)
print(f"Productos únicos: {len(dim_productos_df):,}")
print(f"\nPrimeras 5 filas:")
dim_productos_df.head()


TABLA Dim_Productos CREADA
Productos únicos: 4,070

Primeras 5 filas:


Unnamed: 0,stock_code,description,unit_price
0,10002,INFLATABLE POLITICAL GLOBE,1.06
1,10080,GROOVY CACTUS INFLATABLE,0.38
2,10120,DOGGY RUBBER,0.21
3,10123C,HEARTS WRAPPING TAPE,0.49
4,10123G,Sin descripción,0.0


In [8]:
# Crear la tabla Dim_Productos usando pandas to_sql
dim_productos_df.to_sql('Dim_Productos', engine, if_exists='replace', index=False)

print("Tabla Dim_Productos creada en la base de datos")


Tabla Dim_Productos creada en la base de datos


In [9]:
# Mapear fechas a fecha_id usando el DataFrame de Dim_Tiempo
fecha_map = dict(zip(dim_tiempo_df['fecha'], dim_tiempo_df['fecha_id']))
df_clean['fecha_id'] = df_clean['fecha'].map(fecha_map)

# Eliminar filas donde no se encontró fecha_id
df_clean = df_clean.dropna(subset=['fecha_id'])

# Calcular total_linea
df_clean['total_linea'] = df_clean['Quantity'] * df_clean['UnitPrice']

# Preparar DataFrame para Fact_Transacciones
fact_df = df_clean[[
    'InvoiceNo', 'StockCode', 'fecha_id', 'CustomerID', 
    'Country', 'Quantity', 'UnitPrice', 'total_linea'
]].copy()

fact_df.columns = ['invoice_no', 'stock_code', 'fecha_id', 'customer_id', 
                   'country', 'quantity', 'unit_price', 'total_linea']

# Convertir tipos de datos
fact_df['fecha_id'] = fact_df['fecha_id'].astype(int)
fact_df['customer_id'] = fact_df['customer_id'].fillna(0).astype(int)
fact_df['quantity'] = fact_df['quantity'].astype(int)
fact_df['unit_price'] = fact_df['unit_price'].round(2)
fact_df['total_linea'] = fact_df['total_linea'].round(2)

# Agregar transaccion_id como índice
fact_df['transaccion_id'] = range(1, len(fact_df) + 1)

# Reordenar columnas: transaccion_id primero
fact_df = fact_df[['transaccion_id', 'invoice_no', 'stock_code', 'fecha_id', 
                    'customer_id', 'country', 'quantity', 'unit_price', 'total_linea']]

print("=" * 60)
print("TABLA Fact_Transacciones PREPARADA")
print("=" * 60)
print(f"Registros preparados: {len(fact_df):,}")
print(f"\nPrimeras 3 filas:")
fact_df.head(3)


TABLA Fact_Transacciones PREPARADA
Registros preparados: 541,909

Primeras 3 filas:


Unnamed: 0,transaccion_id,invoice_no,stock_code,fecha_id,customer_id,country,quantity,unit_price,total_linea
0,1,536365,85123A,1,17850,United Kingdom,6,2.55,15.3
1,2,536365,71053,1,17850,United Kingdom,6,3.39,20.34
2,3,536365,84406B,1,17850,United Kingdom,8,2.75,22.0


In [10]:
# Crear la tabla Fact_Transacciones usando pandas to_sql
fact_df.to_sql('Fact_Transacciones', engine, if_exists='replace', index=False)

print("Tabla Fact_Transacciones creada en la base de datos")

Tabla Fact_Transacciones creada en la base de datos


In [11]:
# Resumen de registros por tabla
print("=" * 60)
print("RESUMEN DE REGISTROS POR TABLA")
print("=" * 60)

count_tiempo = pd.read_sql("SELECT COUNT(*) as total FROM Dim_Tiempo", engine)['total'][0]
count_productos = pd.read_sql("SELECT COUNT(*) as total FROM Dim_Productos", engine)['total'][0]
count_fact = pd.read_sql("SELECT COUNT(*) as total FROM Fact_Transacciones", engine)['total'][0]

print(f"\nDim_Tiempo: {count_tiempo:,} registros")
print(f"Dim_Productos: {count_productos:,} registros")
print(f"Fact_Transacciones: {count_fact:,} registros")
print("=" * 60)


RESUMEN DE REGISTROS POR TABLA

Dim_Tiempo: 305 registros
Dim_Productos: 4,070 registros
Fact_Transacciones: 541,909 registros


In [12]:
# Evidencia 1: Dim_Tiempo - SELECT * LIMIT 5
print("=" * 60)
print("EVIDENCIA 1: Dim_Tiempo (Primeras 5 filas)")
print("=" * 60)

df_tiempo = pd.read_sql("SELECT * FROM Dim_Tiempo LIMIT 5", engine)
display(df_tiempo)


EVIDENCIA 1: Dim_Tiempo (Primeras 5 filas)


Unnamed: 0,fecha_id,fecha,año,mes,dia,trimestre,año_mes,dia_semana,es_fin_semana
0,1,2010-12-01,2010,12,1,4,201012,Wednesday,0
1,2,2010-12-02,2010,12,2,4,201012,Thursday,0
2,3,2010-12-03,2010,12,3,4,201012,Friday,0
3,4,2010-12-05,2010,12,5,4,201012,Sunday,1
4,5,2010-12-06,2010,12,6,4,201012,Monday,0


In [None]:
# Dim_Productos - SELECT * LIMIT 5
print("=" * 60)
print("Dim_Productos (Primeras 5 filas)")
print("=" * 60)

df_productos = pd.read_sql("SELECT * FROM Dim_Productos LIMIT 5", engine)
display(df_productos)


EVIDENCIA 2: Dim_Productos (Primeras 5 filas)


Unnamed: 0,stock_code,description,unit_price
0,10002,INFLATABLE POLITICAL GLOBE,1.06
1,10080,GROOVY CACTUS INFLATABLE,0.38
2,10120,DOGGY RUBBER,0.21
3,10123C,HEARTS WRAPPING TAPE,0.49
4,10123G,Sin descripción,0.0


In [None]:
#  Fact_Transacciones - SELECT * LIMIT 5
print("=" * 60)
print("Fact_Transacciones (Primeras 5 filas)")
print("=" * 60)

df_fact = pd.read_sql("SELECT * FROM Fact_Transacciones LIMIT 5", engine)
display(df_fact)


EVIDENCIA 3: Fact_Transacciones (Primeras 5 filas)


Unnamed: 0,transaccion_id,invoice_no,stock_code,fecha_id,customer_id,country,quantity,unit_price,total_linea
0,1,536365,85123A,1,17850,United Kingdom,6,2.55,15.3
1,2,536365,71053,1,17850,United Kingdom,6,3.39,20.34
2,3,536365,84406B,1,17850,United Kingdom,8,2.75,22.0
3,4,536365,84029G,1,17850,United Kingdom,6,3.39,20.34
4,5,536365,84029E,1,17850,United Kingdom,6,3.39,20.34


In [None]:
print("\nBase de datos SQLite creada y poblada exitosamente")
print(f"Ubicacion: {db_path.absolute()}")


EVIDENCIA 4: Consulta con JOIN (Verificación de Relaciones)
Mostrando transacciones con información de producto y fecha:



Unnamed: 0,transaccion_id,invoice_no,producto,fecha,dia_semana,quantity,unit_price,total_linea,country
0,1,536365,WHITE HANGING HEART T-LIGHT HOLDER,2010-12-01,Wednesday,6,2.55,15.3,United Kingdom
1,2,536365,WHITE METAL LANTERN,2010-12-01,Wednesday,6,3.39,20.34,United Kingdom
2,3,536365,CREAM CUPID HEARTS COAT HANGER,2010-12-01,Wednesday,8,2.75,22.0,United Kingdom
3,4,536365,KNITTED UNION FLAG HOT WATER BOTTLE,2010-12-01,Wednesday,6,3.39,20.34,United Kingdom
4,5,536365,RED WOOLLY HOTTIE WHITE HEART.,2010-12-01,Wednesday,6,3.39,20.34,United Kingdom



Todas las evidencias mostradas correctamente
Base de datos SQLite creada y poblada exitosamente
Ubicacion: C:\Users\USUARIO\Documents\IU Digital\Semestre 6\Big Data\bigdata-2025-02\src\bigdata\static\database\retail_analytics.db


---

## Sección 4: Evidencia con Consultas SQL

En esta sección se ejecutan consultas SQL que evidencian la correcta creación y comprensión de la base de datos. Se incluyen consultas de conteo de registros, información de estructura de tablas y consultas con filtros.


### 4.1 Conteo de Registros por Tabla

La siguiente consulta muestra el número total de registros en cada tabla de la base de datos:


In [None]:
#  Conteo de registros en Dim_Tiempo
print("=" * 60)
print("Conteo de registros en Dim_Tiempo")
print("=" * 60)

query_count_tiempo = "SELECT COUNT(*) as total_registros FROM Dim_Tiempo"
result_tiempo = pd.read_sql(query_count_tiempo, engine)
display(result_tiempo)

print("\nInterpretación:")
print("Esta consulta cuenta el número total de fechas únicas almacenadas en la dimensión temporal.")
print(f"La tabla Dim_Tiempo contiene {result_tiempo['total_registros'][0]:,} registros únicos de fechas.")


CONSULTA 1: Conteo de registros en Dim_Tiempo


Unnamed: 0,total_registros
0,305



Interpretación:
Esta consulta cuenta el número total de fechas únicas almacenadas en la dimensión temporal.
La tabla Dim_Tiempo contiene 305 registros únicos de fechas.


In [None]:
#  Conteo de registros en Dim_Productos
print("=" * 60)
print("Conteo de registros en Dim_Productos")
print("=" * 60)

query_count_productos = "SELECT COUNT(*) as total_registros FROM Dim_Productos"
result_productos = pd.read_sql(query_count_productos, engine)
display(result_productos)

print("\nInterpretación:")
print("Esta consulta cuenta el número total de productos únicos en el catálogo.")
print(f"La tabla Dim_Productos contiene {result_productos['total_registros'][0]:,} productos únicos.")


CONSULTA 2: Conteo de registros en Dim_Productos


Unnamed: 0,total_registros
0,4070



Interpretación:
Esta consulta cuenta el número total de productos únicos en el catálogo.
La tabla Dim_Productos contiene 4,070 productos únicos.


In [None]:
# Conteo de registros en Fact_Transacciones
print("=" * 60)
print("Conteo de registros en Fact_Transacciones")
print("=" * 60)

query_count_fact = "SELECT COUNT(*) as total_registros FROM Fact_Transacciones"
result_fact = pd.read_sql(query_count_fact, engine)
display(result_fact)

print("\nInterpretación:")
print("Esta consulta cuenta el número total de transacciones registradas en la tabla de hechos.")
print(f"La tabla Fact_Transacciones contiene {result_fact['total_registros'][0]:,} transacciones individuales.")
print("Cada registro representa una línea de producto vendida en una transacción específica.")


CONSULTA 3: Conteo de registros en Fact_Transacciones


Unnamed: 0,total_registros
0,541909



Interpretación:
Esta consulta cuenta el número total de transacciones registradas en la tabla de hechos.
La tabla Fact_Transacciones contiene 541,909 transacciones individuales.
Cada registro representa una línea de producto vendida en una transacción específica.


### 4.2 Nombres y Tipos de Columnas

Las siguientes consultas muestran la estructura de cada tabla, incluyendo los nombres de las columnas y sus tipos de datos. Para SQLite utilizamos `PRAGMA table_info()`:


In [None]:
#  Estructura de la tabla Dim_Tiempo
print("=" * 60)
print("Estructura de Dim_Tiempo (Nombres y Tipos de Columnas)")
print("=" * 60)

query_structure_tiempo = "PRAGMA table_info(Dim_Tiempo)"
result_structure_tiempo = pd.read_sql(query_structure_tiempo, engine)
display(result_structure_tiempo)

print("\nInterpretación:")
print("Esta consulta muestra la estructura completa de la tabla Dim_Tiempo:")
print("- cid: Identificador de columna")
print("- name: Nombre de la columna")
print("- type: Tipo de dato de la columna")
print("- notnull: Indica si la columna permite valores NULL (0=permite, 1=no permite)")
print("- dflt_value: Valor por defecto de la columna")
print("- pk: Indica si es clave primaria (0=no, 1=sí)")
print(f"\nLa tabla tiene {len(result_structure_tiempo)} columnas definidas.")


CONSULTA 4: Estructura de Dim_Tiempo (Nombres y Tipos de Columnas)


Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,fecha_id,BIGINT,0,,0
1,1,fecha,DATE,0,,0
2,2,año,INTEGER,0,,0
3,3,mes,INTEGER,0,,0
4,4,dia,INTEGER,0,,0
5,5,trimestre,INTEGER,0,,0
6,6,año_mes,INTEGER,0,,0
7,7,dia_semana,TEXT,0,,0
8,8,es_fin_semana,BIGINT,0,,0



Interpretación:
Esta consulta muestra la estructura completa de la tabla Dim_Tiempo:
- cid: Identificador de columna
- name: Nombre de la columna
- type: Tipo de dato de la columna
- notnull: Indica si la columna permite valores NULL (0=permite, 1=no permite)
- dflt_value: Valor por defecto de la columna
- pk: Indica si es clave primaria (0=no, 1=sí)

La tabla tiene 9 columnas definidas.


In [None]:
#  Estructura de la tabla Dim_Productos
print("=" * 60)
print("Estructura de Dim_Productos (Nombres y Tipos de Columnas)")
print("=" * 60)

query_structure_productos = "PRAGMA table_info(Dim_Productos)"
result_structure_productos = pd.read_sql(query_structure_productos, engine)
display(result_structure_productos)

print("\nInterpretación:")
print("Esta consulta muestra la estructura de la tabla Dim_Productos.")
print("La columna 'stock_code' es la clave primaria (pk=1) y es de tipo VARCHAR.")
print(f"La tabla tiene {len(result_structure_productos)} columnas: stock_code (PK), description y unit_price.")


CONSULTA 5: Estructura de Dim_Productos (Nombres y Tipos de Columnas)


Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,stock_code,TEXT,0,,0
1,1,description,TEXT,0,,0
2,2,unit_price,FLOAT,0,,0



Interpretación:
Esta consulta muestra la estructura de la tabla Dim_Productos.
La columna 'stock_code' es la clave primaria (pk=1) y es de tipo VARCHAR.
La tabla tiene 3 columnas: stock_code (PK), description y unit_price.


In [None]:
# Estructura de la tabla Fact_Transacciones
print("=" * 60)
print("Estructura de Fact_Transacciones (Nombres y Tipos de Columnas)")
print("=" * 60)

query_structure_fact = "PRAGMA table_info(Fact_Transacciones)"
result_structure_fact = pd.read_sql(query_structure_fact, engine)
display(result_structure_fact)

print("\nInterpretación:")
print("Esta consulta muestra la estructura de la tabla Fact_Transacciones.")
print("La columna 'transaccion_id' es la clave primaria (pk=1) con auto-incremento.")
print("Las columnas 'stock_code' y 'fecha_id' son claves foráneas que referencian a las tablas de dimensiones.")
print(f"La tabla tiene {len(result_structure_fact)} columnas definidas.")


CONSULTA 6: Estructura de Fact_Transacciones (Nombres y Tipos de Columnas)


Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,transaccion_id,BIGINT,0,,0
1,1,invoice_no,TEXT,0,,0
2,2,stock_code,TEXT,0,,0
3,3,fecha_id,BIGINT,0,,0
4,4,customer_id,BIGINT,0,,0
5,5,country,TEXT,0,,0
6,6,quantity,BIGINT,0,,0
7,7,unit_price,FLOAT,0,,0
8,8,total_linea,FLOAT,0,,0



Interpretación:
Esta consulta muestra la estructura de la tabla Fact_Transacciones.
La columna 'transaccion_id' es la clave primaria (pk=1) con auto-incremento.
Las columnas 'stock_code' y 'fecha_id' son claves foráneas que referencian a las tablas de dimensiones.
La tabla tiene 9 columnas definidas.


### 4.3 Consultas con Filtros

Las siguientes consultas utilizan la cláusula WHERE para filtrar datos según criterios específicos:


In [None]:
#  Filtrar transacciones por país
print("=" * 60)
print("Transacciones filtradas por país (United Kingdom)")
print("=" * 60)

query_filter_country = """
SELECT * 
FROM Fact_Transacciones 
WHERE country = 'United Kingdom'
LIMIT 10
"""

result_filter_country = pd.read_sql(query_filter_country, engine)
display(result_filter_country)

print("\nInterpretación:")
print("Esta consulta filtra las transacciones donde el país es 'United Kingdom'.")
print(f"Se muestran las primeras 10 transacciones de un total que puede obtenerse con COUNT(*).")
print("Este tipo de consulta es útil para analizar el comportamiento de ventas por región geográfica.")


CONSULTA 7: Transacciones filtradas por país (United Kingdom)


Unnamed: 0,transaccion_id,invoice_no,stock_code,fecha_id,customer_id,country,quantity,unit_price,total_linea
0,1,536365,85123A,1,17850,United Kingdom,6,2.55,15.3
1,2,536365,71053,1,17850,United Kingdom,6,3.39,20.34
2,3,536365,84406B,1,17850,United Kingdom,8,2.75,22.0
3,4,536365,84029G,1,17850,United Kingdom,6,3.39,20.34
4,5,536365,84029E,1,17850,United Kingdom,6,3.39,20.34
5,6,536365,22752,1,17850,United Kingdom,2,7.65,15.3
6,7,536365,21730,1,17850,United Kingdom,6,4.25,25.5
7,8,536366,22633,1,17850,United Kingdom,6,1.85,11.1
8,9,536366,22632,1,17850,United Kingdom,6,1.85,11.1
9,10,536367,84879,1,13047,United Kingdom,32,1.69,54.08



Interpretación:
Esta consulta filtra las transacciones donde el país es 'United Kingdom'.
Se muestran las primeras 10 transacciones de un total que puede obtenerse con COUNT(*).
Este tipo de consulta es útil para analizar el comportamiento de ventas por región geográfica.


In [None]:
#  Filtrar productos por precio
print("=" * 60)
print("Productos filtrados por precio unitario mayor a 10")
print("=" * 60)

query_filter_price = """
SELECT * 
FROM Dim_Productos 
WHERE unit_price > 10
ORDER BY unit_price DESC
LIMIT 10
"""

result_filter_price = pd.read_sql(query_filter_price, engine)
display(result_filter_price)

print("\nInterpretación:")
print("Esta consulta filtra los productos cuyo precio unitario es mayor a 10 libras esterlinas.")
print("Los resultados están ordenados de mayor a menor precio (ORDER BY unit_price DESC).")
print("Esta consulta permite identificar los productos de mayor valor en el catálogo.")


CONSULTA 8: Productos filtrados por precio unitario mayor a 10


Unnamed: 0,stock_code,description,unit_price
0,AMAZONFEE,AMAZON FEE,7324.78
1,CRUK,CRUK Commission,495.84
2,M,Manual,375.57
3,DOT,DOTCOM POSTAGE,290.5
4,BANK CHARGES,Bank Charges,202.86
5,22828,REGENCY MIRROR WITH SHUTTERS,156.43
6,22655,VINTAGE RED KITCHEN CABINET,147.46
7,22827,RUSTIC SEVENTEEN DRAWER SIDEBOARD,145.97
8,22656,VINTAGE BLUE KITCHEN CABINET,138.33
9,22826,LOVE SEAT ANTIQUE WHITE METAL,115.39



Interpretación:
Esta consulta filtra los productos cuyo precio unitario es mayor a 10 libras esterlinas.
Los resultados están ordenados de mayor a menor precio (ORDER BY unit_price DESC).
Esta consulta permite identificar los productos de mayor valor en el catálogo.


In [None]:
#  Filtrar transacciones por fecha específica
print("=" * 60)
print("Transacciones filtradas por fecha (2010-12-01)")
print("=" * 60)

query_filter_date = """
SELECT ft.*, dt.fecha, dt.dia_semana
FROM Fact_Transacciones ft
INNER JOIN Dim_Tiempo dt ON ft.fecha_id = dt.fecha_id
WHERE dt.fecha = '2010-12-01'
LIMIT 10
"""

result_filter_date = pd.read_sql(query_filter_date, engine)
display(result_filter_date)

print("\nInterpretación:")
print("Esta consulta filtra las transacciones que ocurrieron en una fecha específica (2010-12-01).")
print("Utiliza un JOIN con la tabla Dim_Tiempo para acceder a la información de fecha.")
print("Este tipo de consulta es útil para analizar el comportamiento de ventas en días específicos.")


CONSULTA 9: Transacciones filtradas por fecha (2010-12-01)


Unnamed: 0,transaccion_id,invoice_no,stock_code,fecha_id,customer_id,country,quantity,unit_price,total_linea,fecha,dia_semana
0,1,536365,85123A,1,17850,United Kingdom,6,2.55,15.3,2010-12-01,Wednesday
1,2,536365,71053,1,17850,United Kingdom,6,3.39,20.34,2010-12-01,Wednesday
2,3,536365,84406B,1,17850,United Kingdom,8,2.75,22.0,2010-12-01,Wednesday
3,4,536365,84029G,1,17850,United Kingdom,6,3.39,20.34,2010-12-01,Wednesday
4,5,536365,84029E,1,17850,United Kingdom,6,3.39,20.34,2010-12-01,Wednesday
5,6,536365,22752,1,17850,United Kingdom,2,7.65,15.3,2010-12-01,Wednesday
6,7,536365,21730,1,17850,United Kingdom,6,4.25,25.5,2010-12-01,Wednesday
7,8,536366,22633,1,17850,United Kingdom,6,1.85,11.1,2010-12-01,Wednesday
8,9,536366,22632,1,17850,United Kingdom,6,1.85,11.1,2010-12-01,Wednesday
9,10,536367,84879,1,13047,United Kingdom,32,1.69,54.08,2010-12-01,Wednesday



Interpretación:
Esta consulta filtra las transacciones que ocurrieron en una fecha específica (2010-12-01).
Utiliza un JOIN con la tabla Dim_Tiempo para acceder a la información de fecha.
Este tipo de consulta es útil para analizar el comportamiento de ventas en días específicos.


In [None]:
#  Filtrar transacciones por cantidad mínima
print("=" * 60)
print("Transacciones filtradas por cantidad mayor a 50 unidades")
print("=" * 60)

query_filter_quantity = """
SELECT * 
FROM Fact_Transacciones 
WHERE quantity > 50
ORDER BY quantity DESC
LIMIT 10
"""

result_filter_quantity = pd.read_sql(query_filter_quantity, engine)
display(result_filter_quantity)

print("\nInterpretación:")
print("Esta consulta filtra las transacciones donde se vendieron más de 50 unidades del producto.")
print("Los resultados están ordenados de mayor a menor cantidad.")
print("Esta consulta permite identificar pedidos de gran volumen, útiles para análisis de clientes mayoristas.")


CONSULTA 10: Transacciones filtradas por cantidad mayor a 50 unidades


Unnamed: 0,transaccion_id,invoice_no,stock_code,fecha_id,customer_id,country,quantity,unit_price,total_linea
0,540422,581483,23843,305,16446,United Kingdom,80995,2.08,168469.6
1,61620,541431,23166,33,12346,United Kingdom,74215,1.04,77183.6
2,502123,578841,84826,293,13256,United Kingdom,12540,0.0,0.0
3,74615,542504,37413,42,15287,United Kingdom,5568,0.0,0.0
4,421633,573008,84077,268,12901,United Kingdom,4800,0.21,1008.0
5,206122,554868,22197,139,13135,United Kingdom,4300,0.72,3096.0
6,220844,556231,85123A,149,15287,United Kingdom,4000,0.0,0.0
7,97433,544612,22053,63,18087,United Kingdom,3906,0.82,3202.92
8,270886,560599,18007,183,14609,United Kingdom,3186,0.06,191.16
9,52712,540815,21108,27,15749,United Kingdom,3114,2.1,6539.4



Interpretación:
Esta consulta filtra las transacciones donde se vendieron más de 50 unidades del producto.
Los resultados están ordenados de mayor a menor cantidad.
Esta consulta permite identificar pedidos de gran volumen, útiles para análisis de clientes mayoristas.


### 4.4 Resumen de Evidencias

Se han ejecutado exitosamente las siguientes consultas SQL que evidencian la correcta creación y funcionamiento de la base de datos:

**Consultas de Conteo:**
- Conteo de registros en Dim_Tiempo
- Conteo de registros en Dim_Productos  
- Conteo de registros en Fact_Transacciones

**Consultas de Estructura:**
- Estructura de Dim_Tiempo (PRAGMA table_info)
- Estructura de Dim_Productos (PRAGMA table_info)
- Estructura de Fact_Transacciones (PRAGMA table_info)

**Consultas con Filtros:**
- Filtro por país (United Kingdom)
- Filtro por precio unitario (> 10)
- Filtro por fecha específica (2010-12-01)
- Filtro por cantidad (> 50 unidades)

Todas las consultas se ejecutaron correctamente, confirmando que:
- Las tablas fueron creadas con la estructura correcta
- Los datos fueron insertados exitosamente
- Las relaciones entre tablas funcionan correctamente
- Las consultas SQL pueden filtrar y analizar los datos según diferentes criterios
