## Parte 1: Validaci√≥n de Datos
1.1 An√°lisis Exploratorio Inicial


In [0]:
%sql

SHOW TABLES IN workspace.operations;


##a) Conteo de registros por tabla

- ¬øCu√°ntas transacciones hay en total? 

In [0]:
%sql
-- 1. Transacciones totales
SELECT COUNT(*) AS total_transacciones
FROM workspace.operations.gold_fact_sales_product;

- ¬øCu√°ntos productos activos existen? 

In [0]:
%sql
-- 2. Productos activos
SELECT COUNT(*) AS productos_activos
FROM workspace.operations.gold_dim_product
WHERE STATUS = 'A';


- ¬øCu√°ntas tiendas activas hay? 

In [0]:
%sql
-- 3. Tiendas activas
SELECT COUNT(*) AS tiendas_activas
FROM workspace.operations.gold_dim_organization
WHERE STORE_ACTIVE = 'Y';

- ¬øCu√°ntos proveedores activos?


In [0]:
%sql
-- 4. Proveedores activos
SELECT COUNT(*) AS proveedores_activos
FROM workspace.operations.gold_dim_supplier
WHERE SUP_STATUS = 'A';


##b) Validaci√≥n de rango de fechas

In [0]:
%sql
-- Rango de fechas en la tabla de ventas
SELECT 
    MIN(BUSINESS_DATE) AS fecha_minima,
    MAX(BUSINESS_DATE) AS fecha_maxima
FROM workspace.operations.gold_fact_sales_product;


## c) Validaci√≥n de integridad referencial
- Se identifica cu√°ntos registros en la tabla de hechos no tienen correspondencia en la tabla de dimensi√≥n asociada, usando LEFT JOIN y filtrando los registros donde la dimensi√≥n es NULL.
- Esto permite detectar violaciones de integridad referencial que podr√≠an afectar an√°lisis posteriores.


In [0]:
%sql
-- Verificar integridad SK_PRODUCT
SELECT COUNT(*) AS registros_sin_producto
FROM workspace.operations.gold_fact_sales_product f
LEFT JOIN workspace.operations.gold_dim_product p
ON f.SK_PRODUCT = p.SK_PRODUCT
WHERE p.SK_PRODUCT IS NULL;


In [0]:
%sql
-- Verificar integridad SK_ORGANIZATION
SELECT COUNT(*) AS registros_sin_tienda
FROM workspace.operations.gold_fact_sales_product f
LEFT JOIN workspace.operations.gold_dim_organization o
ON f.SK_ORGANIZATION = o.SK_ORGANIZATION
WHERE o.SK_ORGANIZATION IS NULL;

In [0]:
%sql
-- Verificar integridad SK_SUPPLIER
SELECT COUNT(*) AS registros_sin_proveedor
FROM workspace.operations.gold_fact_sales_product f
LEFT JOIN workspace.operations.gold_dim_supplier s
ON f.SK_SUPPLIER = s.SK_SUPPLIER
WHERE s.SK_SUPPLIER IS NULL;

In [0]:
%sql
-- Verificar integridad SK_CHANNEL
SELECT COUNT(*) AS registros_sin_canal
FROM workspace.operations.gold_fact_sales_product f
LEFT JOIN workspace.operations.gold_dim_channel c
ON f.SK_CHANNEL = c.SK_CHANNEL
WHERE c.SK_CHANNEL IS NULL;


In [0]:
%sql
-- Verificar integridad SK_CURRENCY
SELECT COUNT(*) AS registros_sin_moneda
FROM workspace.operations.gold_fact_sales_product f
LEFT JOIN workspace.operations.gold_dim_currency cur
ON f.SK_CURRENCY = cur.SK_CURRENCY
WHERE cur.SK_CURRENCY IS NULL;

## d) Validaci√≥n de valores nulos y negativos


- Ventas nulas
- Ventas negativas
- Unidades nulas o negativas

In [0]:
%sql
-- Ventas nulas
SELECT COUNT(*) AS ventas_nulas
FROM workspace.operations.gold_fact_sales_product
WHERE TOTAL_SALE IS NULL;

In [0]:
%sql
-- Ventas negativas
SELECT COUNT(*) AS ventas_negativas
FROM workspace.operations.gold_fact_sales_product
WHERE TOTAL_SALE < 0;

In [0]:
%sql
-- Unidades inv√°lidas
SELECT COUNT(*) AS unidades_invalidas
FROM workspace.operations.gold_fact_sales_product
WHERE UNITS IS NULL OR UNITS <= 0;


In [0]:
%sql
-- Validamos tambien que las unidades sean numeros enteros
SELECT *
FROM workspace.operations.gold_fact_sales_product
WHERE UNITS % 1 <> 0

## e) Validaci√≥n de consistencia de c√°lculos



In [0]:
%sql
-- Validar TOTAL_SALE + TAX = TOTAL_SALE_TAX
SELECT COUNT(*) AS inconsistencias_total
FROM workspace.operations.gold_fact_sales_product
WHERE TOTAL_SALE + TAX <> TOTAL_SALE_TAX;


##Validaciones adicionales

1. **Detecta m√°rgenes negativos (costo > total), se√±alando posibles inconsistencias en el registro o transacciones a p√©rdida.**

In [0]:
%sql
SELECT COUNT(*) 
FROM workspace.operations.gold_fact_sales_product
WHERE TOTAL_SALE - TOTAL_COST < 0;


**2. Valida que el impuesto (IVA 16%) guarde la proporci√≥n correcta respecto al total de la venta para asegurar la integridad de los datos**

In [0]:
%sql
SELECT COUNT(*) 
FROM workspace.operations.gold_fact_sales_product
WHERE ROUND(TAX,2) <> ROUND(TOTAL_SALE*0.16,2);



**3. Validaci√≥n de que Q_TRANS siempre fuese 1**

In [0]:
%sql
SELECT count(*)
FROM workspace.operations.gold_fact_sales_product
WHERE Q_TRANS <> 1;



**4. Detecci√≥n y validaci√≥n de registros duplicados**


In [0]:
# -----------------------------
# Validaci√≥n de duplicados
# -----------------------------
from pyspark.sql import functions as F

# Lista de tablas a validar
# Estas son las tablas que contienen dimensiones y hechos; queremos asegurarnos de que no existan registros duplicados en ninguna.
tablas = [
    "gold_dim_product",
    "gold_dim_organization",
    "gold_dim_supplier",
    "gold_dim_channel",
    "gold_dim_currency",
    "gold_fact_sales_product"
]

# Iterar sobre cada tabla para revisar duplicados
for tabla in tablas:
    # Cargar la tabla en un DataFrame de Spark
    df = spark.table(f"workspace.operations.{tabla}")
    
    # Contar el total de registros en la tabla
    total = df.count()
    
    # Contar el n√∫mero de registros distintos
    # L√≥gica: df.distinct() elimina cualquier fila que est√© completamente repetida en todas las columnas
    total_distinct = df.distinct().count()
    
    # Mostrar resultados
    print(f"\nTabla: {tabla}")
    print(f"Total registros: {total}, Total distintos: {total_distinct}")
    
    # Comparar total vs total_distinct
    # Si total == total_distinct, no hay duplicados; si es mayor, indica cu√°ntos registros se repiten exactamente
    if total == total_distinct:
        print("‚úÖ No hay duplicados")
    else:
        print(f"‚ö†Ô∏è Hay duplicados! Diferencia: {total - total_distinct} registros")


**5. An√°lisis de distribuci√≥n y detecci√≥n de outliers en la tabla de ventas (VES y USD)**


**5.1 Gr√°ficos para ventas en VES**

In [0]:
# Importar librer√≠as
import pandas as pd
import matplotlib.pyplot as plt

# Leer la tabla de Databricks
df = spark.table("workspace.operations.gold_fact_sales_product")

# Filtrar solo transacciones en VES
df = df.join(
    spark.table("workspace.operations.gold_dim_currency"),
    on="SK_CURRENCY",
    how="inner"
).filter("CURRENCY_ABR = 'VES'").toPandas()

# Histograma de ventas totales en VES
plt.figure(figsize=(10,6))
plt.hist(df['TOTAL_SALE'], bins=50, color='skyblue', edgecolor='black')
plt.title("Distribuci√≥n de TOTAL_SALE en VES")
plt.xlabel("TOTAL_SALE (VES)")
plt.ylabel("Cantidad de transacciones")
plt.show()

# Boxplot para ver outliers en VES
plt.figure(figsize=(8,6))
plt.boxplot(df['TOTAL_SALE'], vert=False)
plt.title("Boxplot de TOTAL_SALE en VES")
plt.xlabel("TOTAL_SALE (VES)")
plt.show()


**5.2 Gr√°ficos para ventas en USD**

In [0]:
# Importar librer√≠as
import pandas as pd
import matplotlib.pyplot as plt

# Leer la tabla de Databricks
df = spark.table("workspace.operations.gold_fact_sales_product")

# Filtrar solo transacciones en USD
df = df.join(
    spark.table("workspace.operations.gold_dim_currency"),
    on="SK_CURRENCY",
    how="inner"
).filter("CURRENCY_ABR = 'USD'").toPandas()

# Histograma de ventas totales en USD
plt.figure(figsize=(10,6))
plt.hist(df['TOTAL_SALE'], bins=50, color='lightgreen', edgecolor='black')
plt.title("Distribuci√≥n de TOTAL_SALE en USD")
plt.xlabel("TOTAL_SALE (USD)")
plt.ylabel("Cantidad de transacciones")
plt.show()

# Boxplot para ver outliers en USD
plt.figure(figsize=(8,6))
plt.boxplot(df['TOTAL_SALE'], vert=False)
plt.title("Boxplot de TOTAL_SALE en USD")
plt.xlabel("TOTAL_SALE (USD)")
plt.show()


**5.3 Cantidad de transacciones por moneda**

In [0]:
# Importar librer√≠as
import pandas as pd
import matplotlib.pyplot as plt

# Leer la tabla de Databricks
df = spark.table("workspace.operations.gold_fact_sales_product")

# Unir con la tabla de monedas para obtener CURRENCY_ABR
df = df.join(
    spark.table("workspace.operations.gold_dim_currency"),
    on="SK_CURRENCY",
    how="inner"
)

# Agrupar por moneda y contar transacciones
transacciones_por_moneda = df.groupBy("CURRENCY_ABR").count().toPandas()

# Gr√°fico de barras
plt.figure(figsize=(8,6))
plt.bar(transacciones_por_moneda['CURRENCY_ABR'], transacciones_por_moneda['count'],
        color=['skyblue', 'lightgreen'], edgecolor='black')
plt.title("Cantidad de transacciones por moneda")
plt.xlabel("Moneda")
plt.ylabel("Cantidad de transacciones")
plt.show()


**6. Validaciones de valores esperados en tablas dimensionales**

**6.1 Validaciones en la tabla producto**
- Se valida que el status sea A o I

In [0]:
%sql
SELECT STATUS, COUNT(*) AS cantidad
FROM workspace.operations.gold_dim_product
GROUP BY STATUS;


**6.2 Validaciones en la tabla organizaci√≥n**
- Se valida que el nombre sea Capital, Occidente, Centro o Oriente

In [0]:
%sql
-- Validar REGION_NAME
SELECT REGION_NAME, COUNT(*) AS cantidad
FROM workspace.operations.gold_dim_organization
GROUP BY REGION_NAME;



- Se valida que el formato de la tienda sea Express, Plus, Super o Mega

In [0]:
%sql
-- Validar FORMAT_NAME
SELECT FORMAT_NAME, COUNT(*) AS cantidad
FROM workspace.operations.gold_dim_organization
GROUP BY FORMAT_NAME;

- Se valida que el estado de la tienda sea Y o N

In [0]:
%sql
-- Validar STORE_ACTIVE
SELECT STORE_ACTIVE, COUNT(*) AS cantidad
FROM workspace.operations.gold_dim_organization
GROUP BY STORE_ACTIVE;

**6.3 Validaciones en la tabla supplier**
- Se valida que el status sea A o I

In [0]:
%sql
-- Validar valores de SUP_STATUS
SELECT SUP_STATUS, COUNT(*) AS cantidad
FROM workspace.operations.gold_dim_supplier
GROUP BY SUP_STATUS;


- Se valida que el nombre sea Tienda F√≠sica, E-Commerce, App M√≥vil o Call Center

In [0]:
%sql
-- Validar CHANNEL_NAME
SELECT CHANNEL_NAME, COUNT(*) AS cantidad
FROM workspace.operations.gold_dim_channel
GROUP BY CHANNEL_NAME;

- Se valida que el tipo de canal sea Retail, Online, Telef√≥nico

In [0]:
%sql
-- Validar CHANNEL_TYPE_NAME
SELECT CHANNEL_TYPE_NAME, COUNT(*) AS cantidad
FROM workspace.operations.gold_dim_channel
GROUP BY CHANNEL_TYPE_NAME;

**6.4 Validaciones en la tabla currency**
- Se valida que sea VES o USD

In [0]:
%sql
-- Validar CURRENCY_ABR
SELECT CURRENCY_ABR, COUNT(*) AS cantidad
FROM workspace.operations.gold_dim_currency
GROUP BY CURRENCY_ABR;

**7. Validacion de valores nulos en las tablas**

In [0]:
from pyspark.sql import functions as F

# -------------------------------------------------
# Validaci√≥n de valores nulos en columnas cr√≠ticas
# -------------------------------------------------

# Diccionario de tablas y columnas cr√≠ticas
tablas = {
    "gold_dim_product": ["SK_PRODUCT", "ITEM", "ITEM_DESC", "CLASS_NAME", "DEPT_NAME", "BRAND_NAME", "STATUS"],
    "gold_dim_organization": ["SK_ORGANIZATION", "STORE_ID", "STORE_NAME", "CITY", "REGION_NAME", "FORMAT_NAME", "STORE_ACTIVE"],
    "gold_dim_supplier": ["SK_SUPPLIER", "SUPPLIER", "SUP_NAME", "SUP_STATUS"],
    "gold_dim_channel": ["SK_CHANNEL", "CHANNEL_NAME", "CHANNEL_TYPE_NAME"],
    "gold_dim_currency": ["SK_CURRENCY", "CURRENCY_ABR", "CURRENCY_NAME"],
    "gold_fact_sales_product": ["BUSINESS_DATE", "SK_PRODUCT", "SK_ORGANIZATION", "SK_SUPPLIER", 
                                "SK_CHANNEL", "SK_CURRENCY", "TOTAL_SALE", "TOTAL_SALE_TAX", "TAX", 
                                "TOTAL_COST", "UNITS", "Q_TRANS"]
}

# Iterar sobre cada tabla para validar nulos
for tabla, columnas in tablas.items():
    print(f"\n--- Tabla: {tabla} ---")
    df = spark.table(f"workspace.operations.{tabla}")
    
    # Validaci√≥n de nulos por columna cr√≠tica
    nulos = df.select([F.count(F.when(F.col(c).isNull(), c)).alias(c) for c in columnas])
    
    # Mostrar resultados: cantidad de nulos por columna
    nulos.show(truncate=False)


##1.2 Documento de Hallazgos


%md
## Resumen de Validaci√≥n de Datos

‚úÖ Validaciones que pasaron exitosamente  
‚ö†Ô∏è Problemas encontrados  
üìã Recomendaciones para mejorar la calidad de datos  

---

### a) Conteo de registros por tabla ‚úÖ
- **Transacciones totales:** 432,987  
- **Productos activos:** 749  
- **Tiendas activas:** 94  
- **Proveedores activos:** 7  

### b) Validaci√≥n de rango de fechas ‚úÖ
- Todas las transacciones est√°n dentro del rango **julio - septiembre 2025**.  

### c) Validaci√≥n de integridad referencial ‚úÖ
- Todas las claves for√°neas (`SK_PRODUCT`, `SK_ORGANIZATION`, `SK_SUPPLIER`, `SK_CHANNEL`, `SK_CURRENCY`) tienen correspondencia en sus tablas de dimensiones.  
- **Resultado:** 0 registros sin correspondencia  
> Esto indica que **no hay registros hu√©rfanos** en la tabla de ventas.

### d) Validaci√≥n de valores nulos y negativos ‚úÖ
- **Ventas nulas:** 0 ‚Üí No se encontraron ventas nulas  
- **Ventas negativas:** 0 ‚Üí No se encontraron ventas negativas  
- **Unidades inv√°lidas (nulas o <=0):** 0 ‚Üí No se encontraron unidades inv√°lidas o nulas  

### e) Validaci√≥n de consistencia de c√°lculos ‚ö†Ô∏è
- **TOTAL_SALE + TAX = TOTAL_SALE_TAX**  
  - Se encontraron **95,687 registros** que no cumplen esta relaci√≥n.  
- **TAX = 16% de TOTAL_SALE**  
  - Ning√∫n registro coincide exactamente con la regla del 16%.  

> üìã Recomendaci√≥n:  
- Mantener los **datos crudos** tal como se reciben.  
- Realizar **c√°lculos de impuestos y totales en los procesos ETL**, para garantizar consistencia y evitar errores manuales.

---

### f) Validaciones adicionales realizadas ‚úÖ
- Se verificaron los campos con **valores predefinidos** en todas las tablas dimensionales como por ejemplo:  
  - `STATUS` en productos: solo `A` o `I`   
  - `CHANNEL_TYPE_NAME` en canales: solo `Retail`, `Online`, `Telef√≥nico`  
  - `CURRENCY_ABR` en monedas: solo `VES` o `USD`  
- Todos los registros coincidieron con los valores esperados; **no se encontraron inconsistencias**.  

- Se valid√≥ que no existieran **transacciones de p√©rdida o duplicadas**; no se encontraron registros duplicados en ninguna tabla.  

- Se realiz√≥ un an√°lisis de **distribuci√≥n de TOTAL_SALE** en ambas monedas (VES y USD):  
  - La mayor√≠a de las ventas son peque√±as (< 800), pero existen registros at√≠picos con valores mucho m√°s altos (~1,700‚Äì2,100), representando **outliers**.  
  -El comportamiento id√©ntico de VES y USD es **improbable en un escenario real**, lo que normalmente podr√≠a indicar **falta de conversi√≥n cambiaria o error en la categorizaci√≥n de moneda en la fuente de datos**.  
     **Adicional:** se concluy√≥ que hubo **m√°s transacciones en VES que en USD**, lo cual es consistente con el comportamiento esperado de ventas locales en retail venezolano.

---

## ‚úÖ Conclusi√≥n General
Los datos del trimestre presentan buena calidad en cuanto a:  
- Conteo de registros  
- Fechas  
- Integridad referencial  
- Valores nulos y negativos  
- Consistencia de campos con valores predefinidos  
- Ausencia de duplicados  

El principal punto a mejorar son los **c√°lculos derivados** (impuesto y total con impuestos), que deben automatizarse para garantizar m√©tricas consistentes en el an√°lisis de negocio.  

