# PROYECTO ETL EN DATABRICKS - COSMETSAC
Autor: Brayan R. Neciosup Bolaños

Importante:
Como no se tiene desplegada una BD relacional en la nube, usaremos Unity Catalog 
y todas sus características para simular una BD relacional en Databricks. 

El Modelo Entidad Relación esta elaborado en MSSM, puedes visualizarlo en la imagen denominada: ModeloER-SQL.png
O también puedes revisar el script: ScriptBDCosmetSAC.sql

### LIBRERÍAS UTILIZADAS

In [0]:
# Librerias a utilizar
from pyspark.sql import SparkSession # Puerta de acceso a todas las funcionalidades de apache spark
from pyspark.sql.functions import * # Funciones SQL
from pyspark.sql.types import * # Funciones de tipos de datos


### FUNCIONES UTILIZADAS PARA EL POBLADO DE LA INFORMACIÓN EN LAS TABLAS DE UNITY CATALOG

### PROCESO ETL (EXTRAER - TRANSFORMAR Y CARGAR)

In [0]:
# Archivo CLIENTES-EMPRESA-COSMETSAC.xlsx cargada previamente a Unity Catalog en formato delta table(clientes_empresa_cosmetsac)

#### EXTRAER
clientes_cosmetsac = spark.sql("SELECT * FROM workspace.exercises.clientes_empresa_cosmetsac")
# clientes_cosmetsac.show() # Leemos las 5 primeras filas de la tabla

#### Transformar
#-- Limpiar la columna CLIENTE de guiones que existen
clientes_cosmetsac = clientes_cosmetsac.withColumns({
    "CLIENTE": regexp_replace(col("CLIENTE"),r'-',' '),
    "TELEFONO": cast(StringType(),col("TELEFONO"))
})
clientes_cosmetsac = clientes_cosmetsac.withColumns({
    "CLIENTE":upper(col("CLIENTE")),
    "TELEFONO":cast(IntegerType(),regexp_replace(col("TELEFONO"),r'^51',''))
})
clientes_cosmetsac = clientes_cosmetsac.withColumns({
    "Primer Nombre Cliente":split(col("CLIENTE")," ").getItem(0), # .split() Permite separar la información
    "Segundo Nombre Cliente":split(col("CLIENTE")," ").getItem(1),# basandose en un delimitador, para poder convertirlo a un array
    "Primer Apellido Cliente":split(col("CLIENTE")," ").getItem(2), # mismo array, al cu+al accedemos a cada elemtno respectivamente
    "Segundo Apellido Cliente":split(col("CLIENTE")," ").getItem(3) # con .getItem(IndiceElemento)
})

clientes_cosmetsac = clientes_cosmetsac.withColumns({
    "Apellidos":concat_ws(', ',col("Primer Apellido Cliente"),col("Segundo Apellido Cliente")),
    "Nombres":concat_ws(', ',col("Primer Nombre Cliente"),col("Segundo Nombre Cliente"))
})

clientes_cosmetsac = clientes_cosmetsac.select(
    col("Apellidos"),col("Nombres"),col("DNI"),col("CORREO ELECTRONICO"),col("TELEFONO")
)

clientes_cosmetsac.show()
#### CARGAR
# FUNCIÓN PARA CONVERTIR ESTE DATAFRAME A UN DELTA TABLE EN UNITY CATALOG


In [0]:
# Archivo PRODUCTOS-EMPRESA-COSMETSAC.xlsx cargada previamente a Unity Catalog en formato delta table(productos_empresa_cosmetsac)

#### EXTRAER

productos_cosmetsac = spark.sql("SELECT * FROM workspace.exercises.productos_empresa_cosmetsac")
# productos_cosmetsac.show() 

#### TRANSFORMAR

productos_cosmetsac = productos_cosmetsac.select(
    col("Producto"),col("Precio regular (S/)"),col("Stock Actualizado"),
    col("Marca"),col("Categoría")
)
productos_cosmetsac = productos_cosmetsac.withColumnsRenamed({
    "Precio regular (S/)":"Precio Compra",
    "Stock Actualizado":"Stock"
})

# EXTRAEMOS LAS MARCAS
marcas_unicas = productos_cosmetsac.select(col("Marca")).dropDuplicates() # Eliminamos duplicados
diccionario_marcas = {
    "Marca ID":[i for i in range(1,marcas_unicas.count()+1)],
    "Marca":[i[0] for i in marcas_unicas.select(col("Marca")).collect()]
}
df_marcas = spark.createDataFrame(list(zip(*diccionario_marcas.values())),["Marca ID","Marca"])
# df_marcas.show()

# EXTRAEMOS LAS CATEGORIAS

categorias_unicas = productos_cosmetsac.select(col("Categoría")).dropDuplicates()
diccionario_categorias = {
    "Categoria ID":[i for i in range(1,categorias_unicas.count()+1)],
    "Categoría": [i[0] for i in categorias_unicas.select(col("Categoría")).collect()]
}
df_categorias = spark.createDataFrame(list(zip(*diccionario_categorias.values())),["Categoria ID","Categoría"])
# df_categorias.show()

productos_cosmetsac = productos_cosmetsac.join(df_marcas,"Marca")
productos_cosmetsac = productos_cosmetsac.join(df_categorias,"Categoría")

# Seleccionamos columnas necesarias.
productos_cosmetsac = productos_cosmetsac.select(
    col("Producto"),col("Precio Compra"),col("Stock"),
    col("Marca ID"),col("Categoria ID")
)

productos_cosmetsac.show()

#### CARGAR

# Funciones para cargar información ....

