In [0]:
# Este código se ejecuta en una celda de un Notebook de Databricks
# Su única responsabilidad es crear la tabla de la Capa de Plata (Silver).
# Importamos las funciones y tipos necesarios de PySpark
from pyspark.sql.functions import col, when, lit, ceil, concat_ws, expr
from pyspark.sql.types import IntegerType, DoubleType, StringType
import re
from functools import reduce as py_reduce
import operator

# 1. --- Configuración de Tablas ---
# La tabla de entrada es la que creamos en el paso de ingesta (Capa de Bronce).
source_table = "workspace.tecnomundo_data_raw.reporte_de_ventas_por_articulos_2_raw"

# Definimos los schemas de destino
output_silver_schema = "workspace.tecnomundo_data_processed"
quality_issues_schema = "workspace.tecnomundo_data_reporting"

# --- Generación Dinámica de Nombres de Tabla ---
# Se extrae el nombre base de la tabla de origen (ej: reporte_de_ventas_por_articulos_2_raw)
source_table_base_name = source_table.split('.')[-1]

# Se quita el sufijo '_raw' para obtener el nombre limpio del archivo original.
if source_table_base_name.endswith('_raw'):
    clean_base_name = source_table_base_name[:-4] # len('_raw') es 4
else:
    clean_base_name = source_table_base_name

# Se construye el nombre de la tabla de salida con la nueva extensión de procesado.
output_silver_table = f"{output_silver_schema}.{clean_base_name}_cleaned"
quality_issues_table = f"{quality_issues_schema}.{clean_base_name}_quality_issues"


print(f"Tabla de Origen (Bronce): {source_table}")
print(f"Tabla de Destino (Plata): {output_silver_table}")
print(f"Tabla de Problemas de Calidad: {quality_issues_table}")


# 2. --- Lectura de la Tabla Cruda ---
print(f"\nLeyendo datos desde '{source_table}'...")
df = spark.table(source_table)


# 3. --- Saneamiento de Nombres y Creación de Vista Temporal ---
# Saneamos los nombres para poder trabajar con ellos de forma segura en el resto del script.
print("\nSaneando nombres de columnas y creando una vista temporal...")
rename_expressions = []
for column in df.columns:
    new_column_name = column.replace('º', '').replace('Nº', 'num').replace('ñ', 'n').replace('Ñ', 'N')
    new_column_name = re.sub(r'[\s\.\-]+', '_', new_column_name)
    new_column_name = re.sub(r'[^a-zA-Z0-9_]', '', new_column_name).lower()
    rename_expressions.append(f"`{column}` as `{new_column_name}`")

df_sanitized = df.selectExpr(*rename_expressions)

# Creamos una vista temporal para trabajar sobre ella.
df_sanitized.createOrReplaceTempView("ventas_sanitized_temp_view")
print("Vista temporal 'ventas_sanitized_temp_view' creada con nombres de columna limpios.")


# 4. --- Lógica de Limpieza y Validación de Tipos ---
print("\nIniciando el proceso de limpieza y validación de tipos...")
df_to_clean = spark.table("ventas_sanitized_temp_view")

# a) Limpieza de la columna 'fecha'
date_formats = ["dd-MM-yyyy", "M/d/yyyy", "yyyy-MM-dd", "d-M-yyyy"]
coalesce_expr_str = "coalesce(" + ", ".join([f"try_to_timestamp(fecha, '{f}')" for f in date_formats]) + ")"
df_cleaned = df_to_clean.withColumn("fecha_temp", expr(coalesce_expr_str))
df_cleaned = df_cleaned.withColumn("fecha_is_valid", col("fecha_temp").isNotNull())
df_cleaned = df_cleaned.withColumn("fecha", 
    when(col("fecha_is_valid"), col("fecha_temp"))
    .otherwise(lit("1900-01-01").cast("timestamp"))
).drop("fecha_temp")

# b) Limpieza de columnas numéricas
numeric_cols = ["cantidad", "precio_un_", "ganancia", "subtotal"]
for c in numeric_cols:
    df_cleaned = df_cleaned.withColumn(f"{c}_is_valid", col(c).cast(DoubleType()).isNotNull())
    df_cleaned = df_cleaned.withColumn(c, 
        when(col(f"{c}_is_valid"), ceil(col(c).cast(DoubleType())).cast(IntegerType()))
        .otherwise(lit(0))
    )

# c) Limpieza de columnas de texto
text_cols = [c for c in df_to_clean.columns if c not in numeric_cols and c != "fecha"]
for c in text_cols:
    df_cleaned = df_cleaned.withColumn(c, 
        when(col(c).isNull() | (col(c) == ""), lit("Sin registro"))
        .otherwise(col(c))
    )

print("Proceso de limpieza completado.")


# 5. --- Separación de Filas con Problemas de Calidad ---
print("\nIdentificando y separando filas con problemas de calidad...")
conditions = [col(f"{c}_is_valid") == False for c in ["fecha"] + numeric_cols]
final_condition = py_reduce(operator.or_, conditions)

df_quality_issues = df_cleaned.filter(final_condition)
df_good_data = df_cleaned.filter(~final_condition)

# Creamos la descripción del problema
issue_description_cols = [when(col(f"{c}_is_valid") == False, lit(f"Problema de tipo en '{c}'")) for c in ["fecha"] + numeric_cols]
df_quality_issues = df_quality_issues.withColumn("quality_issue_description", concat_ws(", ", *issue_description_cols))

# Seleccionamos solo las columnas originales (ya saneadas) y la descripción del problema
df_quality_issues_final = df_quality_issues.select(*df_to_clean.columns, "quality_issue_description")

print(f"Se encontraron {df_quality_issues_final.count()} filas con problemas de calidad.")
print(f"Se encontraron {df_good_data.count()} filas limpias.")


# 6. --- Guardado de las Tablas Finales ---
# a) Guardar la tabla con los datos limpios (Capa de Plata)
print(f"\nGuardando datos limpios en la tabla de la Capa de Plata: '{output_silver_table}'...")
(df_good_data.select(*df_to_clean.columns) # Seleccionamos solo las columnas limpias
 .write
 .mode("overwrite")
 .saveAsTable(output_silver_table))
print("¡Tabla de la Capa de Plata guardada exitosamente!")

# b) Guardar la tabla con los problemas de calidad
if df_quality_issues_final.count() > 0:
    print(f"Guardando filas con problemas en la tabla '{quality_issues_table}'...")
    (df_quality_issues_final.write
     .mode("overwrite")
     .saveAsTable(quality_issues_table))
    print("¡Tabla de problemas de calidad guardada exitosamente!")
else:
    print("No se encontraron filas con problemas de calidad para guardar.")

# 7. --- Verificación Final ---
print("\nMostrando una muestra de los datos limpios (Capa de Plata):")
display(spark.table(output_silver_table))

if df_quality_issues_final.count() > 0:
    print("\nMostrando una muestra de las filas con problemas de calidad:")
    display(spark.table(quality_issues_table))
