# comercio_ext_indices.tb_nomenclatura_mercosul
> ### Origem â€” `bronze/autoloader/landingbeca2026jan/balancacomercial/NCM_delta`
## ðŸ“Œ DescriÃ§Ã£o do arquivo

Tabela de referÃªncia da **NCM (Nomenclatura Comum do Mercosul)** com:

- IdentificaÃ§Ã£o do produto (NCM + descriÃ§Ã£o)
- Unidade estatÃ­stica do produto
- Hierarquia SH6
- ClassificaÃ§Ãµes econÃ´micas e setoriais (PPE, PPI, CUCI, ISIC, CGCE, SIITâ€¦)
- DescriÃ§Ãµes multilÃ­ngues (PT/ES/EN)

Tipo: DimensÃ£o Produto (hub) + bridges embutidos  
Uso: Enriquecimento e integraÃ§Ã£o setorial (NCM â†’ ISIC â†’ CNAE)

|Coluna|DescriÃ§Ã£o tÃ©cnica|InterpretaÃ§Ã£o humana|
|---|---|---|
|`CO_NCM`|CÃ³digo NCM do produto|Identificador do produto no COMEX|
|`CO_UNID`|Unidade estatÃ­stica|Unidade oficial usada em `QT_ESTAT`|
|`CO_SH6`|CÃ³digo SH 6 dÃ­gitos|Agrupamento internacional do produto (nÃ­vel 6)|
|`CO_PPE`|CÃ³digo PPE|EstÃ¡gio da cadeia produtiva (primÃ¡rio/intermediÃ¡rio/final etc., conforme tabela PPE)|
|`CO_PPI`|CÃ³digo PPI|ClassificaÃ§Ã£o complementar de produto (conforme tabela PPI)|
|`CO_FAT_AGREG`|Fator/agregaÃ§Ã£o|Indicador tÃ©cnico de agregaÃ§Ã£o/agrupamento do produto|
|`CO_CUCI_ITEM`|CÃ³digo CUCI item|Mapeamento do produto para classificaÃ§Ã£o CUCI|
|`CO_CGCE_N3`|CÃ³digo CGCE nÃ­vel 3|ClassificaÃ§Ã£o econÃ´mica (CGCE) no nÃ­vel N3|
|`CO_SIIT`|CÃ³digo SIIT|ClassificaÃ§Ã£o complementar (SIIT)|
|`CO_ISIC_CLASSE`|CÃ³digo ISIC classe|Atividade econÃ´mica associada ao produto (nÃ­vel classe)|
|`CO_EXP_SUBSET`|Subconjunto exportaÃ§Ã£o|Indicador de subset/segmento de exportaÃ§Ã£o (uso analÃ­tico)|
|`NO_NCM_POR`|DescriÃ§Ã£o em portuguÃªs|Nome do produto em PT-BR|
|`NO_NCM_ESP`|DescriÃ§Ã£o em espanhol|Nome do produto em ES|
|`NO_NCM_ING`|DescriÃ§Ã£o em inglÃªs|Nome do produto em EN|

## ConfiguraÃ§Ãµes
> #### **imports**
> #### **get files**
> #### **schema**

In [0]:
from pyspark.sql import functions as F
from pyspark.sql import types as T
from delta.tables import DeltaTable
jvm = spark._jvm
FileSystem = jvm.org.apache.hadoop.fs.FileSystem
Path = jvm.org.apache.hadoop.fs.Path
fs = FileSystem.get(spark._jsc.hadoopConfiguration())

In [0]:
bronzePath = "/mnt/bronze/autoloader/landingbeca2026jan/balancacomercial/ncm/"
silverPath = "/mnt/silver/landingbeca2026jan/comercio_ext_indices/tb_nomenclatura_mercosul/"
silverTable = "silver_comercio_ext_indices.tb_nomenclatura_mercosul"

In [0]:
silverSchema = T.StructType([
    T.StructField("CO_NCM",        T.StringType(),   False),
    T.StructField("CO_UNID",       T.StringType(),   True ),
    T.StructField("CO_SH6",        T.StringType(),   True ),
    T.StructField("CO_PPE",        T.StringType(),   True ),
    T.StructField("CO_PPI",        T.StringType(),   True ),
    T.StructField("CO_CUCI_ITEM",  T.StringType(),   True ),
    T.StructField("CO_CGCE_N3",    T.StringType(),   True ),
    T.StructField("CO_ISIC_CLASSE",T.StringType(),   True ),
    T.StructField("TS_REF",        T.TimestampType(),False),
    T.StructField("NM_ORIGEM",     T.StringType(),   False),
])

## ExtraÃ§Ã£o
> #### **saprk.read**

In [0]:
df_bronze = spark.read.format("delta").load(bronzePath)

In [0]:
def up(s): return F.upper(F.trim(F.col(s).cast(T.StringType())))

df_norm = (
    df_bronze
    .withColumn("CO_NCM", up("CO_NCM"))
    .withColumn("CO_UNID", up("CO_UNID"))
    .withColumn("CO_SH6", up("CO_SH6"))
    .withColumn("CO_PPE", up("CO_PPE"))
    .withColumn("CO_PPI", up("CO_PPI"))
    .withColumn("CO_CUCI_ITEM", up("CO_CUCI_ITEM"))
    .withColumn("CO_CGCE_N3", up("CO_CGCE_N3"))
    .withColumn("CO_ISIC_CLASSE", up("CO_ISIC_CLASSE"))
    .withColumn("NO_NCM_POR", up("NO_NCM_POR"))
    .withColumn("NO_NCM_ESP", up("NO_NCM_ESP"))
    .withColumn("NO_NCM_ING", up("NO_NCM_ING"))
    .withColumn("TS_REF", F.current_timestamp())
    .withColumn("NM_ORIGEM", F.lit("/landingbeca2026jan/comercio_ext_indices/NCM_delta"))
)

##ValidaÃ§Ãµes
> #### **data quality**
> #### **deduplicaÃ§Ã£o**
> #### **schema fit**

In [0]:
df_valid = df_norm.filter(F.col("CO_NCM").isNotNull())

In [0]:
df_dedup = df_valid.dropDuplicates(["CO_NCM"])

In [0]:
df_silver = df_dedup.select(
    "CO_NCM","NO_NCM_POR", "NO_NCM_ESP","NO_NCM_ING","CO_UNID","CO_SH6","CO_PPE","CO_PPI",
    "CO_CUCI_ITEM","CO_CGCE_N3","CO_ISIC_CLASSE","TS_REF","NM_ORIGEM"
)

##Carga
> #### **merge**

In [0]:
delta_target = DeltaTable.forName(spark, "silver_comercio_ext_indices.tb_nomenclatura_mercosul")

merge_condition = """
  t.CO_NCM = s.CO_NCM   AND
  t.CO_UNID = s.CO_UNID   AND
  t.CO_SH6 = s.CO_SH6   AND
  t.CO_PPE = s.CO_PPE  AND
  t.CO_PPI = s.CO_PPI  AND
  t.CO_CUCI_ITEM = s.CO_CUCI_ITEM AND
  t.CO_CGCE_N3 = s.CO_CGCE_N3   AND
  t.CO_ISIC_CLASSE = s.CO_ISIC_CLASSE
"""

(delta_target.alias("t")
    .merge(df_silver.alias("s"), merge_condition)
    .whenMatchedUpdate(set={
        "t.NO_NCM_POR": "s.NO_NCM_POR",
        "t.NO_NCM_ESP": "s.NO_NCM_ESP",
        "t.NO_NCM_ING": "s.NO_NCM_ING",
        "t.TS_REF": "s.TS_REF",
        "t.NM_ORIGEM": "s.NM_ORIGEM"
    })
    .whenNotMatchedInsertAll()
    .execute()
)

In [0]:
display(spark.sql("SELECT * FROM silver_comercio_ext_indices.tb_nomenclatura_mercosul"))