# comercio_ext_estatisticas.tb_exportacoes
> ### Origem â€” `bronze/autoloader/landingbeca2026jan/balancacomercial/EXP_*_delta`

## ðŸ“Œ DescriÃ§Ã£o do arquivo

Base de **exportaÃ§Ãµes brasileiras**, agregada mensalmente, por produto, paÃ­s de destino, estado de origem e caracterÃ­sticas logÃ­sticas, **sem identificaÃ§Ã£o de empresas**.

Fonte: MDIC / Comex Stat  
Tipo: Dado pÃºblico, agregado, nÃ£o sensÃ­vel

| Coluna       | DescriÃ§Ã£o tÃ©cnica      | InterpretaÃ§Ã£o humana                     |
| ------------ | ---------------------- | ---------------------------------------- |
| `CO_ANO`     | Ano da operaÃ§Ã£o        | Ano em que a exportaÃ§Ã£o ocorreu          |
| `CO_MES`     | MÃªs da operaÃ§Ã£o        | MÃªs de referÃªncia da exportaÃ§Ã£o          |
| `CO_NCM`     | CÃ³digo NCM             | Produto exportado                        |
| `CO_UNID`    | Unidade estatÃ­stica    | Unidade oficial usada para o produto     |
| `CO_PAIS`    | CÃ³digo do paÃ­s         | PaÃ­s de destino da exportaÃ§Ã£o            |
| `SG_UF_NCM`  | Sigla da UF            | Estado brasileiro exportador             |
| `CO_VIA`     | CÃ³digo da via          | Meio de transporte utilizado             |
| `CO_URF`     | CÃ³digo da URF          | Unidade da Receita Federal responsÃ¡vel   |
| `QT_ESTAT`   | Quantidade estatÃ­stica | Quantidade na unidade estatÃ­stica do NCM |
| `KG_LIQUIDO` | Peso lÃ­quido (kg)      | Peso total exportado                     |
| `VL_FOB`     | Valor FOB (US$)        | Valor da mercadoria na exportaÃ§Ã£o        |

## ConfiguraÃ§Ãµes
> #### **imports**
> #### **get files**
> #### **schema**

In [0]:
import org . apache . spark  . sql . functions . _
import org . apache . spark  . sql . types . _
import org . apache . spark  . sql . DataFrame
import org . apache . hadoop . fs  . FileSystem 
import org . apache . hadoop . fs  . Path 
import io  . delta  . tables . _

In [0]:
val bronzeBaseDir =     "/mnt/bronze/autoloader/landingbeca2026jan/balancacomercial/"   
val silverPath =        "/mnt/silver/landingbeca2026jan/comercio_ext_estatisticas/tb_exportacoes/"   
val silverTable =       "tb_exportacoes"
val prefix =            "EXP_"
val suffix =            "_delta"

val fs = FileSystem . get (
  spark.sparkContext.hadoopConfiguration
)

val sourceDirs: Seq [ String ] = fs 
    . listStatus  ( new Path ( bronzeBaseDir )
) . filter      ( _ . isDirectory
) . map         ( _ . getPath . getName
) . filter      ( name => name . matches ( s"${prefix}\\d{4}${suffix}" )
) . toSeq

require (
  sourceDirs . nonEmpty , 
  s"Nenhuma pasta $prefix encontrada em $bronzeBaseDir"
)

val sourcePaths: Seq [ String ] = sourceDirs . map (
  d => s"$bronzeBaseDir/$d"
)

In [0]:
val silverSchema = StructType(
	Seq (
    StructField ( "CO_ANO" ,      IntegerType,              nullable = false ) ,
    StructField ( "CO_MES" ,      IntegerType,              nullable = false ) ,
	  StructField ( "CO_NCM" ,      StringType,               nullable = false ) ,
	  StructField ( "CO_UNID" ,     IntegerType,              nullable = true  ) ,
	  StructField ( "CO_PAIS" ,     IntegerType,              nullable = false ) ,
	  StructField ( "SG_UF_NCM" ,   StringType ,              nullable = true  ) ,
	  StructField ( "CO_VIA" ,      IntegerType,              nullable = true  ) ,
	  StructField ( "CO_URF" ,      IntegerType,              nullable = true  ) ,
	  StructField ( "QT_ESTAT" ,    DecimalType ( 18 , 2 ) ,  nullable = true  ) ,
	  StructField ( "KG_LIQUIDO" ,  DecimalType ( 18 , 3 ) ,  nullable = true  ) ,
	  StructField ( "VL_FOB" ,      DecimalType ( 18 , 2 ) ,  nullable = true  ) ,
	  StructField ( "TS_REF" ,      TimestampType ,           nullable = false ) ,
	  StructField ( "NM_ORIGEM" ,   StringType ,              nullable = false )
  )
)

## ExtraÃ§Ã£o
> #### **saprk.read**

In [0]:
val dfs: Seq[DataFrame] = sourcePaths.map { p =>
  println(s"Lendo Delta: $p")
  spark.read.format("delta").load(p)
}

val dfBronzeRaw = dfs . reduce ( _ . unionByName ( _ ) )

##NormalizaÃ§Ã£o
> #### **datatype**
> #### **regras**

In [0]:
val dfNormalized = dfBronzeRaw
  .withColumn("CO_ANO", col("CO_ANO").cast(IntegerType))
  .withColumn("CO_MES", col("CO_MES").cast(IntegerType))
  .withColumn("CO_NCM", trim(upper(col("CO_NCM").cast(StringType))))
  .withColumn("CO_UNID", col("CO_UNID").cast(StringType))
  .withColumn("CO_PAIS", col("CO_PAIS").cast(StringType))
  .withColumn("SG_UF_NCM", trim(upper(col("SG_UF_NCM").cast(StringType))))
  .withColumn("CO_VIA", col("CO_VIA").cast(StringType))
  .withColumn("CO_URF", col("CO_URF").cast(StringType))
  .withColumn("QT_ESTAT", col("QT_ESTAT").cast(DecimalType(18,2)))
  .withColumn("KG_LIQUIDO", col("KG_LIQUIDO").cast(DecimalType(18,3)))
  .withColumn("VL_FOB", col("VL_FOB").cast(DecimalType(18,2)))

In [0]:
val dfWithDefaults = dfNormalized
  .withColumn ( "QT_ESTAT", when(col("QT_ESTAT") < lit(0), lit(0)).otherwise(col("QT_ESTAT")))
  .withColumn ( "KG_LIQUIDO", when(col("KG_LIQUIDO") < lit(0), lit(0)).otherwise(col("KG_LIQUIDO")))
  .withColumn ( "VL_FOB", when(col("VL_FOB") < lit(0), lit(0)).otherwise(col("VL_FOB")))
  .withColumn ( "SG_UF_NCM", when(length(col("SG_UF_NCM")) === 0, lit(null).cast(StringType)).otherwise(col("SG_UF_NCM")))
  .withColumn ( "TS_REF", current_timestamp())
  .withColumn ( "NM_ORIGEM", lit("/landingbeca2026jan/balancacomercial/EXP_*_delta"))

##ValidaÃ§Ãµes
> #### **data quality**
> #### **deduplicaÃ§Ã£o**
> #### **schema fit**

In [0]:
val dfValid = dfWithDefaults . filter ( 
  col("CO_ANO") . isNotNull && 
  col("CO_MES") . isNotNull && 
  col("CO_NCM") . isNotNull && 
  col("CO_PAIS") . isNotNull
) . filter (
  col("CO_MES") . between ( 1 , 12 )
)

In [0]:
val dfDedup = dfValid . dropDuplicates (
  Seq (
    "CO_ANO","CO_MES","CO_NCM","CO_UNID","CO_PAIS","SG_UF_NCM","CO_VIA","CO_URF"
  )
)

In [0]:
val dfSilver = spark.createDataFrame(dfDedup.rdd, silverSchema.fieldNames.foldLeft(dfDedup.schema)((schema, name) => schema))

##Carga
> #### **merge**

In [0]:
val deltaTarget = DeltaTable . forName ( "silver_comercio_ext_estatisticas.tb_exportacoes" )

deltaTarget.as("t")
  .merge(
    dfSilver.as("s"),
    """
      t.CO_ANO = s.CO_ANO AND
      t.CO_MES = s.CO_MES AND
      t.CO_NCM  = s.CO_NCM AND
      t.CO_UNID = s.CO_UNID AND
      t.CO_PAIS = s.CO_PAIS AND
      t.SG_UF_NCM = s.SG_UF_NCM AND
      t.CO_VIA = s.CO_VIA AND
      t.CO_URF = s.CO_URF
    """
  )
  .whenMatched()
  .updateExpr(Map(
    "t.QT_ESTAT" -> "s.QT_ESTAT"
    "t.KG_LIQUIDO" -> "s.KG_LIQUIDO",
    "t.VL_FOB" -> "s.VL_FOB",
    "t.TS_REF" -> "s.TS_REF",
    "t.NM_ORIGEM" -> "s.NM_ORIGEM"
  ))
  .whenNotMatched()
  .insertAll()
  .execute()
