In [1]:
pip install pyspark python-decouple

Note: you may need to restart the kernel to use updated packages.


In [2]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when, upper, last, monotonically_increasing_id
from pyspark.sql.window import Window
from decouple import config

spark = SparkSession.builder \
    .appName("Spark_S3_dados") \
    .config("spark.hadoop.fs.s3a.access.key", f"{config('AWS_ACCESS_KEY')}") \
    .config("spark.hadoop.fs.s3a.secret.key", f"{config('AWS_SECRET_KEY')}") \
    .config("spark.hadoop.fs.s3a.endpoint", "s3.amazonaws.com") \
    .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
    .getOrCreate()

In [3]:
def limpar_nomes_colunas(df):
    """
    Remove caracteres especiais dos nomes das colunas
    Exemplo: 'Quantidade (L.)' -> 'Quantidade_L'
    """
    mapa_renomear = {
        "Quantidade (L.)": "Quantidade_L",
        "Quantidade (Kg)": "Quantidade_Kg",
        "Quantidade (KG)": "Quantidade_Kg",
        "Valor (US$)": "Valor_US",
        "Quantidade (L.)": "Quantidade_L",
    }
    
    for col_name in df.columns:
        if col_name in mapa_renomear:
            novo_nome = mapa_renomear[col_name]
            df = df.withColumnRenamed(col_name, novo_nome)
        else:
            # Para outros caracteres especiais
            novo_nome = col_name.replace(" ", "_").replace("(", "").replace(")", "").replace(".", "").replace("$", "")
            if col_name != novo_nome:
                df = df.withColumnRenamed(col_name, novo_nome)
    
    return df

In [4]:
def processar_arquivo(caminho_s3, colunas_categorias=None, coluna_quantidade=None):
    """
    Processa arquivo parquet com detecção e limpeza de dados
    
    Args:
        caminho_s3: Caminho completo do arquivo no S3
        colunas_categorias: Lista de colunas que contêm categorias (headers em maiúsculas)
        coluna_quantidade: Nome da coluna de quantidade para substituir "-" por 0 (usa nome APÓS limpeza)
    """
    df = spark.read.parquet(caminho_s3)
    
    # Limpar nomes das colunas
    df = limpar_nomes_colunas(df)
    
    # Se houver colunas de quantidade, tratar "-" como 0
    if coluna_quantidade:
        if isinstance(coluna_quantidade, list):
            for col_qty in coluna_quantidade:
                df = df.withColumn(
                    col_qty,
                    when(col(col_qty) == "-", 0).otherwise(col(col_qty))
                )
        else:
            df = df.withColumn(
                coluna_quantidade,
                when(col(coluna_quantidade) == "-", 0).otherwise(col(coluna_quantidade))
            )
    
    return df

In [5]:
def processar_com_categorias(df, coluna_categoria, coluna_nome_item, colunas_quantidade):
    """
    Identifica categorias (linhas em MAIÚSCULAS) e propaga para itens abaixo
    
    Args:
        df: DataFrame do Spark
        coluna_categoria: Coluna que contém as categorias
        coluna_nome_item: Coluna que contém nomes de itens
        colunas_quantidade: Lista de colunas de quantidade para limpar
    """
    # Criar coluna temporária para identificar categorias
    df = df.withColumn(
        "categoria_temp",
        when(col(coluna_categoria) == upper(col(coluna_categoria)), col(coluna_categoria))
    )
    
    # Criar índice para preservar ordem
    df = df.withColumn("idx", monotonically_increasing_id())
    
    # Janela para forward fill
    janela = Window.orderBy("idx").rowsBetween(Window.unboundedPreceding, 0)
    df = df.withColumn("Categoria", last("categoria_temp", ignorenulls=True).over(janela))
    
    # Filtrar: remover linhas que são cabeçalhos (maiúsculas)
    df_detalhes = df.filter(~(col(coluna_categoria) == upper(col(coluna_categoria))))
    
    # Remover linha com "Total" se existir
    df_detalhes = df_detalhes.filter(col(coluna_categoria) != "Total")
    
    # Remover colunas auxiliares
    df_final = df_detalhes.drop("categoria_temp", "idx")
    
    return df_final

In [6]:
print("=" * 60)
print("PROCESSANDO: Produção de Vinhos/Sucos/Derivados")
print("=" * 60)

df1 = processar_arquivo(
    f"s3a://{config('AWS_DESTINY_KEY')}/embrapa-api/bronze/table_Producao_de_vinhos_sucos_e_derivados.parquet",
    coluna_quantidade=["Quantidade_L"]
)

df1_final = processar_com_categorias(
    df1,
    coluna_categoria="Produto",
    coluna_nome_item="Produto",
    colunas_quantidade=["Quantidade_L"]
)

print("\nPrimeiras linhas do resultado:")
df1_final.show(47, truncate=False)
print(f"Total de registros: {df1_final.count()}")

PROCESSANDO: Produção de Vinhos/Sucos/Derivados

Primeiras linhas do resultado:
+----+----------------------------------------+------------+-----------------------------+
|Ano |Produto                                 |Quantidade_L|Categoria                    |
+----+----------------------------------------+------------+-----------------------------+
|2024|Tinto                                   |86.404.980  |VINHO DE MESA                |
|2024|Branco                                  |14.682.722  |VINHO DE MESA                |
|2024|Rosado                                  |1.543.578   |VINHO DE MESA                |
|2024|Tinto                                   |10.594.848  |VINHO FINO DE MESA (VINIFERA)|
|2024|Branco                                  |10.780.605  |VINHO FINO DE MESA (VINIFERA)|
|2024|Rosado                                  |1.170.128   |VINHO FINO DE MESA (VINIFERA)|
|2024|Suco de uva integral                    |66.326.591  |SUCO                         |
|2024|Suco

In [7]:
print("\n" + "=" * 60)
print("PROCESSANDO: Exportação de Suco de Uva")
print("=" * 60)

df2 = processar_arquivo(
    f"s3a://{config('AWS_DESTINY_KEY')}/embrapa-api/bronze/table_Exportacao_de_suco_de_uva.parquet",
    coluna_quantidade=["Quantidade_Kg", "Valor_US"]
)

# Este arquivo não tem categorias, apenas lista de países
print("\nDados processados:")
df2.show(20, truncate=False)
print(f"Total de registros: {df2.count()}")


PROCESSANDO: Exportação de Suco de Uva

Dados processados:
+----+--------------+-------------------------------+-------------+--------+
|Ano |Tipo          |Países                         |Quantidade_Kg|Valor_US|
+----+--------------+-------------------------------+-------------+--------+
|2024|Vinhos de mesa|Afeganistão                    |0            |0       |
|2024|Vinhos de mesa|África do Sul                  |103          |1.783   |
|2024|Vinhos de mesa|Alemanha, República Democrática|6.666        |48.095  |
|2024|Vinhos de mesa|Angola                         |0            |0       |
|2024|Vinhos de mesa|Anguilla                       |0            |0       |
|2024|Vinhos de mesa|Antígua e Barbuda              |447          |3.329   |
|2024|Vinhos de mesa|Antilhas Holandesas            |0            |0       |
|2024|Vinhos de mesa|Arábia Saudita                 |32           |54      |
|2024|Vinhos de mesa|Argélia                        |6            |87      |
|2024|Vinhos de 

In [8]:
print("\n" + "=" * 60)
print("PROCESSANDO: Importação de Suco de Uva")
print("=" * 60)

df3 = processar_arquivo(
    f"s3a://{config('AWS_DESTINY_KEY')}/embrapa-api/bronze/table_Importacao_de_suco_de_uva.parquet",
    coluna_quantidade=["Quantidade_Kg", "Valor_US"]
)

print("\nDados processados:")
df3.show(20, truncate=False)
print(f"Total de registros: {df3.count()}")


PROCESSANDO: Importação de Suco de Uva

Dados processados:
+----+--------------+------------------------+-------------+-----------+
|Ano |Tipo          |Países                  |Quantidade_Kg|Valor_US   |
+----+--------------+------------------------+-------------+-----------+
|2024|Vinhos de mesa|Africa do Sul           |658.238      |2.133.775  |
|2024|Vinhos de mesa|Alemanha                |121.002      |805.466    |
|2024|Vinhos de mesa|Argélia                 |0            |0          |
|2024|Vinhos de mesa|Arábia Saudita          |0            |0          |
|2024|Vinhos de mesa|Argentina               |26.272.478   |93.869.579 |
|2024|Vinhos de mesa|Armênia                 |0            |0          |
|2024|Vinhos de mesa|Austrália               |422.720      |1.437.842  |
|2024|Vinhos de mesa|Áustria                 |17.796       |104.965    |
|2024|Vinhos de mesa|Bermudas                |0            |0          |
|2024|Vinhos de mesa|Bélgica                 |0            |0   

In [9]:
print("\n" + "=" * 60)
print("PROCESSANDO: Comercialização de Vinhos e Derivados")
print("=" * 60)

df4 = processar_arquivo(
    f"s3a://{config('AWS_DESTINY_KEY')}/embrapa-api/bronze/table_Comercializacao_de_vinhos_e_derivados.parquet",
    coluna_quantidade="Quantidade_L"
)

df4_final = processar_com_categorias(
    df4,
    coluna_categoria="Produto",
    coluna_nome_item="Produto",
    colunas_quantidade=["Quantidade_L"]
)

print("\nDados processados:")
df4_final.show(20, truncate=False)
print(f"Total de registros: {df4_final.count()}")


PROCESSANDO: Comercialização de Vinhos e Derivados

Dados processados:
+----+------------------------------------------+------------+-------------------------------+
|Ano |Produto                                   |Quantidade_L|Categoria                      |
+----+------------------------------------------+------------+-------------------------------+
|2024|Tinto                                     |0           |VINHO DE MESA                  |
|2024|Rosado                                    |0           |VINHO DE MESA                  |
|2024|Branco                                    |0           |VINHO DE MESA                  |
|2024|Tinto                                     |0           |VINHO FINO DE MESA             |
|2024|Rosado                                    |0           |VINHO FINO DE MESA             |
|2024|Branco                                    |0           |VINHO FINO DE MESA             |
|2024|Tinto                                     |0           |VINHO ESPEC

In [10]:
print("\n" + "=" * 60)
print("PROCESSANDO: Processamento de uvas")
print("=" * 60)

df5 = processar_arquivo(
    f"s3a://{config('AWS_DESTINY_KEY')}/embrapa-api/bronze/table_Uvas_sem_classificacao_processadas.parquet",
    coluna_quantidade="Quantidade_Kg"
)

df5_final = processar_com_categorias(
    df5,
    coluna_categoria="Cultivar",
    coluna_nome_item="Cultivar",
    colunas_quantidade=["Quantidade_Kg"]
)

print("\nDados processados:")
df5_final.show(20, truncate=False)
print(f"Total de registros: {df5_final.count()}")


PROCESSANDO: Processamento de uvas

Dados processados:
+----+---------+------------------+-------------+---------+
|Ano |Tipo     |Cultivar          |Quantidade_Kg|Categoria|
+----+---------+------------------+-------------+---------+
|2024|Viníferas|Alicante Bouschet |2.302.750    |TINTAS   |
|2024|Viníferas|Ancelota          |374.633      |TINTAS   |
|2024|Viníferas|Aramon            |0            |TINTAS   |
|2024|Viníferas|Alfrocheiro       |0            |TINTAS   |
|2024|Viníferas|Arinarnoa         |40.924       |TINTAS   |
|2024|Viníferas|Aspirant Bouschet |115.469      |TINTAS   |
|2024|Viníferas|Barbera           |12.666       |TINTAS   |
|2024|Viníferas|Bonarda           |2.359        |TINTAS   |
|2024|Viníferas|Cabernet Franc    |1.622.225    |TINTAS   |
|2024|Viníferas|Cabernet Sauvignon|3.321.069    |TINTAS   |
|2024|Viníferas|Caladoc           |2.714        |TINTAS   |
|2024|Viníferas|Campanario        |0            |TINTAS   |
|2024|Viníferas|Canaiolo          |0        

In [12]:
print("\n" + "=" * 60)
print("SALVANDO RESULTADOS")
print("=" * 60)

try:
    df1_final.write.mode("overwrite").parquet("s3a://testes-e-coisas/embrapa-api/silver/producao_vinhos/")
    print("✓ Produção de vinhos salvo")
except Exception as e:
    print(f"✗ Erro ao salvar produção: {e}")

try:
    df2.write.mode("overwrite").parquet("s3a://testes-e-coisas/embrapa-api/silver/exportacao_suco/")
    print("✓ Exportação de suco salvo")
except Exception as e:
    print(f"✗ Erro ao salvar exportação: {e}")

try:
    df3.write.mode("overwrite").parquet("s3a://testes-e-coisas/embrapa-api/silver/importacao_suco/")
    print("✓ Importação de suco salvo")
except Exception as e:
    print(f"✗ Erro ao salvar importação: {e}")

try:
    df4_final.write.mode("overwrite").parquet("s3a://testes-e-coisas/embrapa-api/silver/comercializacao_vinhos/")
    print("✓ Comercialização de vinhos salvo")
except Exception as e:
    print(f"✗ Erro ao salvar comercialização: {e}")

try:
    df5_final.write.mode("overwrite").parquet("s3a://testes-e-coisas/embrapa-api/silver/uvas_processadas/")
    print("✓ Uvas processadas salvo")
except Exception as e:
    print(f"✗ Erro ao salvar uvas: {e}")

print("\n✓ Processamento concluído!")


SALVANDO RESULTADOS
✓ Processamento concluído!
