# **Documenta√ß√£o - Carga Tabelas Agronegocio**

### üìÑ Descri√ß√£o do processo:
Este processo tem como objetivo carregar tabelas do agronegocio disponiveis no site do govBR e os dados completos de importa√ß√£o e exporta√ß√£o do ComexStat para tabelas Delta em ambiente Spark (Databricks).

---

### üìö Bibliotecas Importadas:
- `concurrent.futures.ThreadPoolExecutor`: Para execu√ß√£o paralela do download das tabelas auxiliares.
- `requests`: Para fazer requisi√ß√µes HTTP √†s URLs das tabelas.
- `pandas`: Para leitura dos arquivos CSV das tabelas auxiliares.
- `zipfile`, `io`: Para manipula√ß√£o de arquivos ZIP e leitura em buffer.
- `os`: Para manipula√ß√£o de arquivos locais tempor√°rios.

---

### üì¶ Origem dos Dados:
- Todas as tabelas s√£o obtidas do site oficial da Balan√ßa Comercial (https://balanca.economia.gov.br).
- S√£o divididas em dois grandes blocos:
  - **Tabelas auxiliares** (como NCM, SH, CUCI, CGCE, UF, etc).
  - **Arquivos completos de importa√ß√£o e exporta√ß√£o** (em `.zip`, contendo grandes volumes de dados hist√≥ricos).

---

### ‚öôÔ∏è Processamento:

- `CMD 2 - Bibliotecas`: Importa todas as bibliotecas necess√°rias para execu√ß√£o dos scripts.

- `CMD 4 - Cria√ß√£o do Banco`:  
  Cria√ß√£o do banco de dados Delta `bd_becomex` para armazenamento das tabelas.

- `CMD 4 (cont.) - Dicion√°rio de Tabelas Auxiliares`:  
  Dicion√°rio com URLs e nomes das tabelas auxiliares para automatizar o processo de importa√ß√£o.

- `CMD 5 - Fun√ß√£o de Importa√ß√£o COMEXSTAT`:  
  Fun√ß√£o `import_full_export_import` que faz:
  - Download do arquivo ZIP da base de importa√ß√£o/exporta√ß√£o.
  - Extra√ß√£o e leitura do CSV.
  - Escrita como tabela Delta com infer√™ncia autom√°tica de schema.

- `CMD 6 - Fun√ß√µes de Importa√ß√£o de Tabelas Auxiliares`:  
  - `baixar_csv`: Baixa e l√™ um CSV da URL.
  - `importar_table_assistants`: Converte cada CSV em DataFrame Spark e salva como tabela Delta.

- `CMD 7 - Execu√ß√£o do Processo`:  
  Executa:
  - Importa√ß√£o de todas as tabelas auxiliares.
  - Importa√ß√£o completa dos dados de **importa√ß√£o** (`IMP_COMPLETA.zip`).
  - Importa√ß√£o completa dos dados de **exporta√ß√£o** (`EXP_COMPLETA.zip`).

---

### üõ¨ Tabelas Geradas:

No banco `bd_becomex` s√£o salvas as seguintes tabelas Delta:

#### Tabelas Auxiliares:
- `ncm`
- `sh`
- `ncm_cuci`
- `ncm_isic`
- `ncm_cgce`
- `ncm_fat_agreg`
- `ncm_ppe`
- `ncm_ppi`
- `ncm_unidade`
- `nbm_ncm`
- `nbm`
- `estados`
- `via`
- `urf`
- `paises`
- `blocos`
- `municipios`

#### Tabelas ComexStat:
- `import`
- `export`

---

### üß® Problemas Comuns:

#### _Erro de conex√£o com a URL_
- Verificar se a URL est√° ativa e dispon√≠vel.
- Tentar rodar novamente em outro hor√°rio.

#### _Schema divergente entre execu√ß√µes_
- Pode haver mudan√ßa na estrutura de dados do site.
- Verificar nomes de colunas e aplicar cast ou tratamento espec√≠fico.

#### _Ambiente Databricks n√£o detectado_
- A fun√ß√£o tenta copiar arquivos para o DBFS, se estiver fora do Databricks, ele mant√©m os arquivos localmente.

---

### üì© Observa√ß√µes Finais:
- As tabelas geradas servem de apoio para an√°lise da Balan√ßa Comercial.
- As tabelas Delta permitem leitura r√°pida e otimiza√ß√£o futura com ZORDER e OPTIMIZE, se necess√°rio.
- A execu√ß√£o paralela nas auxiliares agiliza o processo.
- √â recomend√°vel agendar essa carga periodicamente para manter os dados atualizados.

---

> _"A simplicidade √© o √∫ltimo grau de sofistica√ß√£o."_ ‚Äì Leonardo da Vinci  


In [0]:
from concurrent.futures import ThreadPoolExecutor
import requests
import pandas as pd
import zipfile
import io
from io import StringIO
import os

In [0]:

spark.sql("CREATE DATABASE IF NOT EXISTS bd_becomex LOCATION '/mnt/dnc/'")

In [0]:
dic_tabelas = {
    'tabela_ncm': {
        'nome': 'ncm',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM.csv'
    },
    'tabela_sh': {
        'nome': 'sh',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM_SH.csv'
    },
    'tabela_cuci': {
        'nome': 'ncm_cuci',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM_CUCI.csv'
    },
    'tabela_isic': {
        'nome': 'ncm_isic',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM_ISIC.csv'
    },
    'tabela_isic_cuci': {
        'nome': 'isic_cuci',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/ISIC_CUCI.csv' #apagar
    },
    'tabela_cgce': {
        'nome': 'ncm_cgce',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM_CGCE.csv'
    },
    'tabela_fator_agregado': {
        'nome': 'ncm_fat_agreg',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM_FAT_AGREG.csv'
    },
    'tabela_ppe': {
        'nome': 'ncm_ppe',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM_PPE.csv'
    },
    'tabela_ppi': {
        'nome': 'ncm_ppi',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM_PPI.csv'
    },
    'tabela_unidade': {
        'nome': 'ncm_unidade',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NCM_UNIDADE.csv'
    },
    'tabela_nbm_ncm': {
        'nome': 'nbm_ncm',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NBM_NCM.csv'
    },
    'tabela_nbm': {
        'nome': 'nbm',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/NBM.csv'
    },
    'tabela_uf': {
        'nome': 'estados',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/UF.csv'
    },
    'tabela_via': {
        'nome': 'via',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/VIA.csv'
    },
    'tabela_urf': {
        'nome': 'urf',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/URF.csv'
    },
    'tabela_pais': {
        'nome': 'paises',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/PAIS.csv'
    },
    'tabela_blocos': {
        'nome': 'blocos',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/PAIS_BLOCO.csv'
    },
    'tabela_municipios': {
        'nome': 'municipios',
        'url': 'https://balanca.economia.gov.br/balanca/bd/tabelas/UF_MUN.csv'
    }
}


In [0]:
def import_full_export_import(url, caminho_delta, nome_tabela):
    try:
        # Requisi√ß√£o para obter o arquivo ZIP
        response = requests.get(url)
        response.raise_for_status()

        # Abrir o conte√∫do como ZIP
        with zipfile.ZipFile(io.BytesIO(response.content)) as z:
            print("Arquivos no zip:", z.namelist())

            # Abrir o primeiro arquivo dentro do ZIP
            with z.open(z.namelist()[0]) as csv_file:
                # Caminhos tempor√°rios para o DBFS e local
                local_temp_path = "/tmp/temp_file.csv"  # Caminho local na m√°quina do driver
                dbfs_temp_path = "dbfs:/tmp/temp_file.csv"

                # Escreve temporariamente no driver local
                with open(local_temp_path, 'wb') as f:
                    f.write(csv_file.read())

                # Se for no Databricks, mova o arquivo para o DBFS
                if 'dbutils' in globals():  # Verifica se est√° no Databricks
                    try:
                        dbutils.fs.cp(f"file:{local_temp_path}", dbfs_temp_path)
                    except Exception as e:
                        print(f"‚ùå Erro ao mover o arquivo para DBFS: {e}")
                else:
                    print("Ambiente local detectado, mantendo o arquivo local.")

                # Ler com Spark diretamente do DBFS ou local dependendo do ambiente
                path_to_read = dbfs_temp_path if 'dbutils' in globals() else local_temp_path
                df_spark = spark.read.csv(path_to_read, header=True, sep=';', inferSchema=True, encoding='latin1')

                # Salva como tabela Delta
                df_spark.write.format("delta") \
                    .option("overwriteSchema", True) \
                    .mode("overwrite") \
                    .saveAsTable(f"{caminho_delta}.{nome_tabela}")

                print(f"‚úÖ Tabela {nome_tabela} salva com sucesso em: {caminho_delta}.{nome_tabela}")

                # Remove os arquivos tempor√°rios
                os.remove(local_temp_path)
                if 'dbutils' in globals():
                    try:
                        dbutils.fs.rm(dbfs_temp_path)
                    except Exception as e:
                        print(f"Erro ao remover o arquivo do DBFS: {e}")

    except requests.exceptions.RequestException as e:
        print(f"‚ùå Erro ao acessar a URL: {e}")
    except zipfile.BadZipFile as e:
        print(f"‚ùå Erro ao abrir o arquivo ZIP: {e}")
    except Exception as e:
        print(f"‚ùå Erro ao processar o arquivo CSV: {e}")


In [0]:
def baixar_csv(info):
    url = info['url']
    nome = info['nome']
    
    response = requests.get(url)
    response.raise_for_status()
    
    df = pd.read_csv(StringIO(response.text), sep=';')
    return nome, df

def import_table_assistants(dic_tabelas, nome_banco):

    with ThreadPoolExecutor() as executor:
        resultados = executor.map(baixar_csv, dic_tabelas.values())

        for nome, df in resultados:
            df_spark = spark.createDataFrame(df)
            tabela = f"{nome_banco}.{nome}"
            try: 
                df_spark.write.format("delta").option('overwriteSchema', True).mode("overwrite").saveAsTable(tabela)
                print(f"‚úÖ {nome} salva como tabela: {tabela}")
            except:
                print(f"‚ùå {nome} salva como tabela: {tabela}")

In [0]:
import_table_assistants(dic_tabelas, "bd_becomex")
import_full_export_import('https://balanca.economia.gov.br/balanca/bd/comexstat-bd/ncm/IMP_COMPLETA.zip', 'bd_becomex', 'import') # importa√ß√£o
import_full_export_import('https://balanca.economia.gov.br/balanca/bd/comexstat-bd/ncm/EXP_COMPLETA.zip', 'bd_becomex', 'export') # exporta√ß√£o

In [0]:
%sql
select * from export limit 10

In [0]:
%sql
SELECT 
    n.no_ncm_por, 
    e.*
FROM  
    ncm n 
left JOIN 
    export e ON n.co_ncm = e.co_ncm
WHERE 
    n.no_ncm_por = 'Coca√≠na e seus sais'


In [0]:
%sql
select co_ncm, no_ncm_por from ncm
order by co_ncm