### 1. Importação de Fertilizantes do Estado da Bahia

O site [Comexstat](http://comexstat.mdic.gov.br/pt/geral), portal para acesso gratuito às estatísticas de comércio exterior do Brasil, disponibiliza arquivos que apresentam todos os dados utilizados para construção da balança comercial brasileira, detalhados por NCM ou por Municípios do exportador/importador. 

O site informa que os dados estão disponíveis em arquivos compatados que contém arquivos CSV, utilizando como separador o ponto e vírgula (;), e com os nomes das colunas na primeira linha. 

Para esse projeto, o interesse esta sobre a base de dados denominada IMP_COMPLETA.zip, que contém histórico mensal das importações detalhadas por produto (código NCM), Unidade Federativa importadora, ano, mês, país de origem, quilograma líquido, valor dólar FOB (US$) e outras.

Para aproveitamento completo dos arquivos de dados, será necessário baixar e utilizar as Tabelas Auxiliares contendo a "Correlações de Códigos e Classificações". 

O arquivo principal e as tabelas auxiliares foram baixadas e salvas localmente na pasta '~/git/BD/Comexstat/'.

> **Nota em relação ao Github:** Os arquivos salvos **nesta fase** são maiores do que o tamanho aceito em minha conta, e por isso eles serão ignorados e não disponibilizados.

A classificação de produto mais abrangente disponível é a SH2 (Sistema Harmonizado) e no nome dela se buscará identificar palavras como "fertilizantes" ou "adubo".

In [1]:
# Importa as bibliotecas necessárias
%run '~/git/Bibliotecas.ipynb'

In [2]:
sh=pd.read_csv('~/git/BD/Comexstat/NCM_SH.csv',sep=';',encoding='Latin-1')

> Pode-se ver que a coluna CO_SH2 apresenta o código mais abrangente. Ainda pode-se ver que na coluna NO_SH2_POR existe o nome da categoria em português.
>
> Identifica-se a seguir qual SH2 tem a palavra "fertilizante" incluída no nome.

In [3]:
# Identifica qual nome de categoria apresenta a palavra "fertilizante"
sh2_fert=sh[sh.NO_SH2_POR.str.contains('fertilizante')]['CO_SH2'].unique()

In [4]:
# Identifica qual nome de categoria apresenta a palavra "adubo"
sh2_adubo=sh[sh.NO_SH2_POR.str.contains('adubo')]['CO_SH2'].unique()

> Só um SH2 (31) possui 'fertilizante' no nome. Salvaremos o código dele a seguir:

In [5]:
# Identifica o código da única categoria 'fertilizante'
sh2_fert=sh2_fert[0]

>  Nessa mesma tabela, o código mais específico é o SH6, e os que são relacionados ao SH2 dos fertilizantes serão listados a seguir:

In [6]:
sh6_fert=sh[sh.CO_SH2==sh2_fert]['CO_SH6'].unique()

> Passaremos agora para a próxima tabela, a tabela NCM.csv, e dela extrairemos a lista de NCMs que se relacionam com a lista de SH6 dos fertilizantes. 

In [7]:
ncm=pd.read_csv('~/git/BD/Comexstat/NCM.csv', sep=';',encoding='latin1')
ncm_fert=ncm[ncm.CO_SH6.isin(sh6_fert)].CO_NCM.unique()

Agora será extraido do arquivo principal (IMP_COMPLETA.csv) os registros relativos aos NCMs listados.

As linhas filtradas serão concatenadas para formar o novo  **arquivo principal**, que em seguida será salvo no endereço '~/comex/data/imp1.csv'.

In [8]:
# Cria leitor do arquivo principal em pedaços
csv_reader=pd.read_csv('~/git/BD/Comexstat/IMP_COMPLETA.zip', sep=';', chunksize=1000000)

# Prepara tabela para receber e concatenar os filtrados dos pedaços
q=pd.DataFrame()

# Lê, filtra e concatena cada pedaço
for chunk in csv_reader:
    q=pd.concat([q, chunk[chunk.CO_NCM.isin(ncm_fert)]])

# Ordena os dados
imp1=q.sort_values(by=q.columns.to_list()).reset_index(drop=True)

directory = '~/git/Pricing-Fertilizer-take-Rains-into-account/temp/'

# Expand the user path (if '~' is used)
expanded_directory = os.path.expanduser(directory)

# Check if the directory exists
if not os.path.exists(expanded_directory):
    # Create the directory if it doesn't exist
    os.makedirs(expanded_directory)


# Salva o resultado
imp1.to_csv('~/git/Pricing-Fertilizer-take-Rains-into-account/temp/imp1.csv', index=False)

### 2. Chuva

O [INMET](https://portal.inmet.gov.br/) - Instituto Nacional de Meteorologia, subordinado ao Ministério da Agricultura e Pecuária, disponibilisa no site os dados históricos de chuvas em estações meteorológicas automáticas em todos os estados brasileiro.

Os arquivos compactados foram baixados do site e salvos localmente em:  
* '~/git/BD/Inmet/'

No Estado da Bahia exitem várias dessas estações automáticas, na capital e no interior.

Para selecionar as estações do INMET que mais se correlacionem com a importação de fertilizantes, é necessário identificar os municípios com maior intensidade da agricultura:

Rank dos Municípios com Maior Área Plantada no Estado da Bahia no ano 2022(Fonte: IBGE):
São Desidério (BA)
Formosa do Rio Preto (BA)
Correntina (BA)
Barreiras (BA)
Luís Eduardo Magalhães (BA)
Riachão das Neves (BA)
Jaborandi (BA)

Comparando o rank acima com as estações meteorológicas listadas pelo INMET, identificamos as seguintes estações de interesse do projeto:  

Estações de interesse: 
* FORMOSA DO RIO PRETO
* CORRENTINA
* LUIS EDUARDO MAGALHÃES
* BARREIRAS



> **Nota em relação ao Github:** Os arquivos salvos **nesta fase** são maiores do que o tamanho aceito em minha conta, e por isso eles serão ignorados e não disponibilizados.

Filtra arquivos do INMET relacionados as localidades baianas acima listadas e salva localmente

In [9]:
# Carrega biblioteca adcional
import shutil
import zipfile

# Pasta com os arquivos zipados
pasta_zip = '/home/andre301267/git/BD/Inmet/'

# Pasta de destino para os arquivos CSV filtrados no ambiente Linux
pasta_destino_linux = os.path.expanduser('~/git/Pricing-Fertilizer-take-Rains-into-account/temp/chuvas/')

# Alternativas a serem verificadas no nome do arquivo
alternativas = ['FORMOSA', 'CORRENTINA', 'EDUARDO', 'BARREIRAS']

# Certifique-se de que a pasta de destino exista ou crie-a
if not os.path.exists(pasta_destino_linux):
    os.makedirs(pasta_destino_linux)

# Itera sobre os arquivos na pasta_zip
for nome_arquivo in os.listdir(pasta_zip):
    caminho_arquivo_zip = os.path.join(pasta_zip, nome_arquivo)

    # Verifica se é um arquivo zip
    if nome_arquivo.lower().endswith('.zip'):
        # Extrai o conteúdo diretamente para a pasta de destino
        with zipfile.ZipFile(caminho_arquivo_zip, 'r') as zip_ref:
            for arquivo in zip_ref.namelist():
                if any(alternativa in arquivo for alternativa in alternativas) and "_BA_" in arquivo and arquivo.lower().endswith('.csv'):
                    # Constrói o caminho de destino de forma mais simplificada, sem o sufixo "copiado_"
                    nome_destino = f"{os.path.splitext(os.path.basename(arquivo))[0]}.CSV"
                    caminho_destino = os.path.join(pasta_destino_linux, nome_destino)

                    with open(caminho_destino, 'wb') as destino, zip_ref.open(arquivo) as origem:
                        shutil.copyfileobj(origem, destino)

print("Transferência concluída. Arquivos filtrados foram salvos em:", pasta_destino_linux)


Transferência concluída. Arquivos filtrados foram salvos em: /home/andre301267/git/Pricing-Fertilizer-take-Rains-into-account/temp/chuvas/


In [10]:
# Diretório dos arquivos
diretorio = '/home/andre301267/git/Pricing-Fertilizer-take-Rains-into-account/temp/chuvas/'

# Lista para armazenar os DataFrames
df_parte1 = pd.DataFrame()
df_parte2 = pd.DataFrame()

# Iterar sobre os arquivos no diretório
for arquivo in os.listdir(diretorio):
    if arquivo.endswith('.CSV'):  # Certifique-se de que estamos lidando apenas com arquivos de texto
        caminho_arquivo = os.path.join(diretorio, arquivo)

        # Ler as primeiras 8 linhas
        parte1 = pd.read_csv(caminho_arquivo, nrows=7,sep=';',encoding='Latin-1')
       # print(parte1)

        # Ler a partir da linha 9
        parte2 = pd.read_csv(caminho_arquivo, skiprows=8,sep=';',encoding='Latin-1').assign(Estação=parte1.iloc[1,1])

        # Adicionar DataFrames às listas
        df_parte1=pd.concat([df_parte1,parte1],axis=1)
        df_parte2=pd.concat([df_parte2,parte2])

# Formata arquivo contendo ID das estações
df_parte1=df_parte1.transpose().drop(columns=[5,6]).drop_duplicates(subset=[1]).drop_duplicates(subset=[2])\
.reset_index(drop=True)

df_parte1.columns=df_parte1.iloc[0]

df_parte1=df_parte1.iloc[1:]

df_parte1.to_csv('/home/andre301267/git/Pricing-Fertilizer-take-Rains-into-account/temp/estações.csv',index=False)
df_parte2.to_csv('/home/andre301267/git/Pricing-Fertilizer-take-Rains-into-account/temp/chuvas1.csv',index=False)

Remove o diretório com os arquivos extraídos e ainda separados sobre chuvas

In [11]:
import shutil

diretorio = '/home/andre301267/git/Pricing-Fertilizer-take-Rains-into-account/temp/chuvas/'

try:
    shutil.rmtree(diretorio)
    print(f"O diretório '{diretorio}' e todo o seu conteúdo foram removidos com sucesso.")
except OSError as e:
    print(f"Falha ao remover o diretório '{diretorio}': {e}")


O diretório '/home/andre301267/git/Pricing-Fertilizer-take-Rains-into-account/temp/chuvas/' e todo o seu conteúdo foram removidos com sucesso.
