### 1. Importação de Fertilizantes do Estado da Bahia

O site [Comexstat](http://comexstat.mdic.gov.br/pt/geral), portal para acesso gratuito às estatísticas de comércio exterior do Brasil, disponibiliza arquivos que apresentam todos os dados utilizados para construção da balança comercial brasileira, detalhados por NCM ou por Municípios do exportador/importador. 

O site informa que os dados estão disponíveis em arquivos compatados que contém arquivos CSV, utilizando como separador o ponto e vírgula (;), e com os nomes das colunas na primeira linha. 

Para esse projeto, o interesse esta sobre a base de dados denominada IMP_COMPLETA.zip, que contém histórico mensal das importações detalhadas por produto (código NCM), Unidade Federativa importadora, ano, mês, país de origem, quilograma líquido, valor dólar FOB (US$) e outras.

Para aproveitamento completo dos arquivos de dados, será necessário baixar e utilizar as Tabelas Auxiliares contendo a "Correlações de Códigos e Classificações". 

O arquivo principal e as tabelas auxiliares foram baixadas e salvas localmente na pasta '~/git/BD/Comexstat/'.

**Nota em relação ao Github:** Os arquivos salvos **nesta fase** são maiores do que o tamanho aceito em minha conta, e por isso eles serão ignorados e não disponibilizados.

> O objtivo do projeto é prever importações de fertilizantes identificados da forma mais esecífica possível. 
>
> No arquivo completo de importações do Brasil, a identificação mais específica é a Nomenclatura Comum do Mercosul (NCM).
>
> Para identificarmos no arquivo os NCMs relacionados aos fertilizantes, iremos identificar primeiro as categorias mais amplas, até chegarmos ao NCM.
>
> As categorias mais amplas de identificação de produtos é denominada SH(Sistema Harmonizado) é é por ela que vamos começar.

In [2]:
# Importa as bibliotecas necessárias
%run '~/git/Bibliotecas.ipynb'

In [3]:
sh=pd.read_csv('~/git/BD/Comexstat/NCM_SH.csv',sep=';',encoding='Latin-1')
sh.head(1)

Unnamed: 0,CO_SH6,NO_SH6_POR,NO_SH6_ESP,NO_SH6_ING,CO_SH4,NO_SH4_POR,NO_SH4_ESP,NO_SH4_ING,CO_SH2,NO_SH2_POR,NO_SH2_ESP,NO_SH2_ING,CO_NCM_SECROM,NO_SEC_POR,NO_SEC_ESP,NO_SEC_ING
0,10110,"Animais vivos das espécies cavalar, asinina e ...","Caballos y asnos, reproductores de raza pura",Pure-bred breeding horses and asses,101,"Cavalos, asininos e muares, vivos","Caballos, asnos, mulos y burdéganos, vivos","Live horses, asses, mules and hinnies",1,Animais vivos,Animales vivos,Live animals,I,Animais vivos e produtos do reino animal,Animales vivos y productos del reino animal,Lives animals; Animal products


> Pode-se ver que a coluna CO_SH2 apresenta o código mais abrangente. Ainda pode-se ver que na coluna NO_SH2_POR existe o nome da categoria em português.
>
> Identifica-se a seguir qual SH2 tem a palavra "fertilizante" incluída no nome.

In [5]:
# Identifica qual nome de categoria apresenta a palavra "fertilizante"
sh2_fert=sh[sh.NO_SH2_POR.str.contains('fertilizante')]['CO_SH2'].unique()
sh2_fert

array([31])

> Só um SH2 (31) possui 'fertilizante' no nome. Guardaremos o código dele a seguir:

In [6]:
# Identifica o código da única categoria 'fertilizante'
sh2_fert=sh2_fert[0]

>  Nessa mesma tabela, o código mais específico é o SH6, e os que são relacionados ao SH2 dos fertilizantes serão listados a seguir:

In [7]:
sh6_fert=sh[sh.CO_SH2==sh2_fert]['CO_SH6'].unique()
sh6_fert

array([310100, 310210, 310221, 310229, 310230, 310240, 310250, 310260,
       310270, 310280, 310290, 310310, 310311, 310319, 310320, 310390,
       310410, 310420, 310430, 310490, 310510, 310520, 310530, 310540,
       310551, 310559, 310560, 310590])

> Passaremos agora para a próxima tabela, a tabela NCM.csv, e dela extrairemos a lista de NCMs que se relacionam com a lista de SH6 dos fertilizantes. 

In [9]:
ncm=pd.read_csv('~/git/BD/Comexstat/NCM.csv', sep=';',encoding='latin1')
ncm_fert=ncm[ncm.CO_SH6.isin(sh6_fert)].CO_NCM.unique()
ncm_fert

array([31053000, 31031100, 31031900, 31059011, 31059019, 31059090,
       31031020, 31031030, 31032000, 31039011, 31053010, 31053090,
       31054000, 31055100, 31055900, 31056000, 31010000, 31021010,
       31021090, 31022100, 31022910, 31022990, 31023000, 31024000,
       31025011, 31025019, 31025090, 31026000, 31027000, 31028000,
       31029000, 31031010, 31039019, 31039090, 31041000, 31042010,
       31042090, 31043010, 31043090, 31049010, 31049090, 31051000,
       31052000])

Agora será extraido do arquivo principal (IMP_COMPLETA.csv) os registros relativos aos NCMs listados.

As linhas filtradas serão concatenadas para formar o novo  **arquivo principal**, que em seguida será salvo no endereço '~/comex/data/imp1.csv'.

In [14]:
# Cria leitor do arquivo principal em pedaços
csv_reader=pd.read_csv('~/git/BD/Comexstat/IMP_COMPLETA.zip', sep=';', chunksize=1000000)

# Prepara tabela para receber e concatenar os filtrados dos pedaços
q=pd.DataFrame()

# Lê, filtra e concatena cada pedaço
for chunk in csv_reader:
    q=pd.concat([q, chunk[chunk.CO_NCM.isin(ncm_fert)]])

# Ordena os dados
imp1=q.sort_values(by=q.columns.to_list()).reset_index(drop=True)

directory = '~/git/Pricing-Fertilizer-take-Rains-into-account/temp/'

# Expand the user path (if '~' is used)
expanded_directory = os.path.expanduser(directory)

# Check if the directory exists
if not os.path.exists(expanded_directory):
    # Create the directory if it doesn't exist
    os.makedirs(expanded_directory)


# Salva o resultado
imp1.to_csv('~/git/Pricing-Fertilizer-take-Rains-into-account/temp/imp1.csv', index=False)

In [16]:
imp1.head()

Unnamed: 0,CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB,VL_FRETE,VL_SEGURO
0,1997,1,31010000,10,386,SP,1,817800,15222,15222,34324,1323,177
1,1997,1,31010000,10,573,SP,1,817800,1800,20000,7169,2638,0
2,1997,1,31021010,10,850,RR,7,260151,640,32000,7360,1120,0
3,1997,1,31021090,10,850,RR,7,260151,96000,96000,22080,3360,0
4,1997,1,31022100,10,23,GO,1,817800,1900000,1900000,184300,19000,0


### 2. Volume de Chuva

O [INMET](https://portal.inmet.gov.br/) disponibliza banco de dados meteorológicos, capturados por estações automáticas espalhadas estratégicamente em regiões de interesse do Brasil.

Os arquivos foram baixados e salvos em:  

* '~/git/BD/Inmet/'