# Pré-processamento dos dados das exportações do RN

## Etapa 1 - Limpeza dos dados
<img height="200" src="https://share-eric.eu/fileadmin/_processed_/b/5/csm_dataheader_ec9ee966be.jpg" width="600"/>

# Carregando base de dados das exportações do RN

In [168]:
import pandas as pd

# Carrega excel em um dataframe
dataset_exportacoes_rn_continente = pd.read_csv('../../../data/raw/V_EXPORTACAO_GERAL_1997-01_2024-12_CONTINENTE_EXCEL.csv')
dataset_exportacoes_rn_blocos_economicos = pd.read_csv('../../../data/raw/V_EXPORTACAO_GERAL_1997-01_2024-12_BLOCOS_ECONOMICOS_EXCEL.csv')


# 1. Leitura e Inspeção Inicial

## 1.1 Verificando os tipos dos dados

In [169]:
from IPython.display import display
import pandas as pd

# Exibe o resultado
pd.DataFrame({
    'Tipos dos dados dataset continente': dataset_exportacoes_rn_continente.dtypes,
    'Tipos dos dados dataset blocos econômicos': dataset_exportacoes_rn_blocos_economicos.dtypes
})

Unnamed: 0,Tipos dos dados dataset continente,Tipos dos dados dataset blocos econômicos
Unnamed: 0,int64,int64
year,int64,int64
month,object,object
UF do Produto,object,object
Bloco Econômico,object,object
Países,object,object
Via,object,object
URF,object,object
Código NCM,int64,int64
Descrição NCM,object,object


## 1.2 Verificando dados ausentes

In [170]:
print(f"Dados ausentes no dataset por continentes? {dataset_exportacoes_rn_continente.isnull().any().any()}")
print(
    f"Dados ausentes no dataset por blocos econômicos? {dataset_exportacoes_rn_blocos_economicos.isnull().any().any()}")

Dados ausentes no dataset por continentes? False
Dados ausentes no dataset por blocos econômicos? False


## Não há dados faltantes

## 1.3 Verificando valores nulos

In [171]:
# Filtrando as transações onde "Valor US$ FOB" é igual a 0
transacoes_zero_fob_continentes = dataset_exportacoes_rn_continente[dataset_exportacoes_rn_continente['Valor US$ FOB'] == 0]
transacoes_zero_fob_blocos = dataset_exportacoes_rn_blocos_economicos[dataset_exportacoes_rn_blocos_economicos['Valor US$ FOB'] == 0]

print("Quantidade de transações nulas:")
print("Dataset continentes: ", len(transacoes_zero_fob_continentes))
print("Dataset blocos:", len(transacoes_zero_fob_blocos))


Quantidade de transações nulas:
Dataset continentes:  29
Dataset blocos: 17


## 1.4 Dropando linhas em que o valor fob é nulo

In [172]:
# Filtrando as transações onde "Valor US$ FOB" é igual a 0
df_exportacoes_rn_continente = dataset_exportacoes_rn_continente[dataset_exportacoes_rn_continente['Valor US$ FOB'] != 0]
df_exportacoes_rn_blocos = dataset_exportacoes_rn_blocos_economicos[dataset_exportacoes_rn_blocos_economicos['Valor US$ FOB'] != 0]

transacoes_zero_fob_continentes_drop = df_exportacoes_rn_continente[df_exportacoes_rn_continente['Valor US$ FOB'] == 0]
transacoes_zero_fob_blocos_drop = df_exportacoes_rn_blocos[df_exportacoes_rn_blocos['Valor US$ FOB'] == 0]

print("Quantidade de transações nulas após drop:")
print("Dataset continentes: ", len(transacoes_zero_fob_continentes_drop))
print("Dataset blocos:", len(transacoes_zero_fob_blocos_drop))

Quantidade de transações nulas após drop:
Dataset continentes:  0
Dataset blocos: 0


# 2. Correção e Conversão de Tipos dos Dados

## 2.1 Converter colunas para tipo adequado

In [173]:
df_exportacoes_rn_continente.head()

Unnamed: 0.1,Unnamed: 0,year,month,UF do Produto,Bloco Econômico,Países,Via,URF,Código NCM,Descrição NCM,...,Código SH4,Descrição SH4,Código SH2,Descrição SH2,Código Seção,Descrição Seção,Unidade estatística,Valor US$ FOB,Quilograma Líquido,Quantidade Estatística
0,0,2024,09. Setembro,Rio Grande do Norte,América Central e Caribe,Bahamas,MARITIMA,0420154 - IRF NATAL,27101911,Querosenes de aviação,...,2710,"Óleos de petróleo ou de minerais betuminosos, ...",27,"Combustíveis minerais, óleos minerais e produt...",V,Produtos minerais,METRO CUBICO,14906,11675,15
1,1,2024,09. Setembro,Rio Grande do Norte,América Central e Caribe,Costa Rica,MARITIMA,0817800 - PORTO DE SANTOS,52093900,Outros tecidos de algodão que contenham pelo m...,...,5209,"Tecidos de algodão, contendo pelo menos 85 %, ...",52,Algodão,XI,Matérias têxteis e suas obras,QUILOGRAMA LIQUIDO,11130,1294,1294
2,2,2024,09. Setembro,Rio Grande do Norte,América Central e Caribe,Costa Rica,MARITIMA,0917800 - PORTO DE PARANAGUA,17049020,"Caramelos, confeitos, dropes, pastilhas, e pro...",...,1704,Produtos de confeitaria sem cacau (incluído o ...,17,Açúcares e produtos de confeitaria,IV,"Produtos das indútrias alimentares; Bebidas, l...",QUILOGRAMA LIQUIDO,38824,22782,22782
3,3,2024,09. Setembro,Rio Grande do Norte,América Central e Caribe,El Salvador,MARITIMA,0420154 - IRF NATAL,27101911,Querosenes de aviação,...,2710,"Óleos de petróleo ou de minerais betuminosos, ...",27,"Combustíveis minerais, óleos minerais e produt...",V,Produtos minerais,METRO CUBICO,1915,1482,2
4,4,2024,09. Setembro,Rio Grande do Norte,América Central e Caribe,El Salvador,MARITIMA,0517800 - ALF - SALVADOR,52092200,Tecidos de algodão que contenham pelo menos 85...,...,5209,"Tecidos de algodão, contendo pelo menos 85 %, ...",52,Algodão,XI,Matérias têxteis e suas obras,QUILOGRAMA LIQUIDO,58126,9825,9825


In [174]:
df_exportacoes_rn_blocos.head()

Unnamed: 0.1,Unnamed: 0,year,month,UF do Produto,Bloco Econômico,Países,Via,URF,Código NCM,Descrição NCM,...,Código SH4,Descrição SH4,Código SH2,Descrição SH2,Código Seção,Descrição Seção,Unidade estatística,Valor US$ FOB,Quilograma Líquido,Quantidade Estatística
0,0,2024,09. Setembro,Rio Grande do Norte,Associação de Nações do Sudeste Asiático - ASEAN,Malásia,MARITIMA,0817800 - PORTO DE SANTOS,39159000,"Desperdícios, resíduos e aparas, de outros plá...",...,3915,"Desperdícios, resíduos e aparas, de plástico",39,Plásticos e suas obras,VII,Plásticos e suas obras; Borracha e suas obras,QUILOGRAMA LIQUIDO,29295,21000,21000
1,1,2024,09. Setembro,Rio Grande do Norte,Associação de Nações do Sudeste Asiático - ASEAN,Vietnã,AEREA,0420154 - IRF NATAL,12119090,"Outras plantas e partes, para perfumaria, medi...",...,1211,"Plantas, partes de plantas, sementes e frutos,...",12,"Sementes e frutos oleaginosos; grãos, sementes...",II,Produtos do reino vegetal,QUILOGRAMA LIQUIDO,52000,1300,1300
2,2,2024,09. Setembro,Rio Grande do Norte,Comunidade Andina das Nações - CAN,Colômbia,AEREA,0817600 - AEROPORTO INTERNACIONAL DE SAO PAULO...,39269090,Outras obras de plásticos,...,3926,Outras obras de plástico e obras de outras mat...,39,Plásticos e suas obras,VII,Plásticos e suas obras; Borracha e suas obras,QUILOGRAMA LIQUIDO,1924,125,125
3,3,2024,09. Setembro,Rio Grande do Norte,Comunidade Andina das Nações - CAN,Colômbia,AEREA,0817600 - AEROPORTO INTERNACIONAL DE SAO PAULO...,52092200,Tecidos de algodão que contenham pelo menos 85...,...,5209,"Tecidos de algodão, contendo pelo menos 85 %, ...",52,Algodão,XI,Matérias têxteis e suas obras,QUILOGRAMA LIQUIDO,5274,624,624
4,4,2024,09. Setembro,Rio Grande do Norte,Comunidade Andina das Nações - CAN,Colômbia,AEREA,0817600 - AEROPORTO INTERNACIONAL DE SAO PAULO...,63079090,Outros artefatos têxteis confeccionados,...,6307,"Outros artefactos confeccionados, incluídos os...",63,Outros artefatos têxteis confeccionados; sorti...,XI,Matérias têxteis e suas obras,QUILOGRAMA LIQUIDO,411,25,25


## 2.2 Juntar "Ano" e "Mês" em uma unica coluna "Data"

### 2.2.1 Transformando coluna "Mês" em dado numérico

In [175]:
dataset_exportacoes_rn_blocos_economicos['month'] = dataset_exportacoes_rn_blocos_economicos['month'].str.extract(
    r'(\d+)').astype(int)
dataset_exportacoes_rn_continente['month'] = dataset_exportacoes_rn_continente['month'].str.extract(r'(\d+)').astype(
    int)

In [176]:
# Renomeando temporariamente as colunas
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.rename(
    columns={'Ano': 'year', 'Mês': 'month'})
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.rename(columns={'Ano': 'year', 'Mês': 'month'})

# Criando a coluna 'Mês/Ano' como datetime
dataset_exportacoes_rn_blocos_economicos['Data'] = pd.to_datetime(
    dataset_exportacoes_rn_blocos_economicos[['year', 'month']].assign(day=1))
dataset_exportacoes_rn_continente['Data'] = pd.to_datetime(
    dataset_exportacoes_rn_continente[['year', 'month']].assign(day=1))

dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.rename(
    columns={'year': 'Ano', 'month': 'Mês'})
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.rename(columns={'year': 'Ano', 'month': 'Mês'})

# Dropa colunas Mês e Ano
# Blocos economicos
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.drop("Ano", axis=1)
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.drop("Mês", axis=1)

# Continentes
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.drop("Ano", axis=1)
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.drop("Mês", axis=1)

dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_continente.drop("Unnamed: 0", axis=1)
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.drop("Unnamed: 0", axis=1)

### 2.2.2 Dropando coluna UF do produto, todas as linhas são iguais

In [177]:
# Dropa colunas "UF do Produto"
# Blocos economicos
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.drop("UF do Produto", axis=1)
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.drop("UF do Produto", axis=1)

In [178]:
dataset_exportacoes_rn_continente.dtypes

Bloco Econômico                   object
Países                            object
Via                               object
URF                               object
Código NCM                         int64
Descrição NCM                     object
Código SH6                         int64
Descrição SH6                     object
Código SH4                         int64
Descrição SH4                     object
Código SH2                         int64
Descrição SH2                     object
Código Seção                      object
Descrição Seção                   object
Unidade estatística               object
Valor US$ FOB                      int64
Quilograma Líquido                 int64
Quantidade Estatística             int64
Data                      datetime64[ns]
dtype: object

### 2.2.2 Dropando colunas 'Via' e 'URF', não importa para o modelo

In [179]:
dataset_exportacoes_rn_blocos_economicos = dataset_exportacoes_rn_blocos_economicos.drop(["Via", "URF"], axis=1)
dataset_exportacoes_rn_continente = dataset_exportacoes_rn_continente.drop(["Via", "URF"], axis=1)

In [180]:
dataset_exportacoes_rn_continente.dtypes

Bloco Econômico                   object
Países                            object
Código NCM                         int64
Descrição NCM                     object
Código SH6                         int64
Descrição SH6                     object
Código SH4                         int64
Descrição SH4                     object
Código SH2                         int64
Descrição SH2                     object
Código Seção                      object
Descrição Seção                   object
Unidade estatística               object
Valor US$ FOB                      int64
Quilograma Líquido                 int64
Quantidade Estatística             int64
Data                      datetime64[ns]
dtype: object

## 2.3 Encoding das colunas categóricas

In [181]:
import os

# Verificar o diretório atual de trabalho
os.getcwd()


'C:\\Users\\joao1\\DataspellProjects\\analise_exportacoes_rn\\src\\notebooks\\preprocessing'

In [182]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd
import joblib

# Criação do LabelEncoder
encoder = LabelEncoder()

# Lista das colunas a serem transformadas
colunas_a_transformar = ['Bloco Econômico', 'Países','Código SH4', 'Descrição SH4', 'Código SH2', 'Descrição SH2', 'Código Seção',
                         'Descrição Seção','Unidade estatística']

# Aplicar LabelEncoder nas colunas selecionadas, sobrescrevendo as colunas originais
for coluna in colunas_a_transformar:
    dataset_exportacoes_rn_continente[coluna] = encoder.fit_transform(dataset_exportacoes_rn_continente[coluna])
    dataset_exportacoes_rn_blocos_economicos[coluna] = encoder.fit_transform(dataset_exportacoes_rn_blocos_economicos[coluna])

# Salvar o encoder
joblib.dump(encoder, '../../../models/encoder/label_encoder.plk')

# Visualizar o resultado
dataset_exportacoes_rn_continente_encoded = dataset_exportacoes_rn_continente
dataset_exportacoes_rn_continente_encoded

Unnamed: 0,Bloco Econômico,Países,Código NCM,Descrição NCM,Código SH6,Descrição SH6,Código SH4,Descrição SH4,Código SH2,Descrição SH2,Código Seção,Descrição Seção,Unidade estatística,Valor US$ FOB,Quilograma Líquido,Quantidade Estatística,Data
0,0,8,27101911,Querosenes de aviação,271019,Outros óleos de petróleo ou de minerais betumi...,119,558,25,18,5,18,2,14906,11675,15,2024-09-01
1,0,37,52093900,Outros tecidos de algodão que contenham pelo m...,520939,"Outros tecidos de algodão tinto, contendo => 8...",237,510,46,2,10,6,8,11130,1294,1294,2024-09-01
2,0,37,17049020,"Caramelos, confeitos, dropes, pastilhas, e pro...",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,3,16,8,38824,22782,22782,2024-09-01
3,0,46,27101911,Querosenes de aviação,271019,Outros óleos de petróleo ou de minerais betumi...,119,558,25,18,5,18,2,1915,1482,2,2024-09-01
4,0,46,52092200,Tecidos de algodão que contenham pelo menos 85...,520922,"Tecido de algodão branqueado, em ponto sarjado...",237,510,46,2,10,6,8,58126,9825,9825,2024-09-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57130,6,161,17041000,"Gomas de mascar, mesmo revestidas de açúcar, s...",170410,"Gomas de mascar, sem cacau, mesmo revestidas d...",66,452,16,6,3,16,8,9696,4640,0,1997-01-01
57131,6,161,17049020,"Caramelos, confeitos, dropes, pastilhas, e pro...",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,3,16,8,40640,30275,0,1997-01-01
57132,6,161,17049090,"Outros produtos de confeitaria, sem cacau",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,3,16,8,34060,26720,0,1997-01-01
57133,7,75,15211000,Ceras vegetais,152110,"Ceras vegetais, mesmo refinadas ou coradas (ex...",61,111,14,28,2,2,8,45276,14000,14,1997-01-01


# Salvando base de dados em CSV

In [183]:
dataset_exportacoes_rn_continente_encoded.dtypes

Bloco Econômico                    int64
Países                             int64
Código NCM                         int64
Descrição NCM                     object
Código SH6                         int64
Descrição SH6                     object
Código SH4                         int64
Descrição SH4                      int64
Código SH2                         int64
Descrição SH2                      int64
Código Seção                       int64
Descrição Seção                    int64
Unidade estatística                int64
Valor US$ FOB                      int64
Quilograma Líquido                 int64
Quantidade Estatística             int64
Data                      datetime64[ns]
dtype: object

In [184]:
dataset_exportacoes_rn_continente_encoded

Unnamed: 0,Bloco Econômico,Países,Código NCM,Descrição NCM,Código SH6,Descrição SH6,Código SH4,Descrição SH4,Código SH2,Descrição SH2,Código Seção,Descrição Seção,Unidade estatística,Valor US$ FOB,Quilograma Líquido,Quantidade Estatística,Data
0,0,8,27101911,Querosenes de aviação,271019,Outros óleos de petróleo ou de minerais betumi...,119,558,25,18,5,18,2,14906,11675,15,2024-09-01
1,0,37,52093900,Outros tecidos de algodão que contenham pelo m...,520939,"Outros tecidos de algodão tinto, contendo => 8...",237,510,46,2,10,6,8,11130,1294,1294,2024-09-01
2,0,37,17049020,"Caramelos, confeitos, dropes, pastilhas, e pro...",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,3,16,8,38824,22782,22782,2024-09-01
3,0,46,27101911,Querosenes de aviação,271019,Outros óleos de petróleo ou de minerais betumi...,119,558,25,18,5,18,2,1915,1482,2,2024-09-01
4,0,46,52092200,Tecidos de algodão que contenham pelo menos 85...,520922,"Tecido de algodão branqueado, em ponto sarjado...",237,510,46,2,10,6,8,58126,9825,9825,2024-09-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57130,6,161,17041000,"Gomas de mascar, mesmo revestidas de açúcar, s...",170410,"Gomas de mascar, sem cacau, mesmo revestidas d...",66,452,16,6,3,16,8,9696,4640,0,1997-01-01
57131,6,161,17049020,"Caramelos, confeitos, dropes, pastilhas, e pro...",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,3,16,8,40640,30275,0,1997-01-01
57132,6,161,17049090,"Outros produtos de confeitaria, sem cacau",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,3,16,8,34060,26720,0,1997-01-01
57133,7,75,15211000,Ceras vegetais,152110,"Ceras vegetais, mesmo refinadas ou coradas (ex...",61,111,14,28,2,2,8,45276,14000,14,1997-01-01


In [185]:
dataset_exportacoes_rn_continente_encoded.to_csv("../../../data/interim/preprocessing/01_dataset_expo_rn_data_cleaning.csv")