# Pré-processamento dos dados das exportações do RN
## Etapa 4 - Escalonamento, encoding e normalização dos dados

<img height="200" src="https://share-eric.eu/fileadmin/_processed_/b/5/csm_dataheader_ec9ee966be.jpg" width="600"/>

# Carregando base de dados das exportações do RN após etapa 3 de pre-processamento

In [2]:
import pandas as pd

# Carrega excel em um dataframe
dataset_exportacoes_sem_outliers = pd.read_csv('../../../data/interim/preprocessing/03_dataset_expo_rn_NO_OUTLIERS_featured.csv')
dataset_exportacoes_com_outliers = pd.read_csv('../../../data/interim/preprocessing/03_dataset_expo_rn_OUTLIERS_featured.csv')
dataset_exportacoes_com_outliers.drop(["Unnamed: 0", 'ano', 'mes', 'Valor US$ FOB_mensal.1', 'Quilograma Líquido_mensal.1', 'Valor US$ FOB_anual.1', 'Quilograma Líquido_anual.1'], axis=1, inplace=True)
dataset_exportacoes_sem_outliers.drop(["Unnamed: 0", 'ano', 'mes', 'Valor US$ FOB_mensal.1', 'Quilograma Líquido_mensal.1', 'Valor US$ FOB_anual.1', 'Quilograma Líquido_anual.1'], axis=1, inplace=True)

dataset_exportacoes_com_outliers

Unnamed: 0,Bloco Econômico,Países,Código NCM,Descrição NCM,Código SH6,Descrição SH6,Código SH4,Descrição SH4,Código SH2,Descrição SH2,...,Descrição Seção,Unidade estatística,Valor US$ FOB,Quilograma Líquido,Quantidade Estatística,Data,Valor US$ FOB_mensal,Quilograma Líquido_mensal,Valor US$ FOB_anual,Quilograma Líquido_anual
0,0,8,27101911,Querosenes de aviação,271019,Outros óleos de petróleo ou de minerais betumi...,119,558,25,18,...,18,2,14906,11675,15,2024-09-01,571128,598314,453298187,783875921
1,0,37,52093900,Outros tecidos de algodão que contenham pelo m...,520939,"Outros tecidos de algodão tinto, contendo => 8...",237,510,46,2,...,6,8,11130,1294,1294,2024-09-01,190282,25398,1552614,226207
2,0,37,17049020,"Caramelos, confeitos, dropes, pastilhas, e pro...",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,...,16,8,38824,22782,22782,2024-09-01,1009459,570338,7618874,4239594
3,0,46,27101911,Querosenes de aviação,271019,Outros óleos de petróleo ou de minerais betumi...,119,558,25,18,...,18,2,1915,1482,2,2024-09-01,571128,598314,453298187,783875921
4,0,46,52092200,Tecidos de algodão que contenham pelo menos 85...,520922,"Tecido de algodão branqueado, em ponto sarjado...",237,510,46,2,...,6,8,58126,9825,9825,2024-09-01,2769669,491933,11553520,2074862
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57130,6,161,17041000,"Gomas de mascar, mesmo revestidas de açúcar, s...",170410,"Gomas de mascar, sem cacau, mesmo revestidas d...",66,452,16,6,...,16,8,9696,4640,0,1997-01-01,93303,63241,1990600,1261793
57131,6,161,17049020,"Caramelos, confeitos, dropes, pastilhas, e pro...",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,...,16,8,40640,30275,0,1997-01-01,294265,243061,6357902,5535543
57132,6,161,17049090,"Outros produtos de confeitaria, sem cacau",170490,"Outros produtos de confeitaria, sem cacau",66,452,16,6,...,16,8,34060,26720,0,1997-01-01,294265,243061,6357902,5535543
57133,7,75,15211000,Ceras vegetais,152110,"Ceras vegetais, mesmo refinadas ou coradas (ex...",61,111,14,28,...,2,8,45276,14000,14,1997-01-01,354955,84000,1463103,338500


In [3]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd
import joblib

# Criação do LabelEncoder
encoder_sem_outliers = LabelEncoder()
encoder_com_outliers = LabelEncoder()

# Lista das colunas a serem transformadas
colunas_a_transformar = ['Bloco Econômico', 'Países', 'Código NCM','Descrição NCM', 'Código SH6', 'Descrição SH6', 'Código SH4', 'Descrição SH4', 'Código SH2', 'Descrição SH2', 'Código Seção',
                         'Descrição Seção','Unidade estatística']

# Aplicar LabelEncoder nas colunas selecionadas, sobrescrevendo as colunas originais
for coluna in colunas_a_transformar:
    dataset_exportacoes_sem_outliers[coluna] = encoder_sem_outliers.fit_transform(dataset_exportacoes_sem_outliers[coluna])
    dataset_exportacoes_sem_outliers[coluna] = encoder_sem_outliers.fit_transform(dataset_exportacoes_sem_outliers[coluna])
    dataset_exportacoes_com_outliers[coluna] = encoder_com_outliers.fit_transform(dataset_exportacoes_com_outliers[coluna])
    dataset_exportacoes_com_outliers[coluna] = encoder_com_outliers.fit_transform(dataset_exportacoes_com_outliers[coluna])

# Salvar o encoder
joblib.dump(encoder_sem_outliers, '../../../models/encoder/label_encoder_sem_outliers.plk')
joblib.dump(dataset_exportacoes_com_outliers, '../../../models/encoder/label_encoder_com_outliers.plk')

# Visualizar o resultado
dataset_exportacoes_sem_outliers_encoded = dataset_exportacoes_sem_outliers
dataset_exportacoes_com_outliers_encoded = dataset_exportacoes_com_outliers
dataset_exportacoes_com_outliers_encoded

Unnamed: 0,Bloco Econômico,Países,Código NCM,Descrição NCM,Código SH6,Descrição SH6,Código SH4,Descrição SH4,Código SH2,Descrição SH2,...,Descrição Seção,Unidade estatística,Valor US$ FOB,Quilograma Líquido,Quantidade Estatística,Data,Valor US$ FOB_mensal,Quilograma Líquido_mensal,Valor US$ FOB_anual,Quilograma Líquido_anual
0,0,8,328,1356,265,995,119,558,25,18,...,18,2,14906,11675,15,2024-09-01,571128,598314,453298187,783875921
1,0,37,618,1170,510,961,237,510,46,2,...,6,8,11130,1294,1294,2024-09-01,190282,25398,1552614,226207
2,0,37,215,188,170,917,66,452,16,6,...,16,8,38824,22782,22782,2024-09-01,1009459,570338,7618874,4239594
3,0,46,328,1356,265,995,119,558,25,18,...,18,2,1915,1482,2,2024-09-01,571128,598314,453298187,783875921
4,0,46,614,1464,506,1205,237,510,46,2,...,6,8,58126,9825,9825,2024-09-01,2769669,491933,11553520,2074862
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57130,6,161,213,471,169,429,66,452,16,6,...,16,8,9696,4640,0,1997-01-01,93303,63241,1990600,1261793
57131,6,161,215,188,170,917,66,452,16,6,...,16,8,40640,30275,0,1997-01-01,294265,243061,6357902,5535543
57132,6,161,216,1110,170,917,66,452,16,6,...,16,8,34060,26720,0,1997-01-01,294265,243061,6357902,5535543
57133,7,75,205,213,161,207,61,111,14,28,...,2,8,45276,14000,14,1997-01-01,354955,84000,1463103,338500


# Salvando dados apos encoding

In [4]:
dataset_exportacoes_com_outliers.to_csv("../../../data/interim/preprocessing/04_dataset_expo_rn_OUTLIERS_featured_encoded.csv")
dataset_exportacoes_sem_outliers.to_csv("../../../data/interim/preprocessing/04_dataset_expo_rn_NO_OUTLIERS_featured_encoded.csv")
