# Uso de modelos preditivos de Machine Learning na gestão de risco aduaneira para identificação de empresas “de fachada” nas operações de importação
TCC PUC Minas - LUCIANA MACEDO RODRIGUES

### NOTEBOOK 5 - TESTE DE PARÂMETROS DE SETUP DE CLASSIFICAÇÃO NO PYCARET

### 1 - Configurações iniciais

In [None]:
# Importando os pacotes necessários
import pandas as pd
import numpy as np
from pycaret.classification import *

### 2 - Leitura do dataframe final

In [None]:
df_final = pd.read_csv('arquivos/df_final.csv', sep = ',')
df_final.head()

In [None]:
# Resumo de informações do dataframe final 
df_final.info()

In [None]:
# Corrigindo o tipo da variável alvo
df_final = df_final.astype({'TARGET': 'object'})

In [None]:
# qtde valores únicos
df_final.nunique()

In [None]:
# Resumo da estatística descritiva das variáveis quantitativas
df_final.describe()

### 3 - Isolamento de uma amostra para predições simulando um cenário real

In [None]:
# Separando 5% da amostra aleatóriamente
data = df_final.sample(frac=0.95, random_state=786)
data_pred = df_final.drop(data.index)
data.reset_index(inplace=True, drop=True)
data_pred.reset_index(inplace=True, drop=True)
print('Dados para Modelagem (data) correspondendo a 95% do df_final: ' + str(data.shape))
print('Dados para Predições (data_pred) correspondendo a 95% do df_final: ' + str(data_pred.shape))

### 4 - Testes de parâmetros de setup sobre o conjunto de dados para modelagem (data)

In [None]:
# Default
csf_exp101 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True
                   )

In [None]:
csf_exp101_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features
csf_exp102 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']} 
                   )

In [None]:
csf_exp102_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE)
csf_exp103 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True
                                      )

In [None]:
csf_exp103_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE) + high cardinality features
csf_exp104 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP']
                   )

In [None]:
csf_exp104_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE) + high cardinality features + normalize (robust)
csf_exp105 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   normalize = True, 
                   normalize_method = 'robust'
                   )

In [None]:
# O parâmetro Normalize (método robust) só piorou as métricas do modelo - por isso não utlizaremos
csf_exp105_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE) + high cardinality features + normalize (minmax)
csf_exp106 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   normalize = True,
                  normalize_method = 'minmax')

In [None]:
# O parâmetro Normalize (método minmax) só piorou as métricas do modelo - por isso não utlizaremos
csf_exp106_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE) + high cardinality features + normalize (FALSE) + ignore low variance

csf_exp107 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True
                   )

In [None]:
# O parâmetro ignore low variance não trouxe nenhum ganho ao modelo (métricas idênticas ao cfs_exp104) 
csf_exp107_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE) + high cardinality features + normalize (FALSE) 
# + ignore low variance + feature selection (threshold 0,8)

csf_exp108 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True,
                   feature_selection = True,
                   feature_selection_threshold = 0.8 # default
                   )

In [None]:
# O parâmetro ignore feature selection não trouxe nenhum ganho ao modelo (métricas idênticas ao cfs_exp104) 
%time
csf_exp108_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE) + high cardinality features + normalize (FALSE) 
# + ignore low variance + feature selection (threshold 0,4) + feature interaction
csf_exp109 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True,
                   feature_selection = True,
                   feature_selection_threshold = 0.4,
                   feature_interaction = True
                   )

In [None]:
# O parâmetro feature selection (thereshold 0,05 a 0,4) + feature interaction só piorou as métricas por isso não usaremos  
%time
csf_exp109_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE) + high cardinality features + normalize (FALSE) 
# + ignore low variance + feature selection (threshold 0,4) + feature ratio
csf_exp110 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True,
                   #feature_selection = True,
                   #feature_selection_threshold = 0.4,
                   feature_ratio = True
                   )

In [None]:
# O parâmetro feature ratio trouxe incremento das métricas
csf_exp110_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Default + ordinal features + fix imbalance (SMOTE) + high cardinality features + normalize (FALSE) 
# + ignore low variance + feature selection (threshold 0,4) + feature ratio + bin numeric features
csf_exp111 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True,
                   #feature_selection = True,
                   #feature_selection_threshold = 0.4,
                   #feature_ratio = True
                   bin_numeric_features= ['EMP_CS_MAX', 'IMP_VOL',
                                          'IMP_VAL', 'IMP_PESO', 
                                          'IMP_CUSTO', 'EMP_EMPREG', 'EMP_REC',
                                          'ANOS_ATIVA']
                   )

In [None]:
# O parâmetro bin numeric features só prejudicou as métricas
csf_exp111_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Remover outliers
csf_exp112 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True,
                   #feature_selection = True,
                   #feature_selection_threshold = 0.4,
                   feature_ratio = True,
                   remove_outliers = True
                   )

In [None]:
# Remover outliers com a metodologia do Pycaret sem normalizar não trouxe ganho nas métricas
csf_exp112_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# normalize + remove outliers
csf_exp113 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True,
                   #feature_selection = True,
                   #feature_selection_threshold = 0.4,
                   feature_ratio = True,
                   remove_outliers = True,
                   normalize = True,
                   normalize_method = 'robust'
                   )

In [None]:
# Combinar normalize + remove outliers também só prejudicou as métricas
csf_exp113_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Remover a multicolinearidade com limites acima de 0,6 prejudicou as métricas, mas acima de 0,7 não houve alteração.
csf_exp114_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Stratify split sample
csf_exp115 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True,
                   #feature_selection = True,
                   #feature_selection_threshold = 0.4,
                   feature_ratio = True,
                   remove_multicollinearity = True, 
                   multicollinearity_threshold = 0.7,
                   data_split_stratify = True)

In [None]:
# Stratify não trouxe ganho para as métricas
csf_exp115_top3 = compare_models(n_select = 3, sort = 'F1')

In [None]:
# Polinomial features
csf_exp116 = setup(data = data,
                   target = 'TARGET',
                   session_id=123,
                   silent = True,
                   ordinal_features = {'EMP_PORTE':['ME','EPP','DEMAIS']}, 
                   fix_imbalance = True,
                   high_cardinality_features = ['UF_EMP'],
                   ignore_low_variance = True,
                   feature_ratio = True,
                   remove_multicollinearity = True, 
                   multicollinearity_threshold = 0.7,
                   polynomial_features = True)

In [None]:
# polinomial não trouxe ganho para as métricas
csf_exp116_top3 = compare_models(n_select = 3, sort = 'F1')