***
# `Project:` Prevendo o Nível de Satisfação dos Clientes do Santander

## `Date:` julho, 2020

## `Data Scientist:` Walter Trevisan
***

## `06-` Tests (`Step 01`)

Iniciaremos a nossa fase de **`Tests`**, preparando o nosso *dataset* de teste que foi criado na fase **`02-Get-The-Data`**, ou seja, o *dataset* **`santander_test.pickle`**. Então, realizaremos as seguintes atividades nesta etapa (`Step 01`):

1. Carregar o *dataset* de teste: **`santander_test.pickle`**;


2. Carregar objeto *importante* criado na fase de *Análise Exploratória*, ou seja, **`03-Explore-The-Data (Step-05)`**;


3. Carregar os objetos *importantes* criados na fase de *Pré-processamento*, ou seja, **`04-Preprocessing`**;


4. Preparar o *dataset* de teste (**`santander_test.pickle`**) que será utilizado, na próxima etapa, com os modelos preditivos selecionados;


5. Salvar o *dataset* de teste.

## Setup

In [1]:
# As novas versões do Pandas e Matplotlib trazem diversas mensagens de aviso ao desenvolvedor.
# Então, vamos desativar essas mensagens.
import sys # O pacote "sys" permite manipulações com o sistema operacional:
import os  # Operation System (Packages and Functions)
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

# Common imports:
import numpy as np    # NumPy
import pandas as pd   # Pandas

# Definindo o diretório raiz (Root) onde serão armazenados todas as informações
# (Imagens, Objetos, Dados, Modelos de ML, etc...) do projeto.
# Diretório Raiz (Root) do Projeto:
PROJECT_ROOT_DIR = "."

# Path: onde ficarão armazenados os "Objetos" (Estrututras de Dados) relacionados ao Projeto:
PROJECT_OBJ_PATH = os.path.join(PROJECT_ROOT_DIR, "Objects")
# Criando o diretório, se ele não existir:
os.makedirs(PROJECT_OBJ_PATH, exist_ok=True)

# Path: onde ficarão armazenados os "Testes" (Machine Learning) relacionados ao Projeto:
PROJECT_TEST_PATH = os.path.join(PROJECT_ROOT_DIR, "Tests")
# Criando o diretório, se ele não existir:
os.makedirs(PROJECT_TEST_PATH, exist_ok=True)

# Path: onde ficarão armazenados os "datasets" (arquivos "csv") e os "Objetos" (Data Frames) do Projeto:
PROJECT_DATA_PATH = os.path.join(PROJECT_ROOT_DIR, "Data")
# Criando o diretório, se ele não existir:
os.makedirs(PROJECT_DATA_PATH, exist_ok=True)

# Path: onde estão armazenadas as classes e funções que serão utilizadas neste notebook:
PROJECT_LIB_PATH = os.path.join(PROJECT_ROOT_DIR, "Library")

# Adicionando o diretório ao 'path' do Sistema, para podermos importar classes e funções que serão
# utilizadas neste notebook:
sys.path.append(PROJECT_LIB_PATH)

# Importando para este notebook, as classes e funções definidas no módulo "DataScience_Library_v1_0":
import DataScience_Library_v1_0 as dslib

print("Setup Complete!")

Setup Complete!


In [2]:
# Versões dos pacotes usados neste jupyter notebook:
%reload_ext watermark
%watermark -a "Walter Trevisan" --iversions

pandas 0.25.3
numpy  1.18.2
Walter Trevisan


## `01-` Carregar o *dataset* de `testes`: `santander_test.pickle`

In [3]:
# Carregando o dataset "X_train_v2.pickle" que contém as variáveis preditoras:
test_df = dslib.pickle_object_load(path=PROJECT_DATA_PATH, file="santander_test.pickle",
                                   msg="The 'santander_test' (data frame) has been successfully uploaded!")

The 'santander_test' (data frame) has been successfully uploaded!


In [4]:
# Renomeando o label "ind_var10cte_ult1", em nosso dataset, para colocá-lo no mesmo padrão das outras variáveis (features).
test_df.rename(columns={'ind_var10cte_ult1': 'ind_var10_cte_ult1'}, inplace=True)

## `02-` Carregar o `objeto` criado na fase `03-Explore-The-Data (Step-05)`:

Agora, vamos carregar o seguinte **`objeto`**, criado na fase de análise exploratória dos dados: `03-Explore-The-Data (Step-05)`:

1. **`santander_relevant_feat`:** dicionário com as principais informações sobre cada uma das features **`Relevantes`**, ou seja, `tipo de variável`, valores ausentes (`NaN`), valores extremos (`Outliers`), e também uma lista com as variáveis que são **`Irrelevantes`**, ou seja, que não serão analisadas para a criação dos modelos preditivos (`Irrelevant`).

In [5]:
# 1. Carregando o objeto "santander_relevant_feat":
info = "The 'santander_relevant_feat' object has been successfully uploaded!"
dataset_relevant_feat = dslib.pickle_object_load(path=PROJECT_OBJ_PATH, file="santander_relevant_feat.pickle",
                                                 msg=info)

The 'santander_relevant_feat' object has been successfully uploaded!


## `03-` Carregar os `objetos` criados na fase de `04-Preprocessing`:

Vamos carregar os seguintes **`objetos`**, criados na fase de preparação dos dados (`04-Preprocessing`):

1. **`santander_feat_eng`:** objeto (dicionário) com informações sobre cada uma das transformações (**`Feature Engineering`**) que foram realizadas nas features **`Relevantes`** do nosso *data frame* de treinamento;

2. **`ohe`:** instância (objeto) criado da classe **`OneHotEncoder()`** onde foram realizadas transformações (**`Feature Engineering`**) nas features **`Categóricas`** do nosso *data frame* de treinamento;

3. **`pt`:** instância (objeto) criado da classe **`PowerTransformer()`** onde foram realizadas transformações (**`Feature Engineering`**) nas features **`Numéricas`** do nosso *data frame* de treinamento;

4. **`qt`:** instância (objeto) criado da classe **`QuantileTransformer()`** onde foram realizadas transformações (**`Feature Engineering`**) nas features **`Numéricas`** do nosso *data frame* de treinamento.

In [6]:
# 1. Carregando o objeto "santander_feat_eng":
dataset_feat_eng = dslib.pickle_object_load (path=PROJECT_OBJ_PATH, file="santander_feat_eng.pickle",
                                             msg="The 'santander_feat_eng' object has been successfully uploaded!")

# 2. Carregando o objeto "ohe":
ohe = dslib.pickle_object_load (path=PROJECT_OBJ_PATH, file="OneHotEncoder.pickle",
                                msg="The 'ohe' object has been successfully uploaded!")

# 3. Carregando o objeto "pt":
pt = dslib.pickle_object_load (path=PROJECT_OBJ_PATH, file="PowerTransformer.pickle",
                               msg="The 'pt' object has been successfully uploaded!")

# 4. Carregando o objeto "qt":
qt = dslib.pickle_object_load (path=PROJECT_OBJ_PATH, file="QuantileTransformer.pickle",
                               msg="The 'qt' object has been successfully uploaded!")

The 'santander_feat_eng' object has been successfully uploaded!
The 'ohe' object has been successfully uploaded!
The 'pt' object has been successfully uploaded!
The 'qt' object has been successfully uploaded!


## `04-` Preparar o *data frame* de `testes`: **`test_df`**

Agora, vamos preparar o nosso *data frame* de *testes* executando as seguintes etapas:

> **`4.1-`** Remover do *data frame* as **`features`** irrelevantes (**`Irrelevant`**);


> **`4.2-`** Aplicar a função `OneHotEncoder()` nas features `Categóricas` (Qualitativas) do *data frame*;


> **`4.3-`** Aplicar a função `QuantileTransformer()` nas features `numéricas` (Quantitativas) do *data frame*;


> **`4.4-`** Aplicando a função `PowerTransformer()` nas features `numéricas` (Quantitativas) do *data frame*;


> **`4.5-`** Atualizar o *data frame* de `testes` com as features numéricas *transformadas*.

### `4.1-` Remover do *data frame* as `features` classificadas como `Irrelevant` (Irrelevantes):

In [7]:
# Resumo das features "relevantes" por tipo de informação:
print("Relevant features:")
print('     Binary: {}'.format(dataset_relevant_feat.count(keys=['Binary'])))
print('    Ordinal: {}'.format(dataset_relevant_feat.count(keys=['Ordinal'])))
print('Categorical: {}'.format(dataset_relevant_feat.count(keys=['Categorical'])))
print('   Discrete: {}'.format(dataset_relevant_feat.count(keys=['Discrete'])))
print(' Continuous: {}'.format(dataset_relevant_feat.count(keys=['Continuous'])))
print('----------------')
print('      Total: {}'.format(dataset_relevant_feat.count(keys=['Categorical', 'Binary', 'Ordinal', 'Discrete',
                                                                  'Continuous'])))

Relevant features:
     Binary: 1
    Ordinal: 0
Categorical: 4
   Discrete: 10
 Continuous: 8
----------------
      Total: 23


In [8]:
# Resumo das features "Irrelevantes":
print("Irrelevant features: {}".format(dataset_relevant_feat.count(keys=['Irrelevant'])))

Irrelevant features: 346


In [9]:
# Eliminando as features "Irrelevantes" do data frame de testes:
test_df.drop(columns=dataset_relevant_feat.get(key='Irrelevant'), inplace=True)

# Eliminando a feature "ID" (Primary Key) do data frame de testes:
test_df.drop(columns='ID', inplace=True)

# Resumo do data frame:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15204 entries, 0 to 15203
Data columns (total 24 columns):
var15                       15204 non-null int64
ind_var30                   15204 non-null int64
num_var4                    15204 non-null int64
num_var5                    15204 non-null int64
num_var30                   15204 non-null int64
num_var35                   15204 non-null int64
num_var42                   15204 non-null int64
saldo_var5                  15204 non-null float64
saldo_var30                 15204 non-null float64
saldo_var42                 15204 non-null float64
var36                       15204 non-null int64
num_var22_ult3              15204 non-null int64
num_meses_var5_ult3         15204 non-null int64
num_meses_var39_vig_ult3    15204 non-null int64
num_var45_hace2             15204 non-null int64
num_var45_hace3             15204 non-null int64
num_var45_ult1              15204 non-null int64
num_var45_ult3              15204 non-null int64
sal

### `4.2-` Aplicar a função `OneHotEncoder()` nas features `Categóricas` (Qualitativas) do *data frame*:

In [10]:
# Obtem todas as variáveis preditoras (features) categóricas (Relevantes):
category_feats = dataset_relevant_feat.get(key='Binary') + dataset_relevant_feat.get(key='Categorical')
print("Category features: {}".format(category_feats))

Category features: ['ind_var30', 'num_var4', 'var36', 'num_meses_var5_ult3', 'num_meses_var39_vig_ult3']


In [11]:
# Obtendo o número único de entradas em cada feature com dados categóricos no data frame de testes:
test_category_num_unique = list(map(lambda feat: test_df[feat].nunique(), category_feats))
d = dict(zip(category_feats, test_category_num_unique))

# Imprime as categorias em ordem crescente pela quantidde de classes únicas:
sorted(d.items(), key=lambda x: x[1])

[('ind_var30', 2),
 ('num_meses_var5_ult3', 4),
 ('num_meses_var39_vig_ult3', 4),
 ('var36', 5),
 ('num_var4', 7)]

In [12]:
# Obtendo as entradas únicas em cada feature com dados categóricos no data frame de testes:
test_category_unique = list(map(lambda feat: test_df[feat].unique(), category_feats))
test_cat_unique_dict = dict(zip(category_feats, test_category_unique))

# Mostrando as features categóricas com as suas categorias:
test_cat_unique_dict

{'ind_var30': array([0, 1], dtype=int64),
 'num_var4': array([0, 1, 2, 4, 3, 5, 6], dtype=int64),
 'var36': array([99,  3,  1,  2,  0], dtype=int64),
 'num_meses_var5_ult3': array([0, 3, 2, 1], dtype=int64),
 'num_meses_var39_vig_ult3': array([1, 2, 0, 3], dtype=int64)}

In [13]:
# Agora, vamos verificar se todas as categorias no data frame de "testes" estão contidas no data frame de "treinamento":
train_cat_unique_dict = dict(zip(category_feats, ohe.categories_))
train_cat_unique_dict

{'ind_var30': array([0, 1], dtype=int64),
 'num_var4': array([0, 1, 2, 3, 4, 5, 6, 7], dtype=int64),
 'var36': array([ 0,  1,  2,  3, 99], dtype=int64),
 'num_meses_var5_ult3': array([0, 1, 2, 3], dtype=int64),
 'num_meses_var39_vig_ult3': array([0, 1, 2, 3], dtype=int64)}

**Análise:** podemos observar que todas as categorias (de cada variável categórica) no *data frame* de testes estão contidas no *data frame* de treinamento. Portanto, podemos aplicar a função **`OneHotEncoder()`** em nosso *data frame* de testes. 

In [14]:
# Criando uma cópia do dataset de testes que contém apenas os atributos categóricos:
test_cat = test_df[category_feats].copy()

# Aplicando o "one-hot encoding" nos dados de teste:
test_cat_ohe = ohe.transform(X=test_cat.values).toarray()

# Definindo os nomes das features:
cat_labels = [feat + '_cat' for feat in category_feats]
feat_names = list(ohe.get_feature_names(cat_labels))

# Criando um data frame com as features "OHE":
test_cat_ohe_df = pd.DataFrame(data=test_cat_ohe, columns=feat_names)

# Incluindo as features "OHE" em nosso data frame de testes:
test_df = pd.concat([test_df, test_cat_ohe_df], axis=1)

# Excluindo as "features" categóricas do nosso data frame de testes, porque as mesmas já foram transformadas (OHE):
test_df.drop(columns=category_feats, inplace=True)

# Resumo do nosso data frame de testes:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15204 entries, 0 to 15203
Data columns (total 42 columns):
var15                             15204 non-null int64
num_var5                          15204 non-null int64
num_var30                         15204 non-null int64
num_var35                         15204 non-null int64
num_var42                         15204 non-null int64
saldo_var5                        15204 non-null float64
saldo_var30                       15204 non-null float64
saldo_var42                       15204 non-null float64
num_var22_ult3                    15204 non-null int64
num_var45_hace2                   15204 non-null int64
num_var45_hace3                   15204 non-null int64
num_var45_ult1                    15204 non-null int64
num_var45_ult3                    15204 non-null int64
saldo_medio_var5_hace2            15204 non-null float64
saldo_medio_var5_hace3            15204 non-null float64
saldo_medio_var5_ult1             15204 non-null float64

### `4.3-` Aplicar a função `QuantileTransformer()` nas features `numéricas` (Quantitativas) do *data frame*:

In [15]:
# Visializando todas as "features" onde aplicaremos a função "QuantileTransformer()":
print("Feature Engineering (Quantile Transformation): {}".format(len(dataset_feat_eng["QuantileTransformation"])))
print(dataset_feat_eng["QuantileTransformation"])

Feature Engineering (Quantile Transformation): 1
['var38']


In [16]:
# Criando uma cópia das features numéricas onde aplicaremos a função "QuantileTransformer()":
num_feat_df = test_df[dataset_feat_eng["QuantileTransformation"]].copy()

# Padronizando as features com a função:
qt_num_feat = qt.transform(num_feat_df)

# Criando um novo "data frame" com as features transformadas:
cols = [feat + "_qt" for feat in num_feat_df.columns]
qt_num_feat_df = pd.DataFrame(qt_num_feat, columns=cols)

### `4.4-` Aplicando a função `PowerTransformer()` nas features `numéricas` (Quantitativas) do *data frame*:

In [17]:
# Visializando todas as "features" onde aplicaremos a função "PowerTransformer()":
print("Feature Engineering (Power Transformation): {}".format(len(dataset_feat_eng["PowerTransformation"])))
print(dataset_feat_eng["PowerTransformation"])

Feature Engineering (Power Transformation): 17
['var15', 'num_var35', 'num_var42', 'num_var22_ult3', 'num_var30', 'num_var45_hace2', 'num_var45_hace3', 'num_var45_ult1', 'num_var45_ult3', 'num_var5', 'saldo_var42', 'saldo_var30', 'saldo_medio_var5_hace2', 'saldo_medio_var5_hace3', 'saldo_medio_var5_ult1', 'saldo_medio_var5_ult3', 'saldo_var5']


In [18]:
# Criando uma cópia das features numéricas onde aplicaremos a função "PowerTransformer()":
num_feat_df = test_df[dataset_feat_eng["PowerTransformation"]].copy()

# Padronizando as features com a função:
pt_num_feat = pt.transform(num_feat_df)

# Criando um novo "data frame" com as features transformadas:
cols = [feat + "_pt" for feat in num_feat_df.columns]
pt_num_feat_df = pd.DataFrame(pt_num_feat, columns=cols)

### `4.5-` Atualizar o *data frame* de `testes` com as features numéricas *transformadas*:

In [19]:
# Excluindo as "features" "Quantitativas Discretas e Contínuas" do nosso data frame de testes:
num_feats = dataset_relevant_feat.get(key='Discrete') + dataset_relevant_feat.get(key='Continuous')
test_df.drop(columns=num_feats, inplace=True)

# Incluindo as features "Quantitativas Discretas e Contínuas" ("transformadas") em nosso data frame de testes:
test_df = pd.concat([test_df, qt_num_feat_df, pt_num_feat_df], axis=1)

# Resumo do nosso data frame de testes:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15204 entries, 0 to 15203
Data columns (total 42 columns):
Satisfaction                      15204 non-null int64
ind_var30_cat_0                   15204 non-null float64
ind_var30_cat_1                   15204 non-null float64
num_var4_cat_0                    15204 non-null float64
num_var4_cat_1                    15204 non-null float64
num_var4_cat_2                    15204 non-null float64
num_var4_cat_3                    15204 non-null float64
num_var4_cat_4                    15204 non-null float64
num_var4_cat_5                    15204 non-null float64
num_var4_cat_6                    15204 non-null float64
num_var4_cat_7                    15204 non-null float64
var36_cat_0                       15204 non-null float64
var36_cat_1                       15204 non-null float64
var36_cat_2                       15204 non-null float64
var36_cat_3                       15204 non-null float64
var36_cat_99                      1520

## `05-` Salvar o *data frame* de `testes`:

In [20]:
# Salvando o data frame "test_df":
dslib.pickle_object_save (path=PROJECT_DATA_PATH, file="santander_test_v2.pickle", object_name=test_df,
                          msg="The 'santander_test_v2' (data frame) has been successfully saved!")

The 'santander_test_v2' (data frame) has been successfully saved!


## <font color='black'>FIM</font>