# Detecção de Fraudes em Pagamentos de Cartão de Crédito

Esse notebook é uma tradução com comentários do exercício realizado no notebook ['Fraud_Detection_Exercise.ipynb'](https://github.com/udacity/ML_SageMaker_Studies/blob/master/Payment_Fraud_Detection/Fraud_Detection_Exercise.ipynb) durante o programa de Machine Learning Engineer Nanodegree da Udacity.

Neste exercício, nós iremos analisar um conjunto de dados de transações de cartão de crédito válidas e fraudulentas para construir um modelo de classificação binária que pode identificar transações como fraudulentas ou válidas, baseado nos dados históricos.Em um [estudo de 2016](https://nilsonreport.com/upload/content_promo/The_Nilson_Report_10-17-2016.pdf), foi estimado que o problema de fraudes em cartões de crédito eram responsáveis por mais de 20 bilhões de dólares em prejuízo ao redor do mundo. Detectar casos de fraude com precisão é uma área de pesquisa em desenvolvimento.
<img src=notebook_img/fraud_detection.png width=50% />

### Dados Rotulados

O conjunto de dados rotulados (Dal Pozzolo et al. 2015) foi baixado do [Kaggle](https://www.kaggle.com/mlg-ulb/creditcardfraud/data). 
Nele temos milhares de transações de cartão de crédito com features e labels indicando se o registro é de uma transação fraudulenta ou válida.
Neste notebook, nós vamos treinar um modelo baseado nas features dessas transações de tal forma que poderemos prever uma transação suspeita ou fraudulenta no futuro.

### Classificação Binária

Uma vez que nosso modelo usará os rótulos para aprender a detectar fraudes, nós usaremos uma **abordagem supervisionada** e treinar um classificador binário para predizer dois tipos de classes de transações: fraudulenta ou válida. Treinaremos o modelo em um conjunto de treinamento e veremos como é seu desempenho em um conjunto de dados de teste.

As etapas abordadas aqui serão:
* Carregar e explorar os dados
* Dividir o conjunto de dados em conjunto de treinamento e teste
* Definir e treinar um classificador binário: LinerLearner
* Fazer melhorias no modelo
* Avaliar e comparar o desempenho do modelo com os dados de teste

### Adicionando melhorias

Uma grande parte deste notebook irá focar em fazer melhorias no modelo, uma vez que o problema de detecção de fraude é frequentemente um problema de classificação com classes desbalanceadas. Dessa forma, nós iremos aumentar o desempenho do nosso modelo aplicando as seguintes técnicas:

1. **Ajustar os hiperparâmetros do modelo** de modo a atingir um valor específico de uma métrica, como atingir o mínio de 85% de acurácia ou 85% de recall.
2. **Lidar com o desbalanceamento de classes**, que ocorre quando temos muito mais exemplos de uma classe do que outra(no nosso casso esperamos encontrar muito mais transações válidas do que fraudulentas).

---

Primeiro vamos importar as bibliotecas que iremos usar.

In [None]:
import io
import os
import matplotlib.pyplot as plt
import numpy as np 
import pandas as pd 

import boto3
import sagemaker
from sagemaker import get_execution_role
from sklearn.model_selection import train_test_split

%matplotlib inline

Iremos armazenar nossas **variáveis do SageMaker** no próxima célula:
* sagemaker_session: A sessão do SageMaker que iremos usar para o treinamento dos modelos.
* bucket: O nome do bucket S3 padrão que iremos usar para o armazenamento de dados.
* role: A IAM role que define as permissões dos dados e modelo.

In [None]:
# sagemaker session, role
sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

# S3 bucket name
bucket = sagemaker_session.default_bucket()

## Carregando e Explorando os Dados

Em seguida, iremos carregar os dados e descompactá-los do arquivo `creditcardfraud.zip`. Esse diretório irá armazenar um arquivo '.csv' com todas as transações, `creditcard.csv`.

É importante olhar para a distribuição dos dados uma vez que isso irá nos informar como devemos desenvolver o modelo de detecção de fraudes. Nós precisaremos saber: quantos registros nós temos para trabalhar, o número e o tipo das features, e finalmente, a distribuição dos dados para cada classe (válida e fraudulenta).

In [None]:
# only have to run once
# !wget https://s3.amazonaws.com/video.udacity-data.com/topher/2019/January/5c534768_creditcardfraud/creditcardfraud.zip
# !unzip creditcardfraud

In [3]:
# read in the csv file
local_data = 'creditcard.csv'

# print out some data
transaction_df = pd.read_csv(local_data)
print('Data shape (rows, cols): ', transaction_df.shape)
print()
transaction_df.head()

Data shape (rows, cols):  (284807, 31)



Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0


### Calculando a porcentagem de transações fraudulentas

Vamos dar uma olhada na distribuição das transações para cada classe, válida e fraudulenta.

In [4]:
# Calculate the fraction of data points that are fraudulent
def fraudulent_percentage(transaction_df):
    '''Calculate the fraction of all data points that have a 'Class' label of 1; fraudulent.
       :param transaction_df: Dataframe of all transaction data points; has a column 'Class'
       :return: A fractional percentage of fraudulent data points/all points
    '''
    percentage = transaction_df.Class.values.sum()/len(transaction_df)
    
    return percentage


Vamos testar o código chamando a função `fraudulent_percentage()`.

In [5]:
# call the function to calculate the fraud percentage
fraud_percentage = fraudulent_percentage(transaction_df)

print('Fraudulent percentage = ', fraud_percentage)
print('Total # of fraudulent pts: ', fraud_percentage*transaction_df.shape[0])
print('Out of (total) pts: ', transaction_df.shape[0])


Fraudulent percentage =  0.001727485630620034
Total # of fraudulent pts:  492.0
Out of (total) pts:  284807


Podemos ver que temos aproximadamente 285 mil registros, desses apenas 492 registros de fraudes. Ou seja, apenas 0,1% são registros de transações fraudulentas, enquanto que 99,9% dos registro são de transações válidas. O que comprova que temos um conjunto de dados com classes desbalenceadas.

### Dividindo o conjunto de dados em conjunto de treinamento e teste

Após o treinamento do modelo, nós vamos precisar testar a performance do classificador em um conjunto de dados novo que não deve ser visto pelo modelo durante o treinamento. Por isso, vamos dividir o conjunto de dados de 285 mil registros em conjunto de treinamento (70%) e conjunto de teste (30%).

In [6]:
# split into train/test
def split_train_test(transaction_df, train_frac= 0.7, seed=1):
    '''Shuffle the data and randomly split into train and test sets;
       separate the class labels (the column in transaction_df) from the features.
       :param df: Dataframe of all credit card transaction data
       :param train_frac: The decimal fraction of data that should be training data
       :param seed: Random seed for shuffling and reproducibility, default = 1
       :return: Two tuples (in order): (train_features, train_labels), (test_features, test_labels)
       '''
    X = transaction_df.iloc[:,:-1].copy()
    y = transaction_df.iloc[:,-1:].copy()
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1-train_frac, random_state=seed)
    
    # shuffle and split the data
    train_features = X_train
    train_labels = y_train
    test_features = X_test
    test_labels = y_test
    
    return (train_features, train_labels), (test_features, test_labels)

### Executando a divisão dos conjuntos

Abaixo iremos efetivamente executar a divisão em conjunto de treinamento e conjunto de testes, passando como argumento da função `split_train_test()` nosso dataframe `transaction_df` e porcentagem do conjunto de treinamento que definiremos como 0.7 (70%).

In [7]:
# get train/test data
(train_features, train_labels), (test_features, test_labels) = split_train_test(transaction_df, train_frac=0.7)

In [9]:
# manual test

# for a split of 0.7:0.3 there should be ~2.33x as many training as test pts
print('Training data pts: ', len(train_features))
print('Test data pts: ', len(test_features))
print()

# take a look at first item and see that it aligns with first row of data
print('First item: \n', train_features[:1])
print('Label: ', train_labels[:1])
print()

# test split
assert len(train_features) > 2.333*len(test_features), \
        'Unexpected number of train/test points for a train_frac=0.7'
# test labels
assert np.all(train_labels)== 0 or np.all(train_labels)== 1, \
        'Train labels should be 0s or 1s.'
assert np.all(test_labels)== 0 or np.all(test_labels)== 1, \
        'Test labels should be 0s or 1s.'
print('Tests passed!')

Training data pts:  199364
Test data pts:  85443

First item: 
             Time        V1        V2        V3        V4        V5        V6  \
191125  129124.0 -0.190075  0.203323 -0.996232 -1.596985  3.192579  3.356935   

              V7        V8        V9  ...       V20       V21       V22  \
191125  0.288299  0.895003 -0.330024  ... -0.007496 -0.170599 -0.619724   

             V23       V24      V25       V26       V27       V28  Amount  
191125  0.039651  0.706805 -0.16087  0.274825 -0.010541  0.022199   14.37  

[1 rows x 30 columns]
Label:          Class
191125      0

Tests passed!


---
## Modelagem

Agora que nós jpa carregamos e dividimos os dados de treinamento, podemos seguir para definir e treinar um modelo.

Neste notebook, iremos utilizar um algoritmo do Amazon SageMaker, [LinearLearner](https://sagemaker.readthedocs.io/en/stable/linear_learner.html).

Um modelo LinearLearner tem duas aplicações principais:
1. Para problemas de regressão as quais uma linha linear se adequad alguns pontos de dados e você quer prever um valor de saída  dado alguns dados de entrada (exemplo: prever o preço de casas, dada a área quadrada)
2. Para classificação binária, à qual uma linha consegue separar duas classes de dados e efetivamente dois rótulos; 1 para dados que caem acima da linha e 0 para pontos que caem em cima ou abaixo da linha.

<img src='notebook_img/linear_separator.png' width=50% />

No caso da detecção de fraude, nós iremos usar o segundo caso e iremos treinar nosso classificador para separar dados em duas classes: válidas ou fraudulentas.

### Criando um estimador LinearLearner

Usando a documentação do [SageMaker LinearLearner](https://sagemaker.readthedocs.io/en/stable/linear_learner.html) como referência, vamos descobrir quais são os principais parâmetros necessários para inicializar o nosso estimador.

#### Tipos de instância

Foi sugerido que nós usássemos as intâncias que estão disponíveis gratuitamente para uso: `'ml.c4.xlarge'` para treinamento e `'ml.t2.medium'` para implantação do modelo.

In [10]:
# import LinearLearner
from sagemaker import LinearLearner

prefix = 'creditcard'
output_path = 's3://{}/{}'.format(bucket, prefix)

# instantiate LinearLearner
linear_learner = LinearLearner(
                    role=role,
                    train_instance_count=1, 
                    train_instance_type='ml.c4.xlarge', 
                    predictor_type='binary_classifier',
                    output_path=output_path,
                    sagemaker_session=sagemaker_session,
                    epochs=15)

train_instance_count has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
train_instance_type has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.


### Convertendo dados no formato RecordSet

Para que possamos inputar nossas transações históricas no modelo é preciso converter as features e labels do conjunto de treinamento para o formato de dados *RecordSet*. No entanto, para usarmos a função [record_set](https://sagemaker.readthedocs.io/en/stable/linear_learner.html#sagemaker.LinearLearner.record_set) precisaremos converter as features e labels para vetores numpy de valores float.

In [32]:
# convert features and labels to numpy
train_features = train_features.astype('float32')
train_labels = train_labels.astype('float32')

# create RecordSet of training data
formatted_train_data = linear_learner.record_set(train_features.values, labels=train_labels.values.reshape(-1,))

### Treinando o Classificador

Depois de instanciar nosso estimador, podemos iniciar o treinamento chamando o método `.fit()`, passando os dados de treinamento formatados.

In [33]:
%%time 
# train the estimator on formatted training data
linear_learner.fit(formatted_train_data)

Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.
Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.


2021-02-21 22:28:29 Starting - Starting the training job...
2021-02-21 22:28:31 Starting - Launching requested ML instancesProfilerReport-1613946509: InProgress
......
2021-02-21 22:29:59 Starting - Preparing the instances for training............
2021-02-21 22:31:47 Downloading - Downloading input data
2021-02-21 22:31:47 Training - Downloading the training image...
2021-02-21 22:32:27 Training - Training image download completed. Training in progress.[34mDocker entrypoint called with argument(s): train[0m
[34mRunning default environment configuration script[0m
[34m[02/21/2021 22:32:19 INFO 139904509531968] Reading default configuration from /opt/amazon/lib/python2.7/site-packages/algorithm/resources/default-input.json: {u'loss_insensitivity': u'0.01', u'epochs': u'15', u'feature_dim': u'auto', u'init_bias': u'0.0', u'lr_scheduler_factor': u'auto', u'num_calibration_samples': u'10000000', u'accuracy_top_k': u'3', u'_num_kv_servers': u'auto', u'use_bias': u'true', u'num_point_for_

### Implantando o modelo treinado

Para criar um preditor nós precisaremos implantar o modelo treinado. Faremos isso usando o método `.deploy()` e usaremos o nosso preditor para gerar predições no conjunto de teste.

In [34]:
%%time 
# deploy and create a predictor
linear_predictor = linear_learner.deploy(initial_instance_count = 1, instance_type = 'ml.t2.medium')

Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.


-----------------!CPU times: user 324 ms, sys: 4.94 ms, total: 329 ms
Wall time: 8min 32s


---
## Avaliando Nosso Modelo

Uma vez que o modelo está implantando, poderemos usá-lo para gerar predições no conjunto de teste.

De acordo com a [documentação de preditores](https://sagemaker.readthedocs.io/en/stable/linear_learner.html#sagemaker.LinearLearnerPredictor) esse preditor espera um `ndarray` de entrada e retorna uma lista de Records.

> "The prediction is stored in the "predicted_label" key of the `Record.label` field."

Vamos primeiro testar nosso modelo usando apenas um registro de teste, para ver o que ele retorna.

In [42]:
# test one prediction
test_x_np = test_features.astype('float32')
result = linear_predictor.predict(test_x_np[:1].values)

print(result)

[label {
  key: "predicted_label"
  value {
    float32_tensor {
      values: 0.0
    }
  }
}
label {
  key: "score"
  value {
    float32_tensor {
      values: 0.0002751190622802824
    }
  }
}
]


### Função auxiliar para avaliação

A função que foi fornecida abaixo, usa um preditor implantado, algumas features de teste e rótulos, e retorna um dicionário de métricas, calculando falsos negativos e positivos, assim como também recall, precisão e acurácia.

In [43]:
# code to evaluate the endpoint on test data
# returns a variety of model metrics
def evaluate(predictor, test_features, test_labels, verbose=True):
    """
    Evaluate a model on a test set given the prediction endpoint.  
    Return binary classification metrics.
    :param predictor: A prediction endpoint
    :param test_features: Test features
    :param test_labels: Class labels for test data
    :param verbose: If True, prints a table of all performance metrics
    :return: A dictionary of performance metrics.
    """
    
    # We have a lot of test data, so we'll split it into batches of 100
    # split the test data set into batches and evaluate using prediction endpoint    
    prediction_batches = [predictor.predict(batch) for batch in np.array_split(test_features, 100)]
    
    # LinearLearner produces a `predicted_label` for each data point in a batch
    # get the 'predicted_label' for every point in a batch
    test_preds = np.concatenate([np.array([x.label['predicted_label'].float32_tensor.values[0] for x in batch]) 
                                 for batch in prediction_batches])
    
    # calculate true positives, false positives, true negatives, false negatives
    tp = np.logical_and(test_labels, test_preds).sum()
    fp = np.logical_and(1-test_labels, test_preds).sum()
    tn = np.logical_and(1-test_labels, 1-test_preds).sum()
    fn = np.logical_and(test_labels, 1-test_preds).sum()
    
    # calculate binary classification metrics
    recall = tp / (tp + fn)
    precision = tp / (tp + fp)
    accuracy = (tp + tn) / (tp + fp + tn + fn)
    
    # printing a table of metrics
    if verbose:
        print(pd.crosstab(test_labels, test_preds, rownames=['actual (row)'], colnames=['prediction (col)']))
        print("\n{:<11} {:.3f}".format('Recall:', recall))
        print("{:<11} {:.3f}".format('Precision:', precision))
        print("{:<11} {:.3f}".format('Accuracy:', accuracy))
        print()
        
    return {'TP': tp, 'FP': fp, 'FN': fn, 'TN': tn, 
            'Precision': precision, 'Recall': recall, 'Accuracy': accuracy}


### Testando os Resultados

A célula abaixo executa a função `evaluate()`.

O código assume que já tenhamos um `predictor` definido, `test_features` e `test_labels` executados de células anteriores.

In [46]:
print('Metrics for simple, LinearLearner.\n')

# get metrics for linear predictor
metrics = evaluate(linear_predictor, 
                   test_features.astype('float32').values, 
                   test_labels.values.reshape(-1,), 
                   verbose=True) # verbose means we'll print out the metrics


Metrics for simple, LinearLearner.

prediction (col)    0.0  1.0
actual (row)                
0                 85282   26
1                    36   99

Recall:     0.733
Precision:  0.792
Accuracy:   0.999



### Deletando o Endpoint

Foi também fornecido uma função para deletar o endpoint de predição depois que finalizarmos com os testes. E caso você tenha terminado de avaliar o modelo, é extremamente recomendado que você delete o endpoint do seu modelo.

In [47]:
# Deletes a precictor.endpoint
def delete_endpoint(predictor):
        try:
            boto3.client('sagemaker').delete_endpoint(EndpointName=predictor.endpoint)
            print('Deleted {}'.format(predictor.endpoint))
        except:
            print('Already deleted: {}'.format(predictor.endpoint))

In [48]:
# delete the predictor endpoint 
delete_endpoint(linear_predictor)

The endpoint attribute has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
The endpoint attribute has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.


Deleted linear-learner-2021-02-21-22-46-05-756


---

## Melhorias no Modelo

O LinearLearner padrão obteve uma acurácia alta, porém nós ainda obtemos previsões equivocadas de transações fraudulentas e válidas com frequência. Especificamente classificamos mais de 30 pontos como falsos positivos (incorretamente rotulados, transações válidas). Vamos pensar sobre o que, durante o treinamento, poderia causar esse comportamento e o que podemos fazer para melhorar o modelo nesse quesito.

**1. Otimização do modelo**

* Se nós imaginármos que nós estamos projetando esse modelo para uso em uma aplicação bancária, nós podemos deduzir que nossos usuários *não* querem que qualquer transação válida seja classificada como fraudulenta. Isto é, nós desejamos obter o mínimo de **falsos positivos** (0s classificados como 1s).
* Por outro lado, se nosso gerente do banco pedir por uma aplicação que irá detectar quase que todos os casos de fraudes, mesmo que isso signifique um alto número de falsos positivos, então nós iríamos querer obter o mínimo de falsos negativos.
* Para treinar nosso modelo de acordo com objetivos e demandas do produto específicos, nós não devemos otimizar apenas a acurácia do nosso modelo. Ao invés disso, queremos otimizar para uma métrica que pode nos ajudar a diminuir o número de falsos positivos ou negativos.

<img src='notebook_img/precision_recall.png' width=40% />

Neste notebook, nós iremos olhar para casos diferentes para ajustar nosso modelo e tomar decisões de otimização de acordo com cada caso.

**2. Dados de treinamento desbalanceados**
* No começo deste notebook, nó vimos que apenas 0.17% dos dados de treinamento foram rotuladas como fraudulentas. Dessa forma, mesmo se nosso modelo predizer **todas** as transações como sendo válidas, ele ainda terá uma alta acurácia.
* Isso pode resultar em um certo overfitting relacionado às transações válidas, que é responsável por alguns **falsos negativos**, onde transações fraudulentas (1) são incorretamente classificadas como válidas (0).

Portanto, vamos solucionar esses problemas em ordem; primeiro, ajustando nosso modelo e otimizando-o para um métrica específica durante o treinamento. Em seguida, ajustar o modelo para lidar com o desbalanceamento das classes no conjunto de treinamento.

## 1ª Melhoria: Ajuste do Modelo

Otimizar de acordo com uma métrica específica é chamado de ajuste do modelo (model tuning). O SageMaker fornece diversos modos para ajustar um modelo.

### Cenário:

* Uma fintech solicita que você construa um modelo que detecta casos de fraude com uma acurácia de aproximadamente 85%.

Nesse caso, nós queremos construir um modelo que obtenha o maior número possível de verdadeiros positivos e o menor número de falsos negativos. Isso corresponde a um modelo com alto **recall**: verdadeiros positivos / (verdadeiros positivos + falsos negativos).

Para ajustar o modelo de acordo com uma métrica específica, LinerLearner oferece o hiperparâmetro `binary_classifier_model_selection_criteria`, o qual é um critério de avaliação para o conjunto de dados de treinamento. Uma referência sobre esse parâmetro pode ser lida na [documentação do LinearLearner](https://sagemaker.readthedocs.io/en/stable/linear_learner.html#sagemaker.LinearLearner). Nós precisaremos também especificar o valor exato que queremos atingir.

Para ler mais sobre detalhes dos parâmetros, [clique aqui](https://docs.aws.amazon.com/sagemaker/latest/dg/ll_hyperparameters.html).

Nós iremos assumir aqui que o desempenho do modelo no conjunto de treinamento estará dentro de aproximadamente 5% do desempenho no conjunto de testes. Por isso, para um recall de aproximadamente 85%, nós iremos definir uma meta de 90% no conjunto de treinamento.

In [49]:
# instantiate a LinearLearner
# tune the model for a higher recall
linear_recall = LinearLearner(role=role,
                              train_instance_count=1, 
                              train_instance_type='ml.c4.xlarge',
                              predictor_type='binary_classifier',
                              output_path=output_path,
                              sagemaker_session=sagemaker_session,
                              epochs=15,
                              binary_classifier_model_selection_criteria='precision_at_target_recall', # target recall
                              target_recall=0.9) # 90% recall

train_instance_count has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
train_instance_type has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.


### Trainando um estimador ajustado

Vamos treinar o novo modelo ajustado no conjunto de treinamento formatado.

In [50]:
%%time 
# train the estimator on formatted training data
linear_recall.fit(formatted_train_data)

Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.
Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.


2021-02-21 23:18:30 Starting - Starting the training job...ProfilerReport-1613949510: InProgress
...
2021-02-21 23:19:25 Starting - Launching requested ML instances.........
2021-02-21 23:20:46 Starting - Preparing the instances for training...
2021-02-21 23:21:26 Downloading - Downloading input data...
2021-02-21 23:21:47 Training - Downloading the training image...
2021-02-21 23:22:27 Training - Training image download completed. Training in progress..[34mDocker entrypoint called with argument(s): train[0m
[34mRunning default environment configuration script[0m
[34m[02/21/2021 23:22:29 INFO 140054048798528] Reading default configuration from /opt/amazon/lib/python2.7/site-packages/algorithm/resources/default-input.json: {u'loss_insensitivity': u'0.01', u'epochs': u'15', u'feature_dim': u'auto', u'init_bias': u'0.0', u'lr_scheduler_factor': u'auto', u'num_calibration_samples': u'10000000', u'accuracy_top_k': u'3', u'_num_kv_servers': u'auto', u'use_bias': u'true', u'num_point_for

### Implantando e avaliando o estimador ajustado

Nós criamos a hipótese que um modelo ajustado, otimizado para um recall alto, teria poucos falsos negativos (transações fraudulentas incorretamente rotuladas como válidas). Será que nosso modelo comprovará essa hipótese?

In [51]:
%%time 
# deploy and create a predictor
recall_predictor = linear_recall.deploy(initial_instance_count=1, instance_type='ml.t2.medium')

Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.


-------------------!CPU times: user 322 ms, sys: 29.5 ms, total: 352 ms
Wall time: 9min 32s


In [53]:
print('Metrics for tuned (recall), LinearLearner.\n')

# get metrics for tuned predictor
metrics = evaluate(recall_predictor, 
                   test_features.astype('float32').values, 
                   test_labels.values.reshape(-1,), 
                   verbose=True)

Metrics for tuned (recall), LinearLearner.

prediction (col)    0.0  1.0
actual (row)                
0                 84317  991
1                    20  115

Recall:     0.852
Precision:  0.104
Accuracy:   0.988



### Deletando o endpoint

Como boa prática, todas as vezes que terminarmos de usar e avaliar um modelo, nós devemos deletar o endpoint. Assim, evitamos cobranças desnecessárias na AWS. Confia em mim, isso é importante.

In [54]:
# delete the predictor endpoint 
delete_endpoint(recall_predictor)

The endpoint attribute has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
The endpoint attribute has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.


Deleted linear-learner-2021-02-21-23-24-44-463


---
## 2ª Melhoria: Lidando com o Desbalanceamento de Classes

Nós já temos um modelo que está ajustado para obter um recall alto, que visa reduzir o número de falsos negativos. Anteriormente, nós falamos sobre como classes desbalanceadas podem gerar um viés no nosso modelo para prever todas as transações como válidas, resultando em uma grande quantidade de falsos negativos (transação fraudulenta, prevista como válida) e verdadeiros negativos (transação válida, prevista como válida). Tal fato levanta a hipótese que podemos melhorar o desempenho do nosso modelo se levarmos em consideração o desbalanceamento.

Para levar em consideração o desbalanceamento de classes durante o treinamento do classificador binário, LinerLearner oferece o hiperparâmetro, `positive_example_weight_mult`, que funciona como um peso  atribuído para registros fraudulentos (1, fraudulento) usado durante o treinamento do classificador. O peso de registros negativos (0, válido) é fixo em 1.

Além disso, para ajustar um modelo para um recall alto, você pode adicionar um parâmetro que ajuda a lidar com o desbalanceamento de classes. Atravpes da [documentação de hiperparâmetros](https://docs.aws.amazon.com/sagemaker/latest/dg/ll_hyperparameters.html) sobre `positive_example_weight_mult`, vemos em tradução livre:

> "Se você quer que o algoritmo escolha um peso de tal forma que erros na classificação de exemplos negativa vs. positiva tenham o mesmo impacto no loss do treinamento, espeficifique `balanced`."


In [55]:
# instantiate a LinearLearner

# include params for tuning for higher recall
# *and* account for class imbalance in training data
linear_balanced = LinearLearner(role=role,
                              train_instance_count=1, 
                              train_instance_type='ml.c4.xlarge',
                              predictor_type='binary_classifier',
                              output_path=output_path,
                              sagemaker_session=sagemaker_session,
                              epochs=15,
                              binary_classifier_model_selection_criteria='precision_at_target_recall', # target recall
                              target_recall=0.9, # 90% recall
                              positive_example_weight_mult='balanced')

train_instance_count has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
train_instance_type has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.


### Treinando o estimador balanceado

Agora, vamos treinar o novo estimador balanceado no conjunto de treinamento formatado.

In [56]:
%%time 
# train the estimator on formatted training data
linear_balanced.fit(formatted_train_data)

Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.
Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.


2021-02-21 23:37:45 Starting - Starting the training job...
2021-02-21 23:38:08 Starting - Launching requested ML instancesProfilerReport-1613950664: InProgress
......
2021-02-21 23:39:09 Starting - Preparing the instances for training.........
2021-02-21 23:40:45 Downloading - Downloading input data
2021-02-21 23:40:45 Training - Downloading the training image...
2021-02-21 23:41:10 Training - Training image download completed. Training in progress.[34mDocker entrypoint called with argument(s): train[0m
[34mRunning default environment configuration script[0m
[34m[02/21/2021 23:41:10 INFO 140307782559552] Reading default configuration from /opt/amazon/lib/python2.7/site-packages/algorithm/resources/default-input.json: {u'loss_insensitivity': u'0.01', u'epochs': u'15', u'feature_dim': u'auto', u'init_bias': u'0.0', u'lr_scheduler_factor': u'auto', u'num_calibration_samples': u'10000000', u'accuracy_top_k': u'3', u'_num_kv_servers': u'auto', u'use_bias': u'true', u'num_point_for_sca

### Implantando e avaliando o estimador balanceado

Após o treinamento, vamos agora implantar o modelo treinado e avaliar sua performance.

In [60]:
%%time 
# deploy and create a predictor
balanced_predictor = linear_balanced.deploy(initial_instance_count=1, instance_type='ml.t2.medium')

Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.


---------------------!CPU times: user 367 ms, sys: 17.5 ms, total: 384 ms
Wall time: 10min 33s


In [61]:
print('Metrics for balanced, LinearLearner.\n')

# get metrics for balanced predictor
metrics = evaluate(balanced_predictor, 
                   test_features.astype('float32').values, 
                   test_labels.values.reshape(-1,), 
                   verbose=True)

Metrics for balanced, LinearLearner.

prediction (col)    0.0  1.0
actual (row)                
0                 84629  679
1                    18  117

Recall:     0.867
Precision:  0.147
Accuracy:   0.992



### Deletando o endpoint

Como boa prática, inclusive para o nosso bolso, vamos deletar o endpoint após seu uso.

In [62]:
# delete the predictor endpoint 
delete_endpoint(balanced_predictor)

The endpoint attribute has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
The endpoint attribute has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.


Deleted linear-learner-2021-02-22-00-14-21-124


Uma observação sobre variabilidade de métricas:

O modelo acima está ajustado para a melhor precisão possível com o recall fixo em aproximadamente 90%. O recall foi fixado, porém pode variar quando nós usamos nosso modelo treinado em um conjunto de dados de teste.

---
## Arquitetura do Modelo

Agora que nós vimos como ajustar e balancear um LinearLearner, no próximo exercício vamos ganhar mais prática com projetar um modelo com uma arquitetura que o otimiza para um cenário específico e implantá-lo usando o SageMaker.

**Cenário:**

* Um banco solicita a você para construir um modelo que otimiza os resultados para uma melhor experiência do usuário, isto é, o modelo **não** deve detectar uma transação válida de um usuário como fraudulenta mais do que 15% das vezes.

Tal requisito requer que nós tomemos uma desisão de arquitetura: dado o cenário acima, qual métrica (e valor) nós devemos configurar para o modelo atingir durante o treinamento?

Podemos assumir que no conjunto de treinamento obteremos aproximadamente de 5 a 10% de performance a mais do que no conjunto de teste.

Logo, o modelo abaixo deve levar em consideração o desbalanceamento de classes e os ajustes necessários para solucionar os requisitos nesse cenário.

In [66]:
%%time
# instantiate and train a LinearLearner

# include params for tuning for higher precision
# *and* account for class imbalance in training data
linear_balanced = LinearLearner(role=role,
                              train_instance_count=1, 
                              train_instance_type='ml.c4.xlarge',
                              predictor_type='binary_classifier',
                              output_path=output_path,
                              sagemaker_session=sagemaker_session,
                              epochs=15,
                              binary_classifier_model_selection_criteria='recall_at_target_precision', # target precision
                              target_precision =0.90, # 15% precision
                              positive_example_weight_mult='balanced')

linear_balanced.fit(formatted_train_data)

train_instance_count has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
train_instance_type has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.
Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.


2021-02-22 00:52:06 Starting - Starting the training job...
2021-02-22 00:52:29 Starting - Launching requested ML instancesProfilerReport-1613955126: InProgress
.........
2021-02-22 00:53:50 Starting - Preparing the instances for training.........
2021-02-22 00:55:34 Downloading - Downloading input data
2021-02-22 00:55:34 Training - Downloading the training image...
2021-02-22 00:55:54 Training - Training image download completed. Training in progress.[34mDocker entrypoint called with argument(s): train[0m
[34mRunning default environment configuration script[0m
[34m[02/22/2021 00:55:59 INFO 139990947239744] Reading default configuration from /opt/amazon/lib/python2.7/site-packages/algorithm/resources/default-input.json: {u'loss_insensitivity': u'0.01', u'epochs': u'15', u'feature_dim': u'auto', u'init_bias': u'0.0', u'lr_scheduler_factor': u'auto', u'num_calibration_samples': u'10000000', u'accuracy_top_k': u'3', u'_num_kv_servers': u'auto', u'use_bias': u'true', u'num_point_for_

In [73]:
%%time 
# deploy and evaluate a predictor
balanced_predictor = linear_balanced.deploy(initial_instance_count=1, instance_type='ml.t2.medium')

# get metrics for balanced predictor
metrics = evaluate(balanced_predictor,
                   test_features.astype('float32').values,
                   test_labels.values.reshape(-1,),
                   verbose=True)

Defaulting to the only supported framework/algorithm version: 1. Ignoring framework/algorithm version: 1.


-------------------!prediction (col)    0.0    1.0
actual (row)                  
0                 59727  25581
1                     3    132

Recall:     0.978
Precision:  0.005
Accuracy:   0.701

CPU times: user 6.21 s, sys: 65.5 ms, total: 6.27 s
Wall time: 9min 46s


In [74]:
## IMPORTANT
# delete the predictor endpoint after evaluation 
delete_endpoint(balanced_predictor)

The endpoint attribute has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.
The endpoint attribute has been renamed in sagemaker>=2.
See: https://sagemaker.readthedocs.io/en/stable/v2.html for details.


Deleted linear-learner-2021-02-22-01-41-00-979


## Limpeza Final

Trantando-se de AWS ou qualquer outro serviço em nuvem, é sempre uma boa prática conferir quais recursos foram criados e precisam ser deletados ou desligados, evitando cobranças adicionais desnecessárias.

* Confira novamente se você deletou todos os seus endpoints;
* Também é sugerido que você manualmente delete os buckets S3 criados e as configurações de endpoint diretamente do seu AWS Console.

## Conclusão

Neste notebook, nós pudemos entender mais sobre como treinar e implantar um classificador (LinearLearner) no SageMaker para detectar transações fraudulentas de cartão de crédito. Esse modelo foi ajustado e projetado para melhor atender a cenários específicos e melhorar a performance ao gerenciar o desbalanceamento de classes no conjunto de treinamento.

Seguindo os passos de um fluxo de trabalho (workflow) de Machine Learning, foi possível carregar um conjunto de dados com transações de cartão de crédito, explorar e preparar os dados para inserí-los no modelo para o treinamento. Após treinamos, implantamos e avaliamos vários modelos de acordo com cenários específicos.

Este notebook foi traduzido e comentado a partir do notebook de exercício de ['Fraud_Detection_Exercise.ipynb'](https://github.com/udacity/ML_SageMaker_Studies/blob/master/Payment_Fraud_Detection/Fraud_Detection_Exercise.ipynb) durante o programa de nanodegree de Engenharia de Machine Learning da Udacity. Meu especial agradecimento à Udacity e aos materiais de alta qualidade disponibilizados.