## Model XGBOOST and Endpoint for Deploy

## Imports

In [None]:
# Imports
import os
import json
import sagemaker
import boto3
import numpy as np
import pandas as pd
from sagemaker.serializers import CSVSerializer
from sagemaker.inputs import TrainingInput
from sagemaker.predictor import Predictor
from sagemaker import get_execution_role

## Carrega os Dados

In [None]:
# Obtém a sessão do SageMaker
session = boto3.Session()

In [None]:
s3 = session.resource('s3')

In [None]:
s3

In [None]:
from sagemaker import get_execution_role
role = get_execution_role()
print(role)

In [None]:
# Altere para o nome do seu bucket
s3_bucket = 'eduardo-project-medical-data'
prefix = 'dados'

In [None]:
raiz = 's3://{}/{}/'.format(s3_bucket, prefix)
print(raiz)

In [None]:
dados_treino = TrainingInput(s3_data = raiz + 'treino.csv', content_type = 'csv')
dados_teste = TrainingInput(s3_data = raiz + 'teste.csv', content_type = 'csv')

In [None]:
print(json.dumps(dados_treino.__dict__, indent = 2))

In [None]:
print(json.dumps(dados_teste.__dict__, indent = 2))

## Construção e Treinamento do Modelo XGB

In [None]:

container_uri = sagemaker.image_uris.retrieve(region = session.region_name,
                                              framework = 'xgboost',
                                              version = '1.0-1',
                                              image_scope = 'training')

Criação do Container - seguindo a documentação da AWS estou criando um container para podermos usar apenas para treinamento uma máquina mais
potente disponível na versão gratuita do SageMaker. Para os parametros da função abaixo estou recuperando os dados da região utilizando o BOTO, os demais
parametros são ajustaveis, mas é necessário conferir os custos.

In [None]:
# Argumentos do estimador para serem usados na função de criação
sagemaker_execution_role = role
sagemaker_session = sagemaker.Session()

In [None]:
# Criação do Estimador - estou seguindo a documentação para a criação.
xgb = sagemaker.estimator.Estimator(image_uri = container_uri,
                                    role = sagemaker_execution_role,
                                    instance_count = 2,
                                    instance_type = 'ml.m5.large', #note que essa máquina/instancia tem apenas 50 hrs no nível gratuito.
                                    output_path = 's3://{}/artefatos'.format(s3_bucket),
                                    sagemaker_session = sagemaker_session,
                                    base_job_name = 'classifier')

In [None]:
# Definição dos Hiperparâmetros - consultar a documenação caso queira mudar
xgb.set_hyperparameters(objective = 'binary:logistic', num_round = 100)

In [None]:
# Treinamento do modelo
xgb.fit({'train': dados_treino, 'validation': dados_teste})

## Gerando o Endpoint a Partir do Modelo

In [None]:

xgb_predictor = xgb.deploy(initial_instance_count = 2, instance_type = 'ml.m5.large')

Deploy do modelo treinado criando o endpoint o .deploy ajusta o resultado para que possa ser usado os resultados para outros propositos, inclusive o deploy
e dessa forma salvamos o modelo para ser usado por aplicações.

## Previsões a Partir do Endpoint

In [None]:
csv_serializer = CSVSerializer()

In [None]:
predictor = Predictor(endpoint_name = xgb_predictor.endpoint_name, serializer = csv_serializer)

In [None]:
df_teste = pd.read_csv(raiz + 'teste.csv', names = ['class', 'bmi', 'diastolic_bp_change', 'systolic_bp_change', 'respiratory_rate'])

In [None]:
df_teste.head()

Unnamed: 0,class,bmi,diastolic_bp_change,systolic_bp_change,respiratory_rate
0,0,-0.940089,-0.403964,-0.279542,-0.817379
1,0,-0.502614,-0.665582,0.131742,-0.36245
2,0,1.078473,0.347981,0.228029,-0.817379
3,1,-0.636164,-0.251491,0.587034,-0.817379
4,1,-0.528479,2.037253,1.383463,0.185934


In [None]:
X = df_teste.sample(1)
X

Unnamed: 0,class,bmi,diastolic_bp_change,systolic_bp_change,respiratory_rate
1017,0,-0.022864,-0.496655,2.153753,-0.067314


In [None]:
X = X.values[0]
X[1:]

array([-0.02286428, -0.49665455,  2.15375335, -0.06731361])

In [None]:
paciente = X[1:]
paciente

array([-0.02286428, -0.49665455,  2.15375335, -0.06731361])

In [None]:
# Faz a previsão de um paciente
predicted_class_prob = predictor.predict(paciente).decode('utf-8')
if float(predicted_class_prob) < 0.5:
    print('Previsão = Não Diabético')
else:
    print('Previsão = Diabético')
print()

Previsão = Não Diabético



## Avaliando o Modelo

In [None]:
# Previsão de todos os pacientes no dataset de teste
predictions = []
expected = []
correct = 0
for row in df_teste.values:
    expected_class = row[0]
    payload = row[1:]
    predicted_class_prob = predictor.predict(payload).decode('utf-8')
    predicted_class = 1
    if float(predicted_class_prob) < 0.5:
        predicted_class = 0
    if predicted_class == expected_class:
        correct += 1
    predictions.append(predicted_class)
    expected.append(expected_class)

In [None]:
print('Acurácia = {:.2f}%'.format(correct/len(predictions) * 100))

Acurácia = 77.72%


#### Confusion Matrix

In [None]:
expected = pd.Series(np.array(expected))
predictions = pd.Series(np.array(predictions))
pd.crosstab(expected, predictions, rownames = ['Actual'], colnames = ['Predicted'], margins = True)

Predicted,0,1,All
Actual,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.0,1909,71,1980
1.0,483,24,507
All,2392,95,2487


**That's all folks**