# Import Libs

In [2]:
!pip install category-encoders

Collecting category-encoders
  Downloading category_encoders-2.2.2-py2.py3-none-any.whl (80 kB)
[K     |████████████████████████████████| 80 kB 1.3 MB/s eta 0:00:011
Installing collected packages: category-encoders
Successfully installed category-encoders-2.2.2


In [3]:
import numpy as np
import pandas as pd
import re
import joblib
from imblearn.over_sampling import SMOTE
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.utils.class_weight import compute_class_weight
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import category_encoders as ce 

# Cria o padronizador
scaler = StandardScaler()


# Load Data

In [4]:
df = pd.read_csv("../data/diabetes.csv")

# Feature Engineering

In [5]:
def feature_engineering(dados):

    # Removendo as 3 colunas com alto percentual de valores ausentes
    dados = dados.drop(['weight','payer_code','medical_specialty'], axis = 1)

    # Removemos os registros com baixo percentual de valores ausentes
    dados = dados[dados['race'] != '?']
    dados = dados[dados['diag_1'] != '?']
    dados = dados[dados['diag_2'] != '?']
    dados = dados[dados['diag_3'] != '?']
    dados = dados[dados['gender'] != 'Unknown/Invalid']

    # Removendoo variáveis com valores únicos
    dados = dados.loc[:, dados.nunique() != 1]

    # Ajustando a variável alvo
    # '0' significa que não foi readmitido
    # '1' significa que foi readmitido, não importa quantos dias após a alta
    dados['readmitted'] = dados['readmitted'].replace('>30', 1)
    dados['readmitted'] = dados['readmitted'].replace('<30', 1)
    dados['readmitted'] = dados['readmitted'].replace('NO', 0)

    # Recategorizamos 'idade' para que a população seja distribuída de maneira mais uniforme
    # Classificamos como faixa de 0-50 pacientes de até 50 anos
    dados['age'] = pd.Series(['[0-50)' if val in ['[0-10)', '[10-20)', '[20-30)', '[30-40)', '[40-50)'] else val 
                              for val in dados['age']], index = dados.index)

    # Acima de 80 anos ficam na faixa de 80-100
    dados['age'] = pd.Series(['[80-100)' if val in ['[80-90)', '[90-100)'] else val 
                              for val in dados['age']], index = dados.index)


    # A variável 'admission_type_id' contém 8 níveis
    # Reduziremos os níveis de 'admission_type_id' para duas categorias
    dados['admission_type_id'] = pd.Series(['Emergencia' if val == 1 else 'Outro' 
                                            for val in dados['admission_type_id']], index = dados.index)


    # A variável 'discharge_disposition_id' contém 26 níveis
    # Reduziremos os níveis de 'discharge_disposition_id' para duas categorias
    dados['discharge_disposition_id'] = pd.Series(['Casa' if val == 1 else 'Outro' 
                                                  for val in dados['discharge_disposition_id']], index = dados.index)


    # A variável 'admission_source_id' contém 17 níveis
    # # Reduziremos os níveis de 'admission_source_id' para três categorias
    dados['admission_source_id'] = pd.Series(['Sala_Emergencia' if val == 7 else 'Recomendacao' if val == 1 else 'Outro' 
                                                  for val in dados['admission_source_id']], index = dados.index)


    # Concatena 3 variáveis em um dataframe
    diagnostico = dados[['diag_1', 'diag_2', 'diag_3']]

    # Aplicamos a função comorbidade aos dados
    dados['comorbidade'] = diagnostico.apply(calcula_comorbidade, axis = 1)

    # Drop das variáveis individuais
    dados.drop(['diag_1','diag_2','diag_3'], axis = 1, inplace = True)
    
    # Removendo dataframe temporario
    del diagnostico

    # Lista com os nomes das variáveis de medicamentos (3 variáveis já tinham sido removidas)
    medicamentos = ['metformin', 'repaglinide', 'nateglinide', 'chlorpropamide', 'glimepiride', 'acetohexamide', 
                    'glipizide', 'glyburide', 'tolbutamide', 'pioglitazone', 'rosiglitazone', 'acarbose', 'miglitol', 
                    'troglitazone', 'tolazamide', 'insulin', 'glyburide-metformin', 'glipizide-metformin', 
                    'glimepiride-pioglitazone', 'metformin-pioglitazone']


    # Loop para ajustar o valor das variáveis de medicamentos
    for col in medicamentos:
        if col in dados.columns:
            colname = str(col) + 'temp'
            dados[colname] = dados[col].apply(lambda x: 0 if (x == 'No' or x == 'Steady') else 1)


    # Cria uma variável para receber a contagem por paciente
    dados['num_alt_dosagem_med'] = 0

    # Contagem de modificações na dosagem de medicamentos
    for col in medicamentos:
        if col in dados.columns:
            colname = str(col) + 'temp'
            dados['num_alt_dosagem_med'] = dados['num_alt_dosagem_med'] + dados[colname]
            del dados[colname]


    # Recoding das colunas de medicamentos
    for col in medicamentos:
        if col in dados.columns:
            dados[col] = dados[col].replace('No', 0)
            dados[col] = dados[col].replace('Steady', 1)
            dados[col] = dados[col].replace('Up', 1)
            dados[col] = dados[col].replace('Down', 1) 


    # Variável com a contagem de medicamentos por paciente
    dados['num_med'] = 0

    # Carregamos a nova variável
    for col in medicamentos:
        if col in dados.columns:
            dados['num_med'] = dados['num_med'] + dados[col]


    # Remove as colunas de medicamentos
    dados = dados.drop(columns = medicamentos)


    # Recoding de variáveis categóricas binárias
    dados['change'] = dados['change'].replace('Ch', 1)
    dados['change'] = dados['change'].replace('No', 0)
    dados['gender'] = dados['gender'].replace('Male', 1)
    dados['gender'] = dados['gender'].replace('Female', 0)
    dados['diabetesMed'] = dados['diabetesMed'].replace('Yes', 1)
    dados['diabetesMed'] = dados['diabetesMed'].replace('No', 0)


    # Recoding de variáveis categóricas (label encoding)
    dados['A1Cresult'] = dados['A1Cresult'].replace('>7', 1)
    dados['A1Cresult'] = dados['A1Cresult'].replace('>8', 1)
    dados['A1Cresult'] = dados['A1Cresult'].replace('Norm', 0)
    dados['A1Cresult'] = dados['A1Cresult'].replace('None', -99)
    dados['max_glu_serum'] = dados['max_glu_serum'].replace('>200', 1)
    dados['max_glu_serum'] = dados['max_glu_serum'].replace('>300', 1)
    dados['max_glu_serum'] = dados['max_glu_serum'].replace('Norm', 0)
    dados['max_glu_serum'] = dados['max_glu_serum'].replace('None', -99)


    # Removendo duplicidades por id de paciente, mantendo o primeiro registro
    dados = dados.drop_duplicates(subset = ['patient_nbr'], keep = 'first')


    # Remove as variáveis de ID
    dados.drop(['encounter_id', 'patient_nbr'], axis = 1, inplace = True)
    
    return dados

In [6]:
# Função que calcula a Comorbidade
def calcula_comorbidade(row):
    
    # Código 250 indica diabetes
    codigos_doenca_diabetes = "^[2][5][0]"
    
    # Códigos 39x (x = valor entre 0 e 9)
    # Códigos 4zx (z = valor entre 0 e 6 e x = valor entre 0 e 9)
    # Esses códigos indicam problemas circulatórios
    codigos_doenca_circulatorios = "^[3][9][0-9]|^[4][0-5][0-9]"
    
    # Inicializa variável de retorno
    valor = 0
    
    # Valor 0 indica que:
    # Diabetes E problemas circulatórios não foram detectados de forma simultânea no paciente
    if(not(bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_1']))))) and
       not(bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_2']))))) and 
       not(bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_3'])))))) and (not(
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_1']))))) and not(
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_2']))))) and not(
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_3'])))))):
        valor = 0
        
    # Valor 1 indica que:
    # Pelo menos um diagnóstico de diabetes E problemas circulatórios foram detectados de forma 
    # simultânea no paciente
    if(bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_1'])))) or 
       bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_2'])))) or 
       bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_3']))))) and (not(
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_1']))))) and not(
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_2']))))) and not(
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_3'])))))): 
        valor = 1
        
    # Valor 2 indica que:
    # Diabetes E pelo menos um diagnóstico de problemas circulatórios foram detectados de forma 
    # simultânea no paciente
    if(not(bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_1']))))) and
       not(bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_2']))))) and 
       not(bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_3'])))))) and (
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_1'])))) or 
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_2'])))) or 
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_3']))))):
        valor = 2
        
    # Valor 3 indica que:
    # Pelo menos um diagnóstico de diabetes e pelo menos um diagnóstico de problemas circulatórios 
    # foram detectados de forma simultânea no paciente
    if(bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_1'])))) or 
       bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_2'])))) or 
       bool(re.match(codigos_doenca_diabetes, str(np.array(row['diag_3']))))) and (
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_1'])))) or 
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_2'])))) or 
        bool(re.match(codigos_doenca_circulatorios, str(np.array(row['diag_3']))))):
        valor = 3 
    
    return valor

In [7]:
# Funcao para balanceamento entre as classes
def balanceamento_classe(X, y):

    # Criamos o objeto SMOTE
    sm = SMOTE(random_state = 42)

    # Treinamos o balanceador SMOTE
    new_X, new_y = sm.fit_sample(X, y)   
    
    return new_X, new_y

In [28]:
# Aplicando engenharia de atributos no dataset
train = feature_engineering(df)

# Vamos armazenar 'readmitted' no rótulo (y) e o restante das colunas em X
y = train['readmitted']
X = train.drop(['readmitted'], axis = 1)

In [30]:
ce_leave = ce.LeaveOneOutEncoder(cols = ['age','race','admission_type_id','discharge_disposition_id','admission_source_id'])
ce = ce_leave.fit(X, y)        
X = ce.transform(X, y)   

In [31]:
X.head()

Unnamed: 0,race,gender,age,admission_type_id,discharge_disposition_id,admission_source_id,time_in_hospital,num_lab_procedures,num_procedures,num_medications,...,number_emergency,number_inpatient,number_diagnoses,max_glu_serum,A1Cresult,change,diabetesMed,comorbidade,num_alt_dosagem_med,num_med
1,0.41218,0,0.350787,0.407403,0.394089,0.426748,3,59,0,18,...,0,0,9,-99,-99,1,1,1,1,1
2,0.387634,0,0.350882,0.407432,0.394113,0.426775,2,11,5,13,...,0,1,6,-99,-99,0,1,1,0,1
3,0.412199,1,0.350882,0.407432,0.394113,0.426775,2,44,1,16,...,0,0,7,-99,-99,1,1,3,1,1
4,0.412199,1,0.350882,0.407432,0.394113,0.426775,1,51,0,8,...,0,0,5,-99,-99,1,1,1,0,2
5,0.41218,1,0.375313,0.40111,0.394089,0.366485,3,31,6,16,...,0,0,9,-99,-99,0,1,3,0,1


In [32]:
# Split dos dados
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=.2, random_state=0, stratify=y)

# Padronizando os dados
X_train = scaler.fit_transform(X_train)
X_val   = scaler.transform(X_val)

# Aplicar o balanceamento de classes usando SMOTE
X_train, y_train = balanceamento_classe(X_train, y_train)

# Create Model

In [33]:
# Cria o modelo
modelo_lr = LogisticRegression(tol = 1e-7, 
                               class_weight = {0:0.49, 1:0.51}, 
                               penalty = 'l2', 
                               C = 0.0005, 
                               solver = 'liblinear')

# Treina o modelo
modelo_lr.fit(X_train, y_train)

# Faz as previsões
lr_pred = modelo_lr.predict(X_val)

# Calcula o score com dados de teste
lr_accuracy = modelo_lr.score(X_val, y_val) * 100

# Print
print("\nAcurácia do Modelo de Regressão Logística (%):", lr_accuracy)
print("\n")

# Relatório de Classificação
print(classification_report(y_val, lr_pred, target_names = ['Não', 'Sim']))


Acurácia do Modelo de Regressão Logística (%): 57.89013550925252


              precision    recall  f1-score   support

         Não       0.67      0.57      0.62      8176
         Sim       0.48      0.60      0.53      5550

    accuracy                           0.58     13726
   macro avg       0.58      0.58      0.58     13726
weighted avg       0.60      0.58      0.58     13726



# Save Model

In [34]:
joblib.dump(modelo_lr, '../models/modelo_lr.pkl')
joblib.dump(scaler, '../models/scaler.pkl')
joblib.dump(ce, '../models/ce_leave.pkl')

['../models/ce_leave.pkl']

# Deploying Model

In [None]:
#!pip install azureml

In [None]:
#!pip install azureml-core

In [None]:
#!pip install azureml-dataprep

In [None]:
import azureml
from azureml.core import Workspace
ws = Workspace.from_config(path="../config/config.json")

In [None]:
from azureml.core import Dataset

np.savetxt('features.csv', X, delimiter=',')
np.savetxt('labels.csv', y, delimiter=',')

datastore = ws.get_default_datastore()
datastore.upload_files(files=['./features.csv', './labels.csv'],
                       target_path='sklearn_classification/',
                       overwrite=True)

input_dataset = Dataset.Tabular.from_delimited_files(path=[(datastore, 'sklearn_classification/features.csv')])
output_dataset = Dataset.Tabular.from_delimited_files(path=[(datastore, 'sklearn_classification/labels.csv')])

# Register the model

In [None]:
import sklearn

from azureml.core import Model
from azureml.core.resource_configuration import ResourceConfiguration


model = Model.register(workspace=ws,
                       model_name='doctorhealth-model',              # Name of the registered model in your workspace.
                       model_path='../models/modelo_lr.pkl',         # Local file to upload and register as a model.
                       model_framework=Model.Framework.SCIKITLEARN,  # Framework used to create the model.
                       model_framework_version=sklearn.__version__,  # Version of scikit-learn used to create the model.
                       sample_input_dataset=input_dataset,
                       sample_output_dataset=output_dataset,
                       resource_configuration=ResourceConfiguration(cpu=1, memory_in_gb=0.5),
                       description='Logistic Regression model to predict readmitted risk diabetes.',
                       tags={'area': 'diabetes', 'type': 'classification'})

print('Name:', model.name)
print('Version:', model.version)

In [None]:
service_name = 'doctorhealth-service'

service = Model.deploy(ws, service_name, [model], overwrite=True)
service.wait_for_deployment(show_output=True)

# Testing HTTP

In [None]:
sample = X.iloc[:1, 0:]
sample_json = sample.to_json(orient="split")
query_input = list(sample.values.flatten())

In [None]:
print(sample_json)

In [None]:
import requests
import json

def query_endpoint_example(scoring_uri, inputs, service_key=None):
    headers = {
        "Content-Type": "application/json",
    }
    if service_key is not None:
        headers["Authorization"] = "Bearer {service_key}".format(service_key=service_key)

    print("Sending batch prediction request with inputs: {}".format(inputs))
    response = requests.post(scoring_uri, data=inputs, headers=headers)
    print("Response: {}".format(response.text))
    preds = json.loads(response.text)
    print("Received response: {}".format(preds))
    return preds

In [None]:
aci_scoring_uri = service.scoring_uri
print(aci_scoring_uri)

In [None]:
prediction = query_endpoint_example(scoring_uri=aci_scoring_uri, inputs=sample_json)

# Deploy web service to AKS
> Observacao: na conta Free da Azure nao foi possivel por conta da QuotaExceeded

### Create the Environment

In [None]:
from azureml.core import Workspace
from azureml.core.compute import AksCompute, ComputeTarget
from azureml.core.webservice import Webservice, AksWebservice
from azureml.core.model import Model
import azureml.core

In [None]:
from azureml.core import Environment
from azureml.core.conda_dependencies import CondaDependencies 

conda_deps = CondaDependencies.create(conda_packages=['numpy','scikit-learn==0.23.2','scipy'], pip_packages=['azureml-defaults', 'inference-schema'])
myenv = Environment(name='doctorhealth_env')
myenv.python.conda_dependencies = conda_deps

### Write the Entry Script

In [None]:
%%writefile score.py
import os
import pickle
import json
import numpy
from sklearn.externals import joblib
from sklearn.linear_model import LogisticRegression

def init():
    global model
    # AZUREML_MODEL_DIR is an environment variable created during deployment.
    # It is the path to the model folder (./azureml-models/$MODEL_NAME/$VERSION)
    # For multiple models, it points to the folder containing all deployed models (./azureml-models)
    model_path = os.path.join(os.getenv('../models/'), 'modelo_lr.pkl')
    # deserialize the model file back into a sklearn model
    model = joblib.load(model_path)

# note you can pass in multiple rows for scoring
def run(raw_data):
    try:
        data = json.loads(raw_data)['data']
        data = numpy.array(data)
        result = model.predict(data)
        # you can return any data type as long as it is JSON-serializable
        return result.tolist()
    except Exception as e:
        error = str(e)
        return error

### Create the InferenceConfig

In [None]:
from azureml.core.model import InferenceConfig

inf_config = InferenceConfig(entry_script='score.py', environment=myenv)

### Provision the AKS Cluster

In [None]:
from azureml.core.compute import ComputeTarget
from azureml.core.compute_target import ComputeTargetException

# Choose a name for your AKS cluster
aks_name = 'aksdoctorhealth' 

# Verify that cluster does not exist already
try:
    aks_target = ComputeTarget(workspace=ws, name=aks_name)
    print('Found existing cluster, use it.')
except ComputeTargetException:
    # Use the default configuration (can also provide parameters to customize)
    prov_config = AksCompute.provisioning_configuration()

    # Create the cluster
    aks_target = ComputeTarget.create(workspace = ws, 
                                      name = aks_name, 
                                      provisioning_configuration = prov_config)

if aks_target.get_status() != "Succeeded":
    aks_target.wait_for_completion(show_output=True)