In [172]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split

In [173]:
df = pd.read_csv("cardio_train.csv", delimiter=";", index_col=0)
df.head()

Unnamed: 0_level_0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,18393,2,168,62.0,110,80,1,1,0,0,1,0
1,20228,1,156,85.0,140,90,3,1,0,0,1,1
2,18857,1,165,64.0,130,70,3,1,0,0,0,1
3,17623,2,169,82.0,150,100,1,1,0,0,1,1
4,17474,1,156,56.0,100,60,1,1,0,0,0,0


In [174]:
pcs = StandardScaler()
variaveis_continuas = ["age", "height", "weight", "ap_hi", "ap_lo", "cholesterol"]

df[variaveis_continuas] = pcs.fit_transform(df[variaveis_continuas])

In [175]:
df.gender.value_counts()

1    45530
2    24470
Name: gender, dtype: int64

In [176]:
df.gender = df.gender.apply(lambda genero: 0 if genero == 2 else genero)

In [177]:
df.columns

Index(['age', 'gender', 'height', 'weight', 'ap_hi', 'ap_lo', 'cholesterol',
       'gluc', 'smoke', 'alco', 'active', 'cardio'],
      dtype='object')

In [178]:
x, y = df.iloc[:,:-1].to_numpy(), df.iloc[:,-1].to_numpy()

In [179]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
X_train = X_train.T
X_test = X_test.T
y_train = y_train.reshape((1, X_train.shape[1]))
y_test = y_test.reshape((1, X_test.shape[1]))

### Cada layer terá uma matriz de pesos W e um vetor bias b associado. A dimensão da matriz W é definida com a quantidade de linhas sendo igual a quantidade de nodos no layer e a quantidade colunas como a quantidade de inputs do layer. O vetor bias terá um bias para cada nodo layer

In [180]:
def get_parametros_iniciais(tamanho_layers):
    parametros = []
    for indice in range(1,len(tamanho_layers)):
        parametros.append([np.random.randn(tamanho_layers[indice], tamanho_layers[indice-1]) / np.sqrt(tamanho_layers[indice-1]),
                           np.zeros((tamanho_layers[indice], 1))])
    return parametros
        

### Definição das funções de ativação utilizadas: sigmóide e relu

In [181]:
def sigmoid(Z):
    """
    Implements the sigmoid activation in numpy
    
    Arguments:
    Z -- numpy array of any shape
    
    Returns:
    A -- output of sigmoid(z), same shape as Z
    cache -- returns Z as well, useful during backpropagation
    """
    
    A = 1/(1+np.exp(-Z))
    
    return A

def relu(Z):
    """
    Implement the RELU function.

    Arguments:
    Z -- Output of the linear layer, of any shape

    Returns:
    A -- Post-activation parameter, of the same shape as Z
    cache -- a python dictionary containing "A" ; stored for computing the backward pass efficiently
    """
    
    A = np.maximum(0,Z)

    return A

### Esquema forward propagation
<img src="imagens/model_architecture_kiank.png" style="width:600px;height:300px;">

In [182]:
def forward_propagation(X, parametros):
    cache = []
    A = X
    quantidade_layers = len(parametros)
    for indice_layer in range(0, quantidade_layers-1): # foward propagation até o ultimo layer antes do layer output
        #print(indice_layer)
        W = parametros[indice_layer][0]
        b = parametros[indice_layer][1]
        #print(W.shape, A.shape)
        Z = np.dot(W, A) + b
        cache.append((A, Z, W, b))
        A = relu(Z)
    W, b = parametros[indice_layer+1] # como é um problema de classificao, o último layer deve obrigatoriamente ter
                                      #  a funcao sigmoide como funcao de ativação
    Z = np.dot(W, A) + b
    cache.append((A, Z, W, b))
    A = sigmoid(Z)
    
    return A, cache

### A função custo usada aqui é definida como: $$-\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right)) \tag{7}$$

In [195]:
def get_custo(A, Y):    
    m = Y.shape[1]
    if 0 in A:
        print("zerro")
    custo = (1./m) * (-np.dot(Y,np.log(A).T) - np.dot(1-Y, np.log(1-A).T))
    custo = float(np.squeeze(custo))
    return custo

In [196]:
tamanho_layers = [len(df.columns)-1, 6, 9, 5, 1]

In [197]:
parametros = get_parametros_iniciais(tamanho_layers)

In [198]:
A, cache = forward_propagation(X_train, parametros)

In [199]:
def derivada_relu(dA, Z):
    dZ = np.array(dA, copy=True) 
    dZ[Z <= 0] = 0
    return dZ

def derivada_sigmoide(dA, Z):
    s = 1/(1+np.exp(-Z))
    dZ = dA * s * (1-s)    
    return dZ

In [200]:
def backward_propagation(A, cache, Y):
    L = len(cache)
    m = A.shape[1]
    Y = Y.reshape(A.shape)
    gradientes = []
    
    dA = - (np.divide(Y, A) - np.divide(1 - Y, 1 - A)) # derivada do custo em função de A
    A_prev, Z, W, b = cache[-1]
    dZ = derivada_sigmoide(dA, Z)

    dA_layer_antetior = np.dot(W.T, dZ)
    dW = np.dot(dZ, A_prev.T) / m
    db = np.sum(dZ, axis=1, keepdims=True) / m
    gradientes.append([dW, db])
    
    
    for l in (range(L-1))[::-1]:
        dA = dA_layer_antetior
        A_prev, Z, W, b = cache[l]
        dZ = derivada_relu(dA, Z)

        dA_layer_antetior = np.dot(W.T, dZ)
        dW = np.dot(dZ, A_prev.T) / m
        db = np.sum(dZ, axis=1, keepdims=True) / m
        gradientes.append([dW, db])
        
    return gradientes[::-1]


In [201]:
def get_parametros_atualizados(parametros, gradientes, taxa_aprendizado=0.05):
    L = len(parametros) // 2 
    for l in range(L):
        parametros[l][0] -= taxa_aprendizado * gradientes[l][0]
        parametros[l][1] -= taxa_aprendizado * gradientes[l][1] 
    return parametros
    

In [202]:
def fit(X, Y, taxa_aprenzido, iteracoes, tamanhos_layers):
    parametros = get_parametros_iniciais(tamanho_layers)
    custos = []
    for iteracao in range(iteracoes):
        A, cache = forward_propagation(X, parametros)
        custo = get_custo(A, Y)
        custos.append(custo)
        if iteracao % 500 == 0:
            print("Iteração: {} | Custo: {}".format(iteracao, custo))
        gradientes = backward_propagation(A, cache, Y)
        parametros = get_parametros_atualizados(parametros, gradientes)
    
    return parametros, custos        

In [None]:
tamanho_layers = [len(df.columns)-1, 8, 4, 2, 1]
parametros, custos = fit(X_train, y_train, 0.05, 200000, tamanho_layers)

Iteração: 0 | Custo: 0.682967428612059
Iteração: 500 | Custo: 0.6508524270318279
Iteração: 1000 | Custo: 0.6358181242398611
Iteração: 1500 | Custo: 0.6277381268028981
Iteração: 2000 | Custo: 0.6228577851669305
Iteração: 2500 | Custo: 0.61860936440186
Iteração: 3000 | Custo: 0.6135307064469336
Iteração: 3500 | Custo: 0.6065810984652726
Iteração: 4000 | Custo: 0.5975308866432035
Iteração: 4500 | Custo: 0.5871197645545135
Iteração: 5000 | Custo: 0.577556269047964
Iteração: 5500 | Custo: 0.5708634571221979
Iteração: 6000 | Custo: 0.5667742864382291
Iteração: 6500 | Custo: 0.5643906721359322
Iteração: 7000 | Custo: 0.5629800509610512
Iteração: 7500 | Custo: 0.5620852959162785
Iteração: 8000 | Custo: 0.5614851353961605
Iteração: 8500 | Custo: 0.5610403774774394
Iteração: 9000 | Custo: 0.5607041799786514
Iteração: 9500 | Custo: 0.5604388661334169
Iteração: 10000 | Custo: 0.5602071194223978
Iteração: 10500 | Custo: 0.5600097009217639
Iteração: 11000 | Custo: 0.5598379914668934
Iteração: 11500 

Iteração: 94000 | Custo: 0.5422969742002514
Iteração: 94500 | Custo: 0.5422613113009322
Iteração: 95000 | Custo: 0.5422264424115534
Iteração: 95500 | Custo: 0.5421928791648126
Iteração: 96000 | Custo: 0.5421638740580637
Iteração: 96500 | Custo: 0.5421365454680108
Iteração: 97000 | Custo: 0.5421113055008847
Iteração: 97500 | Custo: 0.5420872234113716
Iteração: 98000 | Custo: 0.5420643468314971
Iteração: 98500 | Custo: 0.5420412488084957
Iteração: 99000 | Custo: 0.5420191523604351
Iteração: 99500 | Custo: 0.5419965309425318
Iteração: 100000 | Custo: 0.5419742029051124
Iteração: 100500 | Custo: 0.5419518125056642
Iteração: 101000 | Custo: 0.5419294808588868
Iteração: 101500 | Custo: 0.5419064120552983
Iteração: 102000 | Custo: 0.5418850794710303
Iteração: 102500 | Custo: 0.5418626402336031
Iteração: 103000 | Custo: 0.5418404651988937
Iteração: 103500 | Custo: 0.5418192957809191
Iteração: 104000 | Custo: 0.5417990723804947
Iteração: 104500 | Custo: 0.5417791802029605
Iteração: 105000 | Cus