In [None]:

from sklearn import datasets
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)
feature_set, labels = datasets.make_moons(100, noise=0.10)
plt.figure(figsize=(10,7))
plt.scatter(feature_set[:,0], feature_set[:,1], c=labels, cmap=plt.cm.winter)

labels = labels.reshape(100, 1)

# função de ativação
def sigmoid(x):
    return 1/(1+np.exp(-x))

def sigmoid_der(x):
    return sigmoid(x) *(1-sigmoid (x))


# Os pesos iniciais tanto da hidden layer quanto do output layer sao iniciados com numeros randomicos
wh = np.random.rand(len(feature_set[0]),4) # Hidden layer
wo = np.random.rand(4, 1) # output layer
lr = 0.5

for epoch in range(200000):
    # feedforward
    # Calculos no Hidden layer
    zh = np.dot(feature_set, wh)  # Um vetor com o resultado da multiplicação dos inputs por cada par de pesos no hidden layer
    ah = sigmoid(zh) # inputs intermediarios que alimentam o output layer (ou se for o caso o proximo hidden layer) um vetor

    # Calculos no output layer
    zo = np.dot(ah, wo)
    ao = sigmoid(zo) # saida estimado com uso da função de ativação

    # Phase1 =======================

    error_out = ((1 / 2) * (np.power((ao - labels), 2)))
    print(error_out.sum())

    # para reduzir o erro devemos minimizar a função de custo e para isso derivamos a mesma no que consiste em achar o minimo local
    dcost_dao = ao - labels # derivada da função de custo com relação a saida estimada
    dao_dzo = sigmoid_der(zo) # derivada da saida com relação ao somatorio da multiplicação dos pesos do output layer pelas saidas do hidden layer
    dzo_dwo = ah # derivada do somatorio da multiplicação dos pesos do output layer pelas saidas do hidden layer com relação aos pesos do output layer (as proprias saidas do hidden layer)

    dcost_wo = np.dot(dzo_dwo.T, dcost_dao * dao_dzo) # dzo_dwo.T (transposta)

    # Phase 2 =======================

    # dcost_w1 = dcost_dah * dah_dzh * dzh_dw1
    # dcost_dah = dcost_dzo * dzo_dah
    dcost_dzo = dcost_dao * dao_dzo
    dzo_dah = wo
    dcost_dah = np.dot(dcost_dzo , dzo_dah.T)
    dah_dzh = sigmoid_der(zh)
    dzh_dwh = feature_set
    dcost_wh = np.dot(dzh_dwh.T, dah_dzh * dcost_dah)

    # Update Weights ================

    wh -= lr * dcost_wh
    wo -= lr * dcost_wo