<img src="res/itm_logo.jpg" width="300px">

## Inteligencia Artificial - IAI84
### Instituto Tecnológico Metropolitano
#### Pedro Atencio Ortiz - 2018

En este notebook se aborda el tema de aprendizaje de máquina para clasificación binaria no-lineal utilizando Regresores logísticos en cadena:
1. El problema XOR
2. Regresores logísticos en cadena

<hr>
# 1. El problema XOR

<img src='res/shallow_nn/xor_problem.png'>

 # 1. Regresor Logístico

In [None]:
import numpy as np

In [None]:
def linear_activation(W, b, X):
    z = np.dot(W.T,X) + b
    
    return z

In [None]:
def sigmoid(z):
    '''
    Returns sigmoid activation for array z
    '''
    a = 1. / (1. + np.exp(-z)) 
    
    return a 

In [None]:
def loss(y, a):
    return -(y * np.log(a) + (1-y) * np.log(1-a))

In [None]:
def cost(logloss):
    return np.mean(logloss)

<hr>
# Trabajemos
3. Realicemos descenso del gradiente por cada regresor logístico.
4. Creemos un solo regresor no lineal combinando el grafo de cómputo en cadena visto en clase y los W y b actualizados para cada regresor.

### - Creemos los 3 datasets (X1, Y1), (X2, Y2) y (X3, Y3) según trabajamos en clase.

In [None]:
X1 = np.array([[0,0],[0,1],[1,0],[1,1]]).T
Y1 = np.array([[0, 1, 1, 1]])
print("X1: ",X1, 'Y1: ', Y1)

X2 = np.array([[0,0],[0,1],[1,0],[1,1]]).T
Y2 = np.array([[1, 1, 1, 0]])
print("X2: ",X2, 'Y2: ', Y2)

X3 = np.array([[0,1],[1,1],[1,1],[1,0]]).T
Y3 = np.array([[0, 1, 1, 0]])
print("X3: ",X3, 'Y3: ', Y3)

__Resultado esperado:__<br>
('X1: ', array([[0, 0, 1, 1],
       [0, 1, 0, 1]]), 'Y1: ', array([[0, 1, 1, 1]]))
       <br>
('X2: ', array([[0, 0, 1, 1],
       [0, 1, 0, 1]]), 'Y2: ', array([[1, 1, 1, 0]]))
       <br>
('X3: ', array([[0, 1, 1, 1],
       [1, 1, 1, 0]]), 'Y3: ', array([[0, 1, 1, 0]]))

### - Inicialicemos los pesos W1, W2, W3 de forma aleatoria (__np.random.rand(shape)__) y los bias b en zero.

In [None]:
def initialize_parameters():
    seed = 2
    np.random.seed(seed)

    W1 = np.random.randn(2,1)
    b1 = 0

    W2 = np.random.randn(2,1)
    b2 = 0

    W3 = np.random.randn(2,1)
    b3 = 0

    return (W1, b1, W2, b2, W3, b3)

(W1,b1,W2,b2,W3,b3) = initialize_parameters()

print('W1: ', W1, 'b1: ',b1)
print('W2: ', W2, 'b2: ',b2)
print('W3: ', W3, 'b3: ',b3)

__Resultado esperado:__
<br>
('W1: ', array([[-0.41675785],
       [-0.05626683]]), 'b1: ', 0)
       <br>
('W2: ', array([[-2.1361961 ],
       [ 1.64027081]]), 'b2: ', 0)
       <br>
('W3: ', array([[-1.79343559],
       [-0.84174737]]), 'b3: ', 0)


<hr>
### - Apliquemos descenso del gradiente a cada regresor logístico por separado

In [None]:
def backward_propagation(A, X, Y):
    m = X.shape[1]
    
    dz = A - Y
    dW = np.dot(X, dz.T) / m
    db = np.sum(dz) / m
    
    return (dW, db)

In [None]:
learning_rate = 0.05

(W1,b1,W2,b2,W3,b3) = initialize_parameters()

for i in range(2000): #2000 iteraciones del descenso del gradiente
    ## Forward Propagation
    Z1 = linear_activation(W1,b1,X1)
    A1 = sigmoid(Z1)
    
    Z2 = linear_activation(W2,b2,X2)
    A2 = sigmoid(Z2)
    
    Z3 = linear_activation(W3,b3,X3)
    A3 = sigmoid(Z3)
    
    #Backward Propagation
    (dW1, db1) = backward_propagation(A1,X1, Y1)
    (dW2, db2) = backward_propagation(A2,X2, Y2)
    (dW3, db3) = backward_propagation(A3,X3, Y3)
    
    #Weight Updates
    W1 -= learning_rate * dW1
    b1 -= learning_rate * db1
    W2 -= learning_rate * dW2
    b2 -= learning_rate * db2
    W3 -= learning_rate * dW3
    b3 -= learning_rate * db3
    
    #Cost estimation
    J1 = cost(loss(Y1,A1))
    J2 = cost(loss(Y2,A2))
    J3 = cost(loss(Y3,A3))
    
    
    if(i%200 == 0):
        print("costo regresor 1 -- iteracion ", i, ": ", J1)
        print("costo regresor 2 -- iteracion ", i, ": ", J2)
        print("costo regresor 3 -- iteracion ", i, ": ", J2)

print("W1 actualizado: ",W1, "b1 actualizado: ", b1)
print("W2 actualizado: ",W2, "b2 actualizado: ", b2)
print("W3 actualizado: ",W3, "b3 actualizado: ", b3)

__Resultado esperado:__
<br>
('costo regresor 1 -- iteracion ', 0, ': ', 0.82381919092736267)
<br>
('costo regresor 2 -- iteracion ', 0, ': ', 1.690717816357759)
<br>
('costo regresor 3 -- iteracion ', 0, ': ', 1.690717816357759)
<br>
...
<br>
('costo regresor 1 -- iteracion ', 1800, ': ', 0.059067083863525841)
<br>
('costo regresor 2 -- iteracion ', 1800, ': ', 0.43458474800401775)
<br>
('costo regresor 3 -- iteracion ', 1800, ': ', 0.43458474800401775)
<br><br>
('W1 actualizado: ', array([[ 3.63883826],
       [ 3.99932928]]), 'b1 actualizado: ', -1.2304228512033604)
       <br>
('W2 actualizado: ', array([[-4.46040679],
       [-0.68393989]]), 'b2 actualizado: ', 4.440351150899609)
       <br>
('W3 actualizado: ', array([[ 1.97706174],
       [ 2.92874996]]), 'b3 actualizado: ', -3.3939910248821952)


### - verifiquemos las predicciones por cada regresor logístico ya entrenado.

In [None]:
def predict(W,b,X):
    z = linear_activation(W,b,X)
    A = sigmoid(z)
    return np.round(A)

In [None]:
Y_hat1 = predict(W1,b1,X1)
Y_hat2 = predict(W2,b2,X2)
Y_hat3 = predict(W3,b3,X3)
print("predicciones regresor 1: ",np.round(Y_hat1),"--- Clases originales: ", Y1)
print("predicciones regresor 2: ",np.round(Y_hat2),"--- Clases originales: ", Y2)
print("predicciones regresor 3: ",np.round(Y_hat3),"--- Clases originales: ", Y3)

__Resultado esperado:__
<br>
('predicciones regresor 1: ', array([[ 0.,  1.,  1.,  1.]]), '--- Clases originales: ', array([[0, 1, 1, 1]]))
<br>
('predicciones regresor 2: ', array([[ 1.,  1.,  1.,  0.]]), '--- Clases originales: ', array([[1, 1, 1, 0]]))
<br>
('predicciones regresor 3: ', array([[ 0.,  1.,  1.,  0.]]), '--- Clases originales: ', array([[0, 1, 1, 0]]))


<hr>
### - Agrupemos los tres regresores en capas
<img src='res/shallow_nn/compute_graph_3.png' width=800>

In [None]:
def predict_multilayer(W1,b1,W2,b2,W3,b3,X):
    Z1 = linear_activation(W1,b1,X)
    A1 = sigmoid(Z1)
    
    Z2 = linear_activation(W2,b2,X)
    A2 = sigmoid(Z2)
    
    X3 = np.concatenate((A1,A2), axis=0)
    Z3 = linear_activation(W3, b3, X3)
    A3 = sigmoid(Z3)
    
    return np.round(A3)

y_hat = predict_multilayer(W1,b1,W2,b2,W3,b3,X1)
print(y_hat)

# Apliquemos nuestro regresor multicapa al problema XOR
----- Solo ejecutar celdas -----

In [None]:
import matplotlib.pyplot as plt

X = np.array([[0,0],[0,1],[1,0],[1,1]])
Y = np.array([[0, 1, 1, 0]])

color= ['blue' if y == 1 else 'red' for y in np.squeeze(Y)]

plt.figure(figsize=(7,5))
plt.scatter(X[:,0], X[:,1], color=color)

plt.show()

X = X.T

In [None]:
import matplotlib.pyplot as plt

def visualize_lr(W1, b1, W2, b2, W3, b3, X, Y):
    X = X.T
    # Set min and max values and give it some padding
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    h = 0.01
    # Generate a grid of points with distance h between them
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    # Predict the function value for the whole gid
    #Z = pred_func(W,b,np.c_[xx.ravel(), yy.ravel()])
    Z = predict_multilayer(W1,b1,W2,b2,W3,b3,np.c_[xx.ravel(), yy.ravel()].T)
    print(Z)
    Z = Z.reshape(xx.shape)
    # Plot the contour and training examples
    plt.figure(figsize=(7,5))
    plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral)
    
    color= ['blue' if y == 1 else 'red' for y in np.squeeze(Y)]
    plt.scatter(X[:,0], X[:,1], color=color)
    
    plt.show()

In [None]:
visualize_lr(W1, b1, W2, b2, W3, b3, X, Y)