<img src="res/itm_logo.jpg" width="300px">

## Inteligencia Artificial - IAI84
### Instituto Tecnológico Metropolitano
#### Pedro Atencio Ortiz - 2018


En este notebook se aborda el tema de aprendizaje de máquina para clasificación binaria utilizando Regresión Logística:
1. Propagación hacia adelante (forward propagation)
2. Función de pérdida
3. Función de costo
4. Descenso del gradiente
5. Predicción
6. Regresión logística sobre un dataset

<img src='res/logistic_regression/graph.png'>

- La regresión logística se puede entender como una regresión lineal, acompañada de una función logística (sigmoide) que permite determinar la clase a la que pertenece un objeto.
- Solo se aplica en problemas de clasificación binaria lineal.

In [4]:
import numpy as np

<hr>
# 1. Propagación hacia adelante (backward propagation)
<hr>
## 1.1. Activación lineal (linear activation)

A continuación implementemos la activación lineal definida como:

## <center>$z = W^{T}X+b$</center>

In [12]:
'''
 Use numpy implementation of dot product np.dot(A,B) to multiply W.T and b
'''
def linear_activation(W, b, X):
    z = None
    
    return z

In [None]:
seed = 2 #to be able to verify your result
np.random.seed(seed)
W = np.random.randn(2,1)
b = np.random.rand()
X = np.random.randn(2, 3)

print(linear_activation(W,b,X))

Resultado esperado: __[[ 1.39865165  1.29546477  0.94717078]]__

<hr>
## 1.2. Activación logística (sigmoid activation)

A continuación implementemos la función sigmoide definida como:

## <center>$sig(z)=\sigma(z) = \frac{1}{1+e^{-z}}$</center>

In [2]:
'''
Use numpy implementation for exponential e^k -- np.exp(k)
'''
def sigmoid(z):
    '''
    Returns sigmoid activation for array z
    
    Arguments:
        z -- array of float values.
    Returns:
        a -- sigmoid activation.
    '''
    a = None 
    
    return a 

In [None]:
seed = 2
np.random.seed(seed)
z = np.random.randn(1,3)
print(sigmoid(z))

Valor esperado = __[[ 0.39729283  0.485937    0.10562821]]__

<hr>
# 2. Función de perdida

A continuación implementemos la función de perdida como:

## <center>$loss(y, a)=L(y, a) = -(y.log(a)+(1-y).log(1-a))$</center>

In [23]:
'''
Use np.log(a) to implement natural logarithm.
'''
def loss(y, a):
    '''
    Logistic loss implementation.
    
    Arguments:
        y -- original labels.
        a -- predicted labels from forward propagation.
    '''
    logloss = None
    return logloss

In [None]:
seed = 2 #to be able to verify your result
np.random.seed(seed)
W = np.random.randn(2,1)
b = np.random.rand()
X = np.random.randn(2, 3)

Y = np.array([[1,1,0]]) #original labels for features X
A = sigmoid(linear_activation(W,b,X)) #forward activation

print("Perdida dato a dato: ", loss(Y, A))

Resultado esperado: __[[ 0.22068428,  0.24198147,  1.27491702]]__

<hr>
# 3. Función de costo

Implementos la función de costo definida como:

## <center>$cost(logloss) = J(logloss) = \frac{1}{m}\sum^{i=1}_{m}logloss^{(i)}$</center>

para $m$ ejemplos en el dataset $X$

In [26]:
'''
Cost is defined as the mean of logistic loss.
'''
def cost(logloss):
    return None

In [None]:
logloss = np.array([[0.22068428,  0.24198147,  1.27491702]])
print("costo: ", cost(logloss))

Resultado esperado: __0.57919425666666668__

<hr>
# 4. Descenso del gradiente (Gradient Descent)

El descenso del gradiente implica aplicar la regla de la cadena sobre el grafo de cómputo de la regresión logística y calcular las derivadas parciales de los parámetros $W$ y $b$ respecto a la función de pérdida. Posteriormente el negativo de la derivada de los parámetros se utiliza para actualizar los mismos.

<img src='res/logistic_regression/graph_backward.png' width=700>

<br>
El algoritmo vectorizado del descenso del gradiente para la regresión logística es:

<i>
__FOR__ i=1->epochs:

    //forward propagation
    Z = W.T*X+b
    A = sig(Z)
    
    //cálculo de los gradientes de los parámetros
    dz = A-Y
    dW = (X*dz.T) / m
    db = sum(dz) / m
    
    //cálculo del costo
    J = cost(loss(Y,A))
    
    //actualizacion de parametros
    W = W - learning_rate*dW
    b = b - learning_rate*db
</i>

In [28]:
seed = 2
np.random.seed(seed)

X = np.random.rand(3,2)
Y = np.array([[0, 1]])

m = X.shape[1]

W = np.array([[0.1], [-0.1], [0.01]])
b = 0.1

print("m: ", m)
print("W inicial: ",W)
print("b inicial: ",b)

('m: ', 2)
('W inicial: ', array([[ 0.1 ],
       [-0.1 ],
       [ 0.01]]))
('b inicial: ', 0.1)


Utilicemos las funciones previamente diseñadas para completar el siguiente código

In [None]:
learning_rate = 0.05

for i in range(1000): #1000 iteraciones del descenso del gradiente
    Z = None
    A = None
    
    dz = None
    dW = None
    db = None
    
    J = None

    W -= None
    b -= None
    
    if(i%100 == 0):
        print("costo: ", J)

print("W actualizado: ",W)
print("b actualizado: ",b)
print("costo total: ", J)

__Resultado esperado__: 

('costo: ', 0.35961193473699637)

('costo: ', 0.34112286128068314)

('costo: ', 0.32416576026635818)

('costo: ', 0.3085804969161185)

('costo: ', 0.29422579454831238)

('costo: ', 0.28097695742118511)

('costo: ', 0.26872383438602254)

('costo: ', 0.25736901432660603)

('costo: ', 0.24682623751141713)

('costo: ', 0.23701900363846592)

('W actualizado: ', array([[-4.43431392],
       [-4.63431392],
       [-4.52431392]]))
       
('b actualizado: ', 4.8105808996169204)

('costo total: ', 0.22796765247707698)

<hr>
# 5. Predicción

La predicción consiste en aplicar forward propagation utilizando los W y b optimizados mediante descenso del gradiente.

In [29]:
def predict(W,b,X):
    z = linear_activation(W,b,X)
    A = sigmoid(z)
    return np.round(A)

<hr>
# 6. Regresión Logística sobre un dataset

In [30]:
from utils import generate_data, visualize, plot_decision_boundary
import matplotlib.pyplot as plt

## 6.1.Generemos el dataset

In [42]:
X, Y = generate_data('blobs')

In [None]:
color= ['red' if y == 1 else 'green' for y in np.squeeze(Y)]

plt.figure(figsize=(7,5))
plt.scatter(X[:,0], X[:,1], color=color)

plt.show()

In [44]:
Y = Y.reshape(1,len(Y))# reshape Y to satisfy shape (m, 1)
X = X.T #transpose X to satisfy shape (nx, m)

## 6.2. Inicialicemos los parámetros W y b

In [None]:
#1. inicilicemos parametros W y b
m = X.shape[1]

W = np.random.randn(X.shape[0],1)
b = 0

print("m: ", m)
print("W inicial: ",W)
print("b inicial: ",b)

## 6.3. Apliquemos la regresión logística

In [None]:
#2. Regresion logistica mediante descenso del gradiente

learning_rate = 0.1

for i in range(10000): #10000 iteraciones del descenso del gradiente
    Z = None
    A = None
    dz = None
    dW = None
    db = None
    J = None
    
    W -= None
    b -= None
    
    if(i%1000 == 0):
        print("costo: ", J)

print("W actualizado: ",W)
print("b actualizado: ",b)
print("costo final (error), despues de ",i+1," iteraciones: ", J)

In [None]:
print(predict(W,b,X))

In [45]:
def visualize_lr(W, b, X, y):
    X = X.T
    # Set min and max values and give it some padding
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    h = 0.01
    # Generate a grid of points with distance h between them
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    # Predict the function value for the whole gid
    #Z = pred_func(W,b,np.c_[xx.ravel(), yy.ravel()])
    Z = predict(W,b,np.c_[xx.ravel(), yy.ravel()].T)
    Z = Z.reshape(xx.shape)
    # Plot the contour and training examples
    plt.figure(figsize=(7,5))
    plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral)
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Spectral)
    plt.show()

In [None]:
visualize_lr(W, b, X, Y)