In [None]:
import numpy as np

<img src="res/itm_logo.jpg" width="300px">

## Inteligencia Artificial - IAI84
### Instituto Tecnológico Metropolitano
#### Pedro Atencio Ortiz - 2018


En este notebook se implementa un clasificador binario mediante regresion logistica. La regresion logistica constituye el elemento basico de las redes neuronales. En otras palabras, podriamos asumir que un regresor logistico constituye una neurona en una red neuronal.

<hr>
# 1. Propagación hacia adelante (forward propagation)

La primera etapa de una regresion logistica consiste en calcular la salida del modelo dada una entrada. Este proceso se conoce como propagacion hacia adelante. Esta propagacion se calcula de la siguiente manera:

$a = \sigma(W^{T}X+b)$

Donde $\sigma$ es la funcion sigmoide, $W$ son los pesos de las conexiones del regresor, $b$ es el bias y $x$ la entrada.

La funcion $\sigma$ se define como:

$\sigma(z) = \frac{1}{1+e^{-z}}$

<hr>
Primero definamos la activacion lineal definida como: $W^{T}x+b$

In [None]:
def linear_activation(W, b, X):
    z = np.dot(W.T,X) + b
    
    return z

In [None]:
X = np.array([[1,2,3],[4,5,6]]).T
print("X: ",X)

Y = np.array([[0, 1]])
print("Y: ", Y)

W = np.array([[0.4], [-0.5], [0.01]])
print("W: ", W)

b = 0.3
print("b: ", b)

A = linear_activation(W, b, X)

print("Activacion Lineal: ", A)

<hr>
Definamos ahora la funcion sigmoide $\sigma$

In [None]:
def sigmoid(z):
    '''
    Returns sigmoid activation for array z
    '''
    a = 1. / (1. + np.exp(-z)) 
    
    return a 

In [None]:
import matplotlib.pyplot as plt

x = np.linspace(-5,5,20) #x entre -5 y 5
plt.figure(figsize=(4,3))
plt.plot(x, sigmoid(x))
plt.xlabel("x")
plt.ylabel("sigmoid(x)")
plt.grid()
plt.show()

<hr>
Una vez tenemos la activacion lineal y la funcion sigmoide, entonces podemos realizar la propagacion hacia adelante:

$a = \sigma(W^{T}X+b)$

In [None]:
X = np.array([[1,2,3],[4,5,6]]).T
W = np.array([[0.4], [-0.5], [0.01]])
b = 0.3

A = sigmoid(linear_activation(W, b, X))

print a

<hr>
# 2. Función de perdida

Esta funcion permite medir la calidad del entrenamiento del regresor logistico. A menor valor, mejor desempenio. Existen muchas funciones de perdida, en este caso utilizamos una funcion muy conocida, denominada perdida logaritmica o logloss.

$L(Y,A) = -\left ( Ylog(A)+(1-Y)log(1-A) \right )$

Donde $Y$ y $A$ son la salida de referencia y la salida de la red respectivamente.

In [None]:
def loss(Y, A):
    return -(Y * np.log(A) + (1-Y) * np.log(1-A))

In [None]:
seed = 2 #to be able to verify your result
np.random.seed(seed)
W = np.random.randn(2,1)
b = np.random.rand()
X = np.random.randn(2, 3)

Y = np.array([[1,1,0]]) #original labels for features X
A = sigmoid(linear_activation(W,b,X)) #forward activation

print("Salida de referencia o esperada: ", Y)
print("Salida del regresor logistico: ", A)

print("Perdida dato a dato: ", loss(Y, A))

<hr>
# 3. Función de costo $J$

La funcion de perdida mide el error del regresor dato a dato. El costo mide el error total. Para este caso midamos el costo $J$ como el promedio de las perdidas dato a dato.

$J(L) = \frac{\sum{L}}{n}$

Donde $n$ es el numero de datos que se tengan.

In [None]:
def cost(L):
    return np.mean(L)

In [None]:
seed = 2 #to be able to verify your result
np.random.seed(seed)
W = np.random.randn(2,1)
b = np.random.rand()
X = np.random.randn(2, 3)

Y = np.array([[1,1,0]]) #original labels for features X
A = sigmoid(linear_activation(W,b,X)) #forward activation

L = loss(Y,A)
J = cost(L)

print("Perdida: ", L)
print("Costo: ", J)

<hr>
# 4. Descenso del gradiente (Gradient Descent) 

In [None]:
seed = 2
np.random.seed(seed)

X = np.random.rand(3,2)
Y = np.array([[0, 1]])

m = X.shape[1]

W = np.array([[0.1], [-0.1], [0.01]])
b = 0.1

print("m: ", m)
print("W inicial: ",W)
print("b inicial: ",b)

In [None]:
learning_rate = 0.05

for i in range(2000): #2000 iteraciones del descenso del gradiente
    #1. Propagacion hacia adelante
    Z = linear_activation(W,b,X)
    A = sigmoid(Z)
    
    #2. Descenso del gradiente
    dz = A - Y
    dW = np.dot(X,dz.T) / m
    db = np.sum(dz) / m
    
    #Actualizacion de los parametros W y b
    W -= learning_rate * dW
    b -= learning_rate * db
    
    #Estimacion del costo actual. A mayor numero de iteraciones menor costo final.
    J = cost(loss(Y,A))
    
    if(i%100 == 0):
        print("costo: ", J)

print("W actualizado: ",W)
print("b actualizado: ",b)
print("costo total: ", J)

# 5. Predicción

La predicción consiste en aplicar forward propagation utilizando los W y b optimizados mediante descenso del gradiente.

In [None]:
def predict(W,b,X):
    z = linear_activation(W,b,X)
    A = sigmoid(z)
    return np.round(A)

In [None]:
Y_hat = predict(W,b,X)
print("predicciones: ",np.round(Y_hat))
print("clases originales: ", Y)

<hr>
# Regresión Logística sobre un dataset

In [None]:
from utils import generate_data, visualize, plot_decision_boundary
import matplotlib.pyplot as plt

In [None]:
X, Y = generate_data('blobs')
Y = Y.reshape(1,len(Y))
print(X.shape)
print(Y.shape)

In [None]:
color= ['red' if y == 1 else 'green' for y in np.squeeze(Y)]

plt.figure(figsize=(7,5))
plt.scatter(X[:,0], X[:,1], color=color)

plt.show()

X = X.T

In [None]:
#1. inicilicemos parametros W y b
m = X.shape[1]

W = np.random.randn(X.shape[0],1)
b = 0

print("m: ", m)
print("W inicial: ",W)
print("b inicial: ",b)

In [None]:
#2. Regresion logistica mediante descenso del gradiente

learning_rate = 0.1

for i in range(10000): #1000 iteraciones del descenso del gradiente
    Z = linear_activation(W,b,X)
    A = sigmoid(Z)
    dz = A - Y
    dW = np.dot(X,dz.T) / m
    db = np.sum(dz) / m
    J = np.sum(-(Y * np.log(A) + (1-Y)*np.log(1-A))) / m
    
    W -= learning_rate * dW
    b -= learning_rate * db
    
    if(i%1000 == 0):
        print("costo: ", J)

print("W actualizado: ",W)
print("b actualizado: ",b)
print("costo final (error), despues de ",i+1," iteraciones: ", J)

In [None]:
print(predict(W,b,X))

In [None]:
def visualize_lr(W, b, X, y):
    X = X.T
    # Set min and max values and give it some padding
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    h = 0.01
    # Generate a grid of points with distance h between them
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    # Predict the function value for the whole gid
    #Z = pred_func(W,b,np.c_[xx.ravel(), yy.ravel()])
    Z = predict(W,b,np.c_[xx.ravel(), yy.ravel()].T)
    Z = Z.reshape(xx.shape)
    # Plot the contour and training examples
    plt.figure(figsize=(7,5))
    plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral)
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Spectral)
    plt.show()

In [None]:
visualize_lr(W, b, X, Y)