In [None]:
X = 2 * np.random.rand(100,1)
y = 4 +3 * X+np.random.randn(100,1)

## 3. Descenso del gradiente

Abordamos el mismo problema de ajustar los datos según una recta, pero en este caso, en lugar de acudir a la fórmula cerrada que nos dan las ecuaciones normales para recuperar el valor de $\theta$ óptimo, aplicaremos descenso del gradiente a nuestro problema de minimización.

Ejercicio: Escribir el problema como problema de optimización, explicitando función objetivo y calcular su gradiente.

A continuación armamos la función objetivo que utilizaremos para evaluar cada iteración del algoritmo.

In [None]:

def  cal_cost(theta,X,y):
    '''

    Calcula el costo para X e y dados. Lo siguiente muestra un ejemplo de un X unidimensional.
    theta = Vector de thetas
    X     = Fila de X's np.zeros((2,j))
    y     = y's reales np.zeros((2,1))

    dond:
        j es la cantidad de características (features)
    '''

    m = len(y)

    predictions = X.dot(theta)
    cost = (1/2*m) * np.sum(np.square(predictions-y))
    return cost


Ahora estamos en condiciones de armar el algoritmo del descenso del gradiente de para aplicar a nuestro problema de mínimo.

In [None]:
def gradient_descent(X,y,theta,learning_rate=0.01,iterations=100):
    '''
    X    = Matriz de X con columna de unos
    y    = Vector de Y
    theta= Vector de thetas
    learning_rate= longitud del paso (tasa de aprendizaje)
    iterations = cantidad de iteraciones

    Devuelve el vector theta final y el vector de evolución del costo a lo largo de las iteraciones
    '''
    m = len(y)
    cost_history = np.zeros(iterations)
    theta_history = np.zeros((iterations,2))
    for it in range(iterations):

        prediction = np.dot(X,theta)

        theta = theta -(1/m)*learning_rate*( X.T.dot((prediction - y)))
        theta_history[it,:] =theta.T
        cost_history[it]  = cal_cost(theta,X,y)

    return theta, cost_history, theta_history

Probemos nuestro algoritmo con algún valor fijo para la tasa de aprendizaje, alguna cantidad de iteraciones y algún valor inicial del vector $\theta$.

In [None]:
lr =0.01
n_iter = 1000

theta = np.random.randn(2,1)

X_b = np.c_[np.ones((len(X),1)),X]
theta,cost_history,theta_history = gradient_descent(X_b,y,theta,lr,n_iter)




In [None]:
T=[theta_history[100*k] for k in range(10)]
print(T)

[array([ 0.77160721, -0.72021254]), array([3.59776137, 2.57893735]), array([3.92643947, 2.95924133]), array([3.96587988, 3.00203894]), array([3.97163228, 3.00597394]), array([3.97330025, 3.00557178]), array([3.97433838, 3.0048023 ]), array([3.97517107, 3.00410372]), array([3.9758682 , 3.00350896]), array([3.97645541, 3.00300684])]


In [None]:
L=[cost_history[100*k] for k in range(10)]
print(L)

[150942.58459616284, 7402.403903380769, 5293.1211813636, 5131.555695847219, 5034.614498010824, 4965.941311135096, 4917.1265307306085, 4882.425409934301, 4857.757282002872, 4840.2213484190215]


# Descenso del gradiente Estocástico

In [None]:
def stocashtic_gradient_descent(X,y,theta,learning_rate=0.01,iterations=10):
    '''
    X    = Matriz de X
    y    = Vector de Y
    theta= Vector de thetas
    learning_rate: tasa de aprendizaje
    iterations = cant de iteraciones

    Devuelve el vector final de thetas y un array con la evolución del costo a lo largo de las iteraciones
    '''
    m = len(y)
    cost_history = np.zeros(iterations)


    for it in range(iterations):
        cost =0.0
        for i in range(m):
            rand_ind = np.random.randint(0,m)
            X_i = X[rand_ind,:].reshape(1,X.shape[1])
            y_i = y[rand_ind].reshape(1,1)
            prediction = np.dot(X_i,theta)

            theta = theta -(1/m)*learning_rate*( X_i.T.dot((prediction - y_i)))
            cost += cal_cost(theta,X_i,y_i)
        cost_history[it]  = cost

    return theta, cost_history

¿Cómo se está haciendo la "evaluación" del gradiente? ¿Cómo se está haciendo la actualización de "los" thetas?

In [None]:
lr =0.5
n_iter = 50

theta = np.random.randn(2,1)

X_b = np.c_[np.ones((len(X),1)),X]
theta,cost_history = stocashtic_gradient_descent(X_b,y,theta,lr,n_iter)


print('Theta0:          {:0.3f},\nTheta1:          {:0.3f}'.format(theta[0][0],theta[1][0]))
print('Final cost/MSE:  {:0.3f}'.format(cost_history[-1]))

In [None]:
fig,ax = plt.subplots(figsize=(10,8))

ax.set_ylabel('{J(Theta)}',rotation=0)
ax.set_xlabel('{Iterations}')
theta = np.random.randn(2,1)

_=ax.plot(range(n_iter),cost_history,'b.')

## Descenso del gradiente tipo Mini Batch

In [None]:
def minibatch_gradient_descent(X,y,theta,learning_rate=0.01,iterations=10,batch_size =20):
    '''
    X    = Matriz de X
    y    = Vector de Y
    theta= Vector de thetas
    learning_rate: tasa de aprendizaje
    iterations = cant de iteraciones

    Devuelve el vector final de thetas y un array con la evolución del costo a lo largo de las iteraciones
    '''
    m = len(y)
    cost_history = np.zeros(iterations)
    n_batches = int(m/batch_size)

    for it in range(iterations):
        cost =0.0
        indices = np.random.permutation(m)
        X = X[indices]
        y = y[indices]
        for i in range(0,m,batch_size):
            X_i = X[i:i+batch_size]
            y_i = y[i:i+batch_size]

            X_i = np.c_[np.ones(len(X_i)),X_i]

            prediction = np.dot(X_i,theta)

            theta = theta -(1/m)*learning_rate*( X_i.T.dot((prediction - y_i)))
            cost += cal_cost(theta,X_i,y_i)
        cost_history[it]  = cost

    return theta, cost_history

¿Cómo se está haciendo la "evaluación" del gradiente? ¿Cómo se está haciendo la actualización de "los" thetas?

In [None]:
lr =0.1
n_iter = 200

theta = np.random.randn(2,1)


theta,cost_history = minibatch_gradient_descent(X,y,theta,lr,n_iter)


print('Theta0:          {:0.3f},\nTheta1:          {:0.3f}'.format(theta[0][0],theta[1][0]))
print('Final cost/MSE:  {:0.3f}'.format(cost_history[-1]))

In [None]:
fig,ax = plt.subplots(figsize=(10,8))

ax.set_ylabel('{J(Theta)}',rotation=0)
ax.set_xlabel('{Iterations}')
theta = np.random.randn(2,1)

_=ax.plot(range(n_iter),cost_history,'b.')