# Descenso por gradiente completo

En este notebook implementaremos el algoritmo completo de descenso por gradiente. Para validar que funciona al final lo probaremos en el entrenamiento de una red neuronal simple. Usaremos como conjunto de datos que esta incluído en el archivo data.csv. 

@juan1rving



In [None]:
#De La Huerta Avalos Gerardo Cristóbal
#2021630243
#6BM1

In [8]:
# importamos los paquete necesarios
import numpy as np

# cargamos datos de ejemplo
from data_prep import features, targets, features_test, targets_test

n_records, n_features = features.shape
last_loss = None

# En este ejercicio por propósitos de analizar las salidas utilizaremos la misma semilla para los números aleatorios.
np.random.seed(42)

In [9]:
# Definimos algunas funciones necesarias
def sigmoid(x):
    """
    Sigmoide
    """
    return 1 / (1 + np.exp(-x))

## Inicialización de los pesos

En un principio no queremos tener todos los pesos en cero porque esto generaría en la salida una predicción nula. Por lo tanto, asignaremos los pesos iniciales de forma aleatoria y cercanos a cero. Otra recomendación es escalar los valores aleatorios es dependencia del número de entradas del nodo (n).

$$w = rand(1,\frac{1}{\sqrt{n}})$$



In [10]:
# Initialize weights. 
weights = np.random.normal(scale=1 / n_features**.5, size=n_features)


In [11]:
# Probemos la precisión de la red antes de entrenarla
tes_out = sigmoid(np.dot(features_test, weights))
predictions = tes_out > 0.5
accuracy = np.mean(predictions == targets_test)
print("Prediction accuracy: {:.3f}".format(accuracy))

# La precisión debe ser mala seguramente.

Prediction accuracy: 0.475


## Hiperparámetros de la red

Los hiperpámetros de la red indican el números de veces que itera el método (épocas-epochs), la taza de aprendizaje (learning rate).


In [14]:
# número de épocas
epochs = 2
# tasa de aprendizaje
learnrate = 0.5
delta_w = 0

## Descenso por gradiente completo.

El algoritmo de descenso por gradiente de forma iterativa cambia el valor de los pesos de tal forma que se disminuya el error. 

<img src="files/nn_02_simple_nn_dg.png">

En la siguiete celda encontrarás la plantilla del algoritmo. Tu misión, si decides aceptarla, es completar el código faltante para que funcione el entrenamiento.

In [15]:
for e in range(epochs):
    del_w = np.zeros(weights.shape)
    # Para todos los renglones de ejemplo, asignar a x la entrada, y a y la salida deseada
    for x, y in zip(features.values, targets):

        # TODO: calcula la predicción de la red
        # Tip: NumPy ya tiene una función que calcula el producto punto. Recuerda que también los logits tienen que pasar por la función de activación.
        
        h = np.dot(weights, x)
        function_h = sigmoid(h)
        output = function_h

        # TODO: calcula el error
        error = (y - output) * sigmoid(1-sigmoid(h))

        # TODO: calcula el incremento
        delta_w += learnrate * error * x

    # TODO: Actualiza los pesos
    weights += delta_w

    # Ahora calculemos el error en el conjunto de datos de entrenamiento
    if e % (epochs / 10) == 0:
        out = sigmoid(np.dot(features, weights))
        loss = np.mean((out - targets) ** 2)
        if last_loss and last_loss < loss:
            print("Train loss: ", loss, "  WARNING - Loss Increasing")
        else:
            print("Train loss: ", loss)
        last_loss = loss

Train loss:  0.3208221297733059



## Evaluemos la exactitud de la red

Recordemos que

$$ Exactitud = \frac{\# aciertos}{\# predicciones} $$


In [16]:
# Cálculo de la precisión

tes_out = sigmoid(np.dot(features_test, weights))
predictions = tes_out > 0.5
accuracy = np.mean(predictions == targets_test)
print("Prediction accuracy: {:.3f}".format(accuracy))

Prediction accuracy: 0.725


Tal vez obtuvimos la mejor exactidud, pero ¿qué pasará si incrementamos las épocas? O ¿qué es lo que pasará si cambiamos la tasa de aprendizaje?