In [56]:
import random #generar números aleatorios
import numpy as np #para trabajar con arrays y matrices
from keras.datasets import mnist #conjunto de datos de imágenes de dígitos escritos a mano
from keras.utils import to_categorical #
from sklearn.preprocessing import MinMaxScaler #scalar los datos a un rango
from sklearn.model_selection import train_test_split #dividir los datos en conjuntos de entrenamiento y prueba

# Cargar el dataset MNIST
(X_train, y_train), (X_test, y_test) = mnist.load_data()

# se crea una lista de tuplas con los elementos de x e y, luego se toma una muestra aleatoria de 2000 tuplas, se descomprime y con zip se vuelven a separar en elementos de x e y 
X, y = zip(*random.sample(list(zip(X_train, y_train)), 2000))

# Sí necesitamos que la forma de X sea la de un vector, en lugar de una matriz. 
X, y = np.array(X, dtype='float64'), np.array(y, dtype='float64')
X = np.reshape(X, (X.shape[0], -1))

# Normalizamos Min-Max
X = MinMaxScaler().fit_transform(X)

# Dividimos la muestra en dos, una para entrenar y otra para testing, como tenemos 
# muestra de sobra nos damos el lujo de testear con la misma cantidad que entrenamos.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=123)

# Necesitamos que y_train sea un valor categórico, en lugar de un dígito entero.
y_train_value = y_train # Guardaremos y_train como valor para un observación más abajo.
y_train = to_categorical(y_train)

In [57]:
import numpy as np

# Clase base para Capa
class Layer:
    def __init__(self):
        self.input = None
        self.output = None
    # computes the output Y of a layer for a given input X
    def forward_propagation(self, input):
        raise NotImplementedError
    # computes dE/dX for a given dE/dY (and update parameters if any)
    def backward_propagation(self, output_error, learning_rate):
        raise NotImplementedError
        
# Clase para capas densas (fully connected)
class FCLayer(Layer):
    def __init__(self, input_size, output_size, lambda_reg=0):
        # np.random.seed(1234)
        self.weights = np.random.rand(input_size, output_size) - 0.5
        self.bias = np.random.rand(1, output_size) - 0.5
        self.lambda_reg = lambda_reg  # Se agrega parámetro coeficiente lambda de regularización L2

    def forward_propagation(self, input_data):
        self.input = input_data
        self.output = np.dot(self.input, self.weights) + self.bias
        return self.output

    def backward_propagation(self, output_error, learning_rate):
        input_error = np.dot(output_error, self.weights.T)
        weights_error = np.dot(self.input.T, output_error)

        # Adicionamos acá el término de regularización L2 que castiga error en los pesos
        weights_error += self.lambda_reg * self.weights

        # Actualizar los parámetros
        self.weights -= learning_rate * weights_error
        self.bias -= learning_rate * output_error
        return input_error
    
# Clase para Capa de Activación. Junto con la capa densa forman perceptrones. 
class ActivationLayer(Layer):
    def __init__(self, activation, activation_prime):
        self.activation = activation
        self.activation_prime = activation_prime

    # returns the activated input
    def forward_propagation(self, input_data):
        self.input = input_data
        self.output = self.activation(self.input)
        return self.output
        # Returns input_error=dE/dX for a given output_error=dE/dY.
    # learning_rate is not used because there is no "learnable" parameters.
    def backward_propagation(self, output_error, learning_rate):
        return self.activation_prime(self.input) * output_error
    
# Clase Red, conecta múltiples capas.
class Network:
    def __init__(self):
        self.layers = []
        self.loss = None
        self.loss_prime = None

    # add layer to network
    def add(self, layer):
        self.layers.append(layer)

    # set loss to use
    def use(self, loss, loss_prime):
        self.loss = loss
        self.loss_prime = loss_prime

    # predict output for given input
    def predict(self, input_data):
        if input_data.ndim == 1: # YA NO SIEMPRE VAMOS A RECIBIR ARREGLOS UNIDIMENSIONALES
            input_data = np.array([[x] for x in input_data])
        samples = len(input_data)
        result = []

        # run network over all samples
        for i in range(samples):
            # forward propagation
            output = input_data[i]
            for layer in self.layers:
                output = layer.forward_propagation(output)
            result.append(output)
        return result
     # train the network
    def fit(self, x_train, y_train, epochs, learning_rate):
        if x_train[0].ndim == 1: # YA NO SIEMPRE VAMOS A RECIBIR ARREGLOS UNIDIMENSIONALES
            x_train = np.array([[x] for x in x_train])
        samples = len(x_train)
        # training loop
        for i in range(epochs):
            err = 0
            for j in range(samples):
                # forward propagation
                output = x_train[j]
                for layer in self.layers:
                    output = layer.forward_propagation(output)

                # compute loss (for display purpose only)
                err += self.loss(y_train[j], output)

                # backward propagation
                error = self.loss_prime(y_train[j], output)
                for layer in reversed(self.layers):
                    error = layer.backward_propagation(error, learning_rate)

            # calculate average error on all samples
            err /= samples
            
            # Para usar en clasificación (con más de dos clases)
            # calculamos el error promedio entre nodos de salida.
            err = np.mean(err)
            
            # Imprimimos el error promedio de cada época, más que nada
            # para seguimiento del aprendizaje. 
            print('epoch %d/%d   error=%f' % (i+1, epochs, err))
    # Funciones de Activación, y su correspondiente función derivada. 
def tanh(x):
    return np.tanh(x)

def tanh_prime(x):
    return 1-np.tanh(x)**2

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_prime(x):
    sig = sigmoid(x)  # Calculamos sigmoid(x) para cada elemento del vector
    return sig * (1 - sig)

def relu(x):
    return np.maximum(0, x)

def relu_prime(x):
    # Versión aproximada de ReLu', porque ReLu no es redivable en x=0
    # La derivada de ReLU es 1 si x > 0, y 0 si x <= 0
    return np.where(x > 0, 1, 0)

# función Leaky ReLU
def leaky_relu(x, alpha=0.01):
    # Si x es positivo, devuelve x; si no, devuelve alpha * x
    return np.where(x > 0, x, alpha * x)

# Implementamos la derivada de Leaky ReLU
def leaky_relu_prime(x, alpha=0.01):
    # La derivada es 1 si x > 0, y alpha si x <= 0
    return np.where(x > 0, 1, alpha)


# Funciones de pérdida y su derivada. 
# Error Cuadrático
def mse(y_true, y_hat):
    return (y_true-y_hat)**2

def mse_prime(y_true, y_hat):
    return 2*(y_hat-y_true)

# Mini batch generator

def mini_batch_generator(X, y, batch_size):
    batch_size = 32
    num_samples = X.shape[0]
    indices = np.arange(num_samples)
    np.random.shuffle(indices)

    for start_idx in range(0, num_samples, batch_size):
        end_idx = min(start_idx + batch_size, num_samples)
        batch_indices = indices[start_idx:end_idx]
        yield X[batch_indices], y[batch_indices]
# Entropía cruzada binaria
import numpy as np

# Implementamos la función de error BCE
def bce(y_true, y_hat):
    # Evitamos problemas de logaritmo aplicando un pequeño epsilon
    epsilon = 1e-15
    y_hat = np.clip(y_hat, epsilon, 1 - epsilon)
    
    return -(y_true * np.log(y_hat) + (1 - y_true) * np.log(1 - y_hat))

# Implementamos la derivada de BCE
def bce_prime(y_true, y_hat):
    # Evitamos problemas de división por 0
    epsilon = 1e-15
    y_hat = np.clip(y_hat, epsilon, 1 - epsilon)

    # Derivada de BCE con respecto a la predicción
    return -(y_true / y_hat) + (1 - y_true) / (1 - y_hat)

In [58]:
def fit(self, X, y, batch_size=32):
    n_samples, n_features = X.shape
    self.weights = np.zeros(n_features)
    self.bias = 0

    for _ in range(self.n_iters):
        # Barajado aleatorio del mini-lote
        indices = np.arange(n_samples)
        np.random.shuffle(indices)
        X_shuffled = X[indices]
        y_shuffled = y[indices]

        # Procesamiento del mini-lote
        for i in range(0, n_samples, batch_size):
            # Seleccionamos el mini-lote actual
            X_batch = X_shuffled[i:i+batch_size]
            y_batch = y_shuffled[i:i+batch_size]

            # Calculamos la salida del modelo
            linear_output = np.dot(X_batch, self.weights) + self.bias
            y_predicted = self._unit_step_function(linear_output)

            # Calculamos el error
            error = y_batch - y_predicted

            # Calculamos el gradiente promedio del mini-lote
            dw = np.mean(error * X_batch, axis=0)
            db = np.mean(error)

            # Realizamos el ajuste de pesos
            self.weights -= self.learning_rate * dw
            self.bias -= self.learning_rate * db

        # Ajuste del último mini-lote
        if i + batch_size > n_samples:
            X_batch = X_shuffled[i:]
            y_batch = y_shuffled[i:]

            # Calculamos la salida del modelo
            linear_output = np.dot(X_batch, self.weights) + self.bias
            y_predicted = self._unit_step_function(linear_output)

            # Calculamos el error
            error = y_batch - y_predicted

            # Calculamos el gradiente promedio del mini-lote
            dw = np.mean(error * X_batch, axis=0)
            db = np.mean(error)

            # Realizamos el ajuste de pesos
            self.weights -= self.learning_rate * dw
            self.bias -= self.learning_rate * db

In [59]:
class MaxPoolingLayer(Layer):
    def __init__(self, pool_size):
        self.pool_size = pool_size

    def forward_propagation(self, input_data):
        self.input = input_data
        self.output = np.max(input_data.reshape(-1, self.pool_size, self.pool_size), axis=1)
        return self.output

    def backward_propagation(self, output_error, learning_rate):
        error = np.zeros_like(self.input)
        for i in range(self.pool_size):
            for j in range(self.pool_size):
                error[:, i::self.pool_size, j::self.pool_size] = output_error
        return error

class AveragePoolingLayer(Layer):
    def __init__(self, pool_size):
        self.pool_size = pool_size

    def forward_propagation(self, input_data):
        self.input = input_data
        self.output = np.mean(input_data.reshape(-1, self.pool_size, self.pool_size), axis=1)
        return self.output

    def backward_propagation(self, output_error, learning_rate):
        error = np.zeros_like(self.input)
        for i in range(self.pool_size):
            for j in range(self.pool_size):
                error[:, i::self.pool_size, j::self.pool_size] = output_error / (self.pool_size ** 2)
        return error

In [60]:
class NoiseLayer(Layer):
    def __init__(self, noise_std):
        self.noise_std = noise_std

    def forward_propagation(self, input_data):
        self.input = input_data
        self.output = input_data + np.random.normal(0, self.noise_std, size=input_data.shape)
        return self.output

    def backward_propagation(self, output_error, learning_rate):
        return output_error

In [61]:
class L1RegularizationLayer(Layer):
    def __init__(self, lambda_reg):
        self.lambda_reg = lambda_reg

    def forward_propagation(self, input_data):
        self.input = input_data
        self.output = input_data
        return self.output

    def backward_propagation(self, output_error, learning_rate):
        error = output_error
        for i in range(self.input.shape[1]):
            if self.input[0, i] > 0:
                error[0, i] += self.lambda_reg
            elif self.input[0, i] < 0:
                error[0, i] -= self.lambda_reg
        return error

In [62]:
from sklearn.metrics import confusion_matrix, accuracy_score

# Necesitamos identificar cuantos nodos tiene nuestra entrada, y eso depende del tamaño de X.
entrada_dim = len(X_train[0])

# Crear instancia de Network
model = Network()

# Agregamos capas al modelo
model.add(FCLayer(entrada_dim, 128, lambda_reg=0.01))  # Agregar capa L1
model.add(NoiseLayer(noise_std=0.1))  # Agregar capa Noise
model.add(ActivationLayer(relu, relu_prime))
model.add(FCLayer(128, 64, lambda_reg=0.01))  # Agregar capa L1
model.add(NoiseLayer(noise_std=0.1))  # Agregar capa Noise
model.add(ActivationLayer(sigmoid, sigmoid_prime))
model.add(FCLayer(64, 10, lambda_reg=0.01))  # Agregar capa L1
model.add(ActivationLayer(sigmoid, sigmoid_prime))

# Asignamos función de pérdida
model.use(bce, bce_prime)

# Entrenamos el modelo con datos de entrenamiento
model.fit(X_train, y_train, epochs=20, learning_rate=0.01)

# Usamos el modelo para predecir sobre los datos de prueba (validación)
y_hat = model.predict(X_test)

# Transformamos la salida en un vector one-hot encoded, es decir 0s y un 1. 
for i in range(len(y_hat)):
    y_hat[i] = np.argmax(y_hat[i][0])

# Reportamos los resultados del modelo
matriz_conf = confusion_matrix(y_test, y_hat)

print('MATRIZ DE CONFUSIÓN para modelo ANN')
print(matriz_conf,'\n')
print('La exactitud de testeo del modelo ANN es: {:.3f}'.format(accuracy_score(y_test,y_hat)))

epoch 1/20   error=0.266118
epoch 2/20   error=0.170029
epoch 3/20   error=0.133192
epoch 4/20   error=0.111514
epoch 5/20   error=0.097060
epoch 6/20   error=0.087161
epoch 7/20   error=0.079671
epoch 8/20   error=0.074695
epoch 9/20   error=0.070881
epoch 10/20   error=0.068333
epoch 11/20   error=0.065986
epoch 12/20   error=0.064391
epoch 13/20   error=0.063029
epoch 14/20   error=0.061751
epoch 15/20   error=0.060728
epoch 16/20   error=0.059711
epoch 17/20   error=0.059026
epoch 18/20   error=0.058293
epoch 19/20   error=0.057655
epoch 20/20   error=0.056906
MATRIZ DE CONFUSIÓN para modelo ANN
[[ 96   0   0   0   0   1   1   1   1   3]
 [  0 142   0   0   1   0   0   0   0   0]
 [  2   0  80   2   5   0   7   3   1   0]
 [  0   1   2  82   0   4   1   1   1   2]
 [  2   1   0   0  80   0   0   0   0  11]
 [  5   1   0   0   3  68   3   0   0   0]
 [  0   1   1   0   1   0 100   0   1   0]
 [  1   3   0   0   3   0   0  89   0   9]
 [  1   4   1   4   0   1   1   0  60   8]
 [  1 