### Actividad de perceptrón y perceptrón multicapa
#### Autor: Francisco Serradilla

Tareas:

- Escribir el código de propagación y actualización de pesos del perceptrón. [Done]
- Escribir el código de propagación y actualización de pesos del perceptrón multicapa para una capa oculta.
- Encontrar arquitecturas mínimas para el problema no lineal y el problema de clasificación de orquídeas.
- Ampliar el código del perceptrón Multicapa para calcular el error de test a partir de otro conjunto de datos.
- Probar entrenamiento y cálculo del error de test con el juego de datos de aprobados.
- (hacer al menos dos) Probar con problemas adicionales (circulo, aprobados, fun, morosos). Al final hay una explicación de los conjuntos de datos suministrados.
- (opcional) Añadir una segunda capa oculta al perceptrón multacapa y/o un múmero indefinido de capas.

In [1]:
import numpy as np

np.random.seed(1)

In [2]:

class Perceptron:
    def __init__(self, ninput, noutput):
        self.ninput = ninput
        self.noutput = noutput
        self.w = np.random.rand(ninput,noutput)-0.5
        self.b = np.random.rand(noutput)-0.5
        
    def forward (self, x): # propaga un vector x y devuelve la salida
        # a implementar
        #np.matmul() multiplica matrices
        neta = np.matmul(x,self.w) + self.b;
        return np.piecewise(neta, [neta < 0, neta >= 0], [0, 1]) #funcion escalon
    
    def update (self, x, d, alpha): # realiza una iteración de entrenamiento
        s = self.forward(x) # propaga
        etranspose = x.reshape(-1,1) #trasponer el vector (todos sus elementos con -1) a 1 columna
        AW = alpha*etranspose*(d-s)
        self.w = self.w + AW
        
    def RMS (self, X, D):
        S = self.forward(X)
        return np.mean(np.sqrt(np.mean(np.square(S-D),axis=1)))
        
    def accuracy (self, X, D):
        S = self.forward(X)
        errors = np.mean(np.abs(D-S))
        return 1.0 - errors
    
    def info (self, X, D):
        print('     RMS: %6.5f' % self.RMS(X,D))
        print('Accuracy: %6.5f' % self.accuracy(X,D))
        
    def train (self, X, D, alpha, epochs, trace=0):
        for e in range(1,epochs+1):
            for i in range(len(X)):
                self.update(X[i],D[i], alpha)
            if trace!=0 and e%trace == 0:
                print('\n   Epoch: %d' % e)
                self.info(X,D)

In [3]:
# entrena para la OR

p = Perceptron(2,1)

# or
data = np.array([[0.0, 0.0], [0.0, 1.0], [1.0, 0.0], [1.0, 1.0]])
labels = np.array([[0.0], [1.0], [1.0], [1.0]])

p.info(data, labels)
p.train(data, labels, 0.01, 50, 10)



     RMS: 0.75000
Accuracy: 0.25000

   Epoch: 10
     RMS: 0.50000
Accuracy: 0.50000

   Epoch: 20
     RMS: 0.25000
Accuracy: 0.75000

   Epoch: 30
     RMS: 0.25000
Accuracy: 0.75000

   Epoch: 40
     RMS: 0.25000
Accuracy: 0.75000

   Epoch: 50
     RMS: 0.00000
Accuracy: 1.00000


In [4]:
# Perceptrón multi capa para una capa oculta 
class Multilayer:
    def __init__(self, ninput, nhidden, noutput):
        self.ninput = ninput
        self.nhidden = nhidden
        self.noutput = noutput

        self.w1 = np.random.rand(ninput,nhidden)-0.5
        self.b1 = np.random.rand(nhidden)-0.5
        self.w2 = np.random.rand(nhidden,noutput)-0.5
        self.b2 = np.random.rand(noutput)-0.5
        
        self.sx = []
        
        self.lRMS = [] # contiene la lista de RMSs para pintarlos
        self.laccuracy = [] # contiene la lista de accuracy

    def sigm (self, neta):
        return 1.0 / (1.0 + np.exp(-neta))
    
    def forward (self, x): # propaga un vector x y devuelve la salida
        self.sx = []
        # Propagación 
        # Capa 1
        #sx.append(self.forward(x))     # Salida para la propagación de la capa 1
        netax = np.matmul(x,self.w1) + self.b1;
        self.sx.append(self.sigm(netax)) # sk = Fs(s(k-1)*Wk+bk)
        
        # Capa 2
        #sx.append(self.forward(sx[0])) # Salida para la propagación de la capa 2
        netax = np.matmul(self.sx[0],self.w2) + self.b2;
        self.sx.append(self.sigm(netax)) # sk = Fs(s(k-1)*Wk+bk)
        return self.sx[-1]
    
    def update (self, x, d, alpha): # realiza una iteración de entrenamiento
        # a implementar
        AW = []    # delta pesos   inicia de la capa final y termina en la inicial  F-->I
        Ab = []    # delta bias    inicia de la capa final y termina en la inicial  F-->I
        delta = [] # Deltas error  inicia de la capa final y termina en la inicial  F-->I
        #sx = []    # Salidas inicia en la capa inicial y termina en la final  I-->F
        
        val = self.forward(x)
        #sx = self.sx
        # Retropropagar 
        # Capa final (capa 2)
        # Error de la capa final 
        delta.append((d-self.sx[1])*self.sx[1]*([1]-self.sx[1])) # Error para la capa final (capa 2)

        # Modificar pesos para la capa final
        s1tras = self.sx[0].reshape(-1,1) #trasponer
      
        
        AW.append(alpha * s1tras * delta[0]) # dif pesos
        Ab.append(alpha * delta[0]) # dif bias
        
        # Primera capa (capa 1)
        # Error de la primera capa (capa 1)
        W2tras = self.w2.transpose() ## creo que este era el error 
        fderivada = self.sx[0] * ([1] - self.sx[0])
        
        delta.append(np.matmul(delta[0], W2tras)*fderivada)
        
        # Modificar pesos para la primera capa
        s0tras = x.reshape(-1,1) #trasponer
        AW.append(alpha * s0tras * delta[1]) # dif pesos
        Ab.append(alpha * delta[1]) # dif bias
        
        #actualizar pesos y bias
        # Capa 2 
        self.w2 = self.w2 + AW[0]
        self.b2 = self.b2 + Ab[0]
        
        # Capa 1 
        self.w1 = self.w1 + AW[1]
        self.b1 = self.b1 + Ab[1]
        
        
        
    def RMS (self, X, D):
        S = self.forward(X)
        return np.mean(np.sqrt(np.mean(np.square(S-D),axis=1)))
        
    def accuracy (self, X, D):
        S = self.forward(X)
        S = np.round(S)
        errors = np.mean(np.abs(D-S))
        return 1.0 - errors
    
    def info (self, X, D):
        self.lRMS.append(self.RMS(X,D))
        self.laccuracy.append(self.accuracy(X,D))
        print('     RMS: %6.5f' % self.lRMS[-1])
        print('Accuracy: %6.5f' % self.laccuracy[-1])
        
    def train (self, X, D, alpha, epochs, trace=0):
        self.lRMS = [] # guarda lista de RMSs para pintarlos
        self.laccuracy = [] # guarda lista de accuracy

        for e in range(1,epochs+1):
            for i in range(len(X)):
                self.update(X[i],D[i], alpha)
            if trace!=0 and e%trace == 0:
                print('\n   Epoch: %d' % e)
                self.info(X,D)
                
def one_hot (d):
    num_classes = len(set(d))
    rows = d.shape[0]
    labels = np.zeros((rows, num_classes), dtype='float32')
    labels[np.arange(rows),d.T] = 1
    return labels

In [6]:
# xor
data = np.array([[0.0, 0.0], [0.0, 1.0], [1.0, 0.0], [1.0, 1.0]])
labels = np.array([[0.0], [1.0], [1.0], [0.0]])

p = Multilayer(2,2,1)

p.info(data, labels)
p.train(data, labels, 1, 5000, 1000)


     RMS: 0.49988
Accuracy: 0.75000

   Epoch: 1000
     RMS: 0.06313
Accuracy: 1.00000

   Epoch: 2000
     RMS: 0.03230
Accuracy: 1.00000

   Epoch: 3000
     RMS: 0.02417
Accuracy: 1.00000

   Epoch: 4000
     RMS: 0.02007
Accuracy: 1.00000

   Epoch: 5000
     RMS: 0.01750
Accuracy: 1.00000


In [None]:
# OPCIONAL: Perceptrón multicapa para l capas ocultas 
class Multilayer:
    def __init__(self, ninput, nhidden, noutput):
        self.ninput = ninput
        self.nhidden = nhidden
        self.noutput = noutput

        self.w1 = np.random.rand(ninput,nhidden)-0.5
        self.b1 = np.random.rand(nhidden)-0.5
        self.w2 = np.random.rand(nhidden,noutput)-0.5
        self.b2 = np.random.rand(noutput)-0.5
        
        self.lRMS = [] # contiene la lista de RMSs para pintarlos
        self.laccuracy = [] # contiene la lista de accuracy

    def sigm (self, neta):
        return 1.0 / (1.0 + np.exp(-neta))
    
    # propagacion 
    # Pasos 
    # 1. Propagar hacia adelante para todas las capas 
    # 2. Una vez que se llegó a la última capa, retropropagar
    def forward (self, x): # propaga un vector x y devuelve la salida
        # x siempre debe ser s(k-1) 
        # Fs = función sigmoidal
        # s0 = x #entrada
        # s1 = Fs(s0*W1+b1)
        # s2 = Fs(s1*W2+b2)
        # sk = Fs(s(k-1)*Wk+bk)
        # a implementar
        netax = np.matmul(x,self.w1) + self.b1;
        sx = self.sigm(netax) # sk = Fs(s(k-1)*Wk+bk)
        return sx
    
    def update (self, x, d, alpha): # realiza una iteración de entrenamiento
        # a implementar
        # delta(k) = (d - s(k))*s(k)*([1]-s(k))    delta
        # AW(k) = alpha*s(k-1)t*delta(k)           peso
        # Ab(k) = alpha*delta(k)                   bias
        
        sk = forward(x)
        deltak = (d -)
        
        
        AW = []      # pesos
        Ab = []      # bias
        delta = []   # deltas
        salidas = [] # salidas 
        
        
        
        s = self.forward(x)
        s1tras = s[0].reshape(-1,1) #trasponer

        delta.append((d-s[1])*s[1]*([1]-s[1])) #error de la capa final (2)
        AW.append(alpha * s1tras * delta[0]) #actualizacion de pesos capa final
        Ab.append(alpha * delta[0]) #bias
        
        #capa oculta (1)
        AWtras = AW[0].reshape(-1,2)
        stras = s[1].reshape(-1,1)
        fs = s[0] * ([1] - s[0])
        delta.append(np.matmul(delta[0],AWtras)*fs)
        AW.append(alpha*stras*delta[1])
        Ab.append(alpha*delta[1])
        
        #actualizar pesos y bias
        self.w1 = self.w1 + AW[0]
        self.b1 = self.b1 + Ab[0]
        
        self.w2 = self.w2 + AW[1]
        self.b2 = self.b2 + Ab[1]
        
        
    
    def RMS (self, X, D):
        S = self.forward(X)
        return np.mean(np.sqrt(np.mean(np.square(S-D),axis=1)))
        
    def accuracy (self, X, D):
        S = self.forward(X)
        S = np.round(S)
        errors = np.mean(np.abs(D-S))
        return 1.0 - errors
    
    def info (self, X, D):
        self.lRMS.append(self.RMS(X,D))
        self.laccuracy.append(self.accuracy(X,D))
        print('     RMS: %6.5f' % self.lRMS[-1])
        print('Accuracy: %6.5f' % self.laccuracy[-1])
        
    def train (self, X, D, alpha, epochs, trace=0):
        self.lRMS = [] # guarda lista de RMSs para pintarlos
        self.laccuracy = [] # guarda lista de accuracy

        for e in range(1,epochs+1):
            for i in range(len(X)):
                self.update(X[i],D[i], alpha)
            if trace!=0 and e%trace == 0:
                print('\n   Epoch: %d' % e)
                self.info(X,D)
                
def one_hot (d):
    num_classes = len(set(d))
    rows = d.shape[0]
    labels = np.zeros((rows, num_classes), dtype='float32')
    labels[np.arange(rows),d.T] = 1
    return labels

In [None]:
# example data from two classes; 2D normal distributions
num = 100
x0 = np.random.multivariate_normal([2,2], np.array([[1,0],[0,1]]),num)
d0 = np.repeat(0, num)
x1 = np.random.multivariate_normal([-2,-2], np.array([[1,0],[0,1]]),num)
d1 = np.repeat(1, num)

import matplotlib.pyplot as plt
plt.xlim(-6,6)
plt.ylim(-6,6)
plt.plot(x0[:,0],x0[:,1],'o')
plt.plot(x1[:,0],x1[:,1],'o')

plt.show()

X = np.vstack((x0,x1))
d = np.hstack((d0,d1))
d.shape = (200,1) # convierte el vector en un array

p = Perceptron(2,1)

p.train(X, d, 0.01, 10, 1)


In [None]:
# regiones no lineales

X = np.loadtxt('samples\data_3classes_nonlinear_2D.txt')

d = X[:,-1].astype('int')
X = X[:,:-1]

plt.figure()
plt.xlim(0,1)
plt.ylim(0,1)
plt.plot(X[d==0,0],X[d==0,1], 'ro')
plt.plot(X[d==1,0],X[d==1,1], 'go')
plt.plot(X[d==2,0],X[d==2,1], 'bo')
plt.show()

no = len(set(d))
ni = X.shape[1]

d = one_hot(d)

p = Multilayer(ni,15,no)

# encontrar arquitectura mínima que aprende este problema, para data_2classes_nonlinear_2D.txt y para data_3classes_nonlinear_2D.txt


In [None]:
# Orquideas

X = np.loadtxt('samples\iris.csv', dtype = 'float64', usecols = [0,1,2,3])
L = np.loadtxt('samples\iris.csv', dtype = str, usecols = [4]) 

# convierte la salida a enteros
d = []
options = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
for e in L:
    d.append(options.index(e))

d = np.array(d)
X = np.array(X)

d = one_hot(d)

ni = X.shape[1]
no = len(options)

p = Multilayer(ni,40,no)

# encontrar arquitectura mínima que aprende este problema

### Explicación de los archivos de datos suministrados

#### Aprobados

Contiene 3 entradas, correspondiente a la nota en 3 ejercicios, y 1 salida, que indica si el alumno aprobó o no. Se trataría de predecir si un alumno va a aprobar a partir de sus notas. Es un problema de clasificación.

Cuestiones: ¿Es un problema lineal? ¿Puede aprenderla una red de neuronas?

#### Fun

Contiene 1 entrada y 1 salida, que son la *x* y la *y* de una función desconocida. Es un problema de ajuste o regresión.

Cuestiones: ¿Es una función lineal? ¿Puede aprenderla una red de neuronas? ¿Puede decirnos la red qué función es?

#### Morosos

Contiene datos de morosidad de un banco. La idea es predecir si un nuevo cliente va a devolver un prestamo o no y utilizar esta predicción para concederle o denegarle el préstamo. Es un problema de clasificación.

Tiene 9 entradas y 1 salida.

Cuestiones: ¿Es una función lineal? ¿Cuál es el porcentaje de acierto estimado en test?

#### Quinielas

Contiene datos de quinielas deportivas. Tiene 60 entradas y 3 salidas (1, X, 2). Es un problema de clasificación.

Cuestiones: ¿Cuál es el porcentaje de acierto estimado en test?

#### Sensores

Contiene datos de sensores y velocidades medias en la M-40. La idea es ver si se puede predecir la velocidad media en un punto que no tiene sensor a partir de las lecturas de los sensores en otros puntos. Es un problema de ajuste o regresión.

Cuestiones: ¿Cuál es el porcentaje de acierto estimado en test?

#### Circulo

Es un problema de clasificación con 3 regiones concéntricas. No tiene conjunto de test, el objetivo es encontrar la red mínima que pueda clasificar correctamente todos los ejemplos.

#### Encoder

Es el problema clásico de utilizar una capa oculta para codificar patrones de 8 valores en una dimensión menor. El objetivo es entrenar un perceptrón 8-3-8 para que aprenda esta codificación en el 100% de los ejemplos.  Es un problema de clasificación.

#### Pima-diabetes

Contiene resultados de un conjunto de análisis y pruebas en personas que posteriormente desarrollaron o no diabetes. La idea es ver si se puede predecir si una persona va a desarrollar la enfermedad en el futuro.

En este caso hay que separar aleatoriamente un 30% de ejemplos para tener una conjunto de test. Nota: se sugiere usar la función shuffle.

Cuestiones: ¿Cuál es el porcentaje de acierto estimado en test?