In [1]:
import pandas as pd
import numpy as np
import math

## Dataset

#### En este laboratorio usaremos un dataset del usuario 'Zalando' en Github. Este data set surge como una alternativa al dataset MNIST tradicional de clasificación de números escritos a mano. Surge con el objetivo de proveer un dataset de "entrenamiento" o básico en la industria que se adapte más a las situaciones actuales (muchas imágenes) y que provea un método de entrenamiento más díficil que su antecesor.
#### El dataset consiste de 70 mil registros (60mil de entrenamiento y 10mil de testing). Cada record consiste en una imágen de 28X28 pixeles con una categoría asociada que describe el tipo de prenda al que pertenece.  

### Labels o Categorias
#### Cada record de training y test tienen asignado una de las siguientes etiquetas.:

| Etiqueta | Descripción |
| --- | --- |
| 0 | T-shirt/top |
| 1 | Trouser |
| 2 | Pullover |
| 3 | Dress |
| 4 | Coat |
| 5 | Sandal |
| 6 | Shirt |
| 7 | Sneaker |
| 8 | Bag |
| 9 | Ankle boot |

In [2]:
# definiendo la función de activación
def sigmoide(x):
    return 1.0/(1.0+np.exp(-x))

In [3]:
# validando la funcion sigmoide
print(sigmoide(0))
print(sigmoide(7))
print(sigmoide(-7))

0.5
0.9990889488055994
0.0009110511944006454


In [4]:
# derivada de la sigmoide
#(e^-x)/(1+e^-x)^2
def d_sigmoide(x):
    return (np.exp(-x))/((1+np.exp(-x))**2)

In [5]:
# validando la funcion
print(d_sigmoide(0))
print(d_sigmoide(7))
print(d_sigmoide(-7))

0.25
0.0009102211801218265
0.0009102211801218265


### Implementación softmax
#### permite restringir el resultado de una función entre 0 y 1 para poder usarlo como una probabilidad. Esto nos permite crear una red neuronal multi-clase, ya que no es un resultado binario si no "probabilistico" entre múltiples posibles clases

In [6]:
def softmax(x_list):
    return np.exp(x_list)/np.exp(x_list).sum(0)


In [7]:
# podemos ver que retorna una probabilidad que premia a los numeros más grandes relativamente.
softmax(np.asarray([4,7,5,10]))

array([0.00234065, 0.04701312, 0.00636253, 0.9442837 ])

### inicialización de tethas
#### inicializadas con un número random entre 0 y 1

In [35]:
def crear_red(inputs, hidden, outputs):
    i_hidden = np.random.uniform(0,1,size=(inputs, hidden))
    i_output = np.random.uniform(0,1,size=(hidden,outputs))
    #i_hidden = np.random.uniform(0,1,size=(hidden, inputs))
    #i_output = np.random.uniform(0,1,size=(outputs, hidden))
    return i_hidden, i_output

In [9]:
# verificación
crear_red(2,3,1)

(array([[5.60396860e-01, 5.96021736e-02, 9.49482363e-01],
        [8.75510608e-01, 1.99943925e-01, 2.71213191e-04]]),
 array([[0.65985841],
        [0.53792313],
        [0.42923474]]))

### Backprop implementation
### parametros:
#### num de inputs, num de neuronas en capa oculta, num de outputs
#### num iteraciones, learning rate
### Estructura de datos
#### Dos listas (Arreglos) X(independientes), y (dependiente-clasificación)

In [11]:
def forprop(X,hidden, outputs):
    # producto punto de los inputs y la capa oculta
    # aplicamos la función sigmoide de activación para obtener los resultados de la capa oculta
    activadas = sigmoide(np.dot(X,hidden))

    return activadas
    
def calcular_error(resultado,real):
    # simple resta entre 'y' y el resultado obtenido.
    error = real - resultado
    print ('Error: ',sum(error))
    return error

In [19]:
#funcion con iteraciones para validad mi backprop
def backprop(X, y, hidden, outputs, ite, learning_rate):
    for i in range(ite):
        # activación y forprop
        activadas = forprop(X,hidden, outputs)
        resultado = np.dot(activadas, outputs)
        
        error = y - resultado
        if ite % 5000 == 0:
            print ('Error: ',sum(error))
            
        # ---- seccion backprop ----
        # con el error obtenido podemos ajustar los pesos bajo el dominio del learning_rate
        dz = error * learning_rate
        outputs += activadas.T.dot(dz)
        dh = dz.dot(outputs.T) * d_sigmoide(activadas)
        hidden += X.T.dot(dh)

In [23]:
# probando con un simple XOR
X_p = np.array([[0,0], [0,1], [1,0], [1,1]])
y_p = np.array([ [0],   [1],   [1],   [0]])

p_h, p_o = crear_red(2,3,1)
#len(X_p[0])
backprop(X_p, y_p, p_h, p_o, 5000, 0.1)
# podemos ver que el error comeinza a decrecer. 

Error:  [-2.32305543]
Error:  [-1.23450823]
Error:  [-0.65776441]
Error:  [-0.34611971]
Error:  [-0.17624861]
Error:  [-0.08326915]
Error:  [-0.03227397]
Error:  [-0.00428263]
Error:  [0.01108062]
Error:  [0.019504]
Error:  [0.02411095]
Error:  [0.0266182]
Error:  [0.02796991]
Error:  [0.02868554]
Error:  [0.02905101]
Error:  [0.0292237]
Error:  [0.02929028]
Error:  [0.0292985]
Error:  [0.02927464]
Error:  [0.02923318]
Error:  [0.02918212]
Error:  [0.02912585]
Error:  [0.0290668]
Error:  [0.0290063]
Error:  [0.02894508]
Error:  [0.02888356]
Error:  [0.02882196]
Error:  [0.02876039]
Error:  [0.02869893]
Error:  [0.02863761]
Error:  [0.02857644]
Error:  [0.02851545]
Error:  [0.02845463]
Error:  [0.02839399]
Error:  [0.02833352]
Error:  [0.02827322]
Error:  [0.0282131]
Error:  [0.02815315]
Error:  [0.02809337]
Error:  [0.02803376]
Error:  [0.02797432]
Error:  [0.02791504]
Error:  [0.02785593]
Error:  [0.02779698]
Error:  [0.02773819]
Error:  [0.02767956]
Error:  [0.02762109]
Error:  [0.02

### --- Reading data

In [24]:
# training data
train = pd.read_csv('./data/fashion-mnist_train.csv')
train.head()

Unnamed: 0,label,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,pixel9,...,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783,pixel784
0,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,6,0,0,0,0,0,0,0,5,0,...,0,0,0,30,43,0,0,0,0,0
3,0,0,0,0,1,2,0,0,0,0,...,3,0,0,0,0,1,0,0,0,0
4,3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [25]:
train_y = train.pop('label')

In [26]:
# slicing data (Too large)
half = int(len(train['pixel1'])/2)
train_X1 = train[:half]
train_X2 = train[half:]

In [27]:
train_y1 = train[:half]
train_y2 = train[half:]

In [28]:
trainX1 = train_X1.values.tolist()
trainX2 = train_X2.values.tolist()

In [29]:
trainy1 = train_y1.values.tolist()
trainy2 = train_y2.values.tolist()

In [36]:
HL, OL = crear_red(784, 50, 10)

In [37]:
backprop(trainX1, trainy1, HL, OL, 1000, 0.1)

ValueError: operands could not be broadcast together with shapes (30000,784) (30000,10) 