# Redes Neuronales y como grokearlas.

Si no estas aun familiarizado con el funcionamiento de las redes neurales puedes que te cause timidez la matematica y notacion aparentemente complicada ademas del nombre de ciencia ficción. Pero no temas, aqui va una introducción intuitiva (y baja en las matematicas) sobre el modelo de redes neuronales. Empezemos con algo pequeño: 

## Circuito de operaciones: 

Empeze a entender a las redes neuronales cuando me las presentaron como un circuito de operaciones que regresan valores **reales** en lugar de valores booleanos. Con esta analogia, los valores generados por nuestras compuertas fluyen hacia adelante en nustro circuito con compuertas binarias y unarias representados por operadores como: **-**, **+**, **exp**, etc...

Exploremos el siguiente ejemplo: 

<img src="files/images/multGate.png" style="width:320px;heigth:320px;">

Este circuito recibe dos valores de entrada (**x**, **y**) y evalua la operacion **x * y **. Este es el comportamiento de la compuerta ** * **. Todas las compuertas que podemos incluir en nuestro circuito se comportaran de manera analoga. Toman 1 o 2 valores de entrada y devuelven un unico valor de salida. 

La implementación de la compuerta de arriba es la siguiente: 

In [1]:
def compuertaMultiplicacion(x, y):
    return x * y;

print compuertaMultiplicacion(3,-4)

-12


Ahora hay que definir el problema que queremos atacar:

1. Le proporcionamos al circuito especificos valores de entrada (ejemplo: ** x = 3 **, ** y = -4 **)
2. El circuito nos devuelve un valor de salida.
3. Como modificamos lijeramente nuestros valores de entrada para aumentar nuestro valor de salida?

Para este circuito la respuesta es aparente, aumenta **x** y **y** hasta el infinito y recibe outputs de tamaño infinito, pero trabajemos de buena fe y asumamos que luego tendremos que lidiar con un circuito compuesta de miles de compuertas realizando operaciones mas complejas con miles de outputs distintos. En ese caso necesitaremos de un algoritmo formal para maximizar nuestro valor de salida.

### Gradiente Numerica.

Tomando como valores de entrada **x=3** y **y=-4** tenemos un valor de salida igual a **-12**. Si quisieramas aumentar este valor una interesante manera de verlo es imaginar que le damos un 'jalon' al valor de salida en la direccion positiva y como este punto de salida esta atado de cierta manera a los valores de entrada veriamos reflejado los efectos de este 'jalon' en ellos.

Esta fuerza que describo resulta ser la **derivada** del valor de salida en respecto a los valores de entrada. En otras palabras podemos interpretas a la derivada respecto a **x** como la fuerza ejercida sobre **x** cuando le damos un jalon a nuestro valor de salida con la meta de aumentarlo.

Podemos escribir la derivada de nuestra función (o circuito) respecto a x de la siguiente forma: 

$$
\frac{\partial f(x,y)}{\partial x} = \frac{f(x+h,y) - f(x,y)}{h}
$$

De el lado izquierdo tenemos la expresion que representa la derivada de nuestra función respecto a **x** y la calculamos tomando la diferencia de output de nuestro circuito con los valores de entrada actuales y nuestro circuito con un lijero ajuste (_h_) en la variable x. Esa diferencia la divideremos sobre el valor de ajuste _h_.

La implementación en codigo es de la sigiuente manera:


In [2]:
# Valores de entrada
x = 3 
y = -4 

# f(x,y), resultado de nuestro circuito
salida = compuertaMultiplicacion(x, y) 

# Valor de ajuste
h = 0.0001 

### Derivada respecto a x
x_step = x + h # 3.0001
salida2 = compuertaMultiplicacion(x_step, y) #-12.004
derivada_x = (salida2 - salida) / h #-4.0

### Derivada respecto a y
y_step = y + h # -3.999
salida3 = compuertaMultiplicacion(x, y_step) #-11.9997
derivada_y = (salida3 - salida) / h # 3.0


Por los resultados de arriba lo que observamos es que aumentar **x** por **h**, disminuyo nuestro valor de salida (_-12.004_). Por lo cual tiene sentido que nuestra derivada en relacion x sea negativa y de magnitud **_-4.0_**. Direccion y magnitud es lo queremos mantener en mente aqui, la derviada en este caso nos dice que para aumentar el resultado de nuestro circuito debemos de ajustar la variable **x** con magnitud **4.0** y direccion **-1**. Por el otro lado la derivada respecto a **y** nos presenta un ajuste con magnitud **3.0** y direccion **+1**.

tl;dr El circuito _quiere_ disminuir **x** con intesidad 4 y quiere aumentar **y** con intensidad 3.

Se les llama derivadas a la funcion derivada respecto a 1 input. Si tomo todas estas derivadas y las meto en un vector (o lista w/e) a ese se le conoce como **Gradiente**.

Ajustemos nuestras variables de entrada segun los resultados de el gradiente: 


In [3]:
step_size = 0.01
salida = compuertaMultiplicacion(x, y)
x = x + step_size * derivada_x
y = y + step_size * derivada_y
salida_nueva = compuertaMultiplicacion(x, y)

print salida, salida_nueva

-12 -11.7512


In [16]:
"""
Minimal character-level Vanilla RNN model. Written by Andrej Karpathy (@karpathy)
BSD License
"""
import numpy as np

# data I/O
data = open('shakespeare_input.txt', 'r').read() # should be simple plain text file
chars = list(set(data))
data_size, vocab_size = len(data), len(chars)
print 'data has %d characters, %d unique.' % (data_size, vocab_size)
char_to_ix = { ch:i for i,ch in enumerate(chars) }
ix_to_char = { i:ch for i,ch in enumerate(chars) }

print char_to_ix
print ix_to_char

data has 4573338 characters, 67 unique.
{'\n': 0, '!': 1, ' ': 2, '$': 3, "'": 4, '&': 5, '-': 6, ',': 7, '.': 8, '3': 9, ';': 10, ':': 11, '?': 12, 'A': 13, 'C': 14, 'B': 15, 'E': 16, 'D': 17, 'G': 18, 'F': 19, 'I': 20, 'H': 21, 'K': 22, 'J': 23, 'M': 24, 'L': 25, 'O': 26, 'N': 27, 'Q': 28, 'P': 29, 'S': 30, 'R': 31, 'U': 32, 'T': 33, 'W': 34, 'V': 35, 'Y': 36, 'X': 37, '[': 38, 'Z': 39, ']': 40, 'a': 41, 'c': 42, 'b': 43, 'e': 44, 'd': 45, 'g': 46, 'f': 47, 'i': 48, 'h': 49, 'k': 50, 'j': 51, 'm': 52, 'l': 53, 'o': 54, 'n': 55, 'q': 56, 'p': 57, 's': 58, 'r': 59, 'u': 60, 't': 61, 'w': 62, 'v': 63, 'y': 64, 'x': 65, 'z': 66}
{0: '\n', 1: '!', 2: ' ', 3: '$', 4: "'", 5: '&', 6: '-', 7: ',', 8: '.', 9: '3', 10: ';', 11: ':', 12: '?', 13: 'A', 14: 'C', 15: 'B', 16: 'E', 17: 'D', 18: 'G', 19: 'F', 20: 'I', 21: 'H', 22: 'K', 23: 'J', 24: 'M', 25: 'L', 26: 'O', 27: 'N', 28: 'Q', 29: 'P', 30: 'S', 31: 'R', 32: 'U', 33: 'T', 34: 'W', 35: 'V', 36: 'Y', 37: 'X', 38: '[', 39: 'Z', 40: ']', 41: 

In [17]:

# hyperparameters
hidden_size = 100 # size of hidden layer of neurons
seq_length = 25 # number of steps to unroll the RNN for
learning_rate = 1e-1

# model parameters
Wxh = np.random.randn(hidden_size, vocab_size)*0.01 # input to hidden
Whh = np.random.randn(hidden_size, hidden_size)*0.01 # hidden to hidden
Why = np.random.randn(vocab_size, hidden_size)*0.01 # hidden to output
bh = np.zeros((hidden_size, 1)) # hidden bias
by = np.zeros((vocab_size, 1)) # output bias


In [None]:


def lossFun(inputs, targets, hprev):
  """
  inputs,targets are both list of integers.
  hprev is Hx1 array of initial hidden state
  returns the loss, gradients on model parameters, and last hidden state
  """
  xs, hs, ys, ps = {}, {}, {}, {}
  hs[-1] = np.copy(hprev)
  loss = 0
  # forward pass
  for t in xrange(len(inputs)):
    xs[t] = np.zeros((vocab_size,1)) # encode in 1-of-k representation
    xs[t][inputs[t]] = 1
    hs[t] = np.tanh(np.dot(Wxh, xs[t]) + np.dot(Whh, hs[t-1]) + bh) # hidden state
    ys[t] = np.dot(Why, hs[t]) + by # unnormalized log probabilities for next chars
    ps[t] = np.exp(ys[t]) / np.sum(np.exp(ys[t])) # probabilities for next chars
    loss += -np.log(ps[t][targets[t],0]) # softmax (cross-entropy loss)
  # backward pass: compute gradients going backwards
  dWxh, dWhh, dWhy = np.zeros_like(Wxh), np.zeros_like(Whh), np.zeros_like(Why)
  dbh, dby = np.zeros_like(bh), np.zeros_like(by)
  dhnext = np.zeros_like(hs[0])
  for t in reversed(xrange(len(inputs))):
    dy = np.copy(ps[t])
    dy[targets[t]] -= 1 # backprop into y
    dWhy += np.dot(dy, hs[t].T)
    dby += dy
    dh = np.dot(Why.T, dy) + dhnext # backprop into h
    dhraw = (1 - hs[t] * hs[t]) * dh # backprop through tanh nonlinearity
    dbh += dhraw
    dWxh += np.dot(dhraw, xs[t].T)
    dWhh += np.dot(dhraw, hs[t-1].T)
    dhnext = np.dot(Whh.T, dhraw)
  for dparam in [dWxh, dWhh, dWhy, dbh, dby]:
    np.clip(dparam, -5, 5, out=dparam) # clip to mitigate exploding gradients
  return loss, dWxh, dWhh, dWhy, dbh, dby, hs[len(inputs)-1]

def sample(h, seed_ix, n):
  """ 
  sample a sequence of integers from the model 
  h is memory state, seed_ix is seed letter for first time step
  """
  x = np.zeros((vocab_size, 1))
  x[seed_ix] = 1
  ixes = []
  for t in xrange(n):
    h = np.tanh(np.dot(Wxh, x) + np.dot(Whh, h) + bh)
    y = np.dot(Why, h) + by
    p = np.exp(y) / np.sum(np.exp(y))
    ix = np.random.choice(range(vocab_size), p=p.ravel())
    x = np.zeros((vocab_size, 1))
    x[ix] = 1
    ixes.append(ix)
  return ixes

n, p = 0, 0
mWxh, mWhh, mWhy = np.zeros_like(Wxh), np.zeros_like(Whh), np.zeros_like(Why)
mbh, mby = np.zeros_like(bh), np.zeros_like(by) # memory variables for Adagrad
smooth_loss = -np.log(1.0/vocab_size)*seq_length # loss at iteration 0
while True:
  # prepare inputs (we're sweeping from left to right in steps seq_length long)
  if p+seq_length+1 >= len(data) or n == 0: 
    hprev = np.zeros((hidden_size,1)) # reset RNN memory
    p = 0 # go from start of data
  inputs = [char_to_ix[ch] for ch in data[p:p+seq_length]]
  targets = [char_to_ix[ch] for ch in data[p+1:p+seq_length+1]]

  # sample from the model now and then
  if n % 100 == 0:
    sample_ix = sample(hprev, inputs[0], 200)
    txt = ''.join(ix_to_char[ix] for ix in sample_ix)
    print '----\n %s \n----' % (txt, )

  # forward seq_length characters through the net and fetch gradient
  loss, dWxh, dWhh, dWhy, dbh, dby, hprev = lossFun(inputs, targets, hprev)
  smooth_loss = smooth_loss * 0.999 + loss * 0.001
  if n % 100 == 0: print 'iter %d, loss: %f' % (n, smooth_loss) # print progress
  
  # perform parameter update with Adagrad
  for param, dparam, mem in zip([Wxh, Whh, Why, bh, by], 
                                [dWxh, dWhh, dWhy, dbh, dby], 
                                [mWxh, mWhh, mWhy, mbh, mby]):
    mem += dparam * dparam
    param += -learning_rate * dparam / np.sqrt(mem + 1e-8) # adagrad update

  p += seq_length # move data pointer
  n += 1 # iteration counter 

----
 W:ekya[$Shw,Iyxyj?IwS?LXRsp:aI?C
$'JQUM'mCkD;bk,bRNdM3K?iMyyG'ZEQC$aNmb&ZXZO?TMWZJ]ISlSkEUKNYGJFGBw;KqqWLZPL3Tbz!P?DXDqO[CXcI;&DirIbz[y]3wi;tg!LwBFMpgDqVRJhLBmZu,&aDcruofRW.FgPa-sPYPoEPNj;zsvIy,
[
xTI 
----
iter 0, loss: 105.117319
----
 nae hh itaihnkhh hlbyba
hh y s , h huh   ha  rrs mine  t abe   zrh h
he  hkahnh   hyheu r dia  h' thh t  rmgyhhh n u  hmdle bsyuvvlt n ryt   aa e'eh u ee  aoyay hhitmriiiyg r,imhty   iahstiicea:ylhahy 
----
iter 100, loss: 105.588269
----
 tlleolon lee.
T
 le 'egnehti letny
lel,eerna,gyi,e ei ngec eloy
loe tinhnlegogecee ineletssooaouYe,lazehw Fegeeeanl uooyrthesilhhmysso ey liledunnwtsehee-osehg?llrm eWednF t ole a e e Tdll uOselleoteT 
----
iter 200, loss: 103.695915
----
 
sv
p
 ge

,uAgorUoh
:ut zilgiWaloseH
meoChelurh se :
sallFfvadr e My
vSW deuii gimeIHlCoyh : yRuwheYiiC c se t
rw 
 Sse?
My wsArRryk:
C:l;aaeU
Car avgr
vH C 
n
eRrlln esrhr.
 l
Aor  ly gight
oA Citi: 
----
iter 300, loss: 101.666567
----
 ellOo ,nle t eat-r des
 hs tanvecu'e