
# Generador de municipios
### Erick Fernando López Fimbres.  
#### erick.lopez.fimbres@gmail.com

## Definición

Para la realizacion de este programa usaremos Nivel de caracter minimo y puedes consultar el archivo original [aquí](https://gist.github.com/karpathy/d4dee566867f8291f086). 
El cual nos ayudara a generar nombres de municipios caracter por caracter a partir de los ya existentes que hay en México.


## Lectura del archivo

In [None]:
import numpy as np

municipios = open('datos/municipios.txt', 'r').read() # should be simple plain text file
caracteres = list(set(municipios))
tam_datos, tam_caracteres = len(municipios), len(caracteres)
print ("Hay {} municipios y {} caracteres".format(municipios,caracteres))
caracter_a_indice = { ch:i for i,ch in enumerate(chars) }
indice_a_caracter = { i:ch for i,ch in enumerate(chars) }

## Ajustes de parametros

In [None]:

capas_ocultas = 100 # tamaño de capas ocultas de neuronas
num_pasos = 25 # numero de pasos para el RNN
epsilon = 1e-1

# parametros del modelo
Wxh = np.random.randn(capas_ocultas, tam_caracteres)*0.01 # oculto a entrada
Whh = np.random.randn(capas_ocultas, capas_ocultas)*0.01 # oculto a oculto
Why = np.random.randn(tam_caracteres, capas_ocultas)*0.01 # oculto a la salida
bh = np.zeros((capas_ocultas, 1)) # sesgo oculto
by = np.zeros((tam_caracteres, 1)) # sesgo de salida

## Funcion de perdida

In [None]:
def lossFun(entradas, objetivos, hprev):
    """
    entradas: una lista de enteros
    objetivos: una lista de enteros
    hprev es un arreglo de  Hx1 del estado oculto inicial
    regresa: la perdida, gradientes del modelo y el ultimo estado oculto
    """
    xs, hs, ys, ps = {}, {}, {}, {}
    hs[-1]= np.copy(hprev)
    perdida = 0
    # forward pass
    for t in range(len(entradas)):
        xs[t] = np.zeros((tam_caracteres,1)) # encode in 1-of-k representation
        xs[t][entradas[t]] = 1
        hs[t] = np.tanh(np.dot(Wxh, xs[t]) + np.dot(Whh, hs[t-1]) + bh) # hidden state
        ys[t] = np.dot(Why, hs[t]) + by # unnormalized log probabilities for next chars
        ps[t] = np.exp(ys[t]) / np.sum(np.exp(ys[t])) # probabilities for next chars
        perdida += -np.log(ps[t][objetivos[t],0]) # softmax (cross-entropy loss)
    # backward pass: compute gradients going backwards
    dWxh, dWhh, dWhy = np.zeros_like(Wxh), np.zeros_like(Whh), np.zeros_like(Why)
    dbh, dby = np.zeros_like(bh), np.zeros_like(by)
    dhnext = np.zeros_like(hs[0])
    for t in reversed(range(len(entradas))):
        dy = np.copy(ps[t])
        dy[objetivos[t]] -= 1 # backprop into y. see http://cs231n.github.io/neural-networks-case-study/#grad if confused here
        dWhy += np.dot(dy, hs[t].T)
        dby += dy
        dh = np.dot(Why.T, dy) + dhnext # backprop into h
        dhraw = (1 - hs[t] * hs[t]) * dh # backprop through tanh nonlinearity
        dbh += dhraw
        dWxh += np.dot(dhraw, xs[t].T)
        dWhh += np.dot(dhraw, hs[t-1].T)
        dhnext = np.dot(Whh.T, dhraw)
    for dparam in [dWxh, dWhh, dWhy, dbh, dby]:
        np.clip(dparam, -5, 5, out=dparam) # clip to mitigate exploding gradients
    return perdida, dWxh, dWhh, dWhy, dbh, dby, hs[len(entradas)-1]

In [1]:
#primero leeremos los archivos de los municipios
"""
archivo=open('datos/municipios.txt')
linea=archivo.readline()
datos_limpios=list()
while linea != "":
    if linea not in datos_limpios:
        datos_limpios.append(linea)    
    linea=archivo.readline()
archivo.close()

print("Primeros 10 municipios de México: \n")
for x in range(10):
    print(datos_limpios[x])
print("Número de municipios en total: ",len(datos_limpios))
"""

Primeros 10 municipios de México: 

Abalá

Abasolo

Abejones

Acacoyagua

Acajete

Acala

Acámbaro

Acambay de Ruíz Castañeda

Acanceh

Acapetahua

Número de municipios en total:  2318


Listo, ahora tenemos nuestros datos de municipios sin que esten repetidos, ahora necesitamos comenzan con las Redes LSTM.

# LSTM

In [None]:
import numpy as np
import code

class LSTM:
    
    @staticmethod
    def init(tam_entrada,tam_oculto,sesgo_inicial=3):
        """inicializa los parametros de LSTM (sesgos y pesos en una matriz)"""
        #Inicializa la matriz de pesos
        WLSTM = np.random.randn(tam_entrada + tam_oculto + 1, 4 * tam_oculto) / np.sqrt(tam_entrada + tam_oculto)
        WLSTM[0,:] = 0 # initializamos en 0
        if sesgo_inicial != 0:
            #Las entradas de olvido en un principio tienen un sesgo negativo para alentarlas a que se apaguen
            #la no linealidad son de media cero y desviación estándar uno
            WLSTM[0,tam_oculto:2*tam_oculto] = sesgo_inicial
        return WLSTM
    
    @staticmethod
    def forward(X,WLSTM,c0=None,h0=None):
        """X debe de ser de la forma (n, b, tam_entrada), donde n = longitud de secuencia, b = tamaño del batch o lote"""
        n,b,tam_entrada = X.shape
        d = WLSTM.shape[1]/4 #tamaño oculto
        if c0 is None: c0 = np.zeros((b,d))
        if h0 is None: h0 = np.zeros((b,d))
        #ejecutar el fordward de LSTM con X como entrada
        
        xmhms = WLSTM.shape[0] # x mas h mas sesgo
        Hin = np.zeros((n, b, xmhms)) # entrada [1, xt, ht-1] para cada momento del LSTM
        Hout = np.zeros((n, b, d)) # representacion oculta del LSTM
        
        EOSP = np.zeros((n, b, d * 4)) # entrada, olvido, salida, puerta(IFOG)
        EOSPd = np.zeros((n, b, d * 4)) # despues de la no linealidad
        
        C = np.zeros((n, b, d)) # contenido de la celula
        Ct = np.zeros((n, b, d)) # tangente del contenido de la celula
        
        for t in range(len(n)):
            #concatenación de [x,h] como entrada del LSTM
            prevh = Hout[t-1] if t > 0 else h0
            Hin[t,:,0] = 1 # sesgo
            Hin[t,:,1:tam_entrada+1] = X[t]
            Hin[t,:,tam_entrada+1:] = prevh
            EOSP[t] = Hin[t].dot(WLSTM)
            #no linealidades
            
            EOSPd[t,:,:3*d] = 1.0/(1.0+np.exp(-EOSPd[t,:,:3*d])) # sigmoides; estas son las puertas
            EOSPd[t,:,3*d:] = np.tanh(EOSPd[t,:,3*d:]) # tangente
            
            #activacion de la celula
            prevc = C[t-1] if t > 0 else c0
            C[t] = EOSPd[t,:,:d] * EOSPd[t,:,3*d:] + EOSPd[t,:,d:2*d] * prevc
            Ct[t] = np.tanh(C[t])
            Hout[t] = EOSPd[t,:,2*d:3*d] * Ct[t]
            
        memoria = {}
        memoria['WLSTM'] = WLSTM
        memoria['Hout'] = Hout
        memoria['EOSPd'] = EOSPd
        memoria['EOSP'] = EOSP
        memoria['C'] = C
        memoria['Ct'] = Ct
        memoria['Hin'] = Hin
        memoria['c0'] = c0
        memoria['h0'] = h0
        
        return Hout, C[t], Hout[t], memoria
    