# LSTN

In [1]:
import numpy as np
from keras.layers import Dense, Activation
from keras.layers.recurrent import LSTM
from keras.models import Sequential

import pandas as pd
import re

Using TensorFlow backend.


In [2]:
funk = pd.read_csv("funk_carioca.csv")

In [3]:
funk.head()

Unnamed: 0.1,Unnamed: 0,fonte,titulo1,titulo2,artista,letra
0,0,https://www.letras.mus.br/mc-doni/te-amo-sem-c...,Te Amo Sem Compromisso (To Nem Aí),Te Amo Sem Compromisso (To Nem Aí),MC Doni,"\nNão adianta tu se declarar\nRomance, compro..."
1,1,https://www.letras.mus.br/mc-kevin-o-cris/evol...,Evoluiu (part. Sodré),Evoluiu (part. Sodré),MC Kevin o Chris,"\nEvoluiu! Ritmo agressivo, 150 fluiu\nLevand..."
2,2,https://www.letras.mus.br/mc-davi/love-66-part...,"Love 66 (part. MC Rita, MC Hariel e Gaab)","Love 66 (part. MC Rita, MC Hariel e Gaab)",MC Davi,\n[MC Davi]\nVocê me tira do sério\nEu fazia ...
3,3,https://www.letras.mus.br/ludmilla/invocada-pa...,Invocada (part. Léo Santana),Invocada (part. Léo Santana),Ludmilla,"\nEu te amava, não posso negar\nTambém sofria..."
4,4,https://www.letras.mus.br/mc-magal/positividad...,Positividade (part. MC Bola),Positividade (part. MC Bola),MC Magal,\nTá torcendo contra o meu progresso\nTá preo...


In [4]:
def TrataLetra(letras):
    
    textos = []
    for letra in letras:
        letra = re.sub(r'\n',' ', letra).lower()
        textos.append(letra)
    
    return ' '.join(textos)

In [5]:
# Lê os textos de um exemplo
text = TrataLetra(funk["letra"])
chars = set([c for c in text])
nb_chars = len(chars)

In [6]:
# Cria um mapeamento de letras para números e vice-versa
char2index = {c: i for i, c in enumerate(chars)}
index2char = {i: c for i, c in enumerate(chars)}

In [7]:
# Define o tamanho máximo da janela de texto como 15 caracteres
SEQLEN, STEP = 15, 1
input_chars, label_chars = [], []

In [8]:
# Converte os dados em uma série de subsequencias de tamanho 10
for i in range(0, len(text) - SEQLEN, STEP):
    input_chars.append(text[i: i + SEQLEN])
    label_chars.append(text[i + SEQLEN])

In [9]:
# Cria o vetor one-hot encoding das sequencias de entradas (X) e o próximo caracter (y)
X = np.zeros((len(input_chars), SEQLEN, nb_chars), dtype=np.bool)
y = np.zeros((len(input_chars), nb_chars), dtype=np.bool)
for i, input_char in enumerate(input_chars):
    for j, ch in enumerate(input_char):
        X[i, j, char2index[ch]] = 1
    y[i, char2index[label_chars[i]]] = 1

In [10]:
# Define os metaparametros para o treinamento da rede
BATCH_SIZE = 128
HIDDEN_SIZE = 128
NUM_ITERATIONS = 25
NUM_EPOCHS_PER_ITERATION = 1
NUM_PREDS_PER_EPOCH = 200

In [11]:
# Cria a rede. Existe uma camada recorrente que produz um embedding de tamanho 128 
# a partir de uma camada de entrada one-hot-encoded
# Essa camada é seguida por uma camada Dense fully-connected, que retorna a probabilidade de cada
# caractere no conjunto de caracteres possíveis de ser o próximo
model = Sequential()
model.add(
    LSTM(  
        HIDDEN_SIZE,
        return_sequences=False,
        input_shape=(SEQLEN, nb_chars),
        unroll=True
    )
)
model.add(Dense(nb_chars))
model.add(Activation("softmax"))
model.compile(loss="categorical_crossentropy", optimizer="rmsprop")

In [12]:
# Treina o modelo
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [None]:
# Treina o modelo em batches e testa a saída gerada em cada step
for iteration in range(2):
    print("=" * 50)
    print("Iteração #: {}".format(iteration))
    model.fit(X, y, batch_size=BATCH_SIZE, epochs=NUM_EPOCHS_PER_ITERATION)

Iteração #: 0
Epoch 1/1

In [None]:
# Insere o texto com 15 caracteres que será a seed para gerar a música
test_chars = 'as novinhas só '

In [None]:
# Realiza a previsão dos próximos 200 caracteres
for i in range(NUM_PREDS_PER_EPOCH):
    Xtest = np.zeros((1, SEQLEN, nb_chars))
    for j, ch in enumerate(test_chars):
        Xtest[0, j, char2index[ch]] = 1
    pred = model.predict(Xtest, verbose=0)[0]
    ypred = index2char[np.argmax(pred)]
    
    # Exibe o próximo caracter previsto
    print(ypred, end="")
    
    # move adiante para o próximo caracter com test_chars + ypred
    test_chars = test_chars[1:] + ypred