# Lab 1 : Intro to TensorFlow and Music Generation with RNNs

# Part 2: Music Generation with RNNs

이 실습에서는 음악 생성을위한 RNN (Recurrent Neural Network)을 구축하는 방법에 대해 알아볼 것입니다. 우리는 MIDI 음악 툴킷을 사용할 것입니다. 다음 셀을 실행하여 `midi` 패키지가 있는지 확인하십시오. 그러면 MIDI 음악 도구를 Python으로 사용할 수 있습니다.

Download
> https://github.com/louisabraham/python3-midi

Installation
> python setup.py install

## 2.1 Dependencies and Dataset

이 실습에 필요한 관련 패키지와 데이터는 다음과 같습니다. 실습 편의를 위해서 데이터 세트 정리와 생성을 코드로 작성했습니다. 세부적인 작업 내용을 보려면 `create_dataset.py`와 `midi_manipulation.py` 파일을 확인하시기 바랍니다.

### 2.1.1 Dependencies

In [15]:
import tensorflow as tf
from tensorflow.contrib import rnn
import numpy as np

from util.util import print_progress
from util.create_dataset import create_dataset, get_batch
from util.midi_manipulation import noteStateMatrixToMidi

### 2.1.2 The Dataset

이 Lab의 데이터 세트는 `lab1`의 `data/` 폴더에서 가져옵니다. 다운로드 한 데이터 세트는 일련의 팝송 발췌 모음입니다.

In [16]:
min_song_length  = 128
encoded_songs    = create_dataset(min_song_length)

88 songs processed
15 songs discarded


데이터 세트는 각 노래가 저장된 `np.array`의 리스트 입니다.

각 노래는 `(song_length, num_possible_notes)`, `song_length> = min_song_length` 차원으로 되어있어야 합니다.

노래의 각 음표의 특징 벡터는 [one-hot](https://en.wikipedia.org/wiki/One-hot) 인코딩으로 처리됩니다. 즉, 바이너리 벡터는 하나의 엔트리만 '1' 입니다.

In [17]:
NUM_SONGS = len(encoded_songs)
print(str(NUM_SONGS) + " total songs to learn from")
print(encoded_songs[0].shape)

73 total songs to learn from
(129, 78)


## 2.2 The Recurrent Neural Network (RNN) Model

이제 음악 데이터 세트에서 RNN 모델을 정의하고 훈련한 다음 해당 훈련 모델을 사용하여 새 노래를 생성합니다. RNN을 우리의 데이터 세트에 있는 노래 스니펫의 배치로 사용하여 훈련시킬 것입니다.

이 모델은 하나의 LSTM 셀을 기반으로 하며, 상태 벡터는 연속적인 음표 간의 시간 종속성을 유지하는 데 사용됩니다.

각 시간 단계에서 이전 음표의 시퀀스를 피드합니다. LSTM의 최종 출력 (즉, 마지막 유닛의)은 완전히 연결된 단일 레이어에 공급되어 다음 음에 대한 확률 분포를 출력한다.

이 방법으로, 우리는 확률 분포

$$ P(x_t\vert x_{t-L},\cdots,x_{t-1})$$ 

여기서 $x_t$는 timestep $t$에서 재생된 음표의 one-hot 인코딩이며 $L$은 아래 그림과 같이 노래 스니펫의 길이입니다.

<img src="img/lab1ngram.png" alt="Drawing" style="width: 50em;"/>
 

### 2.2.1 Neural Network Parameters
여기서는 모델에 대한 관련 매개 변수를 정의합니다.

* `input_size` 와 `output_size`는 각 타임 스텝에서 인코딩된 입력과 출력의 모양이 일치하도록 정의됩니다. 각 노래의 인코딩 된 표현에는 shape (song_length, num_possible_notes)가 있으며 각 타임 스텝에서 연주된 음은 가능한 모든 음에 대해 바이너리 벡터로 인코딩 됩니다. 매개 변수인 input_size와 output_size는 이 벡터 인코딩의 길이 (가능한 음표수)를 반영합니다.

* `hidden_size`는 LSTM의 상태 수와 LSTM 이후의 hidden 레이어 크기입니다.
* 모델의 `learning_rate`는 1e-4와 0.1 사이 여야합니다.
* `training_steps`는 사용할 배치 수입니다.
* `batch_size`는 배치에서 사용하는 노래 스니펫 수 입니다.
* 모델을 훈련시키기 위해 각 노래에서 `timesteps` 길이의 스니펫을 선택합니다. 이렇게하면 모든 노래 스니펫의 길이가 같아지고 훈련 속도가 빨라집니다.

**다른 하이퍼 매개 변수를 사용하여 어떤 것이 가장 효과적인지 확인하십시오.**

In [18]:
## Neural Network Parameters
input_size       = encoded_songs[0].shape[1]   # The number of possible MIDI Notes
output_size      = input_size                  # Same as input size
hidden_size      = 128                         # Number of neurons in hidden layer

learning_rate    = 0.001 # Learning rate of the model
training_steps   = 200  # Number of batches during training
#training_steps   = 0
batch_size       = 256    # Number of songs per batch
timesteps        = 64    # Length of song snippet -- this is what is fed into the model

assert timesteps < min_song_length

### 2.2.2 Model Initialization

이제 우리 모델을 만들 것입니다. 모델을 만들기 전에 일부 placeholders를 정의하고 가중치를 초기화해야 합니다.

먼저 입력과 출력 텐서의 `output_vec`에 대해 `tf.placeholder` 변수 (`dtype`으로 `float`을 사용)를 정의합니다.


* 입력 텐서는 훈련 중에 사용된 노래 스니펫 배치를 유지하는 데 사용됩니다. dimensions은 3 차원입니다.
  1. 배치의 크기 (임의의 batch size를 처리 할 수 있도록 `None` 사용)
  2. 노래 스니펫에서 time steps의 수
  3. 가능한 MIDI 음표 수


* 출력 텐서는 훈련 배치의 각 노래 스니펫에 대해 입력 텐서에 제공된 노래 스니펫 바로 뒤에 있는 단일 음표를 유지하는 데 사용됩니다. 따라서 dimensions은 2 차원입니다.

  1. 배치의 크기 (입력된 텐서와 같이 `None`)
  2. 가능한 MIDI 음표 수

다음으로 LSTM 후에 완전히 연결된 레이어의 가중치와 바이어스를 초기화해야 합니다. 이러한 가중치와 바이어스을 정의하는 규칙은 딕셔너리를 사용하므로 각 레이어의 이름을 지정할 수 있습니다. LSTM 다음에 하나의 레이어만 있으므로 두 개의 개별 `tf.Variables`로 가중치와 바이어스를 정의 할 수 있습니다. `tf.random_normal`을 사용하여 정규 분포에서 샘플링하여 초기화합니다.

In [19]:
input_placeholder_shape = [None, timesteps, input_size] #TODO
output_placeholder_shape = [None, output_size] #TODO

input_vec  = tf.placeholder("float", input_placeholder_shape)  
output_vec = tf.placeholder("float", output_placeholder_shape)  

# Define weights
weights = tf.Variable(tf.random_normal([hidden_size, output_size])) 

biases = tf.Variable(tf.random_normal([output_size])) # TODO define biases 

### 2.2.3 RNN Computation Graph

모델 파라미터, 입력과 출력 텐서의 placeholder 변수와 초기화된 가중치를 정의했으므로 TensorFlow 계산 그래프 자체를 작성해야 합니다. 우리는 함수 `RNN(input_vec, weights, biases)`을 정의 할 수 있습니다. 이 함수는 placeholder와 변수를 입력 매개 변수로 받고, 그래프를 반환합니다. TensorFlow `rnn` 모듈도 가져왔습니다. [`rnn.BasicLTMCell`](https://www.tensorflow.org/api_docs/python/tf/contrib/rnn/BasicLSTMCell) 함수가 유용합니다. 아래 코드를 통해 RNN을 정의해보겠습니다.

In [20]:
def RNN(input_vec, weights, biases):
    """
    @param input_vec: (tf.placeholder) The input vector's placeholder
    @param weights: (tf.Variable) The weights variable
    @param biases: (tf.Variable) The bias variable
    @return: The RNN graph that will take in a tensor list of shape (batch_size, timesteps, input_size)
    and output tensors of shape (batch_size, output_size)
    """
    # First, use tf.unstack() to unstack the timesteps into (batch_size, n_input). 
    # Since we are unstacking the timesteps axis, we want to pass in 1 as the 
    #  axis argument and timesteps as the length argument
    input_vec = tf.unstack(input_vec, timesteps, 1)

    '''TODO: Use TensorFlow's rnn module to define a BasicLSTMCell. 
    Think about the dimensionality of the output state -- how many hidden states will the LSTM cell have?''' 
    lstm_cell = rnn.BasicLSTMCell(hidden_size) # TODO 

    # Now, we want to get the outputs and states from the LSTM cell.
    # We rnn's static_rnn function, as described here: 
    #  https://www.tensorflow.org/api_docs/python/tf/nn/static_rnn
    outputs, states = rnn.static_rnn(lstm_cell, input_vec, dtype=tf.float32)
    
    # Next, let's compute the hidden layer's transformation of the final output of the LSTM.
    # We can think of this as the output of our RNN, or as the activations of the final layer. 
    # Recall that this is just a linear operation: xW + b, where W is the set of weights and b the biases.
    '''TODO: Use TensorFlow operations to compute the hidden layer transformation of the final output of the LSTM'''
    recurrent_net = tf.matmul(outputs[-1], weights) + biases # TODO 
    
    # Lastly, we want to predict the next note, so we can use this later to generate a song. 
    # To do this, we generate a probability distribution over the possible notes, 
    #  by computing the softmax of the transformed final output of the LSTM.
    '''TODO: Use the TensorFlow softmax function to output a probability distribution over possible notes.'''
    prediction = tf.nn.softmax(recurrent_net) # TODO
    
    # All that's left is to return recurrent_net (the RNN output) and prediction (the softmax output)
    return recurrent_net, prediction

### 2.2.4 Loss, Training, and Accuracy Operations

우리는 여전히 네트워크에 대해 몇 가지 사항을 정의해야 합니다. 계산 그래프의 본문을 정의했지만 loss 연산, training 연산과 accuracy 함수가 필요합니다.

* Loss : 우리는 평균 [softmax cross entropy loss](https://www.tensorflow.org/versions/master/api_docs/python/tf/nn/softmax_cross_entropy_with_logits_v2)을 사용하여 RNN의 다음 음표에 대한 예측과 실제 다음 음표 간의 확률 에러를 측정합니다.
* Training : loss 연산을 정의한 후에는 손실을 최소화하기 위해 최적화 도구를 사용합니다.
* Accuracy : 네트워크에서 예측한 가장 가능성이 높은 다음 음표와 실제 다음 음표를 비교하여 정확성을 측정합니다. 

이제 나머지 구성 요소를 정의 할 수 있습니다!

In [21]:
logits, prediction = RNN(input_vec, weights, biases)

ValueError: Variable rnn/basic_lstm_cell/kernel already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at:

  File "<ipython-input-6-e671d5136e8d>", line 21, in RNN
    outputs, states = rnn.static_rnn(lstm_cell, input_vec, dtype=tf.float32)
  File "<ipython-input-7-685370dd760d>", line 1, in <module>
    logits, prediction = RNN(input_vec, weights, biases)
  File "/Users/jiho/.virtualenvs/gurus/lib/python3.6/site-packages/IPython/core/interactiveshell.py", line 2963, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)


In [None]:
# LOSS OPERATION:
'''TODO: Use TensorFlow to define the loss operation as the mean softmax cross entropy loss. 
TensorFlow has built-in functions for you to use. '''
loss_op = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(
    logits=logits, labels=output_vec))  # TODO 

In [None]:
# TRAINING OPERATION:
'''TODO: Define an optimizer for the training operation. 
Remember we have already set the `learning_rate` parameter.'''
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate) # TODO
train_op = optimizer.minimize(loss_op) 

In [None]:
# ACCURACY: We compute the accuracy in two steps.

# First, we need to determine the predicted next note and the true next note, across the training batch, 
#  and then determine whether our prediction was correct. 
# Recall that we defined the placeholder output_vec to contain the true next notes for each song snippet in the batch.
'''TODO: Write an expression to obtain the index for the most likely next note predicted by the RNN.'''
true_note = tf.argmax(output_vec,1)
pred_note = tf.argmax(prediction, 1) # TODO
correct_pred = tf.equal(pred_note, true_note)

# Next, we obtain a value for the accuracy. 
# We cast the values in correct_pred to floats, and use tf.reduce_mean
#  to figure out the fraction of these values that are 1's (1 = correct, 0 = incorrect)
accuracy_op = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

In [None]:
# INITIALIZER:
# Finally we create an initializer to initialize the variables we defined in Section 2.2.2
# We use TensorFlow's global_variables_initializer
init = tf.global_variables_initializer()

### 2.2.5 Training the RNN

이제 우리의 RNN 모델을 훈련 할 준비가 되었습니다! [`tf.InteractiveSession()`](https://www.tensorflow.org/api_docs/python/tf/InteractiveSession)을 사용하여 그래프를 실행하고 모델을 훈련합니다.

우리는 다음을 수행해야 합니다.

0. 세션 시작
1. 변수 초기화
2. 각 훈련 단계 :
  * 교육 배치 가져 오기 :
    * `batch_x` : 노래 스니펫 배치
    * `batch_y` : 배치에서 각 노래 스니펫에 대한 다음 음표
  * 배치를 통해 training 연산 실행
  * display step : 
    * 손실과 정확도를 계산하고 이러한 측정 항목을 출력

In [None]:
# 1) Launch the session
sess = tf.InteractiveSession()

# 2) Initialize the variables
sess.run(init)

# 3) Train!
display_step = 10 # how often to display progress
for step in range(training_steps):
    # GET BATCH
    # Add the line to get training data batch (see util.get_batch or whatever for args) FIX THIS !
    '''TODO: Fill in the function call to obtain a training data batch. 
    Hint: See the file util/create_dataset.py.'''
    batch_x, batch_y = get_batch(encoded_songs, batch_size, timesteps, input_size, output_size) # TODO
    
    # TRAINING: run the training operation with a feed_dict to fill in the placeholders
    '''TODO: Feed the training batch into the feed_dict.'''
    feed_dict = {
                    input_vec: batch_x, # TODO remove after colon
                    output_vec: batch_y # TODO remove after colon
                }
    sess.run(train_op, feed_dict=feed_dict)
    
    # DISPLAY METRICS
    if step % display_step == 0 or step == 1:
        # LOSS, ACCURACY: Compute the loss and accuracy by running both operations 
        loss, acc = sess.run([loss_op, accuracy_op], feed_dict=feed_dict)     
        suffix = "\nStep " + str(step) + ", Minibatch Loss= " + \
                 "{:.4f}".format(loss) + ", Training Accuracy= " + \
                 "{:.3f}".format(acc)

        print_progress(step, training_steps, barLength=50, suffix=suffix)

음악을 생성하기 위한 정확한 정확도 수준은 무엇입니까? 100%의 정확도는 모델이 데이터 세트의 모든 노래를 암기했으며 마음대로 재생할 수 있음을 의미합니다. 0%의 정확도는 랜덤 노이즈를 의미합니다. 

Gary Marcus의 말에 따르면 "순수하게 예측 가능하거나 완전히 예측할 수없는 음악은 일반적으로 불쾌한 것으로 간주됩니다. 지나치게 예상 범위 내에만 있으면 지루하고, 너무 예측할 수 없으면 귀에 거슬리게 됩니다."

경험적으로 `75%`와 `90%` 사이에서 좋은 결과를 얻었지만, 생성된 결과물을 직접 들어보고 직접 확인해야 합니다.

## 2.3 Music Generation

이제 우리는 훈련된 RNN 모델을 사용하여 음악을 만들 수 있습니다! 음악을 생성할 때 우리는 시작하기 위해 모델에 일종의 씨앗(feed)을 공급해야 합니다 (시작해야 할 것이 없으면 어떤 음표도 예측할 수 없기 때문에!).

생성된 시드가 있으면 우리는 훈련된 RNN을 사용하여 각 연속된 음표를 반복적으로 예측할 수 있습니다. 보다 구체적으로 말하면, RNN이 연속된 음표에 대한 확률 분포를 출력한다는 것을 상기하십시오. 추론을 위해, 우리는 이러한 분포로부터 반복적으로 샘플을 추출하고 샘플을 사용하여 생성된 노래를 인코딩합니다.

그런 다음 파일에 기록하여 듣기만하면 됩니다.

`/generated` 폴더에는 3 개의 예제 생성 파일이 있습니다. 이 예제를 생성하기 위해 다음 매개 변수를 사용하여 모델을 훈련했습니다. `hidden_size = 256`, `learning_rate = 0.001`, `training_steps = 2000`, `batch_size = 128`. 다른 매개 변수를 사용하여 더 나은 사운드 모델을 훈련 시키십시오!

In [None]:
import matplotlib.pyplot as plt

In [None]:
GEN_SEED_RANDOMLY = False # Use a random snippet as a seed for generating the new song.
if GEN_SEED_RANDOMLY:
    ind = np.random.randint(NUM_SONGS)
else:
    ind = 41 # "How Deep is Your Love" by Calvin Harris as a starting seed
    
gen_song = encoded_songs[ind][:timesteps].tolist() # TODO explore different (non-random) seed options
    
# generate music!
for i in range(500):
    seed = np.array([gen_song[-timesteps:]])
    # Use our RNN for prediction using our seed! 
    '''TODO: Write an expression to use the RNN to get the probability for the next note played based on the seed.
    Remember that we are now using the RNN for prediction, not training.'''
    predict_probs = sess.run(prediction, feed_dict = {input_vec:seed}) # TODO

    # Define output vector for our generated song by sampling from our predicted probability distribution
    played_notes = np.zeros(output_size)
    '''TODO: Sample from the predicted distribution to determine which note gets played next.
    You can use a function from the numpy.random library to do this.
    Hint 1: range(x) produces a list of all the numbers from 0 to x
    Hint 2: make sure predict_probs has the "shape" you expect. you may need to flatten it: predict_probs.flatten()'''
    #print(np.argmax(predict_probs[0]))
    plt.plot(predict_probs[0])
    sampled_note = np.random.choice(range(output_size), p=predict_probs[0]) # TODO
    #sampled_note = np.argmax(predict_probs[0])
    played_notes[sampled_note] = 1
    gen_song.append(played_notes)

noteStateMatrixToMidi(gen_song, name="generated/gen_song_0")
noteStateMatrixToMidi(encoded_songs[ind], name="generated/base_song_0")
print("saved generated song! seed ind: {}".format(ind))

## 2.4 What if We Didn't Train? 

훈련의 영향을 이해하고 네트워크의 진행 상태를 확인하려면 훈련받지 않은 모델로 음악이 어떻게 들리는지 확인하십시오.

이렇게 하려면 `training_steps = 0`으로 설정하고 위의 학습 셀을 다시 실행한 다음 추측 파이프 라인을 다시 실행하여 훈련을 받지 않은 모델로 노래를 생성하십시오.