## 用LSTM网络创作一首爵士小歌
欢迎来到本周最后的编程任务！在本次作业中，你将使用LSTM实现乐曲生成模型。你可以在作业结束时试听自己创作的音乐。

**你将学习**：
- 将LSTM应用于音乐生成。
- 通过深度学习生成自己的爵士乐曲。

请运行以下单元格以加载此作业中需要用到的软件包。这可能需要几分钟的时间。

import music21需要先创建镜像music21==5.7.1，或者!pip install music21
但是后者我试了，很容易就超时，所以推荐前者:
![image.png](attachment:image.png)

In [1]:
from __future__ import print_function
import IPython
import sys
from music21 import *
import numpy as np
from grammar import *
from qa import *
from preprocess import * 
from music_utils import *
from data_utils import *
from keras.models import load_model, Model
from keras.layers import Dense, Activation, Dropout, Input, LSTM, Reshape, Lambda, RepeatVector
from keras.initializers import glorot_uniform
from keras.utils import to_categorical
from keras.optimizers import Adam
from keras import backend as K

ModuleNotFoundError: No module named 'music21'

### 1 问题陈述
你想专门为朋友的生日创作一首爵士乐曲。但是，你不了解任何乐器或音乐作品。幸运的是，你懂得深度学习并且可以使用LSTM网络来尝试解决此问题。

你将训练一个网络，根据已表演作品的风格生成新颖的爵士小歌。



#### 1.1 数据集
你将在爵士乐曲语料库上训练算法。运行下面的单元格以试听训练集中的音频片段：

In [2]:
IPython.display.Audio('./data/30s_seq.mp3')

ValueError: could not convert string to float: './data/30s_seq.mp3'

我们已经对音乐数据进行了预处理，以根据音乐“value”呈现音乐数据。你可以将每个“值”视为一个音符，其中包括一个音调和一个持续时间。例如，如果你按下特定的钢琴键0.5秒钟，则你刚刚演奏了一个音符。在音乐理论中，“值”实际上比这复杂得多。具体来说，它还捕获同时演奏多个音符所需的信息。例如，演奏音乐作品时，你可以同时按下两个钢琴键（同时演奏多个音符会产生所谓的“和弦”）。但是我们不需要讨论音乐理论的过多细节。出于此作业的目的，你需要知道的是，我们将获取值的数据集，并将学习RNN模型以生成值序列。

我们的音乐生成系统将使用78个唯一值。运行以下代码以加载原始音乐数据并将其预处理为值。这可能需要几分钟。

In [4]:
X, Y, n_values, indices_values = load_music_utils()
print('shape of X:', X.shape)
print('number of training examples:', X.shape[0])
print('Tx (length of sequence):', X.shape[1])
print('total # of unique values:', n_values)
print('Shape of Y:', Y.shape)

NameError: name 'load_music_utils' is not defined

**输出结果**：

shape of X: (60, 30, 78)

number of training examples: 60

Tx (length of sequence): 30

total # of unique values: 78

Shape of Y: (30, 60, 78)

![image.png](attachment:image.png)

- 我：当前rnn时间步的输出y，会作为下一个rnn时间步的输入；所以说y等价于x。只是往左移动了一步。
- 我：78个维度，即一个独热向量，只有一个维度是1，其他的是0，表示当前时间步演奏的是什么音符。

#### 1.2 模型概述
这是我们将使用的模型结构。这与你在上一个笔记本中使用的Dinosaurus模型相似，不同之处在于你将用Keras实现它。架构如下：
![image.png](attachment:image.png)
- 我：这里说的“随机抽取30个值的片段来训练模型”，应该音乐数据集中随机抽很多个“30个值的片段”
- 我：用这个模型先学习权重，等模型学习完毕后，让y<t-1>=x<t>作为下一时间步的输入；这样就可以输入一个初始输入（常为0）后，让模型自动生成一段音乐。

### 2 建立模型
![image.png](attachment:image.png)
- 我：这里lstm隐藏层的意思，应该和神经网络的隐藏层的意思一样；隐藏层的维度应该就是隐藏层里神经元的个数。[参考文章](https://zhuanlan.zhihu.com/p/518848475)

In [7]:
n_a = 64 

![image.png](attachment:image.png)
- 我：这里共享权重的意思，应该是：一层lstm单元的权重是一样的，不同层lstm单元的权重可以不一样。

In [8]:
reshapor = Reshape((1, 78))                        # Used in Step 2.B of djmodel(), below
LSTM_cell = LSTM(n_a, return_state = True)         # Used in Step 2.C
densor = Dense(n_values, activation='softmax')     # Used in Step 2.D

NameError: name 'Reshape' is not defined

现在，reshapor, LSTM_cell 和 densor都是层对象，你可以使用它们来实现djmodel()。为了通过这些层传播Keras张量对象X，使用layer_object(X)（如果需要多个输入，则使用layer_object([X,Y])）。例如，reshapor(X)将通过上面定义的Reshape((1,78))层传播X。

**练习**：实现djmodel()，你需要执行2个步骤：

![image.png](attachment:image.png)

In [9]:
# GRADED FUNCTION: djmodel

def djmodel(Tx, n_a, n_values):
    """
    Implement the model
    
    Arguments:
    Tx -- length of the sequence in a corpus
    n_a -- the number of activations used in our model
    n_values -- number of unique values in the music data 
    
    Returns:
    model -- a keras model with the 
    """
    
    # Define the input of your model with a shape 
    X = Input(shape=(Tx, n_values))
    
    # Define s0, initial hidden state for the decoder LSTM
    a0 = Input(shape=(n_a,), name='a0')
    c0 = Input(shape=(n_a,), name='c0')
    a = a0
    c = c0
    
    ### START CODE HERE ### 
    # Step 1: Create empty list to append the outputs while you iterate (≈1 line)
    outputs = []
    
    # Step 2: Loop
    for t in range(Tx):
        
        # Step 2.A: select the "t"th time step vector from X. 
        x = Lambda(lambda x: X[:,t,:])(X)
        # Step 2.B: Use reshapor to reshape x to be (1, n_values) (≈1 line)
        x = reshapor(x)
        # Step 2.C: Perform one step of the LSTM_cell
        a, _, c = LSTM_cell(x, initial_state=[a, c])
        # Step 2.D: Apply densor to the hidden state output of LSTM_Cell
        out = densor(a)
        # Step 2.E: add the output to "outputs"
        outputs.append(out)
        
    # Step 3: Create model instance
    model = Model(inputs=[X,a0,c0],outputs=outputs)
    
    ### END CODE HERE ###
    
    return model

运行以下单元格以定义模型。我们将使用Tx=30, n_a=64（LSTM激活的维数）和n_values=78。该单元可能需要几秒钟才能运行。

In [10]:
model = djmodel(Tx = 30 , n_a = 64, n_values = 78)

NameError: name 'Input' is not defined

现在，你需要编译模型以进行训练。我们将使用Adam优化器和交叉熵熵损失。

In [11]:
opt = Adam(lr=0.01, beta_1=0.9, beta_2=0.999, decay=0.01)

model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])

NameError: name 'Adam' is not defined

最后，将LSTM的初始状态a0和c0初始化为零。

In [12]:
m = 60
a0 = np.zeros((m, n_a))
c0 = np.zeros((m, n_a))

NameError: name 'np' is not defined

现在让我们拟合模型！由于损失函数希望以每个时间步一个列表项的格式提供“Y”，因此我们需要将“Y”转换为列表。list(Y)是一个包含30个项的列表，其中每个列表项的维度均为（60,78）。让我们训练100个epoch。这将需要几分钟。
- 我：因为有30个时间步，所以这里列表有30个项；60是m也即是样本数；78是每个样本在每个时间步上用onehot表示的数据。

In [13]:
model.fit([X, a0, c0], list(Y), epochs=100)

NameError: name 'model' is not defined

**运行时的控制台打印：**

WARNING:tensorflow:From /opt/conda/lib/python3.6/site-packages/tensorflow/python/ops/math_ops.py:3066: to_int32 (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Use tf.cast instead.

Epoch 1/100
60/60 [==============================] - 24s 404ms/step - loss: 125.8794 - dense_1_loss: 0.0000e+00 - dense_1_acc: 0.0000e+00 - dense_1_acc_1: 0.0333 - dense_1_acc_2: 0.0333 - dense_1_acc_3: 0.0667 - dense_1_acc_4: 0.0667 - dense_1_acc_5: 0.0667 - dense_1_acc_6: 0.0000e+00 - dense_1_acc_7: 0.0500 - dense_1_acc_8: 0.0500 - dense_1_acc_9: 0.0333 - dense_1_acc_10: 0.0333 - dense_1_acc_11: 0.1000 - dense_1_acc_12: 0.0500 - dense_1_acc_13: 0.1000 - dense_1_acc_14: 0.0333 - dense_1_acc_15: 0.0833 - dense_1_acc_16: 0.0167 - dense_1_acc_17: 0.0667 - dense_1_acc_18: 0.1167 - dense_1_acc_19: 0.0333 - dense_1_acc_20: 0.0667 - dense_1_acc_21: 0.0667 - dense_1_acc_22: 0.0500 - dense_1_acc_23: 0.0333 - dense_1_acc_24: 0.0500 - dense_1_acc_25: 0.0667 - dense_1_acc_26: 0.0500 - dense_1_acc_27: 0.0500 - dense_1_acc_28: 0.0500 - dense_1_acc_29: 0.0000e+00                                                              

Epoch 2/100
60/60 [==============================] - 0s 3ms/step - loss: 122.5068 - dense_1_loss: 0.0000e+00 - dense_1_acc: 0.1000 - dense_1_acc_1: 0.2000 - dense_1_acc_2: 0.1500 - dense_1_acc_3: 0.1833 - dense_1_acc_4: 0.1833 - dense_1_acc_5: 0.0500 - dense_1_acc_6: 0.1000 - dense_1_acc_7: 0.0833 - dense_1_acc_8: 0.1333 - dense_1_acc_9: 0.1167 - dense_1_acc_10: 0.0833 - dense_1_acc_11: 0.0333 - dense_1_acc_12: 0.1000 - dense_1_acc_13: 0.0833 - dense_1_acc_14: 0.0833 - dense_1_acc_15: 0.1000 - dense_1_acc_16: 0.1167 - dense_1_acc_17: 0.0333 - dense_1_acc_18: 0.1500 - dense_1_acc_19: 0.1167 - dense_1_acc_20: 0.0833 - dense_1_acc_21: 0.0500 - dense_1_acc_22: 0.0833 - dense_1_acc_23: 0.1000 - dense_1_acc_24: 0.0333 - dense_1_acc_25: 0.1500 - dense_1_acc_26: 0.0667 - dense_1_acc_27: 0.0833 - dense_1_acc_28: 0.0500 - dense_1_acc_29: 0.0000e+00

Epoch 3/100
60/60 [==============================] - 0s 3ms/step - loss: 116.2530 - dense_1_loss: 0.0000e+00 - dense_1_acc: 0.1000 - dense_1_acc_1: 0.1667 - dense_1_acc_2: 0.1667 - dense_1_acc_3: 0.1167 - dense_1_acc_4: 0.1500 - dense_1_acc_5: 0.0667 - dense_1_acc_6: 0.0833 - dense_1_acc_7: 0.0667 - dense_1_acc_8: 0.1167 - dense_1_acc_9: 0.1000 - dense_1_acc_10: 0.0667 - dense_1_acc_11: 0.0167 - dense_1_acc_12: 0.0833 - dense_1_acc_13: 0.0833 - dense_1_acc_14: 0.0500 - dense_1_acc_15: 0.0833 - dense_1_acc_16: 0.1000 - dense_1_acc_17: 0.0167 - dense_1_acc_18: 0.1000 - dense_1_acc_19: 0.0667 - dense_1_acc_20: 0.0667 - dense_1_acc_21: 0.0500 - dense_1_acc_22: 0.0833 - dense_1_acc_23: 0.0833 - dense_1_acc_24: 0.0167 - dense_1_acc_25: 0.1167 - dense_1_acc_26: 0.0500 - dense_1_acc_27: 0.0667 - dense_1_acc_28: 0.0333 - dense_1_acc_29: 0.0000e+00        
。。。

你可以看到模型的损失逐渐减少。现在你已经训练好了一个模型，让我们继续最后一部分以实现推理算法并生成一些乐曲！

### 3 生成音乐
你现在拥有一个训练好的模型，该模型已经学习了许多爵士独奏。现在让我们使用此模型来合成新音乐。

#### 3.1 预测和采样
![image.png](attachment:image.png)
- 我：从图片可以看出来，模型第一个时间步预测了一个音符，然后把该音符作为下一个时间步的输入，类推预测。

在采样的每个步骤中，你将以LSTM先前状态的激活“a”和单元状态“c”作为输入，向前传播一步，并获得新的输出激活以及单元状态。然后，和之前一样使用densor通过新的激活a来生成输出。

首先，我们将初始化x0以及LSTM激活，并将单元值a0和c0初始化为零。

你将要构建一个函数来为你进行此推断。你的函数将采用你先前的模型以及你要采样的时间步长“Ty”。它将返回一个可以为你生成序列的keras模型。此外，该函数包含78个单位的密集层和激活函数。

**练习**：实现以下函数以采样一系列音乐值。这是在for循环内生成Ty输出字符需要实现的一些关键步骤：

步骤2.A：使用LSTM_Cell，它输入上一步的“c”和“a”来生成当前步骤的“c”和“a”。

步骤2.B：使用densor（先前定义）在“a”上计算softmax，以获取当前步骤的输出。

步骤2.C：将刚刚生成的输出添加到outputs中并保存。

步骤2.D：将x采样为“out”的独热向量（预测），以便将其传递到下一个LSTM步骤。我们已经提供了这行代码，其中使用了Lambda 函数。
```python
x = Lambda(one_hot)(out)
```

[说明：这行代码实际上不是使用out中的概率对值进行随机采样，而是在每个步骤中使用argmax选择最可能的单个注释。]

In [15]:
# GRADED FUNCTION: music_inference_model

def music_inference_model(LSTM_cell, densor, n_values = 78, n_a = 64, Ty = 100):
    """
    Uses the trained "LSTM_cell" and "densor" from model() to generate a sequence of values.
    
    Arguments:
    LSTM_cell -- the trained "LSTM_cell" from model(), Keras layer object
    densor -- the trained "densor" from model(), Keras layer object
    n_values -- integer, umber of unique values
    n_a -- number of units in the LSTM_cell
    Ty -- integer, number of time steps to generate
    
    Returns:
    inference_model -- Keras model instance
    """
    
    # Define the input of your model with a shape 
    x0 = Input(shape=(1, n_values))
    
    # Define s0, initial hidden state for the decoder LSTM
    a0 = Input(shape=(n_a,), name='a0')
    c0 = Input(shape=(n_a,), name='c0')
    a = a0
    c = c0
    x = x0

    ### START CODE HERE ###
    # Step 1: Create an empty list of "outputs" to later store your predicted values (≈1 line)
    outputs = []
    
    # Step 2: Loop over Ty and generate a value at every time step
    for t in range(Ty):
        
        # Step 2.A: Perform one step of LSTM_cell (≈1 line)
        a, _, c = LSTM_cell(x, initial_state=[a, c])
        
        # Step 2.B: Apply Dense layer to the hidden state output of the LSTM_cell (≈1 line)
        out = densor(a)

        # Step 2.C: Append the prediction "out" to "outputs". out.shape = (None, 78) (≈1 line)
        outputs.append(out)
        
        # Step 2.D: Select the next value according to "out", and set "x" to be the one-hot representation of the
        #           selected value, which will be passed as the input to LSTM_cell on the next step. We have provided 
        #           the line of code you need to do this. 
        x =  Lambda(one_hot)(out)
        
    # Step 3: Create model instance with the correct "inputs" and "outputs" (≈1 line)
    inference_model = Model(inputs=[x0,a0,c0],outputs=outputs)
    
    ### END CODE HERE ###
    
    return inference_model

运行下面的单元格以定义你的模型。该模型经过硬编码以生成50个值。

In [16]:
inference_model = music_inference_model(LSTM_cell, densor, n_values = 78, n_a = 64, Ty = 50)

NameError: name 'LSTM_cell' is not defined

- 我：这里设置ty主要是为了设定输出的时间步。我看tf的代码，lstm的时间步的个数就是用参数ty控制的，而不是手动设置lstm单元的个数之类的；而且一个lstm层是共享权重的，也就解释了为什么可以直接用ty控制for循环来构建lstm层，因为参数不需要变。

最后，创建零向量，你将使用它们初始化x和LSTM状态变量a和c。



In [17]:
x_initializer = np.zeros((1, 1, 78))
a_initializer = np.zeros((1, n_a))
c_initializer = np.zeros((1, n_a))

NameError: name 'np' is not defined

**练习**：实现predict_and_sample()。此函数接受许多参数，包括输入[x_initializer, a_initializer, c_initializer]。为了预测与此输入相对应的输出，你将需要执行3个步骤：

1.根据你的输入集，使用模型预测输出。输出pred应该是长度为20的列表，其中每个元素都是一个形状为(Ty, n_values)的numpy数组

2.将pred转换为Ty索引的numpy数组。通过使用pred列表中元素的argmax来计算每个对应的索引。Hint

3.将索引转换为独热向量表示。Hint

In [18]:
# GRADED FUNCTION: predict_and_sample

def predict_and_sample(inference_model, x_initializer = x_initializer, a_initializer = a_initializer, 
                       c_initializer = c_initializer):
    """
    Predicts the next value of values using the inference model.
    
    Arguments:
    inference_model -- Keras model instance for inference time
    x_initializer -- numpy array of shape (1, 1, 78), one-hot vector initializing the values generation
    a_initializer -- numpy array of shape (1, n_a), initializing the hidden state of the LSTM_cell
    c_initializer -- numpy array of shape (1, n_a), initializing the cell state of the LSTM_cel
    
    Returns:
    results -- numpy-array of shape (Ty, 78), matrix of one-hot vectors representing the values generated
    indices -- numpy-array of shape (Ty, 1), matrix of indices representing the values generated
    """
    
    ### START CODE HERE ###
    # Step 1: Use your inference model to predict an output sequence given x_initializer, a_initializer and c_initializer.
    pred =  inference_model.predict([x_initializer,a_initializer,c_initializer])
    # Step 2: Convert "pred" into an np.array() of indices with the maximum probabilities
    indices = np.argmax(pred, axis = -1)
    # Step 3: Convert indices to one-hot vectors, the shape of the results should be (1, )
    results = to_categorical(indices,num_classes=78)
    ### END CODE HERE ###
    
    return results, indices


NameError: name 'x_initializer' is not defined

- 我：可以看到，a和c的维度一样，也正对应了用c去记忆a。

In [19]:
results, indices = predict_and_sample(inference_model, x_initializer, a_initializer, c_initializer)
print("np.argmax(results[12]) =", np.argmax(results[12]))
print("np.argmax(results[17]) =", np.argmax(results[17]))
print("list(indices[12:18]) =", list(indices[12:18]))

NameError: name 'predict_and_sample' is not defined

**预期输出**：

由于Keras的结果并非完全可预测，因此你的结果可能会有所不同。但是，如果你如上所述用model.fit()将LSTM_cell训练了正好100次迭代，那么你很有可能会观察到一系列不完全相同的索引。此外，你应该注意：np.argmax（results [12]）是list（indices [12:18]）的第一个元素，np.argmax（results [17]）是list（indices[12:18]的最后一个元素）。

np.argmax（results [12]）= 32

np.argmax（results [17]）= 31

list（indices [12:18]）= [array（[32]），array（[31]），array（[20]），array（[42]），array（[32]），array（[31 ]）]

#### 3.3 生成音乐
最后，你准备好生成音乐了。你的RNN会生成一个值序列。以下代码首先通过调用你的predict_and_sample()函数来生成音乐。然后，将这些值后期处理为和弦（意味着可以同时演奏多个值或音符）。

大多数计算音乐算法都使用某些后期处理，因为没有这种后期处理很难生成听起来不错的音乐。后期处理通过诸如确保相同的声音不会重复太多，两个连续的音符彼此之间的音高相距不远等来处理生成的音频。可能有人争辩说，这些后期处理步骤中有很多都是黑客。同样，很多音乐生成文学也集中于手工制作后处理器，并且许多输出质量取决于后期处理的质量，而不仅仅是RNN的质量。但是这种后期处理的确有很大的不同，因此在我们的实现中也试着使用它。

让我们开始尝试制作音乐吧！

运行以下单元格来生成音乐并将其记录到你的out_stream中。这可能需要几分钟。

In [20]:
out_stream = generate_music(inference_model)

NameError: name 'generate_music' is not defined

要试听音乐，请单击File->Open...，然后转到"output/" 并下载 "my_music.midi"。你可以使用可读取Midi文件的应用程序在计算机上播放该文件，也可以使用免费在线转换工具"MIDI to mp3"将其转换为mp3。

作为参考，下面我们使用此算法生成的30秒音频剪辑。

In [21]:
IPython.display.Audio('./data/30s_trained_model.mp3')

ValueError: could not convert string to float: './data/30s_trained_model.mp3'

恭喜！你已经到了此笔记本的结尾部分。

这是你应该记住的：
- 序列模型可用于生成音乐值，然后将其后处理为Midi音乐。
- 可以使用非常相似的模型来生成恐龙名称或生成音乐，主要区别是模型的输入。
- 在Keras中，序列生成包括定义具有共享权重的网络层，然后在不同的时间步 1，...，Tx 中重复这些步骤。

最后恭喜你完成此任务并创作了一首爵士小歌！

**参考**

本笔记本中提出的想法内容主要来自以下引用的三篇论文。这里的实现也受到了很多启发，并使用了Ji-Sung Kim的github存储库中的许多组件。

- Ji-Sung Kim, 2016, deepjazz
- Jon Gillick, Kevin Tang and Robert Keller, 2009. Learning Jazz Grammars
- Robert Keller and David Morrison, 2007, A Grammatical Approach to Automatic Improvisation
- François Pachet, 1999, Surprising Harmonies

我们也感谢FrançoisGermain的宝贵反馈。