### WEEK 15

2024/07/15 - 2024/07/21

## 深度学习 C5_W1

### 1. 基本 RNN 的结构
- **循环神经网络（RNN）**是一种适用于处理序列数据的神经网络架构。
- **结构**：
  - 每个时间步的输入不仅包括当前输入，还包括前一个时间步的输出。
  - 公式表示：$ h_t = f(W_h \cdot h_{t-1} + W_x \cdot x_t + b)$，其中$h_t $是隐藏状态，$x_t $是输入，$ W_h $和$ W_x $是权重矩阵，$b$是偏置

- **代码示例**：

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense

# 生成样本数据
data = np.random.random((1000, 10, 1))  # 1000个样本，每个样本10个时间步，每个时间步1个特征
labels = np.random.randint(2, size=(1000, 1))  # 二分类标签

# 构建RNN模型
model = Sequential()
model.add(SimpleRNN(32, input_shape=(10, 1)))  # RNN层，输出维度32
model.add(Dense(1, activation='sigmoid'))  # 输出层，二分类

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(data, labels, epochs=10, batch_size=32)
```

### 2. 使用 RNN 建立字符级文本生成模型
- **字符级文本生成**：
  - 输入：一段文本数据，将其分割为字符。
  - 模型：使用RNN来预测序列中的下一个字符。
  - 训练：通过反向传播算法更新RNN的权重。

- **代码示例**：

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense, Activation

# 生成字符数据
text = "hello world"
chars = sorted(list(set(text)))
char_indices = {c: i for i, c in enumerate(chars)}
indices_char = {i: c for i, c in enumerate(chars)}

# 准备训练数据
maxlen = 4  # 时间步长度
X = []
y = []
for i in range(len(text) - maxlen):
    X.append([char_indices[c] for c in text[i:i + maxlen]])
    y.append(char_indices[text[i + maxlen]])

X = np.reshape(X, (len(X), maxlen, 1))
X = X / float(len(chars))
y = tf.keras.utils.to_categorical(y, num_classes=len(chars))

# 构建RNN模型
model = Sequential()
model.add(SimpleRNN(32, input_shape=(maxlen, 1)))
model.add(Dense(len(chars)))
model.add(Activation('softmax'))

# 编译模型
model.compile(optimizer='adam', loss='categorical_crossentropy')

# 训练模型
model.fit(X, y, epochs=20, batch_size=32)

# 生成文本
start_index = 0
generated = ''
sentence = text[start_index: start_index + maxlen]
for i in range(50):
    x_pred = np.zeros((1, maxlen, 1))
    for t, char in enumerate(sentence):
        x_pred[0, t, 0] = char_indices[char]

    preds = model.predict(x_pred, verbose=0)[0]
    next_index = np.argmax(preds)
    next_char = indices_char[next_index]

    generated += next_char
    sentence = sentence[1:] + next_char

print(generated)
```

### 3. RNN 中的梯度消失/爆炸问题及解决
- **梯度消失/爆炸**：
  - 由于RNN的递归性质，梯度在反向传播时可能会指数级衰减或增长。
  - 梯度消失：梯度变得非常小，导致模型难以训练。
  - 梯度爆炸：梯度变得非常大，导致权重更新不稳定。
- **解决方法**：
  - **梯度裁剪**：限制梯度的最大值，使其在合理范围内。
  - **长短期记忆网络（LSTM）和门控循环单元（GRU）**：特殊的RNN架构，通过引入门控机制，缓解梯度消失和爆炸问题。

- **代码示例（梯度裁剪）**：

```python
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense

# 构建RNN模型
model = Sequential()
model.add(SimpleRNN(32, input_shape=(10, 1)))
model.add(Dense(1, activation='sigmoid'))

# 编译模型，添加梯度裁剪
optimizer = tf.keras.optimizers.Adam(clipnorm=1.0)
model.compile(optimizer=optimizer, loss='binary_crossentropy', metrics=['accuracy'])

# 生成样本数据
data = np.random.random((1000, 10, 1))
labels = np.random.randint(2, size=(1000, 1))

# 训练模型
model.fit(data, labels, epochs=10, batch_size=32)
```

### 4. GRU
- **门控循环单元（GRU）**：
  - GRU是一种改进的RNN，具有更新门和重置门。
  - **更新门**：控制隐藏状态的更新比例。
  - **重置门**：控制如何结合新输入和前一隐藏状态。

- **代码示例**：

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import GRU, Dense

# 生成样本数据
data = np.random.random((1000, 10, 1))
labels = np.random.randint(2, size=(1000, 1))

# 构建GRU模型
model = Sequential()
model.add(GRU(32, input_shape=(10, 1)))
model.add(Dense(1, activation='sigmoid'))

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(data, labels, epochs=10, batch_size=32)
```

### 5. 基本LSTM
- **长短期记忆网络（LSTM）**：
  - LSTM通过引入输入门、遗忘门和输出门，解决了标准RNN中的梯度问题。

- **代码示例**：

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# 生成样本数据
data = np.random.random((1000, 10, 1))
labels = np.random.randint(2, size=(1000, 1))

# 构建LSTM模型
model = Sequential()
model.add(LSTM(32, input_shape=(10, 1)))
model.add(Dense(1, activation='sigmoid'))

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(data, labels, epochs=10, batch_size=32)
```

### 6. 双向LSTM
- **双向LSTM**：
  - 在时间序列的两个方向上（前向和后向）同时训练LSTM，有助于捕捉双向的时间依赖性，提升模型性能。

- **代码示例**：

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Bidirectional, LSTM, Dense

# 生成样本数据
data = np.random.random((1000, 10, 1))
labels = np.random.randint(2, size=(1000, 1))

# 构建双向LSTM模型
model = Sequential()
model.add(Bidirectional(LSTM(32), input_shape=(10, 1)))
model.add(Dense(1, activation='sigmoid'))

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(data, labels, epochs=10, batch_size=32)
```

### 7. LSTM 应用于音乐生成任务
- **音乐生成任务**：
  - 使用LSTM生成音乐序列，通过训练模型学习音乐的时间依赖性和模式。

- **代码示例**：

```python
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# 生成样本音乐数据（假设每个音符表示为一个整数）
music_data = np.random.randint(100, size=(1000, 10, 1))  # 1000个样本，每个样本10个音符，每个音符一个特征

# 构建LSTM模型
model = Sequential()
model.add(LSTM(128, input_shape=(10, 1), return_sequences=True))
model.add(LSTM

(128))
model.add(Dense(100, activation='softmax'))  # 假设有100种不同的音符

# 编译模型
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
labels = np.random.randint(100, size=(1000, 1))  # 音符标签
model.fit(music_data, labels, epochs=50, batch_size=64)

# 生成音乐
start_index = 0
generated = []
sequence = music_data[start_index]
for i in range(50):
    x_pred = np.expand_dims(sequence, axis=0)
    preds = model.predict(x_pred, verbose=0)[0]
    next_index = np.argmax(preds)
    generated.append(next_index)
    next_note = np.array([next_index]).reshape(1, 1, 1)
    sequence = np.concatenate((sequence[1:], next_note), axis=0)

print(generated)
```

### 8. 音乐生成任务的详细步骤

#### 数据预处理
- **步骤**：
  1. **收集和清洗数据**：收集MIDI文件，解析并提取音符信息。
  2. **序列化数据**：将音符序列化，转换为模型可以处理的格式。
  3. **标准化和归一化**：对数据进行归一化处理。

- **代码示例**：

```python
from music21 import converter, instrument, note, chord
import numpy as np

def parse_midi(file):
    notes = []
    midi = converter.parse(file)
    parts = instrument.partitionByInstrument(midi)
    if parts:  # 文件有多部分
        notes_to_parse = parts.parts[0].recurse()
    else:
        notes_to_parse = midi.flat.notes

    for element in notes_to_parse:
        if isinstance(element, note.Note):
            notes.append(str(element.pitch))
        elif isinstance(element, chord.Chord):
            notes.append('.'.join(str(n) for n in element.normalOrder))

    return notes

# 解析多个MIDI文件
midi_files = ["file1.mid", "file2.mid"]
all_notes = []
for file in midi_files:
    notes = parse_midi(file)
    all_notes.extend(notes)

# 序列化
unique_notes = sorted(set(all_notes))
note_to_int = {note: number for number, note in enumerate(unique_notes)}
int_to_note = {number: note for number, note in enumerate(unique_notes)}

# 转换为整数序列
int_notes = [note_to_int[note] for note in all_notes]
```

#### 构建输入和标签
- **步骤**：
  1. **创建输入序列和目标序列**：根据序列长度创建输入和目标序列。
  2. **转换为模型可接受的格式**：将数据转换为LSTM模型可以处理的格式。

- **代码示例**：

```python
sequence_length = 100
X = []
y = []

for i in range(0, len(int_notes) - sequence_length, 1):
    sequence_in = int_notes[i:i + sequence_length]
    sequence_out = int_notes[i + sequence_length]
    X.append(sequence_in)
    y.append(sequence_out)

X = np.reshape(X, (len(X), sequence_length, 1))
X = X / float(len(unique_notes))
y = np.eye(len(unique_notes))[y]  # one-hot 编码
```

#### 构建LSTM模型
- **步骤**：
  1. **定义模型架构**：创建LSTM层、Dropout层和Dense层。
  2. **编译模型**：选择合适的优化器和损失函数。

- **代码示例**：

```python
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dropout, Dense, Activation

model = Sequential()
model.add(LSTM(256, input_shape=(X.shape[1], X.shape[2]), return_sequences=True))
model.add(Dropout(0.3))
model.add(LSTM(256, return_sequences=True))
model.add(Dropout(0.3))
model.add(LSTM(256))
model.add(Dense(len(unique_notes)))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam')

# 训练模型
model.fit(X, y, epochs=50, batch_size=64)
```

#### 生成音乐
- **步骤**：
  1. **选择种子序列**：从训练数据中选择种子序列。
  2. **生成音符**：使用训练好的模型预测下一个音符，逐步生成音符序列。
  3. **将整数序列转换回音符**：将生成的整数序列转换回音符。

- **代码示例**：

```python
import random

# 选择种子序列
start_index = np.random.randint(0, len(int_notes) - sequence_length - 1)
seed = int_notes[start_index:start_index + sequence_length]
generated = seed[:]

for i in range(200):  # 生成200个音符
    x_pred = np.reshape(seed, (1, len(seed), 1))
    x_pred = x_pred / float(len(unique_notes))

    preds = model.predict(x_pred, verbose=0)[0]
    next_index = np.argmax(preds)
    generated.append(next_index)

    seed = seed[1:]
    seed.append(next_index)

# 转换回音符
generated_notes = [int_to_note[index] for index in generated]

# 输出生成的音符序列
print(generated_notes)
```

#### 保存生成的音乐
- **步骤**：
  1. **创建MIDI流对象**：使用`music21`库创建MIDI流对象。
  2. **将音符添加到MIDI流中**：逐个音符添加到MIDI流中。
  3. **保存MIDI文件**：将MIDI流保存为文件。

- **代码示例**：

```python
from music21 import stream, note, chord

output_notes = []

for pattern in generated_notes:
    if '.' in pattern or pattern.isdigit():
        notes_in_chord = pattern.split('.')
        notes = []
        for current_note in notes_in_chord:
            new_note = note.Note(int(current_note))
            new_note.storedInstrument = instrument.Piano()
            notes.append(new_note)
        new_chord = chord.Chord(notes)
        output_notes.append(new_chord)
    else:
        new_note = note.Note(pattern)
        new_note.storedInstrument = instrument.Piano()
        output_notes.append(new_note)

midi_stream = stream.Stream(output_notes)
midi_stream.write('midi', fp='generated_music.mid')
```
