In [15]:
# 导入所需的库
import os
import torch
import torch.nn as nn
import torch.optim as optim
import librosa
import music21
import wave # 导入 wave 模块
import numpy as np # 导入 numpy 模块

# 定义神经网络模型
class MusicModel(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(MusicModel, self).__init__()
        self.rnn = nn.GRU(input_size, hidden_size, batch_first=True) # 只使用一个循环层

    def forward(self, x):
        x, _ = self.rnn(x) # 循环层的输出就是音符序列和乐谱信息标签
        return x

# 定义一些超参数
input_size = 128 # 梅尔频谱特征的维度
hidden_size = 128 # 隐藏层的维度（和输出层的维度相同）
batch_size = 32 # 批量大小
num_epochs = 10 # 训练轮数
learning_rate = 0.001 # 学习率

# 创建模型实例，并定义损失函数和优化器
model = MusicModel(input_size, hidden_size)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# 定义一个函数，用于将wav文件转换为梅尔频谱特征
def wav_to_mel(wav_file):
    # 打开 wav 文件
    wf = wave.open(wav_file, 'rb')
    # 获取采样率
    sr = wf.getframerate()
    # 获取数据的字节数
    nbytes = wf.getsampwidth()
    # 获取数据的帧数
    nframes = wf.getnframes()
    # 读取所有的数据
    data = wf.readframes(nframes)
    # 关闭 wav 文件
    wf.close()
    # 将 data 转换为 numpy 数组
    # 获取 data 的字节大小
    data_size = len(data)
    # 获取 np.float32 的字节大小
    dtype_size = np.dtype(np.float32).itemsize
    # 计算 data 的字节大小和 np.float32 的字节大小的余数
    remainder = data_size % dtype_size
    # 如果余数不为0，说明 data 的字节大小和 np.float32 的字节大小不是整数倍关系
    if remainder != 0:
        # 将 data 的字节大小减去余数，使其成为整数倍关系
        data = data[:-remainder]
    # 将 data 转换为 numpy 数组，指定数据类型为 np.float32
    y = np.frombuffer(data, dtype=np.float32)
    # 根据 nbytes 的值，选择合适的数据类型
    if nbytes == 2:
        y = y.astype(np.float32) # 这里改为 np.float32，而不是 np.int16
    elif nbytes == 4:
        y = y.astype(np.float32) # 这里不需要改变数据类型
    # 检查 y 中是否有无穷大或者非数字的值
    if not np.isfinite(y).all():
        # 将无穷大或者非数字的值替换为有限的值
        y = np.nan_to_num(y)
    # 提取梅尔频谱特征
    mel = librosa.feature.melspectrogram(y=y, sr=sr) # 这里用关键字参数，而不是位置参数
    # 将功率谱转换为分贝值
    mel = librosa.power_to_db(mel)
    # 将numpy数组转换为张量
    mel = torch.from_numpy(mel).float()
    return mel

# 定义一个函数，用于将musicxml文件转换为音符序列和乐谱信息标签
def xml_to_notes_and_tags(xml_file):
    score = music21.converter.parse(xml_file) # 加载musicxml文件
    notes = [] # 存储音符序列的列表
    tags = [] # 存储乐谱信息标签的列表
    key = None # 存储当前的调号
    clef = None # 存储当前的谱号
    time = None # 存储当前的拍号
    tempo = None # 存储当前的拍速
    for element in score.flat: # 遍历乐谱中的所有元素
        if isinstance(element, music21.key.Key): # 如果是调号，就更新当前的调号，并添加到标签列表中
            key = element
            tags.append(f"K:{key.tonic.name}{key.mode}")
        elif isinstance(element, music21.clef.Clef): # 如果是谱号，就更新当前的谱号，并添加到标签列表中
            clef = element
            tags.append(f"C:{clef.sign}{clef.line}")
        elif isinstance(element, music21.meter.TimeSignature): # 如果是拍号，就更新当前的拍号，并添加到标签列表中
            time = element
            tags.append(f"T:{time.ratioString}")
        elif isinstance(element, music21.tempo.MetronomeMark): # 如果是拍速，就更新当前的拍速，并添加到标签列表中
            tempo = element
            tags.append(f"M:{tempo.number}")
        elif isinstance(element, music21.note.Note): # 如果是音符，就获取其音高和时值，并添加到音符列表中
            pitch = element.pitch.midi # 音高（以MIDI数字表示）
            duration = element.duration.quarterLength # 时值（以四分音符为单位）
            notes.append((pitch, duration))
    notes = [(pitch, float(duration)) for pitch, duration in notes] # 将时值转换为浮点数
    notes = torch.tensor(notes) # 将音符列表转换为张量
    ttags = [torch.tensor([int(x) for x in tag.split()]) for tag in tags] # 将标签字符串转换为张量
    return notes, tags # 返回音符序列和乐谱信息标签

# 定义一个函数，用于将音符序列和乐谱信息标签一起转换为musicxml文件
def notes_and_tags_to_xml(notes, tags, xml_file):
    score = music21.stream.Score() # 创建一个空的乐谱对象
    part = music21.stream.Part() # 创建一个空的声部对象
    i = 0 # 标签序列的索引
    for note in notes: # 遍历音符序列中的每个音符
        pitch = note[0] # 获取音高
        duration = note[1] # 获取时值
        n = music21.note.Note() # 创建一个音符对象
        n.pitch.midi = pitch # 设置音高
        n.duration.quarterLength = duration # 设置时值
        if i < len(tags): # 如果还有标签，就检查是否需要添加乐谱信息
            tag = tags[i] # 获取当前的标签
            if tag.startswith("K:"): # 如果是调号，就创建一个调号对象，并添加到声部中
                key = music21.key.Key(tag[2:])
                part.append(key)
            elif tag.startswith("C:"): # 如果是谱号，就创建一个谱号对象，并添加到声部中
                clef = music21.clef.Clef(tag[2:])
                part.append(clef)
            elif tag.startswith("T:"): # 如果是拍号，就创建一个拍号对象，并添加到声部中
                time = music21.meter.TimeSignature(tag[2:])
                part.append(time)
            elif tag.startswith("M:"): # 如果是拍速，就创建一个拍速对象，并添加到声部中
                tempo = music21.tempo.MetronomeMark(number=int(tag[2:]))
                part.append(tempo)
            i += 1 # 更新标签序列的索引
        part.append(n) # 将音符添加到声部中
    score.append(part) # 将声部添加到乐谱中
    score.write('musicxml', xml_file) # 将乐谱写入musicxml文件 # 将乐谱写入musicxml文件，并返回文件名
    return xml_file

# 定义一个函数，用于加载数据集
def load_data(wav_files, xml_files):
    inputs = [] # 存储输入特征的列表
    outputs = [] # 存储输出标签的列表
    for wav_file, xml_file in zip(wav_files, xml_files): # 遍历每一对wav和xml文件
        mel = wav_to_mel(wav_file) # 将wav文件转换为梅尔频谱特征
        notes, tags = xml_to_notes_and_tags(xml_file) # 将xml文件转换为音符序列和乐谱信息标签
        inputs.append(mel) # 将特征添加到输入列表中
        outputs.append(tags) # 将标签添加到输出列表中
    inputs = torch.nn.utils.rnn.pad_sequence(inputs, batch_first=True) # 对输入特征进行填充，使其具有相同的长度
    outputs = torch.nn.utils.rnn.pad_sequence(outputs, batch_first=True) # 对输出标签进行填充，使其具有相同的长度
    return inputs, outputs # 返回输入特征和输出标签

# 定义一个函数，用于训练模型
def train_model(wav_files, xml_files):
    # 加载数据集
    inputs, outputs = load_data(wav_files, xml_files)
    # 训练模型
    for epoch in range(num_epochs):
        total_loss = 0.0
        for i in range(0, len(inputs), batch_size):
            x = inputs[i:i+batch_size]
            y = outputs[i:i+batch_size]
            y_pred = model(x) # 循环层的输出就是音符序列和乐谱信息标签
            y_pred = y_pred.reshape(-1, hidden_size) # 将预测值展平为二维张量
            y = y.reshape(-1) # 将标签展平为一维张量
            loss = criterion(y_pred, y) # 计算交叉熵损失
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        print(f"Epoch {epoch+1}, Loss: {total_loss:.4f}")
    # 保存模型
    torch.save(model, "model.pth")
    print("模型训练完成，已保存为model.pth")
# 定义一个函数，用于测试模型
def test_model(wav_file, xml_file):
    # 加载模型
    model = torch.load("model.pth")
    # 将wav文件转换为梅尔频谱特征
    mel = wav_to_mel(wav_file)
    mel = mel.unsqueeze(0)
    # 通过模型得到音符序列和乐谱信息标签
    y_pred = model(mel)
    # 循环层的输出就是音符序列和乐谱信息标签
    y_pred = y_pred.squeeze(0)  # 在批次维度上去掉一个维度
    notes = y_pred[:, :output_size]  # 取前output_size列作为音符序列
    tags = y_pred[:, output_size:]  # 取后num_tags列作为乐谱信息标签
    notes = notes.argmax(1)  # 取每一行的最大值作为音符序列的标签（这里假设输出是one-hot编码的）
    tags = tags.argmax(1)  # 取每一行的最大值作为乐谱信息标签的标签（这里假设输出是one-hot编码的）
    # 将音符序列和标签序列转换为musicxml文件，并保存到指定的文件名
    notes_and_tags_to_xml(notes, tags, xml_file)
    print(f"音乐生成完成，已保存为{xml_file}")

# 运行程序
if __name__ == "__main__":
    # 询问用户是要训练模型还是测试模型
    mode = input("请选择你要进行的操作：\n1. 训练模型\n2. 测试模型\n")
    if mode == "1":
        # 如果选择训练模型
        # 询问用户输入wav文件的路径
        wav_path = input("请输入wav文件的路径：\n")
        # 询问用户输入xml文件的路径
        xml_path = input("请输入xml文件的路径：\n")
        # 获取wav文件和xml文件的列表
        wav_files = [os.path.join(wav_path, f) for f in os.listdir(wav_path) if f.endswith(".wav")]
        xml_files = [os.path.join(xml_path, f) for f in os.listdir(xml_path) if f.endswith(".musicxml")]
        # 调用训练模型的函数
        train_model(wav_files, xml_files)
    elif mode == "2":
        # 如果选择测试模型
        # 询问用户输入wav文件的文件名
        wav_file = input("请输入wav文件的文件名：\n")
        # 询问用户输入xml文件的文件名
        xml_file = input("请输入xml文件的文件名：\n")
        # 调用测试模型的函数
        test_model(wav_file, xml_file)
    else:
        # 如果选择其他选项
        # 提示用户输入无效
        print("输入无效，请重新运行程序。")

请选择你要进行的操作：
1. 训练模型
2. 测试模型
1
请输入wav文件的路径：
E:\1RS\模型\wave
请输入xml文件的路径：
E:\1RS\模型\musicxml


  notes, tags = xml_to_notes_and_tags(xml_file) # 将xml文件转换为音符序列和乐谱信息标签


ValueError: invalid literal for int() with base 10: 'C:G2'