# Proyecto Final de Deep Learning: Desenvolviendo el Sonido en la Universidad del Valle de Guatemala

> Este trabajo se basa en distintos proyectos de separación de audio, como por ejemplo el proyecto [Music Source Separation](https://github.com/andabi/music-source-separation) desarrollado durante el [Jeju Machine Learning Camp 2017](http://mlcampjeju.kakao.com). Sin embargo, han servido como base y han sido extensamente modificados y mejorados como parte del proyecto final para la Universidad del Valle de Guatemala por Ale Gómez, Michy Solano, Andrea Lam, Chris García, Gabo Vicente y Rodri Barrera.

## Introducción 🎵

La separación de fuentes musicales es una tarea esencial en el procesamiento de señales de audio, que se centra en separar diferentes componentes de una canción, como la voz y los instrumentos. Este proyecto busca mejorar la arquitectura y la eficacia del modelo inicial propuesto en el repositorio base, explorando técnicas avanzadas en redes neuronales y procesamiento de señales.


### Comparativas con Herramientas Existentes:

- Comparación de rendimiento con herramientas existentes como Splitter AI, validando las mejoras implementadas y proporcionando un benchmark sobre el estado del arte.

## Evaluación y Métricas 📊

- Utilización de métricas estándar en la tarea de separación de fuentes como SDR, SIR y SAR, además de otras métricas relevantes como la precisión y la recall en la detección de componentes vocales e instrumentales.
- Documentación meticulosa de los resultados obtenidos, incluyendo visualizaciones de espectrogramas y comparativas cualitativas.




## Referencias 📚

1. Zhe-Cheng Fan, Tak-Shing T. Chan, Yi-Hsuan Yang, and Jyh-Shing R. Jang, "[Music Signal Processing Using Vector Product
Neural Networks](http://mac.citi.sinica.edu.tw/~yang/pub/fan17dlm.pdf)", Proc. of the First Int. Workshop on Deep Learning and Music joint with IJCNN, May, 2017
2. P.-S. Huang, M. Kim, M. Hasegawa-Johnson, P. Smaragdis, "[Joint Optimization of Masks and Deep Recurrent Neural Networks for Monaural Source Separation](http://paris.cs.illinois.edu/pubs/huang-ismir2014.pdf)", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 12, pp. 2136–2147, Dec. 2015
3. P.-S. Huang, M. Kim, M. Hasegawa-Johnson, P. Smaragdis, "[Singing-Voice Separation From Monaural Recordings Using Deep Recurrent Neural Networks](https://posenhuang.github.io/papers/DRNN_ISMIR2014.pdf)" in International Society for Music Information Retrieval Conference (ISMIR) 2014.
4. Tohru Nitta, "[A backpropagation algorithm for neural networks based an 3D vector product. In Proc. IJCNN](https://staff.aist.go.jp/tohru-nitta/IJCNN93-VP.pdf)", Proc. of IJCAI, 2007.

### Base del modelo:

- 3 capas RNN
- 2 capas Dense

----------


Instrucciones de uso:

Agregar paths correctamente en la sección de "Configuración"
Correr el notebook

## Comprensión del Audio y su Importancia en el Modelo

El audio es una señal temporal que contiene información sobre las frecuencias que lo componen. Para que un modelo de Deep Learning pueda procesar y entender estas señales, es crucial transformarlas de su forma temporal a una representación que destaque sus características distintivas. Aquí es donde los espectrogramas juegan un papel fundamental.

### Espectrogramas: Visualización de la Información de Frecuencia

Los espectrogramas son representaciones bidimensionales del espectro de frecuencias de una señal de audio a lo largo del tiempo. Permiten visualizar cómo varían las intensidades de las distintas frecuencias, lo que es esencial para identificar y separar las fuentes de sonido en una grabación musical.

#### ¿Por qué son importantes los espectrogramas?

1. **Descomposición de Frecuencias**: Los espectrogramas descomponen la señal de audio en sus componentes de frecuencia, lo que facilita la identificación de patrones únicos de cada fuente de sonido, como los instrumentos o la voz.
2. **Análisis Temporal**: Al observar un espectrograma, se puede entender cómo las frecuencias cambian con el tiempo, lo que es crucial para modelos que necesitan procesar secuencias temporales.
3. **Preprocesamiento para la Red Neuronal**: Antes de alimentar el audio al modelo, los espectrogramas sirven como una etapa de preprocesamiento que convierte las señales de audio en un formato más adecuado para el análisis por parte de redes neuronales.



## Añadiendo la Visualización de Espectrogramas al Proceso de Evaluación

La visualización de espectrogramas puede ser una herramienta poderosa para evaluar la eficacia de nuestro modelo. Al comparar los espectrogramas de las señales originales y las señales separadas, podemos obtener una visión clara de cómo el modelo está funcionando.

### Pasos para la Integración de Espectrogramas en la Evaluación

1. **Generación de Espectrogramas**: Implementar un código que genere espectrogramas tanto de la mezcla original como de las pistas separadas.
2. **Comparación Visual**: Establecer un método de comparación visual que permita identificar diferencias y similitudes entre los espectrogramas.
3. **Correlación con Métricas de Rendimiento**: Relacionar las observaciones visuales con las métricas de rendimiento del modelo, como el SDR (Ratio de Distorsión de la Fuente), para tener una evaluación más completa.

### Ejemplo de Código para Generar Espectrogramas

Aquí incluiremos un fragmento de código que ejemplifique cómo generar y visualizar espectrogramas utilizando librerías como librosa o matplotlib en Python.



In [521]:
import os
import librosa
import numpy as np
from random import choice
import plotly.graph_objs as go
from plotly.offline import iplot

# Define el path al directorio de archivos wav
wav_files_path = 'dataset/mir-1k/Wavfile'
wav_files = [f for f in os.listdir(wav_files_path) if f.endswith('.wav')]
selected_file = choice(wav_files)
file_path = os.path.join(wav_files_path, selected_file)

# Carga el archivo de audio seleccionado
y, sr = librosa.load(file_path)

# Genera el espectrograma de la señal
D = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max)

# Prepara los datos para Plotly
data = [
    go.Heatmap(
        z=D,
        x=np.linspace(0, len(y)/sr, num=D.shape[1]),
        y=np.linspace(0, sr/2, num=D.shape[0]),
        colorscale='Jet'
    )
]

# Define el layout del gráfico
layout = go.Layout(
    title=f'Espectrograma de: {selected_file}',
    xaxis=dict(title='Time (s)'),
    yaxis=dict(title='Frequency (Hz)'),
    autosize=False,
    width=700,
    height=500,
    margin=go.layout.Margin(
        l=50,
        r=50,
        b=100,
        t=100,
        pad=4
    )
)

# Genera la figura y la muestra
fig = go.Figure(data=data, layout=layout)
iplot(fig)


In [522]:
from IPython.display import Audio

# Utiliza el mismo archivo seleccionado para el espectrograma
Audio(file_path)


# Clases y Funciones para Procesamiento de Datos Numéricos 🧮

En este módulo, implementamos una serie de clases y funciones útiles para manipular y procesar datos numéricos, especialmente en el contexto de la ingeniería de características y la preparación de datos para modelos de machine learning.

## Clase `Diff` 🔄

Esta clase se utiliza para calcular la diferencia porcentual entre dos valores numéricos consecutivos, lo que puede ser útil para detectar cambios significativos en las señales o en los datos de series temporales.

## Funciones de Ayuda 🛠️

- `shape`: Obtiene la forma de un tensor como una tupla.
- `pretty_list`: Devuelve una representación en forma de cadena de una lista, separada por comas.
- `pretty_dict`: Devuelve una representación en forma de cadena de un diccionario, con cada par clave-valor en una nueva línea.
- `closest_power_of_two`: Encuentra la potencia de dos más cercana a un número dado.
- `nd_array_to_txt`: Escribe un array de N dimensiones a un archivo de texto, útil para la persistencia de datos y la inspección humana.

Estas herramientas son esenciales para el preprocesamiento de datos y la ingeniería de características en proyectos de deep learning y machine learning.


In [523]:
from __future__ import division  # Garantiza que la división entre enteros produzca un float en Python 2.x

import numpy as np

class Diff(object):
    # Clase para calcular la diferencia porcentual entre dos números
    def __init__(self, v=0.0):
        self.value = v  # valor inicial
        self.diff = 0.0  # diferencia inicial

    def update(self, v):
        # Actualiza el valor y calcula la nueva diferencia porcentual
        if self.value:
            diff = v / self.value - 1
            self.diff = diff
        self.value = v  # Actualiza el valor con el nuevo valor pasado

def shape(tensor):
    # Devuelve la forma del tensor como una tupla
    s = tensor.get_shape()
    return tuple([s[i].value for i in range(0, len(s))])

def pretty_list(list):
    # Devuelve una cadena de texto con los elementos de la lista separados por comas
    return ", ".join(list)

def pretty_dict(dict):
    # Devuelve una cadena de texto con los pares clave-valor del diccionario
    return "\n".join("{} : {}".format(k, v) for k, v in dict.items())

def closest_power_of_two(target):
    # Encuentra la potencia de dos más cercana a un número dado
    if target > 1:
        for i in range(1, int(target)):
            if 2**i >= target:
                pwr = 2**i
                break
        # Devuelve la potencia de dos más cercana o su mitad, dependiendo de cuál esté más cerca
        return pwr if abs(pwr - target) < abs(pwr / 2 - target) else int(pwr / 2)
    else:
        return 1

# Escribe un array de numpy a un archivo de texto
def nd_array_to_txt(filename, data):
    path = filename + ".txt"
    # Abre el archivo en modo de escritura
    with open(path, "w") as outfile:
        # Escribe la forma del array en el encabezado para referencia
        outfile.write("# Array shape: {0}\n".format(data.shape))

        for data_slice in data:
            # Escribe cada "rebanada" del array en el archivo
            np.savetxt(outfile, data_slice, fmt="%-7.2f")
            # Indica el fin de una rebanada
            outfile.write("# New slice\n")


### Configuración

In [524]:
import tensorflow as tf

class ModelConfig:
    SR = 16000  # Sample Rate
    L_FRAME = 1024  # default 1024
    L_HOP = closest_power_of_two(L_FRAME / 4)
    SEQ_LEN = 4
    # For Melspectogram
    N_MELS = 512
    F_MIN = 0.0


# Train
class TrainConfig:
    CASE = str(ModelConfig.SEQ_LEN) + "frames_ikala"
    CKPT_PATH = "checkpoints/" + CASE
    GRAPH_PATH = "graphs/" + CASE + "/train"
    DATA_PATH = "dataset/mir-1k/Wavfile"
    LR = 0.0001
    FINAL_STEP = 1000
    CKPT_STEP = 500
    NUM_WAVFILE = 1
    SECONDS = 8.192  # To get 512,512 in melspecto
    RE_TRAIN = True
    session_conf = tf.compat.v1.ConfigProto(
        device_count={"CPU": 1, "GPU": 1},
        gpu_options=tf.compat.v1.GPUOptions(
            allow_growth=True, per_process_gpu_memory_fraction=0.25
        ),
    )
    LOG_STEP = 100
    SAVE_PATH = "saves/"



class EvalConfig:
    # CASE = '1frame'
    # CASE = '4-frames-masking-layer'
    CASE = str(ModelConfig.SEQ_LEN) + "frames_ikala"
    CKPT_PATH = "checkpoints/" + CASE
    GRAPH_PATH = "graphs/" + CASE + "/eval"
    DATA_PATH = "dataset/eval/kpop"
    # DATA_PATH = 'dataset/mir-1k/Wavfile'
    # DATA_PATH = 'dataset/ikala'
    GRIFFIN_LIM = False
    GRIFFIN_LIM_ITER = 1000
    NUM_EVAL = 9
    SECONDS = 60
    RE_EVAL = True
    EVAL_METRIC = False
    WRITE_RESULT = True
    RESULT_PATH = "results/" + CASE
    session_conf = tf.compat.v1.ConfigProto(
        device_count={"CPU": 1, "GPU": 1},
        gpu_options=tf.compat.v1.GPUOptions(allow_growth=True),
        log_device_placement=False,
    )


### Modelo

In [525]:
# -*- coding: utf-8 -*-
# !/usr/bin/env python
"""
By Dabi Ahn. andabi412@gmail.com.
https://www.github.com/andabi

Modificaciones por Grupo 5 - Proyecto Final Deep Learning
UVG - 2023
"""

from __future__ import division
import tensorflow as tf
from tensorflow.keras.layers import GRUCell, StackedRNNCells, Input, GRU, Dense, Lambda
import os
import numpy as np
from tensorflow.compat.v1.nn import dynamic_rnn
import tensorflow.keras.backend as K

class Model(tf.keras.Model):
    def __init__(self, n_rnn_layer=3, hidden_size=256):
        super(Model, self).__init__()

        # Input, Output        
        self.x_mixed = Input(shape=(None, ModelConfig.L_FRAME // 2 + 1), name="x_mixed")
        self.y_src1 = Input(shape=(None, ModelConfig.L_FRAME // 2 + 1), name="y_src1")
        self.y_src2 = Input(shape=(None, ModelConfig.L_FRAME // 2 + 1), name="y_src2")

        # Network
        self.hidden_size = hidden_size
        self.n_layer = n_rnn_layer
        # self.net = tf.compat.v1.make_template('net', self._net)
        self.net = self._net

        self()

    def __call__(self):
        return self.net()
    
    def call(self, inputs):
        # x = self.dense1(inputs)
        # x = self.dense2(x)
        return self.net()

    def _net(self):
        # RNN and dense layers
        rnn_layer = GRU(self.hidden_size, return_sequences=True, return_state=True)

        output_rnn, _ = rnn_layer(self.x_mixed)
        input_size = self.x_mixed.shape[2]
        y_hat_src1 = Dense(units=input_size, activation='relu', name="y_hat_src1")(output_rnn)
        y_hat_src2 = Dense(units=input_size, activation='relu', name="y_hat_src2")(output_rnn)

        # time-freq masking layer
        y_tilde_src1 = Lambda(lambda x: x[0] / (x[0] + x[1] + K.epsilon()) * x[2])([y_hat_src1, y_hat_src2, self.x_mixed])
        y_tilde_src2 = Lambda(lambda x: x[1] / (x[0] + x[1] + K.epsilon()) * x[2])([y_hat_src1, y_hat_src2, self.x_mixed])

        return y_tilde_src1, y_tilde_src2


    def loss(self):
        pred_y_src1, pred_y_src2 = self()
        return tf.reduce_mean(tf.square(self.y_src1 - pred_y_src1) + tf.square(self.y_src2 - pred_y_src2), name='loss')


    @staticmethod
    # shape = (batch_size, n_freq, n_frames) => (batch_size, n_frames, n_freq)
    def spec_to_batch(src):
        num_wavs, freq, n_frames = src.shape

        # Padding
        pad_len = 0
        if n_frames % ModelConfig.SEQ_LEN > 0:
            pad_len = ModelConfig.SEQ_LEN - (n_frames % ModelConfig.SEQ_LEN)
        pad_width = ((0, 0), (0, 0), (0, pad_len))
        padded_src = np.pad(
            src, pad_width=pad_width, mode="constant", constant_values=0
        )

        assert padded_src.shape[-1] % ModelConfig.SEQ_LEN == 0

        batch = np.reshape(
            padded_src.transpose(0, 2, 1), (-1, ModelConfig.SEQ_LEN, freq)
        )
        return batch, padded_src

    @staticmethod
    def batch_to_spec(src, num_wav):
        # shape = (batch_size, n_frames, n_freq) => (batch_size, n_freq, n_frames)
        batch_size, seq_len, freq = src.shape
        src = np.reshape(src, (num_wav, -1, freq))
        src = src.transpose(0, 2, 1)
        return src

    @staticmethod
    def load_state(sess, ckpt_path):
        ckpt = tf.train.get_checkpoint_state(os.path.dirname(ckpt_path + "/checkpoint"))
        if ckpt and ckpt.model_checkpoint_path:
            tf.compat.v1.train.Saver().restore(sess, ckpt.model_checkpoint_path)


### Preprocesamiento

In [526]:
import librosa
import numpy as np
import soundfile as sf

# Batch considered
def get_random_wav(filenames, sec, sr=ModelConfig.SR):
    # load wav -> pad if necessary to fit sr*sec -> get random samples with len = sr*sec -> map = do this for all in filenames -> put in np.array
    src1_src2 = np.array(
        list(
            map(
                lambda f: _sample_range(
                    _pad_wav(librosa.load(f, sr=sr, mono=False)[0], sr, sec), sr, sec
                ),
                filenames,
            )
        )
    )
    mixed = np.array(list(map(lambda f: librosa.to_mono(f), src1_src2)))
    # print("mixed", mixed)
    # print("src", src1_src2)
    src1, src2 = src1_src2[:, 0], src1_src2[:, 1]
    return mixed, src1, src2


# Batch considered
def to_spectrogram(wav, len_frame=ModelConfig.L_FRAME, len_hop=ModelConfig.L_HOP):
    return np.array(
        list(map(lambda w: librosa.stft(w, n_fft=len_frame, hop_length=len_hop), wav))
    )


# Batch considered
def to_wav(mag, phase, len_hop=ModelConfig.L_HOP):
    stft_matrix = get_stft_matrix(mag, phase)
    return np.array(
        list(map(lambda s: librosa.istft(s, hop_length=len_hop), stft_matrix))
    )


# Batch considered
def to_wav_from_spec(stft_maxrix, len_hop=ModelConfig.L_HOP):
    return np.array(
        list(map(lambda s: librosa.istft(s, hop_length=len_hop), stft_maxrix))
    )


# Batch considered
def to_wav_mag_only(
    mag,
    init_phase,
    len_frame=ModelConfig.L_FRAME,
    len_hop=ModelConfig.L_HOP,
    num_iters=50,
):
    # return np.array(list(map(lambda m_p: griffin_lim(m, len_frame, len_hop, num_iters=num_iters, phase_angle=p)[0], list(zip(mag, init_phase))[1])))
    return np.array(
        list(
            map(
                lambda m: lambda p: griffin_lim(
                    m, len_frame, len_hop, num_iters=num_iters, phase_angle=p
                ),
                list(zip(mag, init_phase))[1],
            )
        )
    )


# Batch considered
def get_magnitude(stft_matrixes):
    return np.abs(stft_matrixes)


# Batch considered
def get_phase(stft_maxtrixes):
    return np.angle(stft_maxtrixes)


# Batch considered
def get_stft_matrix(magnitudes, phases):
    return magnitudes * np.exp(1.0j * phases)


# Batch considered
def soft_time_freq_mask(target_src, remaining_src):
    mask = np.abs(target_src) / (
        np.abs(target_src) + np.abs(remaining_src) + np.finfo(float).eps
    )
    return mask


# Batch considered
def hard_time_freq_mask(target_src, remaining_src):
    mask = np.where(target_src > remaining_src, 1.0, 0.0)
    return mask


def write_wav(data, path, sr=ModelConfig.SR, format="wav", subtype="PCM_16"):
    sf.write("{}.wav".format(path), data, sr, format=format, subtype=subtype)


def griffin_lim(mag, len_frame, len_hop, num_iters, phase_angle=None, length=None):
    assert num_iters > 0
    if phase_angle is None:
        phase_angle = np.pi * np.random.rand(*mag.shape)
    spec = get_stft_matrix(mag, phase_angle)
    for i in range(num_iters):
        wav = librosa.istft(
            spec, win_length=len_frame, hop_length=len_hop, length=length
        )
        if i != num_iters - 1:
            spec = librosa.stft(
                wav, n_fft=len_frame, win_length=len_frame, hop_length=len_hop
            )
            _, phase = librosa.magphase(spec)
            phase_angle = np.angle(phase)
            spec = get_stft_matrix(mag, phase_angle)
    return wav


def _pad_wav(wav, sr, duration):
    assert wav.ndim <= 2

    n_samples = int(sr * duration)
    pad_len = np.maximum(0, n_samples - wav.shape[-1])
    if wav.ndim == 1:
        pad_width = (0, pad_len)
    else:
        pad_width = ((0, 0), (0, pad_len))
    wav = np.pad(wav, pad_width=pad_width, mode="constant", constant_values=0)

    return wav


def _sample_range(wav, sr, duration):
    assert wav.ndim <= 2

    target_len = int(sr * duration)
    wav_len = wav.shape[-1]
    start = np.random.choice(range(np.maximum(1, wav_len - target_len)), 1)[0]
    end = start + target_len
    if wav.ndim == 1:
        wav = wav[start:end]
    else:
        wav = wav[:, start:end]
    return wav


### Data

In [527]:
import random
from os import walk

class Data:
    def __init__(self, path):
        self.path = path

    def next_wavs(self, sec, size):
        wavfiles = []
        # print("path", self.path)
        for (root, dirs, files) in os.walk(self.path):
            # print(root)
            # print("----")
            # print(dirs)
            # print("----")
            # print(files)
            wavfiles.extend(
                [os.path.join(root, f) for f in files if f.endswith(".wav")]
            )
            # print(f"Found {len(wavfiles)} .wav files at {self.path}")
           
        
        # Ensure that size is not greater than the number of available files
        size = min(size, len(wavfiles))
        
        wavfiles = random.sample(wavfiles, size)

        mixed, src1, src2 = self.process_wav_files(wavfiles, sec, ModelConfig.SR)
        return mixed, src1, src2, wavfiles
    
    def process_wav_files(self, filenames, sec, sr):
        # Process each file
        mixed = []
        src1 = []
        src2 = []
        for filename in filenames:
            # Load the stereo wave file
            audio, _ = librosa.load(filename, sr=sr, mono=False, duration=sec)
            # Split the stereo audio into two channels
            left_channel, right_channel = audio
            mixed.append(left_channel + right_channel)  # Assuming mixed is the sum of both channels
            src1.append(left_channel)  # Assuming src1 is the left channel
            src2.append(right_channel)  # Assuming src2 is the right channel
        return mixed, src1, src2
    



### Entrenamiento

In [528]:
data = Data(TrainConfig.DATA_PATH) 
print(data.path)
try:
    mixed_wav, src1_wav, src2_wav, _ = data.next_wavs(TrainConfig.SECONDS, TrainConfig.NUM_WAVFILE)
    
 
except IndexError as e:
    print(f"Expected 2-dimensional array, got: {np.shape(data)}")
    raise e
except AttributeError as e:
    print(f"Object 'data' does not have a 'next_wavs' method. Actual type of 'data': {type(data)}")
    raise e

dataset/mir-1k/Wavfile


In [532]:
import os
import shutil
import matplotlib as plt
import librosa.display
import joblib

def train_step(model, optimizer, mixed_batch, src1_batch, src2_batch):
    with tf.GradientTape() as tape:
        loss = model.loss(mixed_batch, src1_batch, src2_batch)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    return loss, gradients


def train():
    # Model
    model = Model()

    # Optimizer
    optimizer = tf.keras.optimizers.Adam(learning_rate=TrainConfig.LR)

    # Checkpoint manager
    ckpt = tf.train.Checkpoint(optimizer=optimizer, model=model)
    manager = tf.train.CheckpointManager(ckpt, TrainConfig.CKPT_PATH, max_to_keep=3)

    # Restore from the latest checkpoint
    if manager.latest_checkpoint:
        ckpt.restore(manager.latest_checkpoint)
        print("Restored from {}".format(manager.latest_checkpoint))
    else:
        print("Initializing from scratch.")

    # Summary writer for TensorBoard
    summary_writer = tf.summary.create_file_writer(TrainConfig.GRAPH_PATH)

    # Initialize the global step
    global_step = tf.Variable(0, name='global_step', trainable=False)

    # Load data
    data = Data(TrainConfig.DATA_PATH)

    for step in range(global_step.numpy(), TrainConfig.FINAL_STEP):
        mixed_wav, src1_wav, src2_wav, _ = data.next_wavs(TrainConfig.SECONDS, TrainConfig.NUM_WAVFILE)


        mixed_spec = to_spectrogram(mixed_wav)
        mixed_mag = get_magnitude(mixed_spec)

        src1_spec, src2_spec = to_spectrogram(src1_wav), to_spectrogram(src2_wav)
        src1_mag, src2_mag = get_magnitude(src1_spec), get_magnitude(src2_spec)

        src1_batch, _ = model.spec_to_batch(src1_mag)
        src2_batch, _ = model.spec_to_batch(src2_mag)
        mixed_batch, _ = model.spec_to_batch(mixed_mag)
        with tf.GradientTape() as tape:
            loss = model.loss(mixed_batch, src1_batch, src2_batch)
        gradients = tape.gradient(loss, model.trainable_variables)
        optimizer.apply_gradients(zip(gradients, model.trainable_variables))


        # Update global step
        global_step.assign_add(1)

        # Write summaries
        summaries(summary_writer, model, loss, gradients, global_step)

        # Output the training progress
        print(f'Step {global_step.numpy()}: Loss = {loss.numpy()}')

        # Save checkpoints periodically
        if step % TrainConfig.CKPT_STEP == 0:
            save_path = manager.save(checkpoint_number=step)
            print("Saved checkpoint for step {}: {}".format(step, save_path))

    # Close the summary writer
    summary_writer.close()



""" 
def summaries(model, loss):
    with tf.name_scope("summaries"):
        for v in model.trainable_variables:
            tf.summary.histogram(v.name, v)
            tf.summary.histogram("grad/" + v.name, tf.gradients(loss, v)[0])
        tf.summary.scalar("loss", loss)
        tf.summary.histogram("x_mixed", model.x_mixed)
        tf.summary.histogram("y_src1", model.y_src1)
        tf.summary.histogram("y_src2", model.y_src2)  
        return tf.compat.v2.summary.flush()

"""
def summaries(summary_writer, model, loss, gradients, step):
    with summary_writer.as_default():
        tf.summary.scalar("loss", loss, step=step)
        for v, grad in zip(model.trainable_variables, gradients):
            tf.summary.histogram(v.name, v, step=step)
            tf.summary.histogram("grad/" + v.name, grad, step=step)
        tf.summary.flush(summary_writer)



def setup_path():
    if TrainConfig.RE_TRAIN:
        if os.path.exists(TrainConfig.CKPT_PATH):
            shutil.rmtree(TrainConfig.CKPT_PATH)
        if os.path.exists(TrainConfig.GRAPH_PATH):
            shutil.rmtree(TrainConfig.GRAPH_PATH)
    os.makedirs(TrainConfig.CKPT_PATH, exist_ok=True)
    os.makedirs(TrainConfig.GRAPH_PATH, exist_ok=True)


setup_path()
model = train()


ValueError: `tape` is required when a `Tensor` loss is passed. Received: loss=Tensor("loss_14:0", shape=(), dtype=float32), tape=None.

### Evaluación

In [None]:
import os
import shutil
import numpy as np
import tensorflow as tf
from mir_eval.separation import bss_eval_sources

def eval():
    # Model
    model = Model()  # Instantiate your model here
    
    # Restore from checkpoint
    ckpt = tf.train.Checkpoint(model=model)
    manager = tf.train.CheckpointManager(ckpt, EvalConfig.CKPT_PATH, max_to_keep=3)
    ckpt.restore(manager.latest_checkpoint).expect_partial()
    print(f"Restored model from {manager.latest_checkpoint}")
    
    # Summary writer
    summary_writer = tf.summary.create_file_writer(EvalConfig.GRAPH_PATH)

    # Data preparation
    data = Data(EvalConfig.DATA_PATH)
    mixed_wav, src1_wav, src2_wav, wavfiles = data.next_wavs(EvalConfig.SECONDS, EvalConfig.NUM_EVAL)
    
    # Evaluation
    for i, (mixed, src1, src2, filename) in enumerate(zip(mixed_wav, src1_wav, src2_wav, wavfiles)):
        mixed_spec = to_spectrogram(mixed)
        mixed_mag = get_magnitude(mixed_spec)
        mixed_phase = get_phase(mixed_spec)

        # Model prediction
        mixed_batch, padded_mixed_mag = model.spec_to_batch(mixed_mag)
        pred_src1_mag, pred_src2_mag = model(mixed_batch)

        # Time-frequency masking
        mask_src1 = soft_time_freq_mask(pred_src1_mag, pred_src2_mag)
        mask_src2 = 1.0 - mask_src1
        pred_src1_mag = mixed_mag * mask_src1
        pred_src2_mag = mixed_mag * mask_src2

        # Convert back to waveform
        pred_src1_wav = to_wav(pred_src1_mag, mixed_phase)
        pred_src2_wav = to_wav(pred_src2_mag, mixed_phase)

        # BSS metrics
        if EvalConfig.EVAL_METRIC:
            gnsdr, gsir, gsar = bss_eval_global(mixed, src1, src2, pred_src1_wav, pred_src2_wav)
        
        # Writing results and summaries
        with summary_writer.as_default():
            tf.summary.audio("GT_mixed", mixed[np.newaxis, :], ModelConfig.SR, step=i)
            tf.summary.audio("Pred_music", pred_src1_wav[np.newaxis, :], ModelConfig.SR, step=i)
            tf.summary.audio("Pred_vocal", pred_src2_wav[np.newaxis, :], ModelConfig.SR, step=i)
            
            if EvalConfig.EVAL_METRIC:
                tf.summary.scalar("GNSDR_music", gnsdr[0], step=i)
                tf.summary.scalar("GSIR_music", gsir[0], step=i)
                tf.summary.scalar("GSAR_music", gsar[0], step=i)
                tf.summary.scalar("GNSDR_vocal", gnsdr[1], step=i)
                tf.summary.scalar("GSIR_vocal", gsir[1], step=i)
                tf.summary.scalar("GSAR_vocal", gsar[1], step=i)

        # Save audio results if required
        if EvalConfig.WRITE_RESULT:
            name = filename.replace("/", "-").replace(".wav", "")
            write_wav(pred_src1_wav, os.path.join(EvalConfig.RESULT_PATH, f"{name}-music.wav"))
            write_wav(pred_src2_wav, os.path.join(EvalConfig.RESULT_PATH, f"{name}-voice.wav"))

    summary_writer.close()

def setup_path():
    if EvalConfig.RE_EVAL:
        if os.path.exists(EvalConfig.GRAPH_PATH):
            shutil.rmtree(EvalConfig.GRAPH_PATH)
        if os.path.exists(EvalConfig.RESULT_PATH):
            shutil.rmtree(EvalConfig.RESULT_PATH)
    os.makedirs(EvalConfig.RESULT_PATH, exist_ok=True)

# Call the eval function
setup_path()
eval()


Graph variables: []


ValueError: No variables to save