# Módulo de testeo para NMF

A continuación se harán pruebas para el archivo "Test_1.wav", que contiene la grabación de una pieza cuyos instrumentos son un violín y un piano. La idea es separarlos de manera independiente.

# Librerías importadas

In [1]:
import numpy as np
import os
import matplotlib.pyplot as plt
import soundfile as sf
import librosa
from prettytable import PrettyTable
from sklearn.decomposition import NMF
from IPython.display import Audio
from scipy.signal.windows import tukey
#from math_functions import wiener_filter

# Ventana hamming

Se define la ventana hamming de manera matemática.

In [2]:
def hamming_window(N):
    # Definición de la ventana hamming de modo que se pueda generar para un
    # largo de ventana definido
    return np.asarray([0.53836 - 0.46164*np.cos((2*np.pi*i)/N)
                       for i in range(int(N))])

# Ventana hann

Se define la ventana hann de manera matemática.

In [3]:
def hann_window(N):
    # Definición de la ventana hamming de modo que se pueda generar para un
    # largo de ventana definido
    return np.asarray([0.5 - 0.5*np.cos((2*np.pi*i)/N)
                       for i in range(int(N))])

# Definición de algunas funciones previas

En primer lugar, se define la función que creará el espectrograma, en conjunto con la función de espectrograma inverso.

# Espectrograma

In [4]:
def get_spectrogram(audio, samplerate, N=512, padding=512, overlap=0, window='tukey', whole=False):
    # Lista donde se almacenará los valores del espectrograma
    spect = []
    # Lista de tiempo
    times = []
    
    # Variables auxiliares
    t = 0   # Tiempo
    
    # Seleccionar ventana
    if window == 'tukey':
        wind_mask = tukey(N)
    elif window == 'hamming':
        wind_mask = hamming_window(N)
    elif window == 'hann':
        wind_mask = hann_window(N) + 1e-5
    elif window is None:
        wind_mask = np.array([1] * N)
    
    # Iteración sobre el audio
    while audio.any():
        # Se corta la cantidad de muestras que se necesite, o bien, las que se
        # puedan cortar
        if len(audio) >= N:
            q_samples = N
            step = int(N * (1 - overlap))
        else:
            break
            # q_samples = step = len(audio)
            
        # Recorte en la cantidad de muestras
        audio_frame = audio[:q_samples]
        audio = audio[step:]
               
        # Ventaneando
        audio_frame_wind = audio_frame * wind_mask
        
        # Aplicando padding
        audio_padded = np.append(audio_frame_wind, [0] * padding)
        
        # Aplicando transformada de fourier
        audio_fft = np.fft.fft(audio_padded)
               
        # Agregando a los vectores del espectro
        spect.append(audio_fft)
        
        # Agregando al vector de tiempo
        times.append(t)
        t += step/samplerate
    
    # Preguntar si se quiere el espectro completo, o solo la mitad (debido a que está reflejado
    # hermitianamente)
    if whole:
        # Generar el vector de frecuencias para cada ventana
        freqs = np.linspace(0, samplerate, N+padding)

        # Una vez obtenido el spect_mag y spect_pha, se pasa a matriz
        spect = np.array(spect, dtype=np.complex64)
    else:
        # Generar el vector de frecuencias para cada ventana
        freqs = np.linspace(0, samplerate//2, (N+padding)//2)

        # Una vez obtenido el spect_mag y spect_pha, se pasa a matriz
        spect = np.array(spect, dtype=np.complex64)[:, :(N+padding)//2]
    
    # Se retornan los valores que permiten construir el espectrograma correspondiente
    return times, freqs, spect.T

# Espectrograma inverso

In [5]:
def get_inverse_spectrogram(X, window='tukey', whole=False):
    # Preguntar si es que la señal está en el rango 0-samplerate. En caso de que no sea así,
    # se debe concatenar el conjugado de la señal para recuperar el espectro. Esto se hace así
    # debido a la propiedad de las señales reales que dice que la FT de una señal real entrega
    # una señal hermitiana (parte real par, parte imaginaria impar). Luego, como solo tenemos
    # la mitad de la señal, la otra parte correspondiente a la señal debiera ser la misma pero
    # conjugada, para que al transformar esta señal hermitiana mediante la IFT, se recupere una
    # señal real (correspondiente a la señal de audio).
    if not whole:
        # En primer lugar, se agrega un 0 en todo el espectrograma para la componente justo en la mitad
        X = np.concatenate((X, np.array([[0] * X.shape[1]])), axis=0)
        # Y se refleja lo existente utilizando el conjugado
        X = np.concatenate((X, np.flip(np.conj(X[1:-1, :]), axis=0)))
        
    # Obtener la dimensión de la matriz
    rows, cols = X.shape
    
    # Seleccionar ventana
    if window == 'tukey':
        wind_mask = tukey(rows)
    elif window == 'hamming':
        wind_mask = hamming_window(rows)
    elif window == 'hann':
        wind_mask = hann_window(rows)
    elif window is None:
        wind_mask = np.array([1] * rows)
    
    # Definición de una lista en la que se almacena la transformada inversa
    inv_spect = []
    
    # Transformando columna a columna (nótese la división en tiempo por una ventana definida)
    for i in range(cols):
        inv_spect += list(np.divide(np.fft.ifft(X[:, i]) * wind_mask, wind_mask ** 2))
        
    return np.array(inv_spect)

# Módulo de pruebas

In [6]:
# Lectura del audio
audio_mono, samplerate = sf.read('Drums.wav')

# Escuchar
Audio(audio_mono, rate=samplerate)

In [10]:
# Opciones del script
comps_list = [2] #range(10, 500, 20)
N = 2048     # Cantidad de muestras por cada frame
overlap = 0

In [11]:
# Obteniendo el espectrograma
t, f, S = get_spectrogram(audio_mono, samplerate, N=N, padding=0, overlap=overlap, window='hamming', whole=False)
print(S.shape)

(1024, 44)


### Probando overlaps

In [16]:
%matplotlib notebook
step = int(N * (1 - overlap))
print(step * S.shape[1] + N)
plt.plot(audio_mono)
plt.plot(audio_mono[:step * S.shape[1]], 'r')
plt.show()

92160


<IPython.core.display.Javascript object>

### Prueba de flips

In [249]:
a = np.array([[1,2,3],[4,5,6]])
a_flip = np.flip(a, axis=0)

b = np.concatenate((a, a_flip))
print(b)
print(b.shape)


[[1 2 3]
 [4 5 6]
 [4 5 6]
 [1 2 3]]
(4, 3)


Flipeando la magnitud del espectrograma.

In [250]:
%matplotlib notebook
X_mid = X[0:row_dim//2]
final = np.concatenate((X_mid, np.flip(X_mid, axis=0)))
plt.pcolormesh(t, f, librosa.amplitude_to_db(final), cmap='inferno')
plt.colorbar()
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.show()

<IPython.core.display.Javascript object>

TypeError: Dimensions of C (1024, 173) are incompatible with X (44) and/or Y (1024); see help(pcolormesh)

### Prueba de valores de FFT

In [181]:
fft_test = np.fft.fft(audio_mono)

print(f'Largo del audio: {len(fft_test)}')
print(f'Componente 0: {fft_test[0]}')
print(f'Componente mitad: {fft_test[len(fft_test)//2]}')

'''# Definición de la tabla a guardar
tabla = PrettyTable(['Index +', 'Value +', 'Index -', 'Value -', 'Equal Value'])

for i in range(1, len(fft_test)//2 + 1):
    tabla.add_row([i, fft_test[i], len(fft_test) - i, fft_test[len(fft_test) - i], 
                   np.isclose(fft_test[i], np.conj(fft_test[len(fft_test) - i]), rtol=1e-3, atol=1e-3)])
    
# Guardando en el archivo txt
with open('fft_results.txt', 'w', encoding='utf8') as file:
    file.write(f'{tabla.get_string()}\n')'''

Largo del audio: 132300
Componente 0: (-885.3746032714844+0j)
Componente mitad: (0.003692626953125694+5.10702591327572e-15j)


"# Definición de la tabla a guardar\ntabla = PrettyTable(['Index +', 'Value +', 'Index -', 'Value -', 'Equal Value'])\n\nfor i in range(1, len(fft_test)//2 + 1):\n    tabla.add_row([i, fft_test[i], len(fft_test) - i, fft_test[len(fft_test) - i], \n                   np.isclose(fft_test[i], np.conj(fft_test[len(fft_test) - i]), rtol=1e-3, atol=1e-3)])\n    \n# Guardando en el archivo txt\nwith open('fft_results.txt', 'w', encoding='utf8') as file:\n    file.write(f'{tabla.get_string()}\n')"

### Probando la transformada de Fourier inversa para cada frame

In [182]:
%matplotlib notebook
S_test = S
test_inv = get_inverse_spectrogram(np.abs(S_test) * np.exp(1j * np.angle(S_test)), window='hamming', whole=False)
plt.plot(test_inv)
plt.show()

(2048, 44)


<IPython.core.display.Javascript object>

In [183]:
Audio(test_inv, rate=samplerate)

# Trabajo con el audio

En primer lugar, se obtendrá el espectrograma para corroborar que la función implementada tiene la misma forma que el ejemplo de la página de MIR.

En primer lugar, se hace lectura del audio, y dado que viene en formato estéreo, se mezclan ambos para obtener la señal entre -1 y 1 con el objetivo de que no se sature el sonido.

## Test_1.wav

In [185]:
# Lectura del audio
audio, samplerate = sf.read('Test_1.wav')

# Normalizar audio para ambos canales
audio[:,0] = audio[:,0]/max(abs(audio[:,0])) 
audio[:,1] = audio[:,1]/max(abs(audio[:,1]))

# Mezclando ambos canales para obtener una señal monoaural
audio_mono = 0.5 * (audio[:,0] + audio[:,1])

# Escuchar
Audio(audio_mono, rate=samplerate)

## Drums.wav

In [228]:
# Lectura del audio
audio_mono, samplerate = sf.read('Drums.wav')

# Escuchar
Audio(audio_mono, rate=samplerate)

In [229]:
# Graficando
%matplotlib notebook
plt.plot(audio_mono)
plt.show()

<IPython.core.display.Javascript object>

# Definición de parámetros de trabajo

In [230]:
# Opciones del script
comps_list = [2] #range(10, 500, 20)
N = 2048     # Cantidad de muestras por cada frame

In [240]:
# Obteniendo el espectrograma
t, f, S = get_spectrogram(audio_mono, samplerate, N=N, padding=0, overlap=0.75, window='hamming', whole=False)

# Guardar valores de la dimensión del espectrograma
row_dim, col_dim = S.shape

# Definiendo la magnitud
X = np.abs(S)

print('Dimensiones')
print(S.shape)
print(f'Con N = {N}')

Dimensiones
(1024, 173)
Con N = 2048


In [241]:
%matplotlib notebook
plt.pcolormesh(t, f, librosa.amplitude_to_db(X), cmap='inferno')
plt.colorbar()
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.show()

<IPython.core.display.Javascript object>

In [242]:
%matplotlib notebook
plt.pcolormesh(t, f, np.angle(S), cmap='inferno')
plt.colorbar()
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.show()

<IPython.core.display.Javascript object>

# Aplicando NMF

In [243]:
model = NMF(n_components=2)#, beta_loss='itakura-saito', solver='mu')
# Utilizando el valor absoluto
X = abs(S)
print(X.shape)
W = model.fit_transform(X)
print(W.shape)
print(model)

(1024, 173)
(1024, 2)
NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
    n_components=2, random_state=None, shuffle=False, solver='cd', tol=0.0001,
    verbose=0)


Obteniendo los patrones del espectrograma mediante la matriz $W$.

In [244]:
%matplotlib notebook
logW = np.log1p(W)                         # Para realzar más la forma de las componentes (solo visualización)
f = np.arange(W.shape[0]/2)
plt.plot(f, logW[0:int(logW.shape[0]/2),0], f, logW[0:int(logW.shape[0]/2),1])
plt.xlabel('Frequency')
plt.ylabel('log(1 + Amplitude)')
plt.show()

<IPython.core.display.Javascript object>

Mostrando las activaciones temporales dadas por la matriz $H$.

In [245]:
%matplotlib notebook
H = model.components_
print(H.shape)
t = np.arange(H.shape[1])
plt.plot(t, H[0], t, H[1])
plt.legend(('Componente 1', 'Componente 2'))
plt.show()

(2, 173)


<IPython.core.display.Javascript object>

Finalmente recuperando la señal original a partir de estos componentes...

# Forma 1: Sin máscara

In [217]:
Y0 = np.outer(W[:,0], H[0]) * np.exp(1j * np.angle(S))
Y1 = np.outer(W[:,1], H[1]) * np.exp(1j * np.angle(S))
Y0.shape, Y1.shape

((1024, 44), (1024, 44))

# Forma 2: Con máscara (filtro de Wiener)

In [218]:
# Por implementar

# Aplicando transformada inversa de Fourier a cada frame (STFT)

In [219]:
y0 = get_inverse_spectrogram(Y0, window=None, whole=False)
y1 = get_inverse_spectrogram(Y1, window=None, whole=False)
y0.shape, y1.shape

(2048, 44)
(2048, 44)


((90112,), (90112,))

# Escuchando los audios...

In [220]:
Audio(y0, rate=samplerate)

  data = np.array(data, dtype=float)


In [221]:
Audio(y1, rate=samplerate)