# Funciones importadas de utilidad

In [2]:
import numpy as np
import os
import matplotlib.pyplot as plt
import soundfile as sf
import librosa
from prettytable import PrettyTable
from sklearn.decomposition import NMF
from IPython.display import Audio
from scipy.signal.windows import tukey, nuttall
from scipy.signal import resample

def hamming_window(N):
    # Definición de la ventana hamming de modo que se pueda generar para un
    # largo de ventana definido
    return np.asarray([0.53836 - 0.46164*np.cos((2*np.pi*i)/N)
                       for i in range(int(N))])

def hann_window(N):
    # Definición de la ventana hamming de modo que se pueda generar para un
    # largo de ventana definido
    return np.asarray([0.5 - 0.5*np.cos((2*np.pi*i)/N)
                       for i in range(int(N))])

def get_spectrogram(audio, samplerate, N=512, padding=512, overlap=0, window='tukey', whole=False):
    # Lista donde se almacenará los valores del espectrograma
    spect = []
    # Lista de tiempo
    times = []
    
    # Variables auxiliares
    t = 0   # Tiempo
    
    # Seleccionar ventana
    if window == 'tukey':
        wind_mask = tukey(N)
    elif window == 'hamming':
        wind_mask = hamming_window(N)
    elif window == 'hann':
        wind_mask = hann_window(N)
    elif window == 'nuttall':
        wind_mask = nuttall(N)
    elif window is None:
        wind_mask = np.array([1] * N)
    
    # Iteración sobre el audio
    while audio.any():
        # Se corta la cantidad de muestras que se necesite, o bien, las que se
        # puedan cortar
        if len(audio) >= N:
            q_samples = N
            step = int(N * (1 - overlap))
        else:
            break
            # q_samples = step = len(audio)
            
        # Recorte en la cantidad de muestras
        audio_frame = audio[:q_samples]
        audio = audio[step:]
               
        # Ventaneando
        audio_frame_wind = audio_frame * wind_mask
        
        # Aplicando padding
        audio_padded = np.append(audio_frame_wind, [0] * padding)
        
        # Aplicando transformada de fourier
        audio_fft = np.fft.fft(audio_padded)
               
        # Agregando a los vectores del espectro
        spect.append(audio_fft)
        
        # Agregando al vector de tiempo
        times.append(t)
        t += step/samplerate
    
    # Preguntar si se quiere el espectro completo, o solo la mitad (debido a que está reflejado
    # hermitianamente)
    if whole:
        # Generar el vector de frecuencias para cada ventana
        freqs = np.linspace(0, samplerate, N+padding)

        # Una vez obtenido el spect_mag y spect_pha, se pasa a matriz
        spect = np.array(spect, dtype=np.complex64)
    else:
        # Generar el vector de frecuencias para cada ventana
        freqs = np.linspace(0, samplerate//2, (N+padding)//2 + 1)

        # Una vez obtenido el spect_mag y spect_pha, se pasa a matriz
        spect = np.array(spect, dtype=np.complex64)[:, :(N+padding)//2 + 1]
    
    # Se retornan los valores que permiten construir el espectrograma correspondiente
    return times, freqs, spect.T

def get_inverse_spectrogram(X, overlap=0, window='tukey', whole=False):
    # Preguntar si es que la señal está en el rango 0-samplerate. En caso de que no sea así,
    # se debe concatenar el conjugado de la señal para recuperar el espectro. Esto se hace así
    # debido a la propiedad de las señales reales que dice que la FT de una señal real entrega
    # una señal hermitiana (parte real par, parte imaginaria impar). Luego, como solo tenemos
    # la mitad de la señal, la otra parte correspondiente a la señal debiera ser la misma pero
    # conjugada, para que al transformar esta señal hermitiana mediante la IFT, se recupere una
    # señal real (correspondiente a la señal de audio).
    if not whole:
        # Se refleja lo existente utilizando el conjugado
        X = np.concatenate((X, np.flip(np.conj(X[1:-1, :]), axis=0)))
        
    # Obtener la dimensión de la matriz
    rows, cols = X.shape
    
    # Seleccionar ventana
    if window == 'tukey':
        wind_mask = tukey(rows)
    elif window == 'hamming':
        wind_mask = hamming_window(rows)
    elif window == 'hann':
        wind_mask = hann_window(rows)
    elif window == 'nuttall':
        wind_mask = nuttall(rows)
    elif window is None:
        wind_mask = np.array([1] * rows)
        
    # A partir del overlap, el tamaño de cada ventana de la fft (dimensión fila) y la cantidad de
    # frames a las que se les aplicó la transformación (dimensión columna), se define la cantidad
    # de muestras que representa la señal original
    step = int(rows * (1 - overlap))      # Tamaño del paso
    total_samples = step * cols + rows    # Tamaño total del arreglo
    
    # Definición de una lista en la que se almacena la transformada inversa
    inv_spect = np.zeros((total_samples,), dtype=np.complex128)
    # Definición de una lista de suma de ventanas cuadráticas en el tiempo
    sum_wind2 = np.zeros((total_samples,), dtype=np.complex128)
    
    # Transformando columna a columna (nótese la división en tiempo por una ventana definida)
    for i in range(cols):
        beg = i * step
        # Se multiplica por el kernel para la reconstrucción a partir de la ventana aplicada inicialmente
        # Fuente: https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.istft.html
        inv_spect[beg:beg+rows] += np.fft.ifft(X[:, i]) * wind_mask
        
        # Se suma la ventana al cuadrado (que sirve como ponderador temporal)
        sum_wind2[beg:beg+rows] += wind_mask ** 2
    
    # Finalmente se aplica la normalización por la cantidad de veces que se suma cada muestra
    # en el proceso anterior producto del traslape, utilizando las ventanas correspondientes
    return np.real(np.divide(inv_spect, sum_wind2 + 1e-15))

def wiener_filter(V, WiHi, W, H, alpha=1):
    # El filtro de Wiener permite generar una máscara que obtenga información
    # del espectrograma original a partir de la proporción obtenida mediante la
    # multiplicación de las matrices W y H (estimación de la señal original)
    
    # Obteniendo la máscara
    mask = np.divide(WiHi ** alpha, np.matmul(W, H) + 1e-15)
    
    # Aplicando la máscara al espectrograma original, se obtiene el resultado
    # final del proceso de separación de fuentes
    return mask * V

def nmf_to_spectrogram(audio, samplerate, N=4096, overlap=0.75, padding=0, 
                       window='hamming', wiener_filt=True, alpha_wie=1,
                       n_components=2, init='random', solver='mu', beta=2,
                       tol=1e-4, max_iter=200, alpha_nmf=0, l1_ratio=0,
                       random_state=100, W_0=None, H_0=None, whole=False):
    '''Función que a partir del archivo de audio (ingresado en la variable 
    "audio") transforma los datos en un espectrograma con traslape dado por 
    la variable "overlap" (0 para no tener traslape y 0.99 para 99% de 
    traslape) y una cantidad de "padding" puntos.

    Esta transformación además usa ventanas definidas por la variable "window", 
    que puede variar entre "tukey", "hamming", "hann", "nuttall" y sin ventana 
    (None).
    
    Además utiliza todos los parámetros relevantes para este estudio del comando
    NMF programado en la librería sklearn, disponible en:
    https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html
    
    Finalmente, presenta la opción de aplicar un filtro de Wiener al resultado 
    de las matrices obtenidas mediante NMF, utilizando la variable booleana 
    "wiener_filt", y calibrando el valor de alpha propio de la máscara mediante 
    la variable "alpha_wie".'''
    
    # Propiedad del overlap
    overlap = 0.99 if overlap >= 0.99 else overlap
    
    # Definición de una lista que almacene las componentes
    components = []
    # Listas de valores de interés
    Y_list = []
    
    # Obteniendo el espectrograma
    t, f, S = get_spectrogram(audio, samplerate, N=N, padding=padding, 
                              overlap=overlap, window=window, whole=whole)
    
    # Definiendo la magnitud del espectrograma (elemento a estimar)
    X = np.abs(S)
    
    # Definiendo el modelo de NMF
    model = NMF(n_components=n_components, init=init, solver=solver,
                beta_loss=beta, tol=tol, max_iter=max_iter, 
                random_state=random_state, alpha=alpha_nmf, l1_ratio=l1_ratio)
    
    # Ajustando
    if init == 'random':
        W = model.fit_transform(X)
    else:
        W = model.fit_transform(X, W=W_0, H=H_0)
        
    H = model.components_
    
    # Se define la función de transformación para Yi
    if wiener_filt:
        # Se aplica filtro de Wiener
        filt = lambda source_i: wiener_filter(X, source_i, W, H, 
                                              alpha=alpha_wie)
    else:
        # Solo se entrega la multiplicación W_i * H_i
        filt = lambda source_i: source_i
    
    # Obteniendo las fuentes
    for i in range(n_components):
        source_i = np.outer(W[:,i], H[i])
        
        # Aplicando el filtro
        Yi = filt(source_i) * np.exp(1j * np.angle(S))
        
        # Y posteriormente la transformada inversa
        yi = get_inverse_spectrogram(Yi, overlap=overlap, window=window, 
                                     whole=whole)
        
        # Agregando a la lista de componentes
        components.append(np.real(yi))
        Y_list.append(Yi)
        
    return np.array(components), t, f, X, np.array(Y_list), W, H

# Módulo de pruebas


### Piano con percusión (Musical)

In [3]:
# Lectura de audio
audio_mono, samplerate = sf.read('Drums_zanark.wav')

# Escuchar
Audio(audio_mono, rate=samplerate)

In [4]:
# Se mapea la señal a un dominio más grande (para dejar como enteros)
sign_aum = np.interp(audio_mono, [-1,1], [0, 2**12-1]).astype(np.int32)
Audio(sign_aum, rate=samplerate)

### Aplicando NMF utilizando como valor objetivo el espectrograma

In [10]:
n_comp = 20

comps, t, f, X, Y_list, W, H = \
        nmf_to_spectrogram(audio_mono, samplerate, N=4096, overlap=0.75, padding=0, 
                           window='hamming', wiener_filt=True, alpha_wie=1,
                           n_components=n_comp, init='random', solver='mu', beta=2,
                           tol=1e-4, max_iter=200, alpha_nmf=0, l1_ratio=0,
                           random_state=100, W_0=None, H_0=None, whole=False)

# Se guardan los datos del proceso de separación mediante NMF
np.savez(f'Separation_{n_comp}.npz', comps=comps, t=t, f=f, X=X, Y_list=Y_list,
         W=W, H=H)



## Abriendo archivo de separación

In [5]:
n_comp = 20

# Cargando los datos
data = np.load(f'Separation_{n_comp}.npz')

# Recuperando las variables de interés
X = data['X']
W = data['W']
H = data['H']
t = data['t']
f = data['f']
comps = data['comps']

# Se define la matriz A cuyas columnas son todas las componentes 
# obtenidas a partir de NMF
A = comps.T[:-1,:]

In [11]:
# Graficando
%matplotlib notebook
plt.figure(figsize=(9,5))

plt.subplot(1,2,1)
plt.pcolormesh(t, f, (X), cmap='inferno')
plt.colorbar()
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')

plt.subplot(1,2,2)
plt.pcolormesh(t, f, (np.matmul(W,H).astype(int)), cmap='inferno')
plt.colorbar()
plt.xlabel('Time [sec]')

plt.show()

<IPython.core.display.Javascript object>

### Graficando las componentes

In [12]:
%matplotlib notebook
plt.plot(comps[0])
plt.plot(comps[1])
plt.show()

<IPython.core.display.Javascript object>

In [46]:
print(comps.shape)
print(audio_mono.shape)
print(np.array([audio_mono]).shape)

print(cp.installed_solvers())

(20, 191488)
(191487,)
(1, 191487)
['ECOS', 'ECOS_BB', 'OSQP', 'SCS']
[[101. 101.]
 [101. 101.]
 [101. 101.]
 [101. 101.]
 [101. 101.]
 [101. 101.]
 [101. 101.]
 [101. 101.]
 [101. 101.]
 [101. 101.]]


# Resolución del problema de *Compressed Sensing* con cvxpy

In [7]:
import cvxpy as cp

In [8]:
# Audio matrix
audio_matrix = np.array([audio_mono]).T

# Se define el rango de tolerancia de la optimización
epsilon = 1000000

print(A.shape)
print(audio_matrix.shape)

# Se construye la variable
x = cp.Variable(shape=(A.shape[1], 1), integer=True)
print(x.shape)

# Se plantean las restricciones
constraints = [cp.abs(A*x - audio_matrix) <= epsilon * np.ones((A.shape[0], 1))]
#constraints = [A*x <= audio_matrix]

# Declaración de la función objetivo
obj = cp.Minimize(cp.norm(x, 1))

# Declaración del problema de optimización
opt_prob = cp.Problem(obj, constraints)

# Resolviendo...
opt_prob.solve(solver=cp.ECOS_BB, verbose=True)

(191487, 20)
(191487, 1)
(20, 1)
Iter	Lower Bound	Upper Bound	Gap

ECOS 2.0.7 - (C) embotech GmbH, Zurich Switzerland, 2012-15. Web: www.embotech.com/ECOS

It     pcost       dcost      gap   pres   dres    k/t    mu     step   sigma     IR    |   BT
 0  +0.000e+00  -1.918e+11  +3e+11  2e-06  6e-01  1e+00  4e+05    ---    ---    3  1  - |  -  - 
 1  +6.270e+02  -2.127e+09  +3e+09  2e-08  5e-01  4e+01  5e+03  0.9890  1e-04   0  0  0 |  0  0
 2  +2.677e+01  -2.359e+07  +3e+07  2e-10  1e-02  1e+00  5e+01  0.9890  1e-04   0  0  0 |  0  0
 3  +5.168e-01  -2.616e+05  +3e+05  2e-12  1e-04  2e-02  6e-01  0.9890  1e-04   0  0  0 |  0  0
 4  +8.157e-03  -2.901e+03  +4e+03  2e-14  2e-06  2e-04  7e-03  0.9890  1e-04   0  0  0 |  0  0
 5  +1.172e-04  -3.216e+01  +4e+01  3e-16  2e-08  3e-06  7e-05  0.9890  1e-04   0  0  0 |  0  0
 6  +1.595e-06  -3.567e-01  +5e-01  8e-17  2e-10  4e-08  8e-07  0.9890  1e-04   0  0  0 |  0  0
 7  +2.096e-08  -3.955e-03  +5e-03  9e-17  2e-12  6e-10  9e-09  0.9890  1e-0

-2.5766804033004807e-07

In [9]:
# Print result.
print("\nThe optimal value is", opt_prob.value)
print("A solution x is")
print(x.value)
print("A dual solution corresponding to the inequality constraints is")
print(opt_prob.constraints[0].dual_value)


The optimal value is -2.5766804033004807e-07
A solution x is
[[7.07756999e-16]
 [6.50426440e-16]
 [6.73715634e-16]
 [7.01866699e-16]
 [6.83723067e-16]
 [6.89075641e-16]
 [6.31125421e-16]
 [7.01106536e-16]
 [7.06440468e-16]
 [6.96476148e-16]
 [6.90945613e-16]
 [6.85402894e-16]
 [7.02855117e-16]
 [6.72430570e-16]
 [6.68076013e-16]
 [7.04739387e-16]
 [6.78766346e-16]
 [6.80382412e-16]
 [6.65459512e-16]
 [6.26113788e-16]]
A dual solution corresponding to the inequality constraints is
None


In [33]:
# Solución óptima de x
x_opt = x.value

%matplotlib notebook
plt.plot(x_opt)
plt.show()

<IPython.core.display.Javascript object>

# Resolución del problema con OR-Tools

## Solución con CP-SAT

In [13]:
from ortools.sat.python import cp_model

In [11]:
# Transformando A en enteros
A_int = np.interp(A, [-1,1], [0, 2**12-1]).astype(np.int32)

# Graficando
%matplotlib notebook
plt.figure(figsize=(9,5))

plt.subplot(1,2,1)
plt.pcolormesh(A, cmap='inferno')
plt.colorbar()
plt.ylabel('Time [sec]')
plt.xlabel('Componente')

plt.subplot(1,2,2)
plt.pcolormesh(A_int, cmap='inferno')
plt.colorbar()
plt.xlabel('Componente')

plt.show()

<IPython.core.display.Javascript object>

In [16]:
# Audio matrix
audio_matrix = np.array([sign_aum]).T

# Definición de dimensiones
q_constr, q_var = A_int.shape

# Creación del problema
model = cp_model.CpModel()

# Definición de una lista de variables
x_list = []

# Creación de las variables
for i in range(q_var):
    x_list.append(model.NewIntVar(0, 1, f'x_{i}'))

# Definición de las restricciones
# for i in range(q_constr):
#     model.Add(sum([A_int[i,j] * x_list[j] for j in range(q_var)]) <= audio_matrix[i,0])

## CP Solver normal

In [17]:
from ortools.constraint_solver import pywrapcp
from ortools.constraint_solver import solver_parameters_pb2

# Audio matrix
audio_matrix = np.array([sign_aum]).T

# Definición de dimensiones
q_constr, q_var = A_int.shape

# Instantiate a CP solver.
parameters = pywrapcp.Solver.DefaultSolverParameters()
solver = pywrapcp.Solver('simple_CP', parameters)

# Definición de una lista de variables
x_list = []

# Creación de las variables
for i in range(q_var):
    x_list.append(solver.IntVar(0, 1, f'x_{i}'))

# Definición de las restricciones
#for i in range(q_constr):
#    solver.Add(sum([A_int[i,j]*x_list[j] for j in range(q_var)]) <= audio_matrix[i,0])

Dado que no es posible agregar coeficientes que no sean enteros, y aunque al hacer que los coeficientes sean enteros siguen habiendo errores, se concluye que OR Tools para programación entera no será de utilidad.

## Programación lineal con OR Tools

In [12]:
from ortools.linear_solver import pywraplp

# Audio matrix
audio_matrix = np.array([audio_mono]).T

# Definición de dimensiones
q_constr, q_var = A_int.shape

print(A.shape)

"""Linear programming sample."""
# Instantiate a Glop solver, naming it LinearExample.
solver = pywraplp.Solver('Compressed Sensing Test 1',
                         pywraplp.Solver.GLOP_LINEAR_PROGRAMMING)

# Definición de una lista de variables
x_list = []

# Creación de las variables
for i in range(q_var):
    x_list.append(solver.NumVar(0, solver.infinity(), f'x_{i}'))

range_tol = 100000
# Definición de las restricciones
for i in range(q_constr):
    constraint_i = solver.Constraint(audio_matrix[i,0] - range_tol, audio_matrix[i,0] + range_tol)
    for j in range(q_var):
        constraint_i.SetCoefficient(x_list[j], A[i,j])

# Planteando la función objetivo
objective = solver.Objective()
for i in range(q_var):
    objective.SetCoefficient(x_list[i], 1)
objective.SetMinimization()

# Corroborando ciertos datos antes de resolver
print('Number of variables =', solver.NumVariables())
print('Number of constraints =', solver.NumConstraints())

# Resolver el sistema
status = solver.Solve()
print(status)
print(solver.FEASIBLE)

for i in range(q_var):
    print(f'x{i} = {x_list[i].solution_value()}')

(191487, 20)
Number of variables = 20
Number of constraints = 191487
0
1
x0 = 0.0
x1 = 0.0
x2 = 0.0
x3 = 0.0
x4 = 0.0
x5 = 0.0
x6 = 0.0
x7 = 0.0
x8 = 0.0
x9 = 0.0
x10 = 0.0
x11 = 0.0
x12 = 0.0
x13 = 0.0
x14 = 0.0
x15 = 0.0
x16 = 0.0
x17 = 0.0
x18 = 0.0
x19 = 0.0


# Resolución del problema con *Pyomo*

In [13]:
import pyomo.environ as pyo

In [31]:
print(A[190467] + 1e-15)

[1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15
 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15 1.e-15]


In [34]:
# Definición del modelo de optimización pyomo
model = pyo.ConcreteModel()

# Definición de dimensiones (i,j)
q_constr, q_var = A.shape

# Declaración de variable
model.x = pyo.Var(range(q_var), within=pyo.NonNegativeReals)
#model.x.pprint()

# Definición de la restricción
def limit_rule(model, i):
    return sum([(A[i,j]+1e-15) * model.x[j] for j in range(q_var)]) <= audio_mono[i]
model.restriccion = pyo.Constraint(range(q_constr), rule=limit_rule)
#model.restriccion.pprint()

# Definición de la función objetivo
def funcion_obj(model):
    return sum([abs(model.x[j]) for j in range(q_var)])
model.obj = pyo.Objective(rule=funcion_obj)

RuntimeError: Cannot write legal LP file.  Objective 'obj' has nonlinear terms that are not quadratic.

In [None]:

# Optimizando
opt = pyo.SolverFactory('glpk')
opt.solve(model).write()

# Resolución del problema con Scipy