In [1]:
# en este programa implementaremos la regresión lineal con descenso 
# por gradiente, y lo aplicarás a datos de audio digital

# primero de demuestra como hacerlo usando numpy y datos generados artificialmente

# comencemos definiendo algunos parametros generales de nuestros datos
N = 500      # número de ejemplos
D = 1        # número de carácterísticas

In [None]:
# ahora imporamos la libreria numpy y generamos nuestros datos
import numpy as np
X = np.random.uniform(low=1, high=10, size=[N,])    
                                            # la característica 'X' de cada
                                            # ejemplo es un número tomado 
                                            # de una distribución uniforme
                                            # con valores entre 1 y 10

y = X + np.random.randn(N)                  # el valor 'y' (que queremos predecir
                                            # usando regresión lineal en 'X')
                                            # son desviaciones aleatorias 
                                            # agregadas a los valores de X
                                            
# ahora podemos visualizar como se ven estos datos
%matplotlib inline
import matplotlib.pyplot as plt
plt.scatter(X,y)
plt.xlabel('característica x')
plt.ylabel('valor y')
plt.show()

In [34]:
# ahora que tenemos los datos, debemos separarlos aleatoriamente en
# datos de entrenamiento, datos de validación, y datos de prueba

N_tr = int(N*0.8) # el número de datos de entrenamiento (80%)
N_vl = int(N*0.1) # el número de datos de validación (10%)
N_ts = int(N*0.1) # el número de datos de prueba (10%)

rand_idx = np.random.choice(N, size=N, replace=False) # los índices de nuestros
                                                    # datos pero al azar

tr_idx = rand_idx[:N_tr] # los índices aleatorios para los datos de entrenamiento
vl_idx = rand_idx[N_tr:N_tr+N_vl] # los índices aleatorios para los datos de validación
ts_idx = rand_idx[N_tr+N_vl:] # los índices aleatorios para los datos de prueba

# ahora podemos separar X en los tres tipos de datos que vamos a usar
X_tr = X[tr_idx] # datos de entrenamiento
y_tr = y[tr_idx] 
X_vl = X[vl_idx] # datos de validación
y_vl = y[vl_idx] 
X_ts = X[ts_idx] # datos de prueba
y_ts = y[ts_idx] 

# imprimimos el tamaño de nuestros tipos de datos para asegurarnos que
# son correctos
print('El tamaño de los datos de entrenamiento es: ', X_tr.shape)
print('El tamaño de los datos de validación es: ', X_vl.shape)
print('El tamaño de los datos de prueba es: ', X_ts.shape)

El tamaño de los datos de entrenamiento es:  (400,)
El tamaño de los datos de validación es:  (50,)
El tamaño de los datos de prueba es:  (50,)


In [None]:
# en esta celda vamos a llevar a cabo todos los pasos
# de regresión lineal con descenso por gradiente y
# validación cruzada

alpha = 0.05 # también definimos la tasa de aprendizaje antes que nada

# 1. definir los parámetros b y w aleatoriamente
b = np.random.randn()
w = np.random.randn()

# 2. calcula y_hat con los datos de entrenamiento y con los de validación
y_hat_tr = b + w*X_tr
y_hat_vl = b + w*X_vl

# 3. calcula el objetivo inicial con los datos de entrenamiento
J_tr = (1/N_tr)*(1/2)*np.sum(np.square(y_tr - y_hat_tr))
J_vl = (1/N_vl)*(1/2)*np.sum(np.square(y_vl - y_hat_vl))
print('El objetivo inicial de entrenamiento es: ', J_tr)
print('-------------------- y de validación es: ', J_vl)

# 4. calcula la derivada de J respecto a los parametros b y w usando solo los datos de entrenamiento
dJdw = -(1/N_tr)*np.sum((y_tr-y_hat_tr)*X_tr)
dJdb = -(1/N_tr)*np.sum((y_tr-y_hat_tr))

# 5. actualiza los valores de b y w con los gradientes
w = w - alpha*dJdw
b = b - alpha*dJdb

# 6. repite los pasos 2, 3, 4, y 5 hasta que J sea tan pequeño como sea posible
Niters = 1000 # el número de iteraciones que vamos a hacer para reducir J
for iter in range(Niters):
  # 2. calcula y_hat con los datos de entrenamiento y con los de validación
  y_hat_tr = b + w*X_tr
  y_hat_vl = b + w*X_vl

  # 3. calcula el objetivo inicial con los datos de entrenamiento
  J_tr = (1/N_tr)*(1/2)*np.sum(np.square(y_tr - y_hat_tr))
  J_vl = (1/N_vl)*(1/2)*np.sum(np.square(y_vl - y_hat_vl))
  print('* En la iteración ', iter+1)
  print('El objetivo de entrenamiento es: ', J_tr)
  print('------------ y de validación es: ', J_vl)

  # 4. calcula la derivada de J respecto a los parametros b y w usando solo los datos de entrenamiento
  dJdw = -(1/N_tr)*np.sum((y_tr-y_hat_tr)*X_tr)
  dJdb = -(1/N_tr)*np.sum((y_tr-y_hat_tr))

  # 5. actualiza los valores de b y w con los gradientes
  w = w - alpha*dJdw
  b = b - alpha*dJdb

In [None]:
# ahora podemos visualizar los datos
# con la linea de regresión que encontramos
%matplotlib inline
import matplotlib.pyplot as plt
plt.scatter(X_tr,y_tr)
plt.plot(X_tr, y_hat_tr, c='red')
plt.title('Regresión en los datos de entrenamiento')
plt.xlabel('característica x')
plt.ylabel('valor y')
plt.show()
plt.scatter(X_vl,y_vl)
plt.plot(X_vl, y_hat_vl, c='red')
plt.title('Regresión en los datos de validación')
plt.xlabel('característica x')
plt.ylabel('valor y')
plt.show()

In [None]:
# Ahora tu harás lo mismo pero con la característica de cruces por cero
# de las mismas grabaciones de audio de la tarea pasada.
# esta celda va a cargar los datos que vas a usar. No cambies nada aquí. Solo
# corre la celda. El proceso de cargar los datos se va a tardar un tiempo. 
# Ten paciencia. Esta celda solo se debe correr una vez. 

# Después de correr esta celda, vas a tener una matriz 'X' de tamaño 182x1
# donde cada ilera es el número de cruces por cero de una grabación 
# de un segundo de un violín. Solo se toca una nota en cada grabación.
# También vas a tener una matriz 'y' de tamaño 182x1, donde cada ilera es la
# frecuencia en hertz de la grabación correspondiente

!rm -r data_zip
!rm -r data
!mkdir data_zip
!mkdir data
import urllib.request
url = 'http://theremin.music.uiowa.edu/sound%20files/MIS%20Pitches%20-%202014/Strings/'
instruments = ['Violin']
attacks = ['arco','pizz']
strings = {'Violin':['E','A','D','G']}

for instrument in instruments:
  print('Downloading ', instrument, ' files')
  for attack in attacks:
    for string in strings[instrument]:
      filename = instrument+'.'+attack+'.ff.sul'+string+'.stereo.zip'
      fullpath = url+instrument+'/'+filename
      response = urllib.request.urlretrieve(fullpath,'data_zip/'+filename)

!for file in data_zip/*.zip; do unzip "$file" -d data; done
!for file in data/*.aif; do ffmpeg -i "$file" "$file".wav; done
!rm data/*.aif 
!rm -r data/__MACOSX

import glob
import librosa    
x_arco = []
for filename in glob.glob('data/*arco*.wav'):
  data, fs = librosa.load(filename, sr=16000)  
  x_arco.append(data)

x_pizz = []
for filename in glob.glob('data/*pizz*.wav'):
  data, fs = librosa.load(filename, sr=16000)
  x_pizz.append(data)

import numpy as np
x = x_arco + x_pizz
max_len = 16000
for idata, data in enumerate(x):
  x[idata] = np.ndarray.tolist(data[:max_len]) + [0]*(max_len - len(data))
x = np.array(x)

X = np.array([np.sum(np.diff(np.sign(example)) != 0) for example in x])

! pip install crepe
import crepe
y = []
for xi in x:
  y.append(np.mean(crepe.predict(xi,sr=16000,model_capacity='tiny')[1]))
y = np.array(y)

# aquí también se incluye una visualización de los datos
%matplotlib inline
import matplotlib.pyplot as plt
plt.scatter(X,y)
plt.xlabel('Número de cruces por cero')
plt.ylabel('Frequencia en Hz')
plt.show()

In [None]:
# tu tarea es desarrolar un modelo de regresión lineal que pueda predecir la
# frecuencia en hertz dado el número de cruces por cero que tiene una señal 
# del sonido de una sola nota tocada en violín. 

# para hacer esto, debes repetir todos los pasos que fueron demostrados en las 
# celdas anteriores. Debes usar validación cruzada, por lo que vas a separar tus
# datos de forma aleatoria en datos de entrenamiento, validación, y prueba.  

# reporta el mejor objetivo que pudiste obtener, con los datos de entrenamiento
# con los datos de validación, y al final también con los datos de prueba

# también genera gráficas donde muestres los tres tipos de datos con la linea 
# de regresión resultante

# responde las preguntas:
# ¿Cual es el valor de b que encontraste al final? 
# ¿qué significa ese valor específico?
# ¿Cual es el valor de w que encontraste al final? 
# ¿qué significa ese valor específico?
# ¿Podemos usamos este modelo para predecir la frecuencia dado el 
# número de cruces por cero que tiene una señal con una nota tocada en un 
# instrumento que no sea el violín? ¿Por qué crees eso?
# ¿Cómo podrías mejorar tu modelo de regresión lineal?
# ¿Qué otras características de las señales de audio que usamos para 
# desarrollar este modelo crees que tendrán una relación lineal?