# Regresión II: No entiendo lo que dicen

Debido a la contingencia ocasionada por el COVID, las teleconferencias son ahora mucho más comunes. Sin embargo, muchas veces el ruido de fondo no permite enender que es lo que una persona ha dicho, lo que ocasiona demoras en las reuniones. Además, el ruido de fondo (tráfico, perros, otras personas hablando, lluvia, etc..) puede ser un distractor importante en las reuniones. El profesor Alexander esta un poco cansado con esta situación, ya qu elas reuniones se alargan más de lo debido, y esto le quita tiempo para realizar otras actividades. Como los estudiantes de Machine LEarning ya saben utilizar redes neuronales, el profesor Alexander quiere que sus estudiantes desarrollen un sistema de mejora del audio, la idea es que los estudiantes desarrollen un modelo utilizando redes neuronales, que sea capaz de reducir el ruido de fondo de las señales de audio que se procesan. 

Para la realización de este proyecto el estudiante debera:

1. Crear una base de datos con señales de personas hablando, y de diferentes ruidos de fondo, los cuales deben ser mezclados para generar las señales de entrada en el modelo de regresión. Tenga en cuenta las sigueintes consideraciones:
    * Una red aprende con base en la información que le proporcionemos, asi que al crear la base de datos tenga en cuenta todas las posibilidades que se les ocurra de ruido de fondo y de señales de habla. Además la base de datos debe contener diferentes muestras de diferentes personas, invluyendo niños, niñas, mujeres y hombres. El objetivo es generalizar, no memorizar patrones, para esto debemos darle suficiente información a la red.
    * Una señal de voz puede tener entre 8000 y 40000 mmuestras por segundo de grabación. Esto es bastante para ser utilizado como entrada en la red. recuerde que entre mayor dimensionalidad en los datos de entrada, mayor será la complejidad de la red necesaria. Para disminuir la complejidad el profesor Alexander recomienda el uso de la densidad espectral de potencia (PSD) utilizando un número fijo de bins frecuenciales. La PSD representa la distribucion en frecuencia de la potencia de la señal.   
2. Definir las arquitecturas de red que debe probar.
3. Escoger la red que mejor se desempeñe.
4. Evaluar el rendimiento de la red.

Tenga en cuenta que todo el procedimiento debe ser lo mas amigable para probar. Es decir si el profesor Alexander quiere probar con una señal de voz que él produzca, entonces él solo deberia ingresar la señal de voz y el programa debería proporcionar a la salida una estimación de la señal de voz mejorada, con el ruido de fondo reducido.

Además el profesor quiere que contesten las siguientes preguntas:

1. ¿Qué puede concluir del comportamiento de la red y los datos proporcionados?
2. ¿Qué criterio utilizó para seleccionar la arquitectura de la red?
3. ¿Tiene la red el comportamiento esperado?, si no es así, ¿A qué cree que se debe esto?
4. ¿Qué le mejoraria al modelo que usted diseño?, ¿Cómo implementaría esas mejoras?

## Qué se debe entregar:

Par ala entrega del proyecto deben porporcionar:

1. La base de datos generada.
2. Un notebook de Jupyter donde presentan todo el pipeline para el entrenamiento de la red. Cada parte debe ser explicada.
3. El notebook debe incluir una función que permita ingresar una muestra de entrada y se proporcione la salida, sin mas pasos intermedios. Por lo tanto en esta función se debe tener en cuenta el acondicionamiento de los datos, antes de ser introducidos en la red neuronal par arealizar las predicciones.
4. El notebook debe incluir las respuestas a las preguntas planteadas.

In [27]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.io.wavfile as waves
import scipy.fftpack as fourier
import random
from keras import models
from keras import layers
from sklearn.model_selection import train_test_split

def signal(data, frequency):
    # funcion que divide los puntos de una señal
    
    data = data[:,0]
    fixed_data = data[len(data)-frequency*2:]
    matrix = np.zeros(shape=(9600, 10))
    count = 0
    for i in range(10):
        for j in range(9600):
            matrix[j,i] = fixed_data[count]
            count += 1
    return np.transpose(matrix)

def words(word_list):
    # funcion que convierte todas las palabras en matrices 10*9600
    
    signals = []
    for word in word_list:
        for i in range(5):
            string = 'Palabras/{palabra}{index}.wav'.format(palabra = word, index = i + 1)
            frequency, data = waves.read(string)
            signals.append(signal(data, frequency))
    return signals

def noise(noise_list):
    # funcion que convierte todos los rudios en matrices 10*9600
    
    signals = []
    for noise in noise_list:
        string = 'Ruidos/{ruido}.wav'.format(ruido = noise)
        frequency, data = waves.read(string)
        signals.append(signal(data, frequency))
    return signals

def fourier256(piece):
    # funcion que aplica una transformada de fourier de 256 puntos
    
    new_piece = fourier.fft(piece, 256)    
    real_part = np.zeros(shape=(256,))
    imaginary_part = np.zeros(shape=(256,))
    for i in range(len(new_piece)):
        real_part[i] = new_piece[i].real
        imaginary_part[i] = new_piece[i].imag
    return real_part, imaginary_part

def fourierMatrix(word):
    # funcion que aplica una transformada de fourier a cada fila de una matriz
    
    real_part, imaginary_part = fourier256(word[0,:])
    for i in range(1,10):
        temp = fourier256(word[i,:])
        real_part = np.row_stack([real_part, temp[0]])
        imaginary_part = np.row_stack([imaginary_part, temp[1]])
    matrix = np.hstack([real_part, imaginary_part])
    return matrix
        

In [57]:
############ IMPLEMENTACION

# muestras de palabras y ruidos
word_list = ['aguacate', 'biblioteca', 'cuaderno', 'escuela', 'guarderia', 'momento', 'parqueadero', 'trabajar', 'transmilenio', 'tristeza']
noise_list = ['aguacero', 'licuadora', 'niños', 'trafico']

# matrices de palabras y ruidos (10 x 9600)
word_matrix_list = words(word_list)
noise_matrix_list = noise(noise_list)

# matrices de palabras y ruidos (10 x 512)
fft_words = []
for i in range(len(word_matrix_list)):
    fft_words.append(fourierMatrix(word_matrix_list[i]))

fft_noises = []
for i in range(len(noise_matrix_list)):
    fft_noises.append(fourierMatrix(noise_matrix_list[i]))

# combinaciones lineales entre palabras y ruidos (10 x 512)   
final = []    
for i in range(50):
    num = random.uniform(0,1)
    final.append(num*fft_noises[i%4] + (1 - num)*fft_words[i])
    
# datos de entrenamiento, prueba y validacion
final = np.array(final)
fft_words = np.array(fft_words)

X_temp, X_test, y_temp, y_test = train_test_split(final, fft_words, test_size=0.3)
X_train, X_target, y_train, y_target = train_test_split(X_temp, y_temp, test_size=0.14)

# construimos la red (prueba)
network = models.Sequential()
network.add(layers.Dense(256, activation='tanh', input_shape=(30, 10, 512)))
network.add(layers.Dense(128, activation='tanh'))
network.add(layers.Dense(256, activation='tanh'))
network.add(layers.Dense(512))
network.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])

network.fit(X_train, y_train, epochs=50, batch_size=5)

    

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<tensorflow.python.keras.callbacks.History at 0x20e9364fca0>