### Instrucciones generales <a class="tocSkip"></a>

1. Forme un grupo de **máximo dos estudiantes**
1. Versione su trabajo usando un **repositorio <font color="red">privado</font> de github**. Agregue a su compañero y a su profesor (usuario github: phuijse) en la pestaña *Settings/Manage access*. No se aceptarán consultas si la tarea no está en github. No se evaluarán tareas que no estén en github.
1. Se evaluará el **resultado, la profundidad de su análisis y la calidad/orden de sus códigos** en base al último commit antes de la fecha y hora de entrega". Se bonificará a quienes muestren un método de trabajo incremental y ordenado según el histórico de *commits*
1. Sean honestos, ríganse por el [código de ética de la ACM](https://www.acm.org/about-acm/code-of-ethics-in-spanish)



# Tarea 3: Predicción de una serie de tiempo caótica

En esta tarea se pide entrenar y evaluar un predictor para el sistema no-lineal [Mackey-Glass](https://en.wikipedia.org/wiki/Mackey-Glass_equations)

Esta serie de tiempo se obtiene de la solución de la siguiente ecuación diferencial

$$
\frac{dy}{dt} = \beta \frac{ y(t-\tau)}{1 + y(t-\tau)^{n}} - \gamma y(t),
$$

donde el parámetro $\tau$ controla el comportamiento dinámico de la serie de tiempo 

En esta tarea nos limitaremos en estudiar el caso con $n=10$, $\gamma = 0.1$ y $\beta = 0.2$

El valor del parámetro $\tau$ modifica el comportamiento dinámico del sistema, en particular se tiene que

- $\tau = 17$ el sistema tiene un comportamiento debilmente caótico
- $\tau = 30$ el sistema tiene un comportamiento fuertemente caótico

La ecuación de diferencial anterior fue propuesta por Michael Mackey and Leon Glass en 1977 como modelo para procesos fisiológicos asociados a la [homeostasis](https://es.wikipedia.org/wiki/Homeostasis)

El código adjunto a esta tarea genera la serie de tiempo en función 

Se generan 1000 muestras de la serie de tiempo. Use los primeros 500 puntos para entrenar, los siguientes 250 puntos para calibrar los hiperparámetros y los últimos 250 para evaluar y comparar los filtros

In [1]:
import numpy as np
%matplotlib notebook
import matplotlib.pylab as plt
from mackey import MackeyGlass

# Puede calcular el error medio cuadrático normalizado usando:
NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

# Gráfico
(t_train, y_train), (t_valid, y_valid), (t_test, y_test, y_real) = MackeyGlass(tau=30.)
fig, ax = plt.subplots(figsize=(6, 3), tight_layout=True)
ax.plot(t_train, y_train, label='Entrenamiento')
ax.plot(t_valid, y_valid, label='Validación')
ax.plot(t_test, y_test, label='Prueba')
ax.set_title('Serie de tiempo Mackey-Glass');
ax.legend();

<IPython.core.display.Javascript object>


## (45%) Predicción con algoritmo LMS


### Describa en detalle el algoritmo LMS e implemente un predictor a un paso basado en el algoritmo LMS normalizado

Es un algoritmo utilizado en filtros adaptativos para encontrar los coeficientes del filtro que permiten obtener el valor minimo esperado del cuadrado de la señal de error  (diferencia entre la señal deseada y la señal producida por el filtro). 

El algoritmo está compuesto por 2 procesos:

1. **Proceso de filtrado**: Se realiza el calculo de la salida y la generación del error comparado con la salida.

2. **Proceso adaptativo**: Se realiza el ajuste de los coeficientes del filtro de forma automática conforme a la estimación del error

Por otra parte, este algoritmo es una extensión del filtro de Wiener, pero para los casos no estacionarios, por lo que su solución converge a la solución del filtro de Wiener

Las correcciones sucesivas del vector de pesos convergen al valor mínimo del error medio cuadrático (si la tasa de aprendizaje se encuentra en un determinado rango de valores).


En la vesión normalizada (NLMS) se incorpora un termino adicional a la regla iterativa que pondera el delta de los pesos por la varianza del vector u.

**Funcionamiento del algoritmo LMS:**

- se calcula la salida y(n) a partir de la entrada x(n) y el vector de pesos w
- se determina el error (cuadrático instantáneo) e(n) entre la salida deseada d(n) e y(n)
- se actualizan los pesos utilizando la regla de Widrow-Hoff




In [2]:
class Filtro_NLMS:
    
    def __init__(self, L, mu, delta=1e-6, winit=None):
        self.L = L
        self.w = np.zeros(shape=(L+1, ))
        self.mu = mu
        self.delta = delta
        
    def update(self, un, dn):
        # Asumiendo que un = [u[n], u[n-1], ..., u[n-L]]
        unorm = np.dot(un, un) + self.delta
        yn = np.dot(self.w, un)
        self.w += 2*self.mu*(dn - yn)*(un/unorm)
        return yn
    
    def predict(self, un):
        return np.dot(self.w, un)

### Considere el caso 𝜏=17. Entrene su predictor en el conjunto de entrenamiento y encuentre la combinación de parámetros 𝜇 y 𝐿 que minimiza el NMSE en el conjunto de validación. Se recomienda realizar un barrido logarítmo para 𝜇. Para 𝐿 pruebe al menos los siguientes valores [5, 10, 20, 30]. Comente sobre lo que observa.

In [3]:
def train_NLMS(tau=17, L=None, mu=None):
    (t_train, y_train), (t_valid, y_valid), (t_test, y_test, y_real) = MackeyGlass(tau=tau)
    if L is not None:
        Ls = [L]
    else:
        #Ls = [5, 10, 20, 30]
        Ls = [3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50]
    
    if mu is not None:
        mus = [mu]
    else:
        mus = np.logspace(-4, 0, num=20)
    
    best_nmse = np.inf
    for L in Ls:
        for mu in (mus):
            myfilter = Filtro_NLMS(L=L, mu=mu)
            #entrenar
            for k in range(L+1, len(y_train)):
                myfilter.update(y_train[k-L-1:k][::-1], y_train[k])

            u_pred = np.zeros(shape=(len(y_valid)))
            for k in range(L+1, len(y_valid)):
                u_pred[k] = myfilter.predict(y_valid[k-L-1:k][::-1])

            nmse = NMSE(y_valid, u_pred)
            if (nmse < best_nmse):
                best_filter = myfilter
                best_nmse = nmse
                best_mu = mu
                best_L = L
                
    print(f"Best NMSE : {best_nmse:.3f}\nL {best_L} , mu : {best_mu:.3f}")
    return best_filter, best_L, best_mu

In [4]:
def predict_NLMS(best_L, y_test, myfilter):
    y_pred = np.zeros(shape=(len(y_test)))
    for k in range(best_L+1, len(y_test)):
        y_pred[k] = myfilter.predict(y_test[k-best_L-1:k][::-1])
    return y_pred

In [5]:
tau = 17
myfilter, best_L, best_mu = train_NLMS(tau=tau)

Best NMSE : 228.952
L 8 , mu : 0.089


In [6]:
y_pred_NLMS17 = predict_NLMS(best_L, y_test, myfilter)

In [7]:
fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)
ax.plot(t_test, y_test, label='Prueba')
ax.plot(t_test, y_pred_NLMS17, label=f'Predicho L:{best_L}, mu : {best_mu:.3f}')
ax.legend()
ax.set_title(f'Algoritmo NLMS\nConjunto de prueba y predicción\ntau: {tau}');



<IPython.core.display.Javascript object>

### Repita el paso anterior para el caso $\tau = 30$ 

In [8]:
tau = 30
myfilter, best_L, best_mu = train_NLMS(tau=tau)

Best NMSE : 183.147
L 3 , mu : 0.089


In [9]:
y_pred_NLMS30 = predict_NLMS(best_L, y_test, myfilter)

In [10]:
fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)
ax.plot(t_test, y_test, label='Prueba')
ax.plot(t_test, y_pred_NLMS30, label=f'Predicho L:{best_L}, mu : {best_mu:.3f}')
ax.legend()
ax.set_title(f'Algoritmo NLMS\nConjunto de prueba y predicción\ntau: {tau}');

<IPython.core.display.Javascript object>

### Muestre también los residuos. 


In [11]:
residuo_tau17 = (y_test - y_pred_NLMS17)**2 
residuo_tau30 = (y_test - y_pred_NLMS30)**2 

fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)
ax.plot(t_test, residuo_tau17, label='Residuo tau 17')
ax.plot(t_test, residuo_tau30, label='Residuo tau 30')
ax.set_title(f'Algoritmo NLMS\nResiduos tau 17 y tau 30');
ax.legend()

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x7f1a1a5dce90>

#### Discuta y analice sus resultados


El valor de aprendizaje óptimo encontrado para ambas series de tiempo Mackey-Glass es de tau 0.089.

Analizando la serie de tiempo Mackey-Glass con tau 17, podemos observar que el filtro NLMS se adapta de buena manera a los puntos donde no hay variaciones de altura, un ejemplo de esto es en el tiempo 4.6 a 4.7, donde el algoritmo es capaz de definir de manera correcta la forma de la serie de tiempo, pero a medida que la serie va disminuyendo la altura este no es capaz de seguir el paso, produciendo posibles errores a la hora de predecir la serie de tiempo Mackey-Glass, caso contrario ocurre al utilizar el algoritmo NLMS en la serie Mackey-Glass con tau 30, donde el algoritmo se adapta de gran manera a la serie de tiempo, eliminando el problema descrito para tau 17. Esto puede ocurrir debido a que tau 30 es mucho más caótica,y debido a esto, el algoritmo no es capaz de predecir la posible solución sin ruido, por lo tanto solo se ajusta a la serie de tiempo.

Esto lo podemos clarificar al graficar sus residuos, donde podemos ver que la serie de tiempo Mackey-Glass con tau 17 posee diferencias bastante más notorias que Mackey-Glass con tau 30 con la serie de tiempo con ruido.

Por lo que podemos concluir que utilizando un algoritmo NLMS es posible realizar un filtrado correcto si la señal no es excesivamente caótica y si este fuera el caso, la serie retornada será sobreajustada al ruido.



## (45%) Predicción con algoritmo RLS



### 1. Describa en detalle el algoritmo RLS e implemente un predictor a un paso basado en el algoritmo RLS. Resalte las diferencias con el algoritmo LMS


El algoritmo  RLS (mínimos cuadrados recursivos) es un método online que minimiza el error histórico, es decir la suma de error es desde la muestra inicial hasta la actual. 

Tiene como característica que toma la historia anterior del filtro, pero también la información actual y a medida que avanza olvida el pasado.


Hiperparámetros:
* **Beta:** Factor de olvido, repercute en cuanta memoria tiene el filtro, los valores ideales son entre {0.9, 1}. Mientras más cercano a 1 menos información olvida. 

* **Lambda:** Regularizador, permite mejorar la estabilidad del filtro, haciendo que ningún w sea demasiado grande. Mientras más pequeño el lambda, más pequeña la regularización
    
La diferencia principal que tiene el algoritmo RLS con el algoritmo LMS es su función de costo, donde LMS determinaba el error cuadrático instantáneo, siendo sumamente eficiente, pero poco ágil para adaptarse a grandes cambios del problema, en cambio, RLS implementa el error histórico ponderado, siendo menos eficiente computacionalmente, pero tardando menos en adaptarse a cambios abruptos en los datos.
    

### Considere el caso $\tau=17$. Entrene su predictor en el conjunto de entrenamiento y encuentre la combinación de parámetros $\beta$ y $L$ que minimiza el NMSE en el conjunto de validación. Para $L$ pruebe al menos los siguientes valores 5, 10, 20, 30. Comente sobre lo que observa.

In [12]:
class Filtro_RLS:
    
    def __init__(self, L, beta=0.99, lamb=1e-2):
        self.L = L
        self.w = np.zeros(shape=(L+1, ))
        self.beta = beta
        self.lamb = lamb
        self.Phi_inv = lamb*np.eye(L+1)
        
    def update(self, un, dn):
        # Cálculo de la ganancia
        pi = np.dot(un.T, self.Phi_inv)
        kn = pi.T/(self.beta + np.inner(pi, un))
        # Actualizar el vector de pesos
        error = dn - np.dot(self.w, un)
        self.w += kn*error
        # Actualizar el inverso de Phi
        self.Phi_inv = (self.Phi_inv - np.outer(kn, pi))*self.beta**-1
        #return np.dot(self.w, un)
    
    def predict(self, un):
        return np.dot(self.w, un)

In [13]:
def train_RLS(tau=17, L=None, b=None):
    (t_train, y_train), (t_valid, y_valid), (t_test, y_test, y_real) = MackeyGlass(tau=tau)
    if L is not None:
        Ls = [L]
    else:
        Ls = [3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50]

    if b is not None:
        bs = [b]
    else:
        step = 0.001
        bs = np.arange(0.9,1+step,step)
    
    best_nmse = np.inf
    for L in Ls:
        for b in (bs):
            myfilter = Filtro_RLS(L=L, beta=b)
            #entrenar
            for k in range(L+1, len(y_train)):
                myfilter.update(y_train[k-L-1:k][::-1], y_train[k])

            u_pred = np.zeros(shape=(len(y_valid)))
            for k in range(L+1, len(y_valid)):
                u_pred[k] = myfilter.predict(y_valid[k-L-1:k][::-1])

            nmse = NMSE(y_valid, u_pred)
            if (nmse < best_nmse):
                best_filter = myfilter
                best_nmse = nmse
                best_beta = b
                best_L = L
    print(f"Best NMSE : {best_nmse:.3f}\nL {best_L} , beta : {best_beta:.3f}")
    return best_filter, best_L, best_beta

In [14]:
def predict_RLS(best_L, y_test, myfilter):
    y_pred = np.zeros(shape=(len(y_test)))
    for k in range(best_L+1, len(y_test)):
        y_pred[k] = myfilter.predict(y_test[k-best_L-1:k][::-1])
    return y_pred

In [15]:
tau = 17
myfilter, best_L, best_beta = train_RLS(tau=tau) 

Best NMSE : 201.306
L 6 , beta : 0.987


In [16]:
y_pred_RLS17 = predict_RLS(best_L, y_test, myfilter)

In [17]:
fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)
ax.plot(t_test, y_test, label='Prueba')
ax.plot(t_test, y_pred_RLS17, label=f'Predicho L:{best_L}, mu : {best_beta:.3f}')

ax.legend()
ax.set_title(f'Algoritmo RLS\nConjunto de prueba y predicción\ntau {tau} ');

<IPython.core.display.Javascript object>

### Repita el paso anterior para el caso $\tau = 30$

In [18]:
tau = 30
myfilter, best_L, best_beta = train_RLS(tau=tau)

Best NMSE : 179.883
L 3 , beta : 0.992


In [19]:
y_pred_RLS30 = predict_RLS(best_L, y_test, myfilter)

In [20]:
fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)
ax.plot(t_test, y_test, label='Prueba')
ax.plot(t_test, y_pred_RLS30, label=f'Predicho L:{best_L}, mu : {best_beta:.3f}')

ax.legend()
ax.set_title(f'Filtro RLS\nConjunto de prueba y predicción\ntau {tau} ');

<IPython.core.display.Javascript object>

### Muestre también los residuos. 


In [21]:
residuo_tau17 = (y_test - y_pred_RLS17)**2 
residuo_tau30 = (y_test - y_pred_RLS30)**2 

fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)
ax.plot(t_test, residuo_tau17, label='Residuo tau 17')
ax.plot(t_test, residuo_tau30, label='Residuo tau 30')
ax.set_title(f'Filtro RLS\nResiduos tau 17 y tau 30');
ax.legend()

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x7f1a1a4e8950>

####  Discuta y analice sus resultados

Para poder determinar el mejor valor de beta, realizamos un barrido de 100 posibles valores entre 0.9 y 1, Donde se pudo determinar que para la serie de tiempo con tau 17 el valor de beta es 0.987 y para tau 30 0.992.

Para tau 17 podemos apreciar una clara eliminación de ruido debido a que se aprecia una clara diferencia en sus gráficas, lo mismo ocurre en el caso de tau 30, donde existe una clara disminución de ruido y con una salida más suave, pero esta salida es más cercana a la serie de tiempo que en el caso de tau 17, esto probablemente es debido a que tau 30 es mucho más caotica que tau 17.


Al analizar los residuos, podemos ver que no existe una gran diferencia entre los niveles de tau 17 y tau 30, esto puede ser debido a que el algoritmo RLS es capaz de adaptarse de buena manera a ambas series de tiempo.



## (10%) Comparación entre LMS y RLS




### Tau 17

In [22]:
fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)

ax.plot(t_test, y_test, label='Prueba')
ax.plot(t_test, y_pred_NLMS17, label=f'Best NLMS', alpha=0.8)
ax.plot(t_test, y_pred_RLS17, label=f'Best RLS', alpha=0.8)

ax.legend()
ax.set_xlim([3.8,4.6])
ax.set_title(f'Conjunto de prueba y predicciones NLMS y RLS\ntau 17');

<IPython.core.display.Javascript object>


Al graficar las filtraciones de los algoritmos NLMS y RLS junto a la serie de tiempo Mackey-Glass con tau 17, podemos observar que el algoritmo NLMS no es capaz de adaptarse de buena manera a la serie de tiempo en los puntos donde hay una variación de altura significativa, siendo este algoritmo poco efectivo para problemas como este. Caso contrario es el resultado de RLS, donde la serie de tiempo que determina es muy cercana a la serie de tiempo en el conjunto de prueba, pero con una disminución de ruido, además este algoritmo, si es capaz de seguir los cambios de altura de la serie de tiempo Mackey-Glass.

Gracias a esta gráfica podemos comprobar la teoría, donde el algoritmo RLS al sacrificar coste computacional es capaz de adaptarse de mejor manera a problemas de esta índole.


In [23]:
residuo_NLMS17 = (y_test - y_pred_NLMS17)**2 
residuo_RLS17 = (y_test - y_pred_RLS17)**2 

fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)
ax.plot(t_test, residuo_NLMS17, label='Residuo NLMS tau 17')
ax.plot(t_test, residuo_RLS17, label='Residuo RLS tau 17')
ax.set_title(f'Residuos de NLMS y RLS\ntau 17');
ax.legend()

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x7f1a1a42e2d0>

Analizando los residuos, podemos ver más claramente cómo el algoritmo RLS es capaz de disminuir la diferencia entre la señal filtrada y la señal original en una menor cantidad de series de tiempo, además tiendo niveles mucho mejores a NLMS

### Tau 30

In [24]:
fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)

ax.plot(t_test, y_test, label='Prueba')
ax.plot(t_test, y_pred_NLMS30, label=f'Best NLMS')
ax.plot(t_test, y_pred_RLS30, label=f'Best RLS')

ax.legend()
ax.set_xlim([3.8,4.6])
ax.set_title(f'Prueba y predicciónes de NLMS y RLS\tau 30');

<IPython.core.display.Javascript object>

Para tau 30 podemos ver que no es tan notoria la diferencia entre NLMS y RLS, dado que ambos se adaptan bien a los cambios de altura de la serie de tiempo.

Cabe destacar que en el caso de tau 17, donde el algoritmo RLS determinaba una señal parecida a la original de la serie de tiempo Mackey-Glass, estas tenían una discordancia clara, la cual podíamos suponer que era ruido inmerso en la señal. En este caso, la diferencia entre la serie de tiempo con las filtraciones de los algoritmos NLMS y RLS, no es tan notoria, siendo estas predicciones mucho más sobreajustadas a la señal con ruido que una filtración en sí.


In [25]:
residuo_NLMS30 = (y_test - y_pred_NLMS30)**2 
residuo_RLS30 = (y_test - y_pred_RLS30)**2 

fig, ax = plt.subplots(figsize=(8, 5), tight_layout=True)
ax.plot(t_test, residuo_NLMS30, label='Residuo NLMS tau 30')
ax.plot(t_test, residuo_RLS30, label='Residuo RLS tau 30')
ax.set_title(f'Residuos de NLMS y RLS\ntau 30');
ax.legend()

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x7f1a1a354cd0>

Esto queda demostrado al graficar los residuos, donde NLMS y RLS, están mucho más equilibrado en altura.

### Comentarios Finales

Podemos concluir que para tau 17, la elección de un algoritmo RLS es fundamental, debido a que el algoritmo NLMS no fue capaz de seguir el comportamiento de la serie de tiempo de Mackey-Glass, caso contrario al de RLS el cual cumplió con las espectativas y realizó ajustes de manera casi inmediata. Es posible que se pudiera mejorar el rendimiento de este filtro realizando un barrido del parametro **lambda**, pero con la implementación realizada el filtrado de la serie de tiempo se puede considerar aceptable.

Para tau 30, la situación es un poco distinta, ambos algoritmos fueron capaces de adaptarse mejor a la serie de tiempo, pese a que esta fuera más caótica, es posible que, debido a esto, la trayectoria a trazar fuera más facil de determinar que el caso anterior, teniendo como consecuencia que ambos algoritmos presentaran un comportamiento comparable. Para nuestro caso, si tuveramos que decidirnos por un algoritmo para tau 30, utilizaríamos NLMS, debido a que al ser tan parecida la solución final, el costo computacional que conlleva implementar RLS es un factor a considerar.

Para casos más generales, la elección del filtro dependerá de las capacidades del hardware que realizará las predicciones y las características o naturaleza de la señal a filtrar, teniendo que poner sobre la balanza el poder de cómputo/memoria y cuán abruptamente cambia la señal.