# Actividad práctica: Predicción de series de tiempo

En esta tarea se pide entrenar y evaluar un predictor para la serie de tiempo Mackey-Glass. Esta serie de tiempo se obtiene de la solución de la siguiente ecuación diferencial

$$
\frac{dy}{dt} = 0.2 \frac{ y(t-\tau)}{1 + y(t-\tau)^{10}} - 0.1 y(t),
$$

donde el parámetro $\tau$ controla el comportamiento dinámico de la serie de tiempo 

- Siga las instrucciones en este notebook para resolver el problema de predicción
- Conteste las preguntas que se encuentran en este enunciado
- Finalmente envíe su notebook con los resultados y respuestas a phuijse@inf.uach.cl
- No olvide cambiar el título para reflejar los integrantes de su grupo

In [36]:
import numpy as np
%matplotlib notebook
import matplotlib.pylab as plt
import pandas as pd

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

***

Use el código que se muestra a continuación para generar la serie de tiempo Mackey Glass

- Considere una razón señal a ruido (SNR) de 2.
- Considere $\tau=17$ (comportamiento debilmente caótico)

Se generaran 1000 muestras de la serie de tiempo. Use los primeros 500 puntos para entrenar y los siguientes 500 puntos para hacer predicción

In [64]:
N = 1000 # número de observaciones (no modificar)
SNR = 2. # Razón señal a ruido (2., 0.5)
a, b = 0.1, 0.2 # constantes de la ecuación diferencial (no modificar)
tau = 17. # comportamiento dinámico de Mackey-Glass (17, 30)
dt = 0.05# paso de integración (no modificar)
y0 = 0.9 # condición incial (no modificar)
tt = 5.# largo temporal (no modificar)

t = np.linspace(0, tt, num=N)
#arreglo empieza en 0, termina en tt, N muestras

N_full, tau_full = int(N*tt/dt), int(tau/dt)

ymg = y0*np.ones(shape=(N_full, ))


# Runge-Kutta integration
for n in range(tau_full, N_full-1):
    byd = b*ymg[n-tau_full]/(1.0 + ymg[n-tau_full]**10.0)
    yk1 = dt*(-a*ymg[n] + byd)
    yk2 = dt*(-a*(ymg[n]+yk1/2) + byd)
    yk3 = dt*(-a*(ymg[n]+yk2/2) + byd)
    yk4 = dt*(-a*(ymg[n]+yk3) + byd)
    ymg[n+1] = ymg[n] + yk1/6 + yk2/3 +yk3/3 +yk4/6;


ymg = ymg[::int(tt/dt)]
#ymg = ymg - np.mean(ymg) 


# Contaminación con ruido blanco aditivo
s_noise = np.sqrt(np.var(ymg)/SNR) 
np.random.seed(0)
y_obs = ymg + s_noise*np.random.randn(len(ymg))


# Gráfico
fig, ax = plt.subplots(1, figsize=(9, 3), tight_layout=True)
ax.plot(t[:500], y_obs[:500])
ax.set_title('Serie de tiempo Mackey-Glass (entrenamiento)');

<IPython.core.display.Javascript object>

***

1. Describa en detalle el algoritmo LMS indicando sus semejanzas y diferencias con el filtro de Wiener
    
El algoritmo LMS(del ingles Least-Mean-Square) es un algoritmo usado en filtros adaptativos para encontrar los coeficientes del filtro que permiten obtener el valor minimo esperado del cuadrado de la señal de error (diferencia entre la señal deseada y la señal producida por el filtro). Pertenece a la familia de algoritmos de gradiente estocasticos, es decir, el filtro se adapta en base al gradiente de la tendencia estadistica, que se produce al relacionar la señal a filtrar con la señal de ruido. Es la aplicacion de un filtro FIR. Es el algoritmo mas simple (o estandar) de los algoritmos adaptivos, su objetivo consiste en la reduccion de ruido (usando metodos estadisticos) en la señal que tomamos como entrada ,para que la salida se aproxime lo mas posible a la señal que queremos obtener, es decir la señal deseada.

El algoritmo LMS tiene 2 prcesos basicos:
 * proceso de filtrado : Filtrado de la señal de entrada, se realiza un calculo de la salida generada por un filtro y la generación del error comparando dicha salida con la respuesta deseada.
 * proceso adaptativo : se hace un ajuste de los coeficientes del filtro de forma automatica según la estimación del error.
 
La solución del filtro LMS converge a la solución del filtro de Wiener , asumiendo que la solución del sistema desconocido es LTI y el ruido es estacionario, ambos filros se pueden utilizar para identificar la respuesta al impulso de un sistema desconocido, conociendo solamente la señal de entrada original y la salida del sistema desconocido. Al mitigar el criterio de error para reducir el error muestral actual en vez de minimizar el error total a lo largo de todo n, el algoritmo de LMS puede ser derivado del filtro de Wiener.

Ambos filtros son estimadores/Predictores, los 2 tratan de estimar los coeficientes del filtro lineal que minimiza la funcion de costo MMSE(minimum mean square error).

El filtro de Wiener asume la data (muestra de entrenamiento) ya dada para asi calcular una solución optima,en cambio LMS es una solución sub-optima ya que solo calcula el optimo en el instante (optimo local) ya que con su capacidad de automejorarse recursivamente en tiempo real (sin volver a ejecutar el algoritmo completo con información nueva, se logra obtener un costo de rendimiento (en cuanto a optimización) mucho mejor en comparación con el filtro de Wiener. 


2. Partiendo del error instantaneo $J_n^s(\textbf{w}) = e_n^2$ derive la regla de actualización de pesos
Partiendo de:

\begin{align}
J^s_n(\textbf{w}) &= e_n^2 \nonumber \\
&= (d_n - y_n)^2 \nonumber \\
&= (d_n - \sum_{k=0}^{L} w_{n, k} u_{n-k} )^2 \nonumber  \\ 
\tag{1} 
\end{align}

Calculando la derivada se tiene que:

\begin{equation}
\frac{dJ(w)}{dw} =   2 (d_n - \sum_{k=0}^{L} w_{n, k} u_{n-k})  u_{n-k}
\tag{2}
\end{equation}

Y recordando que 

\begin{equation}
e_n = d_n - y_n
\tag{3}
\end{equation}

Sustituyendo (3) en (2) tenemos la siguiente expresión:

\begin{equation}
\frac{dJ(w)}{dw} =   2 e_n u_{n-k}
\end{equation}

Y sea $w_n$ el peso de los coeficientes en el filtro y $\mu$ como tasa de aprendizaje o "paso", usando SGD (ya que como estamos calculando para LMS que es una versión mas simplista del filtro de Wiener) " $J_n^s(\textbf{w}) = e_n^2$" tenemos que:

\begin{equation}
w_{t+1} = w_t - \mu \frac{dJ(w)}{dw}
\tag{4}
\end{equation}

Finalmente, reemplazando en (4) obtenemos que la regla de actualización de pesos es:

\begin{align}
\textbf{w}_{n+1} &= \textbf{w}_{n} + 2 \mu e_n \textbf{u}_{n-k}\nonumber \\
\end{align}

3. La siguiente clase de *Python* predice y entrena un filtro LMS. Complete la línea que dice 

` self.w = ? `

con el valor correcto de actualización de peso del filtro LMS

\begin{align}
\textbf{w}_{n+1} &= \textbf{w}_{n} + 2 \mu e_n \textbf{u}_{n-k}\nonumber \\
\end{align}

In [65]:
class LMS_filter(object):
    
    def __init__(self, L=1, mu=0.5, normalized=True):
        self.L = L
        self.mu = mu
        self.w = np.zeros(shape=(L, ))
        self.normalized = normalized
    
    def __len__(self):
        return self.L
    
    def predict(self, u):
        return np.dot(self.w, u)#producto punto de W y U
    
    def update(self, u, d):
        d_pred = self.predict(u)
        norm = 1.
        if self.normalized:
            norm = np.sum(u**2) + 1e-6
        e = (d-d_pred)
        self.w = self.w + 2*self.mu*e*u/norm

***
## Predicción con algoritmo LMS

1. Entrene el predictor con el algoritmo normalized LMS usando el siguiente bloque de código
1. Construya una tabla con los NMSE de entrenamiento y prueba para distintos valores de $\mu$ y $L$
    - Se recomienda hacer un barrido logarítmico en $\mu$ (por ejemplo `mu=np.logspace(-2, 0, num=20)`)
    - Use al menos los siguientes valores de $L$: [5, 10, 20, 30]
1. Describa cada experimento analizando sus resultados de forma cuantitativa y cualitativa
    - ¿Se sobreajuste el filtro a los datos de entrenamiento? 
    - ¿Se desestabiliza el filtro?
1. Indique que combinación obtiene menor MSE de prueba 
***

1. Repita el experimento para $\tau = 30$ (comportamiento fuertemente caótico) 
1. Compare los resultados obtenidos con cada serie de tiempo. ¿Qué casos son más sencillos y cuales más complicados?


Usando $L$ = 5,10,20,30,  $\tau = 17$ $\mu = $variable entre -2 y 0

In [66]:
mu = np.logspace(-2, 0, num=20)#barrido logaritmico para variar mu
L = [5, 10, 20, 30]#Valores para variar L

df = np.zeros((len(mu), len(L)*2)) # dataframe con 20 filas y 8 columnas que se subdividen en 4 para los NMSE de entranamiento y prueba

pruebas = {"optimo": [],"medio": [],"inestable": []} #para guardar los valores de las pruebas

#variables donde guardaremos los valores optimos 
opm = 0
opl = 0
opn = 9999999 #valor alto para ir mejorando con el menor NMSE

aux1=0
for i in mu:
    aux2=0
    aux3=0
    for j in L:
        lms = LMS_filter(L=j, mu=i, normalized=True)
        # Entrenamiento
        y_pred = np.zeros(shape=(len(y_obs), ))
        for k in range(lms.__len__(), 500):
            y_window = y_obs[k-lms.__len__():k]
            y_pred[k] = lms.predict(y_window)
            lms.update(u=y_window, d=y_obs[k])
        # Prueba
        for k in range(500, len(y_obs)):
            y_window = y_obs[k-lms.__len__():k]
            y_pred[k] = lms.predict(y_window)
        
        # Capturando pruebas
        if (aux1 == 9 and aux3 == 3):
            pruebas["optimo"] = y_pred
        elif (aux1 == 13 and aux3 == 2):
            pruebas["medio"] = y_pred
        elif (aux1 == 14 and aux3 == 1):
            pruebas["inestable"] = y_pred
        

        entrenamiento = NMSE(ymg[lms.__len__():500], y_pred[lms.__len__():500])
        prueba = NMSE(ymg[500:], y_pred[500:])
        
        if (prueba < opn):
            opm = aux1 #optimo de mu
            opl = aux3 #optimo de L
            opn = prueba#optimo MSE de prueba
        df[aux1][aux2] = np.format_float_scientific(entrenamiento, 7)
        df[aux1][aux2+1] = np.format_float_scientific(prueba, 7)
        
        aux3 += 1
        aux2 += 2
    aux1 += 1

print("mejor mu: " + str(mu[opm]) + ", mejor L: " + str(L[opl]) + ", MSE de prueba: " + str(opn))
print("peor mu: " + str(mu[19]) + ", peor L: " + str(L[0]) + ", MSE de prueba: " + str(df[19][1]))
print("mu medio: " + str(mu[13]) + ", L medio: " + str(L[2]) + ", MSE de prueba: " + str(df[13][5]))
    
    

mejor mu: 0.08858667904100823, mejor L: 30, MSE de prueba: 187.91561016282552
peor mu: 1.0, peor L: 5, MSE de prueba: 94442.719
mu medio: 0.23357214690901212, L medio: 20, MSE de prueba: 273.61276


# Data frame con valores de NMSE

In [67]:
pd.DataFrame(df, columns=["L=5 entrenamiento","L=5 prueba", "L=10 entrenamiento", "L=10 prueba", "L=20 entrenamiento", "L=20 prueba", "L=30 entrenamiento", "L=30 prueba"])

Unnamed: 0,L=5 entrenamiento,L=5 prueba,L=10 entrenamiento,L=10 prueba,L=20 entrenamiento,L=20 prueba,L=30 entrenamiento,L=30 prueba
0,1227.8754,772.85941,912.09905,423.23028,902.90376,384.04883,886.42052,393.91738
1,1136.9204,737.47381,804.23052,397.23155,794.98792,356.40785,780.53695,367.70992
2,1058.8728,699.63728,713.67271,369.6937,704.57338,326.1865,692.56055,338.82778
3,990.57804,660.8372,635.91783,342.03376,626.49684,294.54077,616.85319,308.24675
4,930.76345,622.75824,568.64921,316.11199,557.82102,263.24086,549.89654,277.4555
5,879.28133,587.1804,511.08679,293.96684,497.42285,234.60747,490.10847,248.36634
6,836.28797,555.90646,463.09653,277.33841,445.22306,211.29791,437.24531,223.11385
7,801.89546,530.8906,424.52261,267.08655,401.43655,195.90006,391.66776,203.76819
8,776.4186,514.48872,394.95418,262.80051,366.09977,190.28607,353.75686,191.89525
9,760.87224,509.46698,373.83567,263.09126,338.87636,194.81113,323.5843,187.91561


## Graficos para los valores optimos de $\mu$ y $L$

In [68]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], pruebas["optimo"][:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], pruebas["optimo"][500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - pruebas["optimo"][:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - pruebas["optimo"][500:])**2, label='Error cuadrático test'); ax[2].legend(); 

<IPython.core.display.Javascript object>

## Graficos para los valores medios de $\mu$ y $L$

In [69]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], pruebas["medio"][:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], pruebas["medio"][500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - pruebas["medio"][:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - pruebas["medio"][500:])**2, label='Error cuadrático test'); ax[2].legend(); 

<IPython.core.display.Javascript object>

## Graficos para los valores inestables de $\mu$ y $L$

In [70]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], pruebas["inestable"][:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], pruebas["inestable"][500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - pruebas["inestable"][:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - pruebas["inestable"][500:])**2, label='Error cuadrático test'); ax[2].legend(); 

<IPython.core.display.Javascript object>

## Ahora cambiar $\tau = 30$

In [71]:
N = 1000 # número de observaciones (no modificar)
SNR = 2. # Razón señal a ruido (2., 0.5)
a, b = 0.1, 0.2 # constantes de la ecuación diferencial (no modificar)
tau = 30. # comportamiento dinámico de Mackey-Glass (17, 30)
dt = 0.05# paso de integración (no modificar)
y0 = 0.9 # condición incial (no modificar)
tt = 5.# largo temporal (no modificar)

t = np.linspace(0, tt, num=N)
#arreglo empieza en 0, termina en tt, N muestras

N_full, tau_full = int(N*tt/dt), int(tau/dt)

ymg = y0*np.ones(shape=(N_full, ))


# Runge-Kutta integration
for n in range(tau_full, N_full-1):
    byd = b*ymg[n-tau_full]/(1.0 + ymg[n-tau_full]**10.0)
    yk1 = dt*(-a*ymg[n] + byd)
    yk2 = dt*(-a*(ymg[n]+yk1/2) + byd)
    yk3 = dt*(-a*(ymg[n]+yk2/2) + byd)
    yk4 = dt*(-a*(ymg[n]+yk3) + byd)
    ymg[n+1] = ymg[n] + yk1/6 + yk2/3 +yk3/3 +yk4/6;


ymg = ymg[::int(tt/dt)]
#ymg = ymg - np.mean(ymg) 


# Contaminación con ruido blanco aditivo
s_noise = np.sqrt(np.var(ymg)/SNR) 
np.random.seed(0)
y_obs = ymg + s_noise*np.random.randn(len(ymg))


# Gráfico
fig, ax = plt.subplots(1, figsize=(9, 3), tight_layout=True)
ax.plot(t[:500], y_obs[:500])
ax.set_title('Serie de tiempo Mackey-Glass (entrenamiento)');

<IPython.core.display.Javascript object>

## Usando los mismos valores anteriores pero ahora con $\tau = 30$

In [72]:
mu = np.logspace(-2, 0, num=20)#barrido logaritmico para variar mu
L = [5, 10, 20, 30]#Valores para variar L

df = np.zeros((len(mu), len(L)*2)) # dataframe con 20 filas y 8 columnas que se subdividen en 4 para los NMSE de entranamiento y prueba

pruebas = {"optimo": [],"medio": [],"inestable": []} #para guardar los

#variables donde guardaremos los valores optimos 
opm = 0
opl = 0
opn = 9999999 #valor alto para ir mejorando con el menor NMSE

aux1=0
for i in mu:
    aux2=0
    aux3=0
    for j in L:
        lms = LMS_filter(L=j, mu=i, normalized=True)
        # Entrenamiento
        y_pred = np.zeros(shape=(len(y_obs), ))
        for k in range(lms.__len__(), 500):
            y_window = y_obs[k-lms.__len__():k]
            y_pred[k] = lms.predict(y_window)
            lms.update(u=y_window, d=y_obs[k])
        # Prueba
        for k in range(500, len(y_obs)):
            y_window = y_obs[k-lms.__len__():k]
            y_pred[k] = lms.predict(y_window)
        
        # Capturando pruebas
        if (aux1 == 9 and aux3 == 3):
            pruebas["optimo"] = y_pred
        elif (aux1 == 13 and aux3 == 2):
            pruebas["medio"] = y_pred
        elif (aux1 == 14 and aux3 == 1):
            pruebas["inestable"] = y_pred
        

        entrenamiento = NMSE(ymg[lms.__len__():500], y_pred[lms.__len__():500])
        prueba = NMSE(ymg[500:], y_pred[500:])
        
        if (prueba < opn):
            opm = aux1
            opl = aux3
            opn = prueba
        df[aux1][aux2] = np.format_float_scientific(entrenamiento, 7)
        df[aux1][aux2+1] = np.format_float_scientific(prueba, 7)
        
        aux3 += 1
        aux2 += 2
    aux1 += 1

print("mejor mu: " + str(mu[opm]) + ", mejor L: " + str(L[opl]) + ", MSE de prueba: " + str(opn))
print("peor mu: " + str(mu[19]) + ", peor L: " + str(L[0]) + ", MSE de prueba: " + str(df[19][1]))
print("mu medio: " + str(mu[13]) + ", L medio: " + str(L[2]) + ", MSE de prueba: " + str(df[13][5]))
    

mejor mu: 0.06951927961775606, mejor L: 20, MSE de prueba: 316.133278701211
peor mu: 1.0, peor L: 5, MSE de prueba: 446613.87
mu medio: 0.23357214690901212, L medio: 20, MSE de prueba: 596.68017


# Dataframe de NMSE para $\tau = 30$

In [73]:
pd.DataFrame(df, columns=["L=5 entrenamiento","L=5 prueba", "L=10 entrenamiento", "L=10 prueba", "L=20 entrenamiento", "L=20 prueba", "L=30 entrenamiento", "L=30 prueba"])

Unnamed: 0,L=5 entrenamiento,L=5 prueba,L=10 entrenamiento,L=10 prueba,L=20 entrenamiento,L=20 prueba,L=30 entrenamiento,L=30 prueba
0,757.43894,484.93771,870.85517,575.7365,767.26941,442.65827,756.82073,428.18495
1,703.71135,468.75168,808.26564,548.91806,700.75418,422.04793,692.23804,409.30977
2,657.68697,451.3337,753.36615,520.86226,644.34443,400.35381,637.89352,389.44987
3,617.53584,433.04409,703.98465,492.92924,594.56247,378.76632,590.0174,369.85237
4,582.71906,414.37207,659.27834,466.71731,549.46017,358.6572,546.23309,351.97134
5,553.5161,396.20673,619.3973,444.11555,508.42383,341.34644,505.50006,337.18348
6,530.49512,379.89639,584.979,427.11933,471.67856,327.88382,467.72619,326.48667
7,514.21867,367.07,556.71143,417.44291,439.79304,319.11206,433.26897,320.52059
8,505.22293,359.42684,535.08086,416.09057,413.41394,316.13328,402.56513,320.03928
9,504.12234,359.18237,520.27671,423.3296,393.22169,321.08832,375.97558,326.62964


# Graficas

In [74]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], pruebas["optimo"][:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], pruebas["optimo"][500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - pruebas["optimo"][:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - pruebas["optimo"][500:])**2, label='Error cuadrático test'); ax[2].legend(); 

<IPython.core.display.Javascript object>

In [75]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], pruebas["medio"][:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], pruebas["medio"][500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - pruebas["medio"][:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - pruebas["medio"][500:])**2, label='Error cuadrático test'); ax[2].legend(); 

<IPython.core.display.Javascript object>

In [76]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], pruebas["inestable"][:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], pruebas["inestable"][500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - pruebas["inestable"][:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - pruebas["inestable"][500:])**2, label='Error cuadrático test'); ax[2].legend(); 

<IPython.core.display.Javascript object>

***
## Predicción con algoritmo RLS

1. Describa en detalle el algoritmo RLS indicando sus semejanzas y diferencias con el algoritmo LMS

El algoritmo RLS se basa en el algoritmo LMS, pero ocupando caracteristicas acumulativas / recursivas, que permiten que el algoritmo se adapte mas rápido, lo que implica una convergencia más rápida del algoritmo.

Ambos son metodos sequenciales/onLine que resuelven el mismo problema,si la data previamente dada es estacionaria ambos metodos pueden converger a la misma solución.

Ambos pueden ajustarse con los datos , por lo tanto, son favorables cuando el sistema cambie en el tiempo.

La ventaja de RLS sobre LMS es que converge mas rápido a la solución. Su gran desventaja es que tiene mayor complejidad/costo computacional (O(L²) > O(L)).


2. Partiendo del error histórico $J_N(\textbf{w}) = \sum_{i=1}^N \beta^{N-i} e_i^2$ derive la regla recursiva de actualización de pesos 

Sea: 

\begin{align}
J^H_n(\textbf{w}) &= \sum_{i=L}^n   \beta^{n-i} |e_i|^2 \nonumber \\
\end{align}

Derivamos e igualamos a cero para obtener el optimo

$$
\begin{align}
\frac{d J^H_n (\textbf{w})}{d w_{n, k}} &= 2 \sum_{i=1}^n   \beta^{n-i} e_i \frac{de_i}{d w_{n, k}} = 0
\nonumber \\
\tag{1}
\end{align}
$$

Recordando que:
$$
\begin{align}
e_n = d_n - \sum_{k=0}^{L} w_{n, k} u_{n-k} \nonumber 
\tag{2}
\end{align}
$$
Y que:
$$
\begin{align}
\frac{de_i}{d w_{n, k}} &= u_{n-k}
\tag{3}
\end{align}
$$
Reemplazando (2) y (3) en (1) obtenemos:

$$
\begin{align}
\frac{d J^H_n (\textbf{w})}{d w_{n, k}} &= 2 \sum_{i=1}^n   \beta^{n-i} [d_i - \sum_{k=0}^{L} w_{n, k} u_{n-k}]u_{n-k} = 0
\nonumber \\
\end{align}
$$
Nos queda la siguiente ecuación:
$$
\begin{align}
\sum_{i=1}^n   \beta^{n-i} [d_i - \sum_{l=0}^{L} w_{n, k} u_{i-l}]u_{i-k} = 0
\nonumber \\
\tag{4}
\end{align}
$$

Reordenando la ecuacion (4) nos queda:
$$
\begin{align}
\sum_{l=1}^L  w_{n, k} [ \sum_{i=0}^{n}  \beta^{n-i} u_{i-l}u_{i-k}] = \sum_{i=0}^{n}  \beta^{n-i} d_i u_{i-k}
\nonumber \\
\tag{5}
\end{align}
$$

Definiendo las matrices que componen la solucion cerrada:

$$
\textbf{d}_n = \begin{pmatrix}  d_n \\ d_{n-1} \\ \vdots \\ d_{L+1} \end{pmatrix} \quad
\textbf{u}_n = \begin{pmatrix}  u_n \\ u_{n-1} \\ \vdots \\ u_{n-(L+1)} \end{pmatrix} \quad
\pmb{\beta} = I \begin{pmatrix} \beta \\ \beta^{1} \\ \beta^{2}  \vdots \\ \beta^{n-L-1} \end{pmatrix}
\quad 
U_n = \begin{pmatrix}
\textbf{u}_n^T \\ \textbf{u}_{n-1}^T \\ \vdots \\ \textbf{u}_{L+1}^T \\
\end{pmatrix} \in \mathbb{R}^{n - (L+1) \times L+1}
$$

Y agregando el regularizador de pesos:
$$
J^w_n = \delta  \| \textbf{w}_{n} \|^2
$$

Por lo que la forma matricial de la ecuación (5)o solución cerrada:

$$
\textbf{w}_n (U_n^T \pmb{\beta} U_n + \delta I) = U_n^T \pmb{\beta} \textbf{d}_n $$


$$
\textbf{w}_n = (U_n^T \pmb{\beta} U_n + \delta I)^{-1} U_n^T \pmb{\beta} \textbf{d}_n$$

Expresar la forma matricial enterminos mas simples:  

  - Matriz de correlación ponderada y regularizada: $\Phi_n = U_n^T \pmb{\beta} U_n + \delta I$
  - Vector de correlación cruzada ponderada:  $\theta_n = U_n^T \pmb{\beta} \textbf{d}_n$
  
Quedando finalmente:
$$
\begin{align}
\textbf{w}_n = \Phi_n^{-1} \theta_n
\end{align}
$$

3. La siguiente clase de *Python* predice y entrena un filtro RLS. Complete las líneas que dice 

` self.w = ? ` y `self.Phi_inv = `

con el valor correcto de actualización de peso del filtro RLS

$$
\textbf{w}_n = \textbf{w}_{n-1} + \textbf{k}_n e_n 
$$
    
$$
\Phi_{n}^{-1} = \beta^{-1} \Phi_{n-1}^{-1} - \beta^{-1} \textbf{k}_n \textbf{u}_n^T \Phi_{n-1}^{-1}
$$

In [8]:
class RLS_filter(object):
    
    def __init__(self, L=1, beta=0.9, delta=10.):
        self.L = L
        self.beta = beta
        self.w = np.zeros(shape=(L, ))
        self.Phi_inv = delta*np.eye(L)
    
    def __len__(self):
        return self.L
    
    def predict(self, u):
        return np.dot(self.w, u)
    
    def update(self, u, d):          
        invbeta = 1.0/self.beta
        d_pred = self.predict(u)
        e = d - d_pred
        r = 1. + invbeta*np.dot(np.dot(u, self.Phi_inv), u.T)
        k = invbeta*np.dot(self.Phi_inv, u)/r       
        self.Phi_inv = invbeta*self.Phi_inv - invbeta*k*d_pred*self.Phi_inv
        self.w = self.w + k*e
        

***

1. Entrene el predictor con el algoritmo RLS usando el siguiente bloque de código
1. Considere primero  $\tau=17$
1. Construya una tabla con los NMSE de entrenamiento y prueba para distintos valores de $\beta$ y $L$
    - Se recomienda hacer un barrido lineal en $\beta$ (por ejemplo `mu=np.linspace(0.8, 1.0, num=20)`)
    - Use al menos los siguientes valores de $L$: [5, 10, 20, 30]
1. Describa cada experimento analizando sus resultados de forma cuantitativa y cualitativa
    - ¿Cuánto demora el filtro en estabilizarse? 
    - ¿Se sobreajuste el filtro a los datos de entrenamiento? 
    - ¿Se desestabiliza el filtro?
1. Indique que combinación obtiene menor MSE de prueba 
1. Repita el experimento para $\tau=30$
1. Compare con los resultados obtenidos con el algoritmo LMS ¿Qué algoritmo demora menos en converger?


usando L=5 y $\tau = 17$

In [20]:
rls = RLS_filter(L=5, beta=0.9, delta=1.)
# Entrenamiento
y_pred = np.zeros(shape=(len(y_obs), ))
for k in range(rls.__len__(), 500):
    y_window = y_obs[k-rls.__len__():k]
    rls.update(d=y_obs[k], u=y_window)
    y_pred[k] = rls.predict(y_window)
# Prueba
for k in range(500, len(y_obs)):
    y_window = y_obs[k-rls.__len__():k]
    y_pred[k] = rls.predict(y_window)
    
print("MSE entrenamiento %0.4f, prueba %0.4f" %(NMSE(ymg[rls.__len__():500], y_pred[rls.__len__():500]), 
                                                NMSE(ymg[500:], y_pred[500:])))

MSE entrenamiento 238.6437, prueba 606.3019


In [21]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], y_pred[:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], y_pred[500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - y_pred[:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - y_pred[500:])**2, label='Error cuadrático test'); ax[2].legend(); 

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

<IPython.core.display.Javascript object>

usando L=10 y $\tau = 17$

In [23]:
rls = RLS_filter(L=10, beta=0.9, delta=1.)
# Entrenamiento
y_pred = np.zeros(shape=(len(y_obs), ))
for k in range(rls.__len__(), 500):
    y_window = y_obs[k-rls.__len__():k]
    rls.update(d=y_obs[k], u=y_window)
    y_pred[k] = rls.predict(y_window)
# Prueba
for k in range(500, len(y_obs)):
    y_window = y_obs[k-rls.__len__():k]
    y_pred[k] = rls.predict(y_window)
    
print("MSE entrenamiento %0.4f, prueba %0.4f" %(NMSE(ymg[rls.__len__():500], y_pred[rls.__len__():500]), 
                                                NMSE(ymg[500:], y_pred[500:])))

MSE entrenamiento 233.2099, prueba 1094.7570


In [24]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], y_pred[:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], y_pred[500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - y_pred[:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - y_pred[500:])**2, label='Error cuadrático test'); ax[2].legend(); 

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

<IPython.core.display.Javascript object>

usando L=20 y $\tau = 17$

In [25]:
rls = RLS_filter(L=20, beta=0.9, delta=1.)
# Entrenamiento
y_pred = np.zeros(shape=(len(y_obs), ))
for k in range(rls.__len__(), 500):
    y_window = y_obs[k-rls.__len__():k]
    rls.update(d=y_obs[k], u=y_window)
    y_pred[k] = rls.predict(y_window)
# Prueba
for k in range(500, len(y_obs)):
    y_window = y_obs[k-rls.__len__():k]
    y_pred[k] = rls.predict(y_window)
    
print("MSE entrenamiento %0.4f, prueba %0.4f" %(NMSE(ymg[rls.__len__():500], y_pred[rls.__len__():500]), 
                                                NMSE(ymg[500:], y_pred[500:])))

MSE entrenamiento 236.1840, prueba 475.3396


In [26]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], y_pred[:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], y_pred[500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - y_pred[:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - y_pred[500:])**2, label='Error cuadrático test'); ax[2].legend(); 

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

<IPython.core.display.Javascript object>

usando L=30 y $\tau = 17$

In [27]:
rls = RLS_filter(L=30, beta=0.9, delta=1.)
# Entrenamiento
y_pred = np.zeros(shape=(len(y_obs), ))
for k in range(rls.__len__(), 500):
    y_window = y_obs[k-rls.__len__():k]
    rls.update(d=y_obs[k], u=y_window)
    y_pred[k] = rls.predict(y_window)
# Prueba
for k in range(500, len(y_obs)):
    y_window = y_obs[k-rls.__len__():k]
    y_pred[k] = rls.predict(y_window)
    
print("MSE entrenamiento %0.4f, prueba %0.4f" %(NMSE(ymg[rls.__len__():500], y_pred[rls.__len__():500]), 
                                                NMSE(ymg[500:], y_pred[500:])))

MSE entrenamiento 226.1382, prueba 345.8687


In [28]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], y_pred[:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], y_pred[500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - y_pred[:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - y_pred[500:])**2, label='Error cuadrático test'); ax[2].legend(); 

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

<IPython.core.display.Javascript object>

In [29]:
N = 1000 # número de observaciones (no modificar)
SNR = 2. # Razón señal a ruido (2., 0.5)
a, b = 0.1, 0.2 # constantes de la ecuación diferencial (no modificar)
tau = 30. # comportamiento dinámico de Mackey-Glass (17, 30)
dt = 0.05# paso de integración (no modificar)
y0 = 0.9 # condición incial (no modificar)
tt = 5.# largo temporal (no modificar)

t = np.linspace(0, tt, num=N)
#arreglo empieza en 0, termina en tt, N muestras

N_full, tau_full = int(N*tt/dt), int(tau/dt)

ymg = y0*np.ones(shape=(N_full, ))


# Runge-Kutta integration
for n in range(tau_full, N_full-1):
    byd = b*ymg[n-tau_full]/(1.0 + ymg[n-tau_full]**10.0)
    yk1 = dt*(-a*ymg[n] + byd)
    yk2 = dt*(-a*(ymg[n]+yk1/2) + byd)
    yk3 = dt*(-a*(ymg[n]+yk2/2) + byd)
    yk4 = dt*(-a*(ymg[n]+yk3) + byd)
    ymg[n+1] = ymg[n] + yk1/6 + yk2/3 +yk3/3 +yk4/6;


ymg = ymg[::int(tt/dt)]
#ymg = ymg - np.mean(ymg) 


# Contaminación con ruido blanco aditivo
s_noise = np.sqrt(np.var(ymg)/SNR) 
np.random.seed(0)
y_obs = ymg + s_noise*np.random.randn(len(ymg))


# Gráfico
fig, ax = plt.subplots(1, figsize=(9, 3), tight_layout=True)
ax.plot(t[:500], y_obs[:500])
ax.set_title('Serie de tiempo Mackey-Glass (entrenamiento)');

<IPython.core.display.Javascript object>

usando L=5 y $\tau = 30$

In [30]:
rls = RLS_filter(L=5, beta=0.9, delta=1.)
# Entrenamiento
y_pred = np.zeros(shape=(len(y_obs), ))
for k in range(rls.__len__(), 500):
    y_window = y_obs[k-rls.__len__():k]
    rls.update(d=y_obs[k], u=y_window)
    y_pred[k] = rls.predict(y_window)
# Prueba
for k in range(500, len(y_obs)):
    y_window = y_obs[k-rls.__len__():k]
    y_pred[k] = rls.predict(y_window)
    
print("MSE entrenamiento %0.4f, prueba %0.4f" %(NMSE(ymg[rls.__len__():500], y_pred[rls.__len__():500]), 
                                                NMSE(ymg[500:], y_pred[500:])))

MSE entrenamiento 212.5978, prueba 617.3084


In [31]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], y_pred[:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], y_pred[500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - y_pred[:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - y_pred[500:])**2, label='Error cuadrático test'); ax[2].legend(); 

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

<IPython.core.display.Javascript object>

usando L=10 y $\tau = 30$

In [32]:
rls = RLS_filter(L=10, beta=0.9, delta=1.)
# Entrenamiento
y_pred = np.zeros(shape=(len(y_obs), ))
for k in range(rls.__len__(), 500):
    y_window = y_obs[k-rls.__len__():k]
    rls.update(d=y_obs[k], u=y_window)
    y_pred[k] = rls.predict(y_window)
# Prueba
for k in range(500, len(y_obs)):
    y_window = y_obs[k-rls.__len__():k]
    y_pred[k] = rls.predict(y_window)
    
print("MSE entrenamiento %0.4f, prueba %0.4f" %(NMSE(ymg[rls.__len__():500], y_pred[rls.__len__():500]), 
                                                NMSE(ymg[500:], y_pred[500:])))

MSE entrenamiento 225.7695, prueba 2183.2111


In [33]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], y_pred[:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], y_pred[500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - y_pred[:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - y_pred[500:])**2, label='Error cuadrático test'); ax[2].legend(); 

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

<IPython.core.display.Javascript object>

usando L=20 y $\tau = 30$

In [34]:
rls = RLS_filter(L=20, beta=0.9, delta=1.)
# Entrenamiento
y_pred = np.zeros(shape=(len(y_obs), ))
for k in range(rls.__len__(), 500):
    y_window = y_obs[k-rls.__len__():k]
    rls.update(d=y_obs[k], u=y_window)
    y_pred[k] = rls.predict(y_window)
# Prueba
for k in range(500, len(y_obs)):
    y_window = y_obs[k-rls.__len__():k]
    y_pred[k] = rls.predict(y_window)
    
print("MSE entrenamiento %0.4f, prueba %0.4f" %(NMSE(ymg[rls.__len__():500], y_pred[rls.__len__():500]), 
                                                NMSE(ymg[500:], y_pred[500:])))

MSE entrenamiento 232.8087, prueba 2345.3333


In [35]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], y_pred[:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], y_pred[500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - y_pred[:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - y_pred[500:])**2, label='Error cuadrático test'); ax[2].legend(); 

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

<IPython.core.display.Javascript object>

usando L=30 y $\tau = 30$

In [36]:
rls = RLS_filter(L=20, beta=0.9, delta=1.)
# Entrenamiento
y_pred = np.zeros(shape=(len(y_obs), ))
for k in range(rls.__len__(), 500):
    y_window = y_obs[k-rls.__len__():k]
    rls.update(d=y_obs[k], u=y_window)
    y_pred[k] = rls.predict(y_window)
# Prueba
for k in range(500, len(y_obs)):
    y_window = y_obs[k-rls.__len__():k]
    y_pred[k] = rls.predict(y_window)
    
print("MSE entrenamiento %0.4f, prueba %0.4f" %(NMSE(ymg[rls.__len__():500], y_pred[rls.__len__():500]), 
                                                NMSE(ymg[500:], y_pred[500:])))

MSE entrenamiento 232.8087, prueba 2345.3333


In [37]:
fig, ax = plt.subplots(3, figsize=(9, 6), tight_layout=True)
ax[0].plot(t, y_obs, 'k.', alpha=0.5, label='Observado'); ax[0].legend();
ax[1].plot(t, ymg, 'g-', alpha=0.5, lw=2, label='Intrínseco'); 
ax[1].plot(t[:500], y_pred[:500], alpha=0.75, lw=2, label='Predicho train'); 
ax[1].plot(t[500:], y_pred[500:], alpha=0.75, lw=2, label='Predicho test'); ax[1].legend();

ax[2].plot(t[:500], (ymg[:500] - y_pred[:500])**2, label='Error cuadrático train'); 
ax[2].plot(t[500:], (ymg[500:] - y_pred[500:])**2, label='Error cuadrático test'); ax[2].legend(); 

NMSE = lambda y, yhat : np.sum((y - yhat)**2)/np.var(y)

<IPython.core.display.Javascript object>