In [None]:
%%HTML
<!-- Mejorar visualización en proyector -->
<style>
.rendered_html {font-size: 1.2em; line-height: 150%;}
div.prompt {min-width: 0ex; padding: 0px;}
.container {width:90% !important;}
</style>

In [None]:
import numpy as np
import scipy.signal
%matplotlib notebook
import matplotlib.pylab as plt
from matplotlib import animation, patches
from IPython.display import display, Audio, HTML
import soundfile as sf
from style import *

### Universidad Austral de Chile 

## INFO183: Análisis de sistemas lineales

# Unidad 4: Sistemas y filtros adaptivos

### Dr. Pablo Huijse, phuijse at inf dot uach dot cl 

### <a href="https://github.com/phuijse/UACH-INFO183"> github.com/phuijse/UACH-INFO183 </a>


***
<a id="index"></a>

# Contenidos de la unidad

***

1. [Estimador lineal óptimo](#section1)
1. [Gradiente descendente](#section2)
1. [Algoritmo de mínimos cuadrados (LMS)](#section3)
1. [Algoritmo de mínimos cuadrados recursivo (RLS)](#section4)
1. [Algoritmo perceptrón](#section5)

### Bibliografía

1. Simon Haykin, "Adaptive filter theory" 5ed, Pearson


# Introducción
***

- **Estimador:** Sistema diseñado para **extraer información** a partir de una **señal**
- La señal contiene **información y ruido** 
- La señal es representada como una secuencia de **datos**

Tipos de estimador
- **Filtro:** Estimo el valor actual de mi señal acentuando o eliminando una o más características
- **Predictor:** Estimo el valor futuro de mi señal

Estimador lineal óptimo
- Lineal: La cantidad estimada es una función lineal de la entrada
- Óptimo: El estimador es la mejor solución posible de acuerdo a un criterio (*e.g.* Error cuadrático medio)

Estimador lineal adaptivo
- Es lineal pero no LTI
- Sus parámetros cambian en función del tiempo
- Diseñamos una regla para actualizar sus parámetros
- Usualmente las reglas están basadas en criterios de optimización


<img src="img/adaptive-systems1.png">

## Proceso aleatorio/estocástico
***

- Colección de variables aleatorias indexadas en el tiempo
- Evolución de un fenomeno estadístico en el tiempo
- El fenomeno se rige por leyes probabilísticas


Un proceso aleatorio $U_n = (u_n, u_{n-1}, u_{n-2}, \ldots, u_{n-L})$ se describe a través de sus momentos

Si consideramos una caracterízación de segundo orden necesitamos definir
- Momento central o media 
$$
\mu(n) = \mathbb{E}[U_n]
$$
- Segundo momento o correlación
$$
r_{uu}(n, n-k) = \mathbb{E}[U_n U_{n-k}]
$$
- Segundo momento centrado o covarianza
$$
\begin{align}
c_{uu}(n, n-k) &= \mathbb{E}[(U_n-\mu_n) (U_{n-k}- \mu_{n-k})] \nonumber \\
&= r(n,n-k) - \mu_n \mu_{n-k} \nonumber
\end{align}
$$
- correlación cruzada entre dos procesos 
$$
r_{ud}(n, n-k) = \mathbb{E}[U_n D_{n-k}]
$$

***
En general consideraremos el caso simplificado donde el proceso es estacionario

$$
\mu(n)  = \mu, \forall n
$$
y
$$
r_{uu}(n, n-k)  = r_{uu}(k), \forall n
$$
es decir los estadísticos se mantienen constantes en el tiempo (no depende de $n$)

Otra simplificación es que el proceso sea ergódico

$$
\mathbb{E}[U_n] = \frac{1}{N} \sum_{n=1}^N u_n
$$

es decir podemos reemplazar el valor esperado por la media en el tiempo
***

### Densidad espectral de potencia

Otra cantidad de interés es la PSD (*power spectral density*) que mide la distribución de la potencia en frecuencia

$$
\begin{align}
S_{uu}(f) &= \sum_{k=-\infty}^{\infty} r_{uu}(k) e^{-j 2\pi f k} \nonumber \\
&= \lim_{N\to\infty} \frac{1}{2N+1} \mathbb{E} \left [\left|\sum_{n=-N}^{N} u_n e^{-j 2\pi f n} \right|^2 \right]
\end{align}
$$
que corresponde a la transformada de Fourier de la correlación (caso estacionario)

La PSD y la correlación forman un par de Fourier

[&larr; Volver al índice](#index)

***
<a id="section1"></a>

# Estimadores óptimos
***
[Óptimo](http://dle.rae.es/?id=R7bbor7): adj. Sumamente bueno, que no puede ser mejor.

Para diseñar un estimador óptimo necesitamos un **criterio**

Luego el estimador será **óptimo según dicho criterio**

Usualmente también consideramos supuestos. Podríamos asumir que
- el ruido es aditivo y blanco o que tiene una cierta covarianza conocida
- conocemos la media y covarianza de la señal
- el proceso es estacionario



## Filtro de Wiener

- Filtro LTI de tiempo discreto
- Estructura FIR con $L+1$ coeficientes: $h_0, h_1, h_2, \ldots, h_{L}$
- La entrada es una señal $u_0, u_1, u_2, \ldots$
- Para cada tiempo el filtro produce una salida $y_0, y_1, y_2, \ldots$

Adaptamos los coeficientes del filtro con dos ingredientes
- Una respuesta "deseada" $d_0, d_1, d_2, \ldots$
- Un criterio de optimalidad que opera sobre el error entre la respuesta deseada y la salida
$$
e_n = d_n - y_n = d_n - \sum_{k=0}^{L} h_k u_{n-k} 
$$

Diagrama del filtro de Wiener

![wiener.png](attachment:wiener.png)

(Este filtro fue publicado por Norbert Wiener en 1949)

## Ajuste del filtro de Wiener

El criterio más común para adaptar el filtro de Wiener es **el error medio cuadrático** entre la respuesta deseada y la salida del filtro. Asumiendo que la $u$ e $d$ son secuencias reales

$$
\begin{align}
\text{MSE} &= \mathbb{E}\left [e_n^2 \right] \nonumber \\
&= \mathbb{E}\left [(d_n - y_n)^2 \right] \nonumber \\
&= \mathbb{E}\left [d_n^2 \right]  - 2\mathbb{E}\left [ d_n y_n \right] + \mathbb{E}\left [ y_n^2 \right] \nonumber 
\end{align}
$$
donde $\sigma_d^2 = \mathbb{E}\left [d_n^2 \right]$ es la varianza de la señal deseada y $\sigma_y^2 = \mathbb{E}\left [ y_n^2 \right]$ es la varianza de nuestro estimador
 
***
Minimizar el MSE implica acercar la salida del filtro a la respuesta deseada
***
En este caso igualando la derivada del MSE a cero tenemos 

$$
\begin{align}
\frac{d}{d h_j} \text{MSE} &= -2\mathbb{E}\left[ d_n \frac{d y_n}{d h_j}  \right]  + 2 \mathbb{E}\left[ y_n \frac{d y_n}{d h_j}    \right]  \nonumber \\
&= -2\mathbb{E}\left[ d_n u_{n-j} \right]  + 2 \mathbb{E}\left[ y_n u_{n-j}    \right]  \nonumber \\
&= -2\mathbb{E}\left[ d_n u_{n-j} \right]  + 2 \mathbb{E}\left[ \sum_{k=0}^{L} h_k u_{n-k}  u_{n-j} \right] \nonumber \\
&= -2\mathbb{E}\left[ d_n u_{n-j} \right]  + 2 \sum_{k=0}^{L} h_k \mathbb{E}\left[ u_{n-k}  u_{n-j} \right] = 0 \nonumber \end{align}
$$

Si despejamos y repetimos para $j=0, \ldots, L$ obtenemos el siguiente sistema de ecuaciones

$$
\begin{align}
\begin{pmatrix}
r_{uu}(0) & r_{uu}(1) & r_{uu}(2) & \ldots & r_{uu}(L) \\
r_{uu}(1) & r_{uu}(0) & r_{uu}(1) & \ldots & r_{uu}(L-1) \\
r_{uu}(2) & r_{uu}(1) & r_{uu}(0) & \ldots & r_{uu}(L-2) \\
\vdots & \vdots & \vdots & \ddots &\vdots \\
r_{uu}(L) & r_{uu}(L-1) & r_{uu}(L-2) & \ldots & r_{uu}(0) \\
\end{pmatrix}
\begin{pmatrix}
h_0  \\
h_1  \\
h_2  \\
\vdots  \\
h_L \\
\end{pmatrix} &= 
\begin{pmatrix}
r_{ud}(0)  \\
r_{ud}(1)  \\
r_{ud}(2) \\
\vdots  \\
r_{ud}(L) \\
\end{pmatrix} \nonumber \\
R_{uu} \textbf{h} &= R_{ud},
\end{align}
$$

que se conoce como las ecuaciones de Wiener-Hopf. 

Además $R_{uu}$ se conoce como matriz de auto-correlación. Asumiendo que $R_{uu}$ es no-singular, la **solución óptima en el sentido de mínimo MSE** es 

$$
\textbf{h}^{*} = R_{uu} ^{-1} R_{ud}
$$

En general $R_{uu}$ es una matriz definida-positiva (su inversa existe) y el sistema puede resolverse en $\mathcal{O}(L^2)$ usando la [recursión de Levison-Durbin](https://en.wikipedia.org/wiki/Levinson_recursion)

Requisitos/supuestos de este filtro
- la salida deseada y la entrada tienen media cero, *i.e.* $\mathbb{E}[d_n] = \mathbb{E}[u_n] = 0$ (si existe podemos restarla)
- la salida deseada y la entrada son estacionarias en el sentido amplio, *i.e.* la correlación solo depende de $m$

## Error mínimo del filtro de Wiener

Dado que $y_n = \textbf{h}^T U_n = U_n^T \textbf{h} $, podemos expresar el MSE como
$$
\begin{align}
\text{MSE} &= \mathbb{E}\left [d_n^2 \right]  - 2\mathbb{E}\left [ d_n y_n \right] + \mathbb{E}\left [ y_n^2 \right] \nonumber \\
&= \mathbb{E}\left [d_n^2 \right] - 2 \textbf{h}^T \mathbb{E}\left [ d_n U_n \right]  + \textbf{h}^T \mathbb{E}\left [U_n U_n^T \right]  \textbf{h}  \nonumber \\
&= \sigma_d^2 - 2 \textbf{h}^T R_{ud} + \textbf{h}^T R_{uu} \textbf{h} \nonumber 
\end{align}
$$

Luego el mínimo error que se puede obtener es

$$
\begin{align}
\text{MSE}_{\text{min}} &= \sigma_d^2 - (R_{uu}^{-1} R_{ud})^T R_{ud} \nonumber \\
&= \sigma_d^2 - R_{ud}^T R_{uu}^{-1} R_{ud} < \sigma_d^2
\end{align}
$$

## Filtro de wiener: Regresión (identificación de sistema)

En regresión buscamos encontrar los coeficientes $h$ a partir de $(X, Y)$ tal que
$$
Y = h^T X + \epsilon,
$$
donde $X \in \mathbb{R}^{N\times D}$ son las variables dependientes (entrada), $Y \in \mathbb{R}^N$ es la  variable dependiente (salida) y $\epsilon$ es ruido.


### Entrenamiento del predictor

- Asumimos que hemos observado N muestras de $X$ e $Y$ 
- A partir de $u=X$ construimos $R_{uu}$
- A partir de $d=Y$ construimos $R_{ud}$
- Finalmente recuperamos $\textbf{h}$ usando $R_{uu} ^{-1} R_{ud}$
- Con esto podemos interpolar $Y$ 

In [None]:
fig, ax = plt.subplots(1, figsize=(9, 4))
N = 100; t = np.linspace(0, 10, num=N)
U = np.ones(shape=(N, 5))
for i in range(1, 5):
    U[:, i] = t**i
h_real = [-1, 1, -0.1, 0.01, -0.001]
def update(rseed, order):
    np.random.seed(rseed)
    Y = np.dot(U, h_real) + np.random.randn(N)
    Ruu = np.dot(U[:, :order+1].T, U[:, :order+1])
    Rud = np.dot(U[:, :order+1].T, Y[:, np.newaxis])
    h = np.linalg.solve(Ruu, Rud)[:, 0]
    ax.cla();
    ax.plot(t, np.dot(U, h_real), lw=4, alpha=0.7, label='true')
    ax.plot(t, Y, '.', label='observed', markersize=10)
    ax.plot(t, np.dot(U[:, :order+1], h), lw=4, alpha=0.7, label='estimated'); plt.legend();
interact(update, rseed=IntSlider_nice(), order=SelectionSlider_nice(options=[0, 1, 2, 3, 4]));

## Filtro de wiener: Predicción 

En este caso asumimos que la señal deseada es la entrada en el futuro
$$
d_n = \{u_{n+1}, u_{n+2}, \ldots, u_{n+m}\}
$$ 

- Donde $m$ es el horizonte de predicción
- Llamamos *predicción a un paso* al caso $m=1$
- El largo del filtro $L$ define la cantidad de muestras pasadas que usamos para predecir
- Por ejemplo un sistema de predicción a un paso con $L+1 = 3$ coeficientes:
$$
h_0 u_n +  h_1 u_{n-1} + h_2 u_{n-2}= y_n = \hat u_{n+1} \approx u_{n+1}
$$

### Entrenamiento del predictor

- Asumimos que la señal ha sido observada y que se cuenta con $N$ muestras
- Podemos formar una matriz cuyas filas son $[u_n, u_{n-1}, \ldots, u_{n-L}]$ para $n=L,L+1,\ldots, N-1$
- Podemos formar un vector $[u_N, u_{N-1}, \ldots, u_{L+1}]^T$ (caso $m=1$)
- Con esto podemos formar las matrices de correlación y obtener $\textbf{h}$
- Finalmente usamos $\textbf{h}$ para predecir el futuro no observado de $u$

¿Cómo afectan $L$ y $N$ en la calidad del predictor lineal?

In [None]:
from numpy.lib.stride_tricks import as_strided
fig, ax = plt.subplots(1, figsize=(9, 4))
t = np.linspace(0, 10, num=200)
u = np.sin(2.0*np.pi*0.5*t) + 0.25*np.random.randn(len(t))
#u += 0.5*t
def update(L, N_train):    
    ax.cla();
    U = as_strided(u, [len(u)-L+1 , L+1], strides=[u.strides[0], u.strides[0]])
    Ruu = np.dot(U[:N_train, :L].T, U[:N_train, :L])
    Rud = np.dot(U[:N_train, :L].T, U[:N_train, L][:, np.newaxis])
    h = np.linalg.solve(Ruu, Rud)[:, 0]
    ax.plot(t[:N_train], u[:N_train], label='Train'); 
    ax.plot(t[N_train:], u[N_train:], label='Test'); 
    u_pred = np.zeros(shape=(len(u), ))
    u_pred[:N_train] = u[:N_train]
    for k in range(N_train, len(u)):
        u_pred[k] = np.sum(h*u_pred[k-L:k])    
    ax.plot(t[N_train:], u_pred[N_train:], linewidth=4, alpha=0.7,
            label='Predicted'); ax.legend(loc=3);

interact(update, L=SelectionSlider_nice(options=[1, 5, 10, 20, 30, 50], value=5), 
         N_train=SelectionSlider_nice(options=[len(u)//3, len(u)//2, len(u)*2//3], value=len(u)//2));

# Filtro de Wiener: Eliminar ruido blanco aditivo

En este caso asumimos que la señal de entrada corresponde a una señal deseada (información) que ha sido contaminada con ruido aditivo

$$
u_n = d_n + \nu_n,
$$

adicionalmente asumimos que
- el ruido es estacionario en el sentido amplio y de media cero $\mathbb{E}[\nu_n] = 0$
- el ruido es blanco, es decir no tiene correlación consigo mismo o con la señal deseada
$$
r_{\nu d}(k) = 0, \forall k
$$
- el ruido tiene una cierta varianza $\mathbb{E}[\nu_n^2] = \sigma_\nu^2, \forall n$

Notemos que en este caso $R_{uu} = R_{dd} + R_{\nu\nu}$ y $R_{ud} = R_{dd}$, luego

la señal recuperada es $\hat d_n = h^{*} u_n$ y el filtro es

$$
\vec h^{*} = \frac{R_{dd}}{R_{dd} + R_{\nu\nu}}
$$

y su respuesta en frecuencia

$$
H(f) = \frac{S_{dd}(f)}{S_{dd}(f) + S_{\nu\nu}(f)}
$$

es decir que 
- en frecuencias donde la $S_{dd}(f) > S_{\nu\nu}(f)$, entonces $H(f) = 1$
- en frecuencias donde la $S_{dd}(f) < S_{\nu\nu}(f)$, entonces $H(f) = 0$

# Sistemas adaptivos

Hasta ahora hemos estudiando sistemas LTI: 
- sus coeficientes quedan fijos luego del diseño y son constantes en el tiempo
- hacen supuestos sobre los estadísticos de la señal/ruido

Qué hacer si
- no podemos hacer supuestos sobre los estadísticos
- los estadísticos de la señal/ruido cambian en el tiempo (no estacionaridad)
- estamos en un escenario donde los datos llegan continuamente (streaming)

Estimador **adaptivo**: 
- Sistemas cuyos coeficientes se pueden adaptar a medida que llegan nuevos datos
- Se diseñan de acuerdo a un método de optimización *online*



[&larr; Volver al índice](#index)

***
<a id="section2"></a>

# Gradiente descendente
***

- Sea un vector de pesos $w$ de largo $L+1$ que guarda los coeficientes de un filtro
- Sea ahora una función de costo que mapea el vector de pesos a un número real: $J(w): \mathbb{R}^{L+1} \to \mathbb{R}$
    - A menor $J$ mejor es nuestro filtro (menor error)

Para entrenar un filtro adaptivo 
1. Partimos de una solución inicial $w_0$
1. Modificamos iterativamente $w$ tal que $J(w_{t+1}) < J(w_t)$
1. Nos detenemos al cumplir un cierto criterio 

***
Una alternativa de bajo costo para lograr esto es la regla del **gradiente descendente** (GD)

$$
w_{t+1} = w_t - \mu \frac{dJ(w)}{dw},
$$

donde $\mu$ se conoce como tasa de aprendizaje o "paso"


In [None]:
plt.close('all'); fig, ax = plt.subplots(1, figsize=(7, 3))
x = np.linspace(-4, 6, num=100)
L = lambda x : (x-1)**2 + 3*np.sin(np.pi*x)
p = 10*np.random.rand(10) - 4.
ax.plot(x, L(x))
sc = ax.scatter(p, L(p), s=100)
mu = 0.01

def update(n):
    p = sc.get_offsets()[:, 0]
    p = p - mu*2*(p-1) - mu*3*np.pi*np.cos(np.pi*p)
    sc.set_offsets(np.c_[p, L(p)])
    
anim = animation.FuncAnimation(fig, update, frames=100, interval=200, repeat=False, blit=True)
#plt.close(); HTML(anim.to_html5_video())

***

- Imaginemos $J$ como una superficie de $L+1$ dimensiones
- En cada punto el gradiente negativo de $J$ nos indica hacia donde está el descenso más abrupto
- La tasa $\mu$ nos da el largo del salto entre $w_t$ y $w_{t+1}$

Notemos de la **expansión de Taylor de primer orden** de $J$ en $w_{t}$ que

$$
\begin{align}
J(w_{t+1}) &= J(w_t) + \frac{dJ(w_t)}{dw} (w_{t+1} - w_{t})  \nonumber \\
&= J(w_t) -\mu \left \| \frac{dJ(w_t)}{dw} \right \|^2 \leq J(w_t) \nonumber 
\end{align}
$$

es decir que dado usando la regla GD con $\mu>0$ se cumple que $J$ decrece monotonicamente

- Relación con método de Newton!

## Gradiente descendente en el filtro de Wiener

Para el filtro de Wiener teniamos
$$
J(h) = \sigma_d^2 - 2 \textbf{h}^T R_{ud} + \textbf{h}^T R_{uu} \textbf{h},
$$
por ende
$$
\frac{dJ(h)}{dh} = -2 R_{ud} + 2 R_{uu} \textbf{h}
$$
y finalmente
$$
\textbf{h}_{t+1} = \textbf{h}_{t} (I - 2 \mu R_{uu}) + 2\mu R_{ud}
$$
En este caso la condición de convergencia estable es 
$$
0 < \mu < \frac{1}{\lambda_{\text{max}}},
$$
donde $\lambda_{\text{max}}$ es valor propio más grande de $R_{uu}$

Esto último viene de formar una ecuación de diferencia del estilo $\hat w_{k, t+1} = (1-\mu \lambda_k)^t \hat w_{k, t=0}$

Ref: Haykin, "Adaptive filter theory", 4.3

# Gradiente descendente estocástico (SGD)

El filtro de Wiener es óptimo pero no adaptivo
- Requiere de $N$ muestras de $u$ y $d$ para estimar $R_{ud}$ y $R_{uu}$
- Asume estacionaridad: $J(h) = \mathbb{E}\left[e_n^2\right]$
- El gradiente descendente (GD) es un método deterministico
- Los pesos se adaptan luego de haber presentado las $N$ muestras (batch)

Consideremos el caso en que los datos no son estacionarios
- Significa que debemos adaptar el filtro en cada paso a medida que nuevas muestras son observadas
- Para esto usamos la versión estocástica del GD: SGD
- Los pesos se adaptan luego de haber presentado una muestra o un conjunto pequeño (mini-batch)
- No hay garantía de llegar al óptimo en un problema convexo, pero es más eficiente computacionalmente que GD

<img src="img/adaptive-sgd.png" width="600">

[&larr; Volver al índice](#index)

***
<a id="section3"></a>
# Algoritmo Least Mean Square (LMS)
***


Podemos extender el filtro de Wiener al caso no-estacionario usando SGD
- El resultado es un algoritmo es simple (filtro FIR) que además es robusto
- A diferencia del filtro de Wiener no se requiere conocimiento estadístico del proceso
- Tampoco se requiere calcular e invertir la matriz de correlación
- Se entrena de manera recursiva y online

Consideremos la función de costo estocástica para la arquitectura FIR

$$
\begin{align}
J^s_n(\textbf{w}) &= e_n^2 \nonumber \\
&= (d_n - y_n)^2 \nonumber \\
&= (d_n - \textbf{w}^T \textbf{u}_n )^2 \nonumber \\
&= (d_n - \sum_{k=0}^{L} w_{n, k} u_{n-k} )^2 \nonumber 
\end{align}
$$
donde definimos $\textbf{u}_n = [u_n, u_{n-1}, \ldots, u_{n-L}]$ 

Notemos que usamos el error cuadrático instantaneo en lugar del MSE (filtro de Wiener)

El gradiente en función del peso $w_{n, k}$ es 
$$
\frac{d J^s_n (\textbf{w})}{d w_{n, k}} = - 2 e_n u_{n-k}
$$
Usando la regla SGD llegamos a 
$$
w_{n+1, k} = w_{n, k} + 2 \mu e_n u_{n-k}, k=0, 1, \ldots, L
$$
o en forma matricial
$$
\begin{align}
\textbf{w}_{n+1} &= \textbf{w}_{n} + 2 \mu e_n \textbf{u}_{n}\nonumber \\
&= \textbf{w}_{n} + 2 \mu (d_n -  \textbf{w}_{n}^T \textbf{u}_{n}) \textbf{u}_{n}, \nonumber 
\end{align}
$$

- Estimamos la matriz de correlación instantanea y actualizamos los pesos recursivamente
- La complejidad de este algoritmo es $L+1$, es decir la complejidad del filtro
- Esto se conoce como algoritmo LMS o regla Widrow-Hoff
- Inventado en 1960 por [Bernard Widrow](https://en.wikipedia.org/wiki/Bernard_Widrow) y Ted Hoff

# Interpretación geométrica del algoritmo LMS

Tenemos la siguiente regla iterativa
$$
\textbf{w}_{n+1} = \textbf{w}_{n} + 2 \mu e_n \textbf{u}_{n} = \textbf{w}_{n} + \Delta \textbf{w}_n
$$
que se puede interpretar graficamente como
<a href="https://www.commsp.ee.ic.ac.uk/~mandic/SE_ASP_LN/ASP_MI_Lecture_5_Adaptive_Filters_2017.pdf"><img src="img/adaptive-lms-geometry.png" width="400px"></a>

Notemos que

- Los cambios en el vector de peso $\Delta \textbf{w}_n$ son paralelos a $\textbf{u}_{n}$
- Estos cambios podrían estar dominados por $\max_k \textbf{u}_{n} = [u_n, u_{n-1}, \ldots, u_{n-L}]$
- El algoritmo Normalized LMS (NLMS) corrige esto ponderando por la varianza de $\textbf{u}_{n}$ 
$$
\textbf{w}_{n+1} = \textbf{w}_{n} + 2 \mu e_n \frac{\textbf{u}_{n}}{\left(\|\textbf{u}_{n}\|^2 + \delta\right)}
$$
donde la constante $\delta$ es un valor pequeño que se usa para evitar divisiones por cero




### LMS: Adaptive line enhancement (ALE)

- Sistema adaptivo para eliminar ruido aditivo de un canal
- El sistema aprende un filtro pasabanda en torno a la frecuencia de interés
- Notece como es posible filtrar incluso ante cambios bruscos en la señal 

In [None]:
from numpy.lib.stride_tricks import as_strided
fig, ax = plt.subplots(3, figsize=(9, 5))
t, dt = np.linspace(0, 5, num=500, retstep=True)
u = np.sin(2.0*np.pi*t*5)
#u[250:] += 5  # Cambio abrupto en la media
#u += 2*t  #  Tendencia lineal
#u += u*(0.5 + 0.5*np.cos(2.0*np.pi*t/2))  # Tremolo (AM)
def update(mu, L, rseed):
    np.random.seed(rseed)
    u_noise = u + 0.5*np.random.randn(len(t)) 
    w = np.zeros(shape=(L+1, ))
    ax[0].cla(); ax[1].cla(); ax[2].cla(); 
    #LMS
    u_pred = np.zeros(shape=(len(u), ))
    for k in range(L+1, len(u)-1):
        norm = np.sum(u_noise[k-L-1:k]**2) + 1e-6
        u_pred[k] = np.dot(w, u_noise[k-L-1:k])
        w += 2*mu*(u_noise[k] - u_pred[k])*u_noise[k-L-1:k]/norm
    u_pred[k+1] = np.dot(w, u_noise[k-L-1:k])
    ax[0].plot(t, u_noise, 'k.', alpha=0.5); 
    ax[0].plot(t, u, 'g-', alpha=0.5);  ax[0].plot(t, u_pred); 
    
    ax[1].plot((u - u_pred)**2, label='LMS')
    k, Hk = scipy.signal.freqz(b=w, a=1)
    ax[2].plot(k/(2*dt*np.pi), np.abs(Hk))
    
interact(update, mu=SelectionSlider_nice(options=[1e-4, 1e-3, 0.01, 0.1, 0.2, 1.]),
         L=SelectionSlider_nice(options=[1, 5, 10, 20, 50], value=10), rseed=IntSlider_nice());

- El algoritmo LMS es un sistema de control con retroalimentación
- En el ejemplo anterior notamos la desestabilidad que ocurre con ciertos valores de $\mu$
- La convergencia del algoritmo depende de $\mu$
    - Muy pequeño: Convergencia lenta
    - Muy grande: Desestabilidad

### Comparación entre Filtro de Wiener/GD y algoritmo LMS/SGD
- Wiener: Ambiente estacionario lo cual nos permite calcular $R_{uu}$ y $R_{ud}$. El aprendizaje es determinista.
- LMS: El aprendizaje viene promediando a nivel de los estimadores de $w$. Esta sujeto al ruido de los estimadores de gradiente. El aprendizaje es estadístico.
- Wiener es óptimo en cambio LMS es sub-óptimo (localmente óptimo). LMS tiende a la solución de Wiener
- LMS se actualiza online y tiene costo $L$. Wiener se entrena offline y tiene costo $L^2$

<img src="img/adaptive-lms.png">


Convergencia del algoritmo LMS (Haykin 6.5)
- El algoritmo LMS tiende en la media $\mathbb{E}[\textbf{w}_n] \to \textbf{w}^*$ para $n\to \infty$
- Convergencia en la media cuadrada: La varianza de $\textbf{w}_n - \textbf{w}^*$ tiene al valor mínimo de $J$ para $n\to \infty$
- Esto se cumple si 
$$
0 < \mu < \frac{1}{\lambda_{\text{max}}}
$$
donde $\lambda_{\text{max}}$ es el valor propio más grande de $R_{uu}$


### LMS: Cancelación de eco

- Supongamos que enviamos una señal de voz a un amig@ 
- Nuestro amig@ escucha lo que enviamos en un parlante y responde
- Nosotros escuchamos la respuesta de nuestro amig@ y adicionalmente nuestro mensaje original

<img src="img/adaptive-echo-canceller.png" width="500">

- Podemos usar un filtro adaptivo para cancelar el eco
- Usamos como entrada la señal enviada y como salida deseada la señal recibida (con eco)
- El filtro aprende el sistema reverberante
- El error es la nueva señal recibida limpia

In [None]:
# la señal enviada original
r, fs = sf.read("data/hola1.ogg")
Audio(r, rate=int(fs))

In [None]:
# El sistema que introduce ecos, por ejemplo una sala
h = np.concatenate(([1.0], np.zeros(10), [0.7], np.zeros(10), [0.5], 
                    np.zeros(10), [0.3], np.zeros(10), [0.1], np.zeros(10), [0.05]))
# la señal enviada con eco
rh = np.convolve(r, h)[:len(r)]
# la señal recibida limpia 
s, fs = sf.read("data/hola2.ogg")
s = np.concatenate((s, np.zeros(shape=(len(r)-len(s)))))
# la señal recibida + señal enviada con eco + ruido blanco
srh = s + 0.3*rh + np.random.randn(len(s))*0.005
Audio(srh, rate=int(fs))

In [None]:
L, mu = 100, 0.02
fig, ax = plt.subplots(2, figsize=(9, 4))
w = np.zeros(shape=(L+1, ))
rhhat = np.zeros(shape=(len(srh), ))
for k in range(L+1, len(srh)-1):
    norm = np.sum(r[k-L-1:k]**2) + 1e-10
    rhhat[k] = np.dot(w, r[k-L-1:k])
    w += 2*mu*(srh[k] - rhhat[k])*r[k-L-1:k]/(norm)
rhhat[k+1] = np.dot(w, r[k-L-1:k])
shat = srh - rhhat
ax[0].plot(srh, alpha=0.5, label='hola2+hola1');
ax[0].plot(shat, alpha=0.75, label='error');
ax[0].plot(s, alpha=0.75, label='hola2 puro');
ax[0].legend()
ax[1].plot((s - shat)**2)
Audio(shat, rate=int(fs))


[&larr; Volver al índice](#index)

<a id="section4"></a>
***
# Algoritmo Recursive Least Squares (RLS)
***

El algoritmo LMS
- minimiza el error instantaneo
- es simple y eficiente 
- en algunos casos su convergencia es demasiado lenta

Podemos obtener un filtro adaptivo que converge más rápido si reemplazamos el error instantaneo por el error histórico

Sigamos considerando un filtro tipo FIR con $L+1$ pesos que se actualizan de en cada época

$$
y_i = \sum_{k=0}^L w_{i, k} u_{n-k}
$$

El algoritmo RLS (recursive least squares) es un método online que minimiza el error histórico, es decir la suma de errores entre la muestra actual y la inicial

$$
\begin{align}
J^H_n(\textbf{w}) &= \sum_{i=L}^n   \beta^{n-i} |e_i|^2 \nonumber \\
&= \sum_{i=L+1}^n \beta^{n-i} (d_i - \sum_{k=0}^{L} w_{i, k} u_{i-k} )^2, \nonumber
\end{align}
$$

donde $n$ es el índice del instante actual y $\beta \in [0, 1]$ es el "factor de olvido" y que usualmente es un valor cercano a $1$ 

Adicionalmente se agrega un regularizador a los pesos
$$
J^w_n = \delta  \| \textbf{w}_{n} \|^2
$$

La solución cerrada sería

$$
\textbf{w}_n = (U_n^T \pmb{\beta} U_n + \delta I)^{-1}  U_n^T \pmb{\beta} \textbf{d}_n
$$
donde 
$$
\textbf{d}_n = \begin{pmatrix}  d_n \\ d_{n-1} \\ \vdots \\ d_{L+1} \end{pmatrix} \quad
\textbf{u}_n = \begin{pmatrix}  u_n \\ u_{n-1} \\ \vdots \\ u_{n-(L+1)} \end{pmatrix} \quad
\pmb{\beta} = I \begin{pmatrix} \beta \\ \beta^{1} \\ \beta^{2}  \vdots \\ \beta^{n-L-1} \end{pmatrix}
\quad 
U_n = \begin{pmatrix}
\textbf{u}_n^T \\ \textbf{u}_{n-1}^T \\ \vdots \\ \textbf{u}_{L+1}^T \\
\end{pmatrix} \in \mathbb{R}^{n - (L+1) \times L+1}
$$

e $I$ es la matriz identidad. 

- Notemos la similitud con el filtro de Wiener
    - Matriz de correlación ponderada y regularizada: $\Phi_n = U_n^T \pmb{\beta} U_n + \delta I$
    - Vector de correalación cruzada ponderada:  $\theta_n = U_n^T \pmb{\beta} \textbf{d}_n$
- Queremos recomputar esta solución cuando llegan nuevas observaciones
- En particular queremos evitar invertir $\Phi_n$

El algoritmo **RLS** propone una solución que actualiza los pesos de forma recursiva

Las condiciones iniciales son 
- $\Phi_0 = \delta I$
- $\theta_0 = 0$

y luego la actualización viene dada por 

- $\Phi_{n} = \beta \Phi_{n-1} + \textbf{u}_n \textbf{u}_n^T$ 
- $\theta_{n} = \beta \theta_{n-1} + \textbf{u}_n d_n $ 
- $\textbf{w}_n = \Phi_n^{-1} \theta_n$

Que es más eficiente si actualizamos $\Phi_{n}^{-1}$ en lugar de $\Phi_{n}$ 

Usando el lema de inversión de matrices 
$$
(A + UCV)^{-1} = A^{-1} - A^{-1} U (C^{-1} + VA^{-1} U)^{-1} V A^{-1}
$$

con $A = \Phi_{n-1}^{-1}$, $C=1$, $U= \textbf{u}_n$ y $V = \textbf{u}_n^T$ entonces

$$
\begin{align}
\Phi_{n}^{-1} &= \left(\beta \Phi_{n-1} + \textbf{u}_n \textbf{u}_n^T \right)^{-1} \nonumber \\
&= \beta^{-1} \Phi_{n-1}^{-1} - \beta^{-2} \frac{\Phi_{n-1}^{-1} \textbf{u}_n \textbf{u}_n^T \Phi_{n-1}^{-1} }{1 + \beta^{-1} \textbf{u}_n^T \Phi_{n-1}^{-1} \textbf{u}_n} \nonumber \\
&= \beta^{-1} \Phi_{n-1}^{-1} - \beta^{-1} \textbf{k}_n \textbf{u}_n^T \Phi_{n-1}^{-1}, \nonumber 
\end{align}
$$

donde llamamos **ganancia** a $\textbf{k}_n$

Podemos continuar para encontrar una regla de actualización recursiva para los pesos

$$
\begin{align}
\textbf{w}_n &= \Phi_n^{-1} \theta_n \nonumber \\
&=  \Phi_n^{-1} \beta \theta_{n-1} + \Phi_n^{-1} \textbf{u}_n d_n\nonumber \\
&=  \Phi_{n-1}^{-1} \theta_{n-1} - \textbf{k}_n \textbf{u}_n^T \Phi_{n-1}^{-1} \theta_{n-1} + \Phi_n^{-1} \textbf{u}_n d_n \nonumber \\
&=  \textbf{w}_{n-1} - \textbf{k}_n \textbf{u}_n^T  \textbf{w}_{n-1} + \Phi_n^{-1} \textbf{u}_n d_n \nonumber \\
&=  \textbf{w}_{n-1} + \textbf{k}_n ( d_n - \textbf{u}_n^T  \textbf{w}_{n-1} ) \nonumber \\
&=  \textbf{w}_{n-1} + \textbf{k}_n e_n \nonumber 
\end{align}
$$
donde reemplazamos $\textbf{w}_{n-1} = \Phi_{n-1}^{-1} \theta_{n-1}$ y usamos que 
$$
\begin{align}
\textbf{k}_n &= \left(\beta^{-1} \Phi_{n-1}^{-1} - \beta^{-1} \textbf{k}_n \textbf{u}_n^T \Phi_{n-1}^{-1} \right)  \textbf{u}_n \nonumber \\ &= \Phi_n^{-1} u_n \nonumber
\end{align}
$$


### Notas
- Con esto tenemos un algoritmo de complejidad $L^2$ en vez de $L^3$
- Esto sigue siendo mayor que LMS (complejidad $L$) pero con la ventaja de converger más rapidamente 
- En la literatura suele usarse el nombre $P_n$ para $\Phi_n^{-1}$



***
## Resumen algoritmo RLS

- Inicializar $\Phi_0 = \delta I$ y $\textbf{w}_0 = 0$
- Para $n \in [1, \infty]$
    1. Calcular la ganancia
    $$
    \textbf{k}_n =  \frac{\beta^{-1} \Phi_{n-1}^{-1} \textbf{u}_n }{1 + \beta^{-1} \textbf{u}_n^T \Phi_{n-1}^{-1} \textbf{u}_n}
    $$
    1. Calcular el error
    $$
    e_n = d_n - \textbf{u}_n^T  \textbf{w}_{n-1} 
    $$
    1. Actualizar el error de pesos
    $$
    \textbf{w}_n = \textbf{w}_{n-1} + \textbf{k}_n e_n 
    $$
    1. Actualizar el inverso de la matriz de correlación
    $$
    \Phi_{n}^{-1} = \beta^{-1} \Phi_{n-1}^{-1} - \beta^{-1} \textbf{k}_n \textbf{u}_n^T \Phi_{n-1}^{-1}
    $$
    
### Recomendaciones
- A menor $\delta$ mayor regularización. Usar $\delta$ pequeño para SNR bajo y $\delta$ grande para SNR alto
- Considerar un valor de $\beta \approx 0.9$ inicialmente
- Calibre $\delta$ y $\beta$ usando validación cruzada
***

### RLS versus LMS: Tracking

- Notemos la diferencia en tiempo de convergencia entre los algoritmos LMS y RLS
- RLS es capaz de adaptarse a cambios bruscos más rápido que LMS

In [None]:
fig, ax = plt.subplots(2, figsize=(9, 6))
t, dt = np.linspace(0, 5, num=500, retstep=True)
np.random.seed(0)
u = np.sin(2.0*np.pi*t*5)  
# u[250:] += 5
u += np.array([5*np.exp(-np.absolute(tt-1)/0.2) if tt>1 else 0 for tt in t])
u += np.array([5*np.exp(-np.absolute(tt-3)/0.2) if tt>3 else 0 for tt in t])
u_noisy = u + 0.5*np.random.randn(len(t))

def update(mu, beta, L):
    ax[0].cla(); ax[1].cla(); 
    u_pred = np.zeros(shape=(len(u_noisy), 2))
    #LMS
    w = np.zeros(shape=(L+1, ))
    for k in range(L+1, len(u_noisy)):
        u_window = u_noisy[k-L-1:k]
        norm = np.sum(u_window**2) + 1e-6
        u_pred[k, 0] = np.dot(w, u_window)
        if k < len(u):
            w += 2*mu*(u_noisy[k] - u_pred[k, 0])*u_window/norm
    #RLS
    w = np.zeros(shape=(L+1, ))
    delta = 1.
    Phi_inv = delta*np.eye(L+1); 
    for k in range(L+1, len(u_noisy)):
        u_window = u_noisy[k-L-1:k]
        # Calcular ganancia
        gain = np.dot(Phi_inv, u_window)/(beta + np.dot(np.dot(u_window.T, Phi_inv), u_window))        
        # Calcular error
        u_pred[k, 1] = np.dot(w, u_window)
        err = u_noisy[k] - u_pred[k, 1]
        # Actualizar pesos
        w += np.dot(gain, err)
        # Actualizar el inverso de la matriz de correlación
        Phi_inv = (1./beta)*(1. - np.sum(gain*u_window))*Phi_inv
    
    ax[0].plot(t, u_noisy, 'k.', alpha=0.5); 
    ax[0].plot(t, u, 'g-', alpha=0.5, label='Real');  
    ax[0].plot(t, u_pred[:, 0], label='LMS'); 
    ax[0].plot(t, u_pred[:, 1], label='RLS'); ax[0].legend(loc=1)
    ax[1].plot((u - u_pred[:, 0])**2, label='LMS')
    ax[1].plot((u - u_pred[:, 1])**2, label='RLS'); ax[1].legend()

    
interact(update, 
         mu=FloatSlider_nice(step=0.01, max=0.1, min=0.01),
         beta=FloatSlider_nice(step=0.01, max=1., min=0.5, value=0.9),
         L=SelectionSlider_nice(options=[1, 5, 10, 20, 50], value=10));

[&larr; Volver al índice](#index)

<a id="section5"></a>
***
# Algoritmo Perceptrón (Rosemblatt 1962)
***

- Podemos entrenar un filtro adaptivo para hacer **clasificación binaria de patrones**
- En este caso la respuesta deseada tiene dos categorías: $d_n \in \{-1, +1\}$ 
- La entrada se considera continua y de $M$ dimensiones: $u_n \in \mathbb{R}^M$
- Asumimos que se tienen $N$ tuplas $(u_n, d_n)$
- El filtro tiene arquitectura FIR con $M+1$ coeficientes pero se agrega una no linealidad $\phi(\cdot)$ en la salida
$$
\begin{align}
y_n &=  \phi \left(w_0 + \sum_{k=1}^{M} w_k u_{nk} \right) \nonumber \\
&= \phi \left(\langle \textbf{w}, \text{concat}(1, u_n) \rangle \right), \nonumber 
\end{align}
$$
donde podemos usar $\phi(z) = \text{sign}(z) = \begin{cases} +1 & z > 0 \\0 & z=0\\-1 & z<0 \end{cases}$
- Esto se conoce como el modelo matemático de una neurona de [McCulloch y Pitts](https://link.springer.com/article/10.1007/BF02478259)
    - Las coeficientes del filtro son los pesos sinápticos de las dendritas
    - La función no lineal corresponde al axón

<img src="img/adaptive-neuron.png" width="400"><img src="img/adaptive-neuron2.jpeg" width="400">

- El algoritmo para entrenar la neurona artificial se conoce como **algoritmo percetrón**
- Asumimos un vector de pesos inicial nulo $\textbf{w}^{(t=0)} = [0, 0, ..., 0]$
- La función de costo en el instante $t$ al presentar el ejemplo $(d_n, u_n)$ 
$$
\mathcal{L}( \textbf{w}^{(t)} ) = \text{max} \Big(0 ~, - d_n \langle \textbf{w}^{(t)}, \text{concat}(1, u_n) \rangle \Big)
$$
- y su derivada es 
$$
\frac{d \mathcal{L}(\textbf{w}^{(t)} )}{d \textbf{w}}  = \begin{cases} 0 & d_n \langle \textbf{w}, \text{concat}(1, u_n) \rangle \geq 0 \\ - d_n \text{concat}(1, u_n)  & d_n \langle \textbf{w}, \text{concat}(1, u_n) \rangle < 0
\end{cases}
$$
es decir que la derivada es cero si el ejemplo está bien clasificado
- Finalmente la regla perceptron usando SGD con tasa de aprendizaje $\mu$ es 
$$
\begin{align}
\textbf{w}^{(t+1)} &= \textbf{w}^{(t)} - \mu \frac{d \mathcal{L}(\textbf{w}^{(t)} )}{d \textbf{w}} \nonumber \\
& = \textbf{w}^{(t)} + \begin{cases} \mu d_n \text{concat}(1, u_n) & \\ 0 & \text{en otro caso} \end{cases}
\end{align}
$$
es decir que si el ejemplo está bien clasificado los pesos no se actualizan

### Detalles del algoritmo perceptrón
- En cada iteración se presenta un ejemplo 
- Se dice que se completa una época de entrenamiento cuando se han presentado los $N$ ejemplos
- Presentar los ejemplos en distinto orden en cada época ayuda a evitar sesgos y acelera la convergencia
- Detenemos el entrenamiento cuando todos los ejemplos están bien clasificados o al cumplir un cierto número de épocas sin cambio
- El algoritmo perceptrón está garantizado a converger en tiempo finito si el problema es **linealmente separable**
- Si el problema no es **linealmente separable** la convergencia se puede forzar disminuyendo gradualmente $\mu$


In [None]:
fig, ax = plt.subplots(figsize=(9, 6))
N = 50
u = np.concatenate((np.random.randn(N, 2), 2 + np.random.randn(N, 2)))
d = np.ones(shape=(2*N,)); d[:N] = -1.
w = np.zeros(shape=(3, ))
ax.scatter(u[:N, 0], u[:N, 1]); ax.scatter(u[N:, 0], u[N:, 1])
x_plot = np.linspace(np.amin(u), np.amax(u))
plane = ax.plot(x_plot, -w[0]/(w[2]+1e-10) - x_plot*w[1]/(w[2]+1e-10), 'k-', lw=4, alpha=0.75) 
P = np.random.permutation(2*N)
dot = ax.plot([], [], 'ko', markersize=10)
mu = 1e-5

def update(n):
    global w
    idx = P[n - 2*N*int(n / (2*N))]
    if d[idx]*np.dot(w, np.concatenate((np.array([1]), u[idx]))) <= 0.:
        w = w + mu*d[idx]*np.concatenate((np.array([1]), u[idx]))
    dot[0].set_data(u[idx, 0], u[idx, 1])
    plane[0].set_ydata(-w[0]/(w[2]+1e-10) - x_plot*w[1]/(w[2]+1e-10))
    ax.set_title("Iteration %d" %(n))
        

anim = animation.FuncAnimation(fig, update, frames=300, interval=100, repeat=False, blit=True)


### Más allá del perceptron 

- El modelo de neurona con salida sigmoide se conoce como **regresión logística**
- Tanto el perceptrón como el regresor logístico se pueden extender a más de dos clases: **regresor softmax**
- Conectando varias neuronas en cadena se forma lo que se conoce como una perceptrón multicapa
- El perceptrón multicapa es un ejemplo de **red neuronal artificial**
- Las redes neuronales artificiales se estudiarán en detalle en el curso de **inteligencia artificial**

### Tópicos extra

- [On the Intrinsic Relationship Between the Least Mean Square and Kalman Filters](https://www.commsp.ee.ic.ac.uk/~mandic/LMS_Kalman_IEEE_SPM_2015.pdf)
- [Adaptive notch filter](http://homes.esat.kuleuven.be/~tvanwate/courses/dsp2/1415/DSP2_slides_04_adaptievefiltering.pdf)
- [Reconstruction using Wiener filter](https://wwwmpa.mpa-garching.mpg.de/~ensslin/lectures/Files/Wiener_Filter_Demo_NIFTy3.html)
- [Kalman filter](https://scipy-cookbook.readthedocs.io/items/KalmanFiltering.html)

