# Procesamiento del habla

# Speech filter model

![speech_filter_model](speech_filter_model.png)

# Cepstrum

$s(n) = x(n)*h(n)$

$S(\omega)=X(\omega).H(\omega)$

$|S(\omega)|=|X(\omega)|.|H(\omega)|$

$\log|S(\omega)|=\log|X(\omega)|+\log|H(\omega)|$

![Cepstrum](cepstrum.png)

## MFCC

![Mel](mel.png)

# Clasificación

* Etiquetar a los MFCC con el fonema

## Aprendizaje supervisado

* Set de entrenamiento: $x_1,...,x_N$ __y__ las etiquetas $z_1,...,z_N \in 1,...,K$

1. Maximum likelihood: 

$\mu_k=$

$\sigma_k^2=$

2. Obtener $k$ que maximice $P(k|x) = \frac{P(x|k)P(k)}{P(x)} \Rightarrow P(x|k)P(k)$


## Aprendizaje NO supervisado

Set de entrenamiento: $x_1,...,x_N$ __sin__ las etiquetas $z_1,...,z_N$

### Algoritmo EM

Asigna una probabilidad a cada $x$ de pertenecer a cada clase $k$

1) __Inicializar__ $\mu_k$, $\sigma_k^2$, y $\pi_k=P(k)$ para cada clase (p.ej.: K-Means)

2) __Paso E__: Calcular $\gamma_k(x) = P(z=k|x)$: probabilidad de que la muestra $x$ pertenezca a la clase $k$.



3) __Paso M__: Reestimar $\mu_k$, $\sigma_k^2$, y $\pi_k=P(k)$ para cada clase.

$$\mu_k=\frac{\sum_{i=1}^N \gamma_k(x_i) x_i}{\sum_{i=1}^N \gamma_k(x_i)}$$

$$\sigma_k^2=\frac{\sum_{i=1}^N \gamma_k(x_i) (x_i-\mu_k)^2}{\sum_{i=1}^N \gamma_k(x_i)}$$

$$\pi_k=\frac{1}{N}\sum_{i=1}^N \gamma_k(x_i)$$

4) Calcular __log-likelihood__

$$P(x_i) = \sum_{k=1}^K \pi_k \mathcal{N} (x_i|\mu_k,\sigma_k^2)$$

$$LL = \log \prod_{i=1}^N P(x_i) = \sum_{i=1}^N \log P(x_i)$$

5) Repetir 2, 3, 4 hasta que el log-likelihood no cambie.

# Cadenas de Markov

- Estados
- Transiciones: probabilidades

Experimento: generar secuencia de estados $Q=q_1,...,q_T$

* $P(qt|q_{t-1},q_{t-2},...q_1) = P(q_t|q_{t-1})$ : la probabilidad de pasar de un estado a otro NO DEPENDE de todo la secuencia de estados previa
* $a_{ij} = P(q_t=j|q_{t-1}=i)$: la probabilidad de pasar de un estado a otro es constante en el tiempo


# Cadenas de Markov Ocultas (HMM)

- En cada estado se genera una observación $\Rightarrow$ distribución de probabilidad
- $Q = q_1,q_2,...q_T$ : secuencia de estados
- $Y = y_1,y_2,...,y_T$ : secuencia de observaciones


* $P(y_t|Q,Y_{-t}) = P(y_t|q_t=j)$: la observación generada en un estado sólo depende de cuál es el estado actual $\Rightarrow P(y_t|q_t=j)=b_j(y_t)$



Modelo: $\lambda=\{\{i\},\{a_{ij}\},\{b_j(y_t)\}\}$, con $i,j = 1,...,N$, $t = 1,...,T$

## Algoritmo de Viterbi

* Dado $\lambda$ y una secuencia de observaciones $Y=y_1,...,y_T$, hallar la secuencia de estados óptima $Q^*=q_1^*,...,q_T^*$

$\DeclareMathOperator*{\argmax}{argmax}$
$Q^*=\argmax\limits_{\forall \ Q} P(Q|Y)$

$\phi_t(j)=\max\limits_{\forall \ Q_{t-1}} P(Q_{t-1},q_t=j,Y_t)$: probabilidad del camino óptimo hasta $t$ que genera la secuencia de observaciones $Y_t=y_1,...,y_t$, terminando en el estado $j$.

1) Inicialización:

$\phi_1(i)=b_i(y_1)\pi_i$

$\psi_1(i)=0$


2) Recursión:

$\phi_t(j)=b_j(y_t)\max\limits_{1\leq i \leq N} a_{ij} \phi_{t-1}(i)$

$\psi_t(j)=\argmax\limits_{1 \leq i \leq N} \phi_{t-1}(i) a_{ij}$

Camino óptimo $S^* = s_1^*,...,s_t^*$ con $s_t^*=j$ $\Rightarrow$ $\psi_t(j)=s_{t-1}^*$, el estado anterior.

$\phi_t(j)$: probabilidad de ese camino.

3) Backtracking:

$q_T^*=\argmax\limits_{1 \leq j \leq N} \phi_T(j)$



$q_t^*=\psi_{t+1}(q_{t+1}^*)$

## Entrenamiento de la HMM

* Dado $Y$, hallar $\lambda=\{\{i\},\{a_{ij}\},\{b_j(y_t)\}\}$, con $i,j = 1,...,N$, $t = 1,...,T$

## Algoritmo Baum-Welch

* Basado en EM

1) Inicialización de $\mu_k$, $\sigma_k$ (igual que antes, por ejemplo: K-Means), y $\{a_{ij}\}$

2) Paso E:

__Recursión backward__

$\alpha_t(j)=P(y_1,...,y_t,q_t=j)$: probabilidad de la secuencia de observaciones hasta $t$ y que el estado actual sea $j$

$\alpha_t(j)=\sum_{i=1}^N b_j(y_t)a_{ij}\alpha_{t-1}(i)$

__Recursión forward__

$\beta_t(i)=P(y_t+1,...,y_T|q_t=i)$: probabilidad de que se dé la secuencia de observaciones desde $t+1$ hasta el final, dado que el estado actual es $i$

$\beta_t(i)=\sum_{j=1}^Nb_j(y_{t+1})a_{ij}\beta_{t+1}(j)$


$\gamma_t(i)=P(q_t=i|Y)$: probabilidad de que el estado en el instante $t$ sea $i$, dada la secuencia de observaciones

$\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$

$\xi_t(i,j)=P(q_t=i,q_{t+1}=j|Y)$: probabilidad de estar en el estado $i$ en el instante $t$ y pasar al estado $j$, dada la secuencia de observaciones

$\xi_t(i,j)=\frac{\alpha_t(i)\beta_{t+1}(j)b_j(y_{t+1})a_{ij}}{\sum_{j=1}^N \alpha_t(j)\beta_t(j)}$

3) Paso M: reestimar los parámetros

$\mu_j=\frac{\sum_{t=1}^T \gamma_t(j)y_t}{\sum_{t=1}^T\gamma_t(j)}$: media para el estado $j$: promedio ponderado de las observaciones con las probabilidades de que cada observación se dé en el estado $j$

$\Sigma_j=\frac{\sum_{t=1}^T (y_t-\mu_j)^T(y_t-\mu_j)\gamma_t(j)y_t}{\sum_{t=1}^T\gamma_t(j)}$: varianza para el estado $j$: varianza ponderada con las probabilidades de que cada observación se dé en el estado $j$

$a_{ij}=\frac{\sum_{t=1}^T \xi_t(i,j)}{\sum_{t=1}^T\gamma_t(i)}$: probabilidad de transición del estado $i$ al $j$: suma de las probabilidades de pasar del estado $i$ al estado $j$ en todos los instantes, dividido por la probabilidad total de transición dsede el estado $i$ hacia otro estado

4) Calcular log-likelihood

5) Repetir 2, 3, 4 hasta que el log-likelihood no cambie.

# Aplicación al reconocimiento de habla

1) Set de entrenamiento: frases grabadas y sus transcripciones fonéticas

2) Parametrización: coeficientes MFCC (12 + deltas = 39) por ventanas de 20ms, con 10ms de superposición

3) HMM:

* 3 estados emisores por fonema + 2 estados no emisores (inicial y final) para unirlos:

![markov_fonema](markov_fonema.svg)

* Por cada frase:
![markov_frase](markov_frase.svg)


* No hace falta segmentar

4) Modelo de lenguaje:

![modelo_lenguaje](modelo_lenguaje.svg)

Para las transiciones entre palabras:

$P(w2|w1)$



5) Reconocimiento: Viterbi