## Metody klasyfikacji i redukcji wymiaru

### Zastosowanie algorytmu EM do uproszczonej wersji znajdowania motywów w ciągach DNA

Błażej Wiórek, Zofia Dziedzic

#### Opis problemu

Obserwujemy wektor losowy $\mathbf{X} = (X_1, X_2, \ldots, X_w)$, taki że $X_1, X_2, \ldots, X_w$ są niezależne o rozkładzie

$$
    p(x_i; \mathbf{\theta_i}) = \theta_{1i}\mathbb{1}_{\{1\}}(x_i) + \theta_{2i}\mathbb{1}_{\{2\}}(x_i) + \theta_{3i}\mathbb{1}_{\{3\}}(x_i) + \theta_{4i}\mathbb{1}_{\{4\}}(x_i),
$$

gdzie $\mathbf{\theta_i} = (\theta_{1i}, \theta_{2i}, \theta_{3i}, \theta_{4i})^T$. Oznacza to, że zmienne $X_i$, $i \in \{1,2,\ldots,w\}$ przyjmują wartości ze zbioru $\{1,2,3,4\}$ odpowiednio z prawdopodobieństwami $\theta_{1i}, \theta_{2i}, \theta_{3i}, \theta_{4i}$. Wobec tego

$$
    p(\mathbf{x}; \mathbf{\theta}) = \prod_{i=1}^{w} p(x_i; \mathbf{\theta_i}).
$$

Naszym zadaniem będzie modelowanie tego wektora w sytuacji, gdy $\mathbf{\theta_i}, i = 1, 2, \ldots, w$ może przyjmować jedną z dwóch postaci

$$
    \boldsymbol{\theta^{(0)}_i} = (\theta^{(0)}_{1i}, \theta^{(0)}_{2i}, \theta^{(0)}_{3i}, \theta^{(0)}_{4i})^T,
$$

$$
    \boldsymbol{\theta^{(1)}_i} = (\theta^{(1)}_{1i}, \theta^{(1)}_{2i}, \theta^{(1)}_{3i}, \theta^{(1)}_{4i})^T.
$$

Oznaczmy przez $\mathbf{\Theta^{(0)}}$ macierz, której elementami są $\theta^{(0)}_{ki}$, $k = 1,2,3,4$ i, analogicznie, $\mathbf{\Theta^{(1)}} = (\mathbf{\theta^{(1)}_1, \theta^{(1)}_2, \ldots, \theta^{(1)}_w})$.
O tym, z którego z rozkładów - $p(\mathbf{x}; \mathbf{\theta^{(0)}})$ czy $p(\mathbf{x}; \mathbf{\theta^{(1)}})$ - pochodzi $X$, decyduje inna zmienna losowa, $Z$, która z p-stwem $\alpha_0$ jest równa $0$ i z p-stwem $\alpha_1 = 1 - \alpha_0$ jest równa $1$.
Niech

$$
\mathbf{x}_1 = x_{11}, x_{12}, \ldots, x_{1i}, \ldots, x_{1w} \\
\mathbf{x}_2 = x_{21}, x_{22}, \ldots, x_{2i}, \ldots, x_{2w} \\
\ldots \\
\mathbf{x}_j = x_{j1}, x_{j2}, \ldots, x_{ji}, \ldots, x_{jw} \\
\ldots \\
\mathbf{x}_k = x_{k1}, x_{k2}, \ldots, x_{ki}, \ldots, x_{kw}
$$

będą zaobserwowanymi niezależnymi realizacjami wektora losowego $\mathbf{X}$. Każdej z nich odpowiada $z_j$, $j = 1, \ldots, k$, które decyduje o rozkładzie $X_j$.

W oparciu o daną próbę, ale nie znając wartości $z_1, \ldots, z_k$, chcemy wyestymować parametry $\mathbf{\Theta} = (\mathbf{\Theta^{(0)}}, \mathbf{\Theta^{(1)}})$ i $\alpha = (\alpha_0, \alpha_1)$.

#### Funkcja wiarogodności

Parametrów $\hat{\mathbf{\Theta}}$ i $\hat\alpha$ będziemy szukać, maksymalizując funckcję wiarygodności
$$
l(\mathbf{\Theta},\alpha) = \log L(\mathbf{\Theta}, \alpha) = \sum_{j=1}^k \log p(\mathbf{x_j}, z_j; \mathbf{\Theta}, \alpha) = 
 \sum_{j=1}^k \log (p(\mathbf{x_j}, \mathbf{\Theta^{(0)}})\alpha_0 + p(\mathbf{x_j}, \mathbf{\Theta^{(1)}})\alpha_1).
$$

Ponieważ nie jesteśmy w stanie znaleźć estymatorów największej wiarygodności analitycznie, użyjemy w tym celu algorytmu EM, który opisujemy krótko poniżej.

#### Algorytm EM

Idea tej procedury opiera się na fakcie, że dla znanego $\mathbf{z} = (z_1, z_2, \ldots, z_k)^T$ łatwo znaleźć $\hat{\mathbf{\Theta}}$ i $\alpha$. Algorytm składa się więc z następujących dwóch kroków, które po odpowiedniej liczbie iteracji pozwalają skutecznie wyestymować szukane parametry:

   1) **Expectation**
    
   "zgadnięcie" $\mathbf{z}$, które w praktyce polega na obliczeniu "wag" $\mathbf{w_0} = (w_0^{(1)},\ldots,w_0^{(k)})$, 
   $\mathbf{w_1} = (w_1^{(1)},\ldots,w_1^{(k)})$, takich że
   
   $$
   w_0^{(j)} = \mathbb{P}(z_j = 0|\mathbf{X_j} = \mathbf{x_j}; \mathbf{\Theta}) = 
   \frac{\mathbb{P}(\mathbf{X_j} = \mathbf{x_j}|z_j = 0; \mathbf{\Theta^{(0)})}\alpha_0}{\mathbb{P}(\mathbf{X_j} = \mathbf{x_j}|z_j = 0; \mathbf{\Theta^{(0)})}\alpha_0 + \mathbb{P}(\mathbf{X_j} = 
   \mathbf{x_j}|z_j = 1; \mathbf{\Theta^{(1)})}\alpha_1} =
   \frac{\prod_{i=1}^{w}\theta^{(0)}_{x_{ji}}\alpha_0}{\prod_{i=1}^{w}\theta^{(0)}_{x_{ji}}\alpha_0 + \prod_{i=1}^{w}\theta^{(1)}_{x_{ji}}\alpha_1}
   $$
   i
    $$
   w_1^{(j)} = \mathbb{P}(z_j = 1|\mathbf{X_j} = \mathbf{x_j}; \mathbf{\Theta}) = 
   \frac{\mathbb{P}(\mathbf{X_j} = \mathbf{x_j}|z_j = 1; \mathbf{\Theta^{(1)})}\alpha_1}
   {\mathbb{P}(\mathbf{X_j} = \mathbf{x_j}|z_j = 0; \mathbf{\Theta^{(0)}})\alpha_0 
   + \mathbb{P}(\mathbf{X_j} = \mathbf{x_j}|z_j = 1; \mathbf{\Theta^{(1)}})\alpha_1} = 
   \frac{\prod_{i=1}^{w}\theta^{(1)}_{x_{ji}}\alpha_1}{\prod_{i=1}^{w}\theta^{(0)}_{x_{ji}}\alpha_0 +
   \prod_{i=1}^{w}\theta^{(1)}_{x_{ji}}\alpha_1}.
   $$
   
   2) **Maximization** ?To chyba nie jest ok?
   
   Dla danych $\mathbf{w_0}$ i $\mathbf{w_1}$ wyliczymy 
   
   $$ 
   \hat{\Theta^{(0)}} = \frac{\sum_{j=1}^k w_0^{(j)}\mathbf{x_j}}{\sum_{j=1}^k w_0^{(j)}},
   $$
   
   $$ 
   \hat{\Theta^{(1)}} = \frac{\sum_{j=1}^k w_1^{(j)}\mathbf{x_j}}{\sum_{j=1}^k w_1^{(j)}},
   $$
   
   $$
   \alpha???.
   $$

#### Wyniki

Jakieś wykresiki, jak dobrze EM przybliżył thetę? Plus normy ||theta - theta_est||_2?