# T6.6 Aprendizaje

# Índice

1. Introducción
2. Ejemplo
3. Aprendizaje con observaciones completas
4. Aprendizaje con observaciones incompletas

## 1 Introducción

**Objetivo:** $\;$ aprendizaje de distribuciones de probabilidad con estructura dada

**Aprendizaje con observaciones completas:** $\;$ estimación directa

**Aprendizaje con observaciones incompletas:** $\;$ algoritmo EM

## 2 Ejemplo

In [2]:
import graphviz; graphviz.Source('''digraph { rankdir=LR; node [shape=plaintext];
Bateria [label=<<TABLE BORDER="0" CELLBORDER="1" CELLSPACING="0">
<TR><TD COLSPAN="2">P(B)</TD></TR>
<TR><TD COLSPAN="2">Batería (B)</TD></TR>
<TR><TD>0 (descargada)</TD><TD>1 (cargada)</TD></TR>
<TR><TD><i>p0</i></TD><TD><i>p1</i></TD></TR>
</TABLE>>];
Combustible [label=<<TABLE BORDER="0" CELLBORDER="1" CELLSPACING="0">
<TR><TD COLSPAN="2">P(C)</TD></TR>
<TR><TD COLSPAN="2">Combustible (C)</TD></TR>
<TR><TD>0 (vacío)</TD><TD>1 (lleno)</TD></TR>
<TR><TD>0.1</TD><TD>0.9</TD></TR>
</TABLE>>];
Indicador [label=<<TABLE BORDER="0" CELLBORDER="1" CELLSPACING="0">
<TR><TD COLSPAN="4">P(I | B, C)</TD></TR>
<TR><TD COLSPAN="2"></TD><TD COLSPAN="2">Indicador (I)</TD></TR>
<TR><TD>B</TD><TD>C</TD><TD>0 (vacío)</TD><TD>1 (lleno)</TD></TR>
<TR><TD>0</TD><TD>0</TD><TD>0.9</TD><TD>0.1</TD></TR>
<TR><TD>0</TD><TD>1</TD><TD>0.8</TD><TD>0.2</TD></TR>
<TR><TD>1</TD><TD>0</TD><TD>0.8</TD><TD>0.2</TD></TR>
<TR><TD>1</TD><TD>1</TD><TD>0.2</TD><TD>0.8</TD></TR>
</TABLE>>];
{Bateria, Combustible} -> Indicador
}''').render(filename='combustible', format='svg');

<div><table border-collapse: collapse align=left><tr>
<td style="border: none; text-align:left; vertical-align:top; padding:0; margin:0;" width=400>

**Variables:**
* Batería ($B$): $0$ (descargada) o $1$ (cargada)
* Combustible ($C$): $0$ (vacío) o $1$ (lleno)
* Indicador ($I$): $0$ (vacío) o $1$ (lleno)

**Parámetros desconocidos:**
$$\boldsymbol{\theta}=(p_0,p_1)^t,\quad p_0+p_1=1$$

</td><td style="border: none; text-align:left; vertical-align:center; padding:0; margin:0;" width=20></td>
<td style="border: none; text-align:left; vertical-align:center; padding:0; margin:0;" width=600>

<img src='combustible.svg'/>

</td></tr></table></div>

## 3 Aprendizaje con observaciones completas

**Datos completos:** $\;S=\{(b_1,c_1,i_1),\,\ldots,\,(b_N,c_N,i_N)\}$

**Estimador máximo-verosímil:** $\displaystyle\quad\hat{p}_1=\frac{\sum_n b_n}{N}\qquad\hat{p}_0=1-\hat{p}_1$

**Ejemplo:** $\quad S=\{(0,1,1), (1,1,0)\} \quad\rightarrow\quad \hat{p}_0 = \hat{p}_1 = \frac{1}{2}$

## 4 Aprendizaje con observaciones incompletas

**Datos incompletos:** $\;S=\{(c_1,i_1),\,\ldots,\,(c_N,i_N)\}$

**Estimador máximo-verosímil:** $\;$ mediante el algoritmo EM

**Paso E:** $\;$ estimación de datos perdidos; dado $\,p_1^{(t)},\,$ calcula para todo $n$
$$\hat{b}_n^{(t)}=P(b_n=1\mid c_n,i_n)=\frac{P(b_n=1,c_n,i_n)}{P(c_n,i_n)}=\frac{p_1^{(t)}\cancel{P(c_n)}P(i_n\mid b_n=1,c_n)}{(1-p_1^{(t)})\cancel{P(c_n)}P(i_n\mid b_n=0,c_n)+p_1^{(t)}\cancel{P(c_n)}P(i_n\mid b_n=1,c_n)}$$

**Paso M:** $\;$ re-estimación de parámetros mediante maximización del valor esperado de la log-verosimilitud completa
$$p_1^{(t+1)}=\frac{\sum_n \hat{b}_n^{(t)}}{N}$$

**Pasos EM integrados:** $\;$ se puede hacer en casos sencillos como este ejemplo
$$p_1^{(t+1)}=\frac{1}{N}\sum_n \frac{p_1^{(t)}P(i_n\mid b_n=1,c_n)}{(1-p_1^{(t)})P(i_n\mid b_n=0,c_n)+p_1^{(t)}P(i_n\mid b_n=1,c_n)}$$

**Ejemplo:** $\;S=\{(1,1),(1,0)\}\,$ con $\,p_1^{(1)}=0.9$ $\;\ldots\;$ converge a $\;\hat{p}_1=\hat{p}_0=0.5$
$$\begin{align*}
p_1^{(t+1)}&=\frac{1}{2}\frac{p_1^{(t)}P(i_1\mid b_1=1,c_1)}{(1-p_1^{(t)})P(i_1\mid b_1=0,c_1)+p_1^{(t)}P(i_1\mid b_1=1,c_1)}
+\frac{1}{2}\frac{p_1^{(t)}P(i_2\mid b_2=1,c_2)}{(1-p_1^{(t)})P(i_2\mid b_2=0,c_2)+p_1^{(t)}P(i_2\mid b_2=1,c_2)}\\
&=\frac{1}{2}\frac{p_1^{(t)}0.8}{(1-p_1^{(t)})0.2+p_1^{(t)}0.8}+\frac{1}{2}\frac{p_1^{(t)}0.2}{(1-p_1^{(t)})0.8+p_1^{(t)}0.2}\\
p_1^{(2)}&=\frac{1}{2}\frac{0.9\cdot0.8}{0.1\cdot0.2+0.9\cdot0.8}+\frac{1}{2}\frac{0.9\cdot0.2}{0.1\cdot0.8+0.9\cdot0.2}=0.83
\end{align*}$$