<center>
    <h1>Inteligencia Artificial</h1>
    <h1>Manejo de Incertidumbre</h1>
    <h1>Probabilidad</h1>
    <h1></h1>
    <h5>Prof. Wladimir Rodriguez</h5>
    <h5>wladimir.rodriguez@outlook.com</h5>
    <h5>Departamento de Computación</h5>
</center>

## Incertidumbre

- En problemas de búsqueda, el agente tiene un conocimiento perfecto del mundo y su dinámica.
- En la mayoría de las aplicaciones, un agente no puede simplemente hacer suposiciones y luego actuar de acuerdo con esas suposiciones
- El conocimiento es incierto:
    - Debe considerar múltiples hipótesis
    - Debe actualizar las creencias sobre qué hipótesis son probables dadas observaciones

## Midiendo la incertidumbre. 

- La probabilidad es una forma de medir la incertidumbre.
- Asignamos un número entre 0 y 1 a las hipótesis:
    - 0 significa absolutamente seguro de que la afirmación es falsa 
    - 1 significa absolutamente seguro de que la afirmación es verdadera 
    - Los valores intermedios significan más o menos cierto
- La probabilidad es una medida de incertidumbre, no de verdad
    - Una declaración con probabilidad .75 no es "mayormente cierta"
    - Más bien, creemos que es más probable que sea cierto que no

## Probabilidad

En 1814, Pierre-Simon Laplace escribió:

>La probabilidad ... es, por lo tanto, simplemente una fracción cuyo numerador es el número de casos favorables y cuyo denominador es el número de todos los casos posibles ... cuando nada nos lleva a esperar que alguno de estos casos ocurra más que cualquier otro.

Laplace realmente lo tenía claro, ¡en aquel entonces! Si desea desenredar un problema de probabilidad, todo lo que tiene que hacer es ser metódico para definir exactamente cuáles son los casos, y luego tener cuidado al contar el número de casos favorables y totales. Comenzaremos a ser metódicos definiendo un vocabulario:

- *Experimento*: Una ocurrencia con un resultado incierto que podemos observar.
    Por ejemplo, lanzar un dado.
- *Resultado*: el resultado de un experimento; un estado particular del mundo. Lo que Laplace llama un "caso".
    Por ejemplo: 4.
- *Espacio muestral*: el conjunto de todos los resultados posibles para el experimento.
    Por ejemplo, {1, 2, 3, 4, 5, 6}.
- *Evento*: un subconjunto de posibles resultados que juntos tienen alguna propiedad que nos interesa.
    Por ejemplo, el evento "lanzar pares" es el conjunto de resultados {2, 4, 6}.
- *Probabilidad*: como dijo Laplace, la probabilidad de un evento con respecto a un espacio muestral es el número de casos favorables (resultados del espacio muestral que están en el evento) dividido por el número total de casos en el espacio muestral. (Esto supone que todos los resultados en el espacio muestral son igualmente probables). Dado que es una razón, la probabilidad siempre será un número entre 0 (que representa un evento imposible) y 1 (que representa un determinado evento).
    Por ejemplo, la probabilidad que una lanzada de dado sea par es 3/6 = 1/2.

## Código para P

P es el nombre tradicional para la función de probabilidad:

In [2]:
from fractions import Fraction

def P(evento, espacio): 
    "La probabilidad de un evento, dado un espacio muestral de resultados equiprobables."
    return Fraction(len(evento & espacio), len(espacio))

## Ejemplo: dados
  
- Ana tira un dado de seis lados y obtiene el número X
    - Pregunta: ¿Cúal es $P(X = 5)$? (la probabilidad de que Ana sacara un $5$)
    - Respuesta: $1/6$

In [4]:
D = {1, 2, 3, 4, 5, 6}
Ana = {5}

P(Ana, D)

Fraction(1, 6)

- Ana le dice sinceramente a Luis que sacó un número impar.
    - Pregunta: ¿Qué debería creer Luis es la $P(X = 5)$?
    - Respuesta: $1/3$

In [6]:
D = {1, 3, 5}
Ana = {5}

P(Ana, D)

Fraction(1, 3)

- Ana le dice sinceramente a Irene que sacó un número $\ge 5$.
    - Pregunta: ¿Qué debería creer Greta es la $P(X = 5)$?
    - Respuesta: $1/2$

D = {5, 6}
Ana = {5}

P(Ana, D)

## Subjetivo versus Objetivo: La Perspectiva Bayesiana

- Las probabilidades pueden ser interpretadas
    - como declaraciones objetivas sobre el mundo, o
    - como declaraciones subjetivas sobre las creencias de un agente
- La visión subjetiva se llama Bayesiana:
    - La probabilidad de un evento es una medida de la creencia de un agente sobre de que tan probable es el evento
    - Diferentes agentes pueden tener legítimamente diferentes creencias, por lo que pueden asignar legítimamente diferentes probabilidades al mismo evento.
    - Solo hay una forma de actualizar esas creencias en respuesta a nuevos datos

## Semántica: Mundos Posibles

- Las *Variables Aleatorias* toman valores de un dominio.
    - Las escribiremos como letras mayúsculas (por ejemplo, X, Y, D, etc.)
- Un mundo posible es una asignación completa de valores a variables
- Una medida de probabilidad es una función $P: \Omega \to R$ sobre mundos posibles $ω$ que satisfacen:
    1. $\sum_{w \in \Omega}P(w)=1$ 
    2. $P(w) \ge 0\;\forall w \in \Omega$

## Proposición 

- Una proposición primitiva es una expresión de igualdad o desigualdad.
    - Por ejemplo, $X = 5$ o $X \ge 4$
- Una proposición se construye a partir de otras proposiciones utilizando conectores lógicos.
    - Por ejemplo, ($X = 1 \lor X = 3 \lor X = 5$)
- La probabilidad de una proposición es la suma de las probabilidades de los mundos posibles en los que esa proposición es verdadera:

$$P(\alpha)=\sum_{w:w\models \alpha}P(w)$$

- $w:w\models \alpha$ significa "$\alpha$ es cierta en $w$"
- Por lo tanto
$$P(\alpha \lor \beta) \ge P(\alpha) \\
P(\alpha \land \beta) \le P(\alpha) \\
P(\neg \alpha) = 1 - P(\alpha)$$

## Distribuciones Conjuntas

- En nuestro ejemplo de dados, había una sola variable aleatoria
- Por lo general, queremos pensar en las interacciones de múltiples variables aleatorias

- Una distribución conjunta asigna una probabilidad a cada asignación completa de valores a variables
    - Por ejemplo, $P (X = 1, Y = 5)$. Equivalente a $P (X = 1 \land Y = 5)$
    - Puede ver esto como otra forma de especificar un solo mundo posible

## Ejemplo Distribución Conjunta

- ¿Cómo sería un día en Mérida?
- Variable aleatorias:
    - Clima, con dominio {soleado, nublado}
    - Temperatura, con dominio {caliente, templado, frio}
- Distribución conjunta:
    - $P(Clima, Temperatura)$

|Clima|Temperatura|P| 
|-----|-------|------| 
|soleado|caliente|0.2| 
|soleado|templada|0.3|
|soleado|fria|0.25|
|nublado|caleinte|0.05|
|nublado|templada|0.1|
|nublado|fria|0.1

## Distribución Marginal

- La marginación es la utilización de una distribución conjunta $P(X_1, \cdots, X_m, \cdots, X_n)$ para calcular una distribución sobre un número menor de variables $P(X_1, \cdots, Xm)$
- La distribución más pequeña se llama distribución marginal de sus variables.
- Calculamos la distribución marginal sumando las otras variables
$$P(X, Y) = \sum_{z \in dom(Z)} P(X, Y, Z=z)$$

### Pregunta:

- ¿Cuál es la distribución marginal del clima?

$P(soleado) = 0.75$

|Clima|Temperatura|P| 
|-----|-------|------| 
|soleado|caliente|0.2| 
|soleado|templada|0.3|
|soleado|fria|0.25|
|       |    |0.75|

$P(nublado) = 0.25$

|Clima|Temperatura|P| 
|-----|-------|------| 
|nublado|caliente|0.05| 
|nublado|templada|0.1|
|nublado|fria|0.1|
|       |    |0.25|

## Probabilidad condicional

- Los agentes deben poder actualizar sus creencias basándose en nuevas observaciones
- Este proceso se llama condicionamiento
- Escribimos $P (h | e)$ para denotar "probabilidad de hipótesis $h$ dado que hemos observado evidencia $e$"
    - $P (h | e)$ es la probabilidad de $h$ condicional en $e$

## Semántica de probabilidad condicional
- La evidencia $e$ nos permite descartar todos los mundos que son incompatibles con $e$
    - Por ejemplo, si observo que el clima es soleado, ya no debería asignar ninguna probabilidad a los mundos en los que está nublado
    - Necesitamos normalizar las probabilidades de los mundos restantes para asegurar que las probabilidades de los mundos posibles sumen 1
    
\begin{equation}
  P(w|e)=\begin{cases}
    \frac{1}{P(e)} \times P(w), & \text{si $w \models e$}.\\
    0, & \text{otherwise}.
  \end{cases}
\end{equation}

## Ejemplo Probabilidad Condicional

- Mi creencia marginal inicial sobre el clima fue:
    - $P(Clima = nublado) = 0.25$
- Supongamos que observo que la temperatura es templada.
    - Pregunta: ¿Qué debería creer ahora sobre el clima?
    - Respuesta: $P(nublado) = .1/.3 = .33$
1. Descarta mundos incompatibles
2. Normalizar las probabilidades restantes

|Clima|Temperatura|P| 
|-----|-------|------| 
|~~soleado~~|~~caliente~~|~~0.2~~| 
|soleado|templada|0.3|
|~~soleado~~|~~fria~~|~~0.25~~|
|~~nublado~~|~~caleinte~~|~~0.05~~|
|nublado|templada|0.1|
|~~nublado~~|~~fria~~|~~0.1~~

## Regla de la Cadena

- **Definición**: Probabilidad Condicional

$$P(h|e)=\frac{P(h,e)}{P(e)}$$

- Podemos ejecutar esto a la inversa para obtener:

$$P(h, e)=P(h|e)\times P(e)$$

- **Definición**: Regla de la Cadena

$$P(\alpha_1, \cdots, \alpha_n)=P(\alpha_1)\times P(\alpha_2 | \alpha_1)\times \cdots \times P(\alpha_n | \alpha_1, \cdots, \alpha_{n-1} ) \\
= \prod_{i=1}^{n} P(\alpha_i | \alpha_1, \cdots, \alpha_{i-1})$$

## Regla de Bayes

- De la Regla de la Cadena, tenemos

$$P(h|e)=P(h|e)P(e) \\
= P(e|h)P(h)$$

- A menudo, $P(e|h)$ es más facíl de calcular qie $P(h|e)$.

- Regla de Bayes:
$$P(h|e) = \frac{P(e|h)P(h)}{P(e)}$$

- $h$ se le denomina la hipótesis y a $e$ se le denomina la evidencia.
- $P(h)$  Probabilidad de que la hipótesis `h` sea cierta o probabilidad a priori de la hipótesis `h`.
- $P(e)$  Probabilidad de que recibamos la evidencia `e` o probabilidad a priori de la evidencia `e`.
- $P(e|h)$  Probabilidad de observar la evidencia `e`, cuando se cumple la hipótesis `h` o probabilidad a posteriori de la evidencia `e`.
- $P(h|e)$  Probabilidad de que se cumpla la hipótesis `h`, dado que se ha obtenido la evidencia `e`, o probabilidad a posteriori de la hipótesis `h`.


Por lo que podemos reescribir el Teorema de Bayes como:

$$Probabilidad\ posterior\ hipótesis = \frac{(Verosimilitud)\times (Probabilidad\ previa\ hipótesis)}{Probabilidad\ previa\ evidencia}$$

## Ejemplo para entender mejor el teorema de Bayes.

Supongamos que usted tiene que sacar una sola carta de una baraja estándar de 52 cartas. Ahora la probabilidad de que la carta sea una Reina es $P(Reina) = \frac{4}{52} = \frac{1}{13}$. Si se le da evidencia de que la carta que ha escogido es una carta con una persona, la probabilidad posterior $P(Reina | Persona)$ se puede calcular usando el teorema de Bayes como sigue:

$$P(Reina|Persona) = \frac{P(Persona|Reina)\times P(Reina)}{P(Persona)}$$

Ahora $P (Persona | Reina) = 1$ porque dada que la carta es una reina, es definitivamente una carta de una persona. Ya hemos calculado $P(Reina)$. El único valor que queda para calcular es $P(Persona)$, que es igual a $\frac {3} {13}$ ya que hay tres cartas de personas para cada palo en una baraja. Por lo tanto,

$$P(Reina|Persona) = 1 \times \frac{1}{13}\times \frac{13}{3}=\frac{1}{3}$$

## Redes Bayesianas

- Las redes bayesianas (o redes de creencia) constituyen una manera práctica y compacta de representar el conocimiento incierto, basada en esta idea
- Una red bayesiana es un grafo dirigido acíclico que consta de:
    - Un conjunto de nodos, uno por cada variable aleatoria del “mundo”
    - Un conjunto de arcos dirigidos que conectan los nodos; si hay un arco de $X$ a $Y$ decimos que $X$ es un padre de $Y$ ($padres(X)$ denota el conjunto de variables aleatorías que son padres de $X$)
    - Cada nodo $X_i$ contiene la distribución de probabilidad condicional $P(X_i|padres(X_i))$
- Intuitivamente, en una red bayesiana una arco entre $X$ e $Y$ significa una influencia directa de $X$ sobre $Y$
    - Es tarea del experto en el dominio el decidir las relaciones de dependencia directa (es decir, la topología de la red)

## Ejemplo de red bayesiana (Russell y Norvig)

![](../figuras/redes_bayesianas_1.png)

### Observaciones sobre el ejemplo

- La topología de la red anterior nos expresa que:
    - *Caries* es una causa directa de *Dolor* y *Huecos*
    - *Dolor* y *Huecos* son condicionalmente independientes dada *Caries*
    - Tiempo es independiente de las restantes variables
- No es necesario dar la probabilidad de las negaciones de *caries*, *dolor*, ...

## Otro ejemplo (Pearl, 1990):

- Tenemos una alarma antirrobo instalada en una casa
    - La alarma se activa normalmente con la presencia de ladrones
    -Pero también cuando ocurren pequeños temblores de tierra
- Tenemos dos vecinos en la casa, Juan y María, que han prometido llamar a la policía si oyen la alarma
    - Juan y María podrían no llamar aunque la alarma sonara: por tener música muy alta en su casa, por ejemplo
    - Incluso podrían llamar aunque no hubiera sonado: por confundirla con un teléfono, por ejemplo

## Red bayesiana para el ejemplo de la alarma

![](../figuras/redes_bayesianas_2.png)

### Observaciones sobre el ejemplo

- La topología de la red nos expresa que:
    - *Robo* y *Terremoto* son causas directas para *Alarma*
    - También, *Robo* y *Terremoto* son causas para *Juanllama* y para *Mariallama*, pero esa influencia sólo se produce a través de Alarma: ni Juan ni María detectan directamente el robo ni los pequeños temblores de tierra
    - En la red no se hace referencia directa, por ejemplo, a las causas por las cuales María podría no oír la alarma: éstas están implícitas en la tabla de probabilidades $P(Mariallama|Alarma)$

## Un tercer ejemplo (Charniak, 1991):

- Supongamos que quiero saber si alguien de mi familia está en casa, basándome en la siguiente información
    - Si mi esposa sale de casa, usualmente (pero no siempre) enciende la luz de la entrada
    - Hay otras ocasiones en las que también enciende la luz de la entrada
    - Si no hay nadie en casa, el perro está fuera
    - Si el perro tiene problemas intestinales, también se deja fuera
    - Si el perro está fuera, oigo sus ladridos
    - Podría oír ladridos y pensar que son de mi perro aunque no fuera así
- Variables aleatorias (booleanas) en este problema:
    - *Fuera* (nadie en casa), *Luz* (luz en la entrada), *Perro* (perro fuera), *Inst* (problemas intestinales en el perro) y *Oigo* (oigo al perro ladrar)

## Red bayesiana para el ejemplo de la familia fuera de casa

![](../figuras/redes_bayesianas_3.png)