## Intuición a Bayes Ingenuo

Esta semana nos concentraremos en comprender como podemos usar la teoría de probabilidad, mediante Bayes Ingenuo, para construir un clasificador. Sin embargo, antes de construir nuestro clasificador, en este cuaderno, vamos a repasar la teoría de Bayes y de sus conceptos más importantes. 

Empezamos por explicar los distintos componentes de la formula de la probabilidad de Bayes Ingenuo. Más adelante explicaremos el porque de “ingenuo”. 

**Fórmula de Bayes:**

$$P(h|d)=\frac{P(d|h)*P(h)}{P(d)}$$

- P es el simbolo de la probabilidad. Por ejemplo P(1|dado), es la probabilidad de que salga un “uno” en un dado de 6 caras. 

- P(h|d) es la probabilidad de una hipotesis h, dado un evento d. A esta probabilidad se le llama “probabilidad posterior”.

- P(d|h) es la probabilidad del evento d si la hipotesis h es verdadera. 

- P(h) es la probabilidad de que la hipotesis h sea verdadera. A esta probabilidad se le llama “probabilidad previa”


Nos interesa calcular la probabilidad posterior de P(h|d) a partir de la probabilidad previa p(h) con P(d) y P(d|h). Después de calcular la probabilidad posterior para varias hipótesis diferentes, puede seleccionar la hipótesis con la probabilidad más alta. Ésta es la hipótesis máxima probable y formalmente puede denominarse hipótesis máxima a posteriori (MAP). Esto se puede escribir como:

$$MAP(h) = max(P(h|d))$$

$$MAP(h) = max(\frac{P(d|h)*P(h)}{P(d)})$$

$$MAP(h) = max(P(d|h)*P(h))$$

El P(d) es un término normalizador que nos permite calcular la probabilidad. Podemos descartarlo cuando estemos interesados en la hipótesis más probable, ya que es constante y solo se usa para normalizar.

Para comprender mejor la formula y sus componentes, vamos a definir una situación en donde varias personas reciben correos con virus. La idea es estimar la probabilidad de que una persona (o varias) reciba un virus basado en cierta informacion histórica.

### Correos y Virus

Supongamos que en un depertamento existen 3 personas, Amiya, Bryce y Cora. Vamos a describirlos como A,B y C sucesivamente. 
Un empledo externo “Graham” ha reportado recibir virus de A,B y C. El administrador de IT reporta los siguientes datos.

#### Información histórica:

*Graham recibe correos:*

- 20% son de Amiyah
- 50% son de Bryce
- 30% son de Cora

*Informacion adicional:*

- se estima que algunos correos tienen virus
- Graham recibio un correo hoy y esta tratando de ver quien lo envió (o por lo menos quien es mas probable que lo enviara).

*Información de envío de Virus:*

- El antivirus de la red a detectado que Amiya envia virus en 4% de sus correos.
- El antivirus de la red a detectado que Bryce envia virus en 10% de sus correos.
- El antivirus de la red a detectado que Cora envia virus en 6% de sus correos.

#### Planteamiento del Problema segun Bayes

*Espacio de probabilidades*

- A = Amiya
- B = Bryce
- C = Cora

*Probabilidades de Envio de Correos*

- P(A) = 0.20
- P(B) = 0.50
- P(C) = 0.30

*Probabilidades Condicionales*

- V: evento de obtener un virus
- P(V|A) = 0.04
- P(V|B) = 0.1
- P(V|C) = 0.06

*Probabilidad del Virus (probabilidad previa)*

Para estimar P(V) se utiliza la ley de la probabilidad total. 
- P(V) = (P(A) x P(V|A)) + (P(B) x P(V|B)) + (P(C) x P(V|C))
- P(V) = (0.20 x 0.04) + (0.50 x 0.1) + (0.3 x 0.06)
- P(V) = 0.076

### Objetivo encontrar el Max de P(A|V), P(B|V) o P(C|V)

$$P(X|V)=\frac{P(V|X)*P(X)}{P(V)}$$

Donde X puede ser A,B o C

*Calcular la probabilidad maxima de los 3 posibles eventos*

probabilidad de que Amiya sea la que envia virus:
- P(A|V) = P(V|A) x P(A) / P(V) = (0.04 x 0.2) / 0.076 = 0.105

probabilidad de que Brice sea el que envia virus:
- P(B|V) = P(V|B) x P(B) / P(V) = (0.1 x 0.5) / 0.076 = **0.658**

probabilidad de que Cora sea la que envia virus:
- P(C|V) = P(V|C) x P(C) / P(V) = (0.06 x 0.3) / 0.076 = 0.237

Se puede decir que Bryce (B) es quien tiene la mayor probabilidad de enviar un Virus (V) entre todas las personas del departamento. Graham llevo estos datos a IT para hacer un pleito.

Fin!

## Porque Ingenuo?

Bayes es "ingenuo" porque supone que las características de una medición son independientes entre sí. Esto es ingenuo porque (casi) nunca es cierto. 

En el ejemplo anterior, se dice que en la probabilidad de P(X|V) se asume que Amiya, Bryce y Cora no se reenvian correos entre ellos, que existe independencia entre estos espacios de probabilidad. La vida no funciona asi, siempre hay interacciones y cosas que van encontra de esta indepdendencia que Bayes establece en su formula, por tanto pensar de que esto es siempre asi en los datos, es ingenuo. 

Sin embargo, a pesar de la ingenuidad de la aseveración en la fórmula, este termina siendo un gran clasificador. Vamos a explorar este teorema en el ambito del aprendizaje automático. 