# Clasificador Bayesiano


### Librerías a utilizar:

- e1071
- caret

### ¿Qué es un clasificador? ¿Bayesiano?
Un clasificador corresponde a un modelo de aprendizaje automático que es capaz de reconocer patrones respecto a un valor objetivo. Para esta sesión utilizaremos y estudiaremos el clasificador bayesiano ingenuo, el cual se basa en la probabilidad condicional para "aprender" a clasificar.

Un recordatorio, ¿qué es el teorema de bayes?

> El teorema de Bayes, en la teoría de la probabilidad, es una proposición planteada por el matemático inglés Thomas Bayes (1702-1761)1​ y publicada póstumamente en 1763,2​ que expresa la probabilidad condicional de un evento aleatorio A dado B en términos de la distribución de probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de solo A. (Wikipedia)

$$ p(A|B) = \frac{p(A \cap B)}{p(B)} = \frac{p(A)p(B|A)}{p(B)} $$

Por lo tanto, para crear un clasificador bayesiano solo hace falta conocer las probabilidades condicionales de las caracteristicas en conjunto a la ocurrencia de la clase.

$$ Clase_{NBC} = arg max \{ p(c_i) \Pi^p_i p(a_j / c_i)) \} $$

- $p(c_i)$ = probabilidad a priori
- $p(a_j / c_i)$ = probabilidad a posteriori

Cuando en la probabilidad a posteriori se tienen numeros reales, se calcula:

$$ p(a_j/c_i) = \frac{1}{\sqrt(2 \cdot \pi) \cdot \sigma_j } \cdot e^{\frac{(a_j - \bar{a_j})^2}{2 \cdot \sigma_j}}$$


Si quisieramos evaluar la diabetes Mellitus, en donde supuestamente existen dos variables de interés, el nivel sobrepeso y el nivel de glucosa en la sangre del paciente. De un hospital se tiene la siguiente tabla:

|  			Nivel de sobrepeso 		 |  			Glucosa en mg/100 ml de sangre 		 |  			Diabético 		 |
|:--------------------:|:--------------------------------:|:-----------:|
|        			Normal 		       |                			70 		               |      			No 		    |
|        			Normal 		       |                			80 		               |      			No 		    |
|       			Sobrepeso 		     |                			90 		               |      			No 		    |
|        			Normal 		       |                			100 		              |      			No 		    |
|         			Obeso 		       |                			110 		              |      			No 		    |
|       			Sobrepeso 		     |                			120 		              |      			Sí 		    |
|       			Sobrepeso 		     |                			130 		              |      			Sí 		    |
|         			Obeso 		       |                			140 		              |      			Sí 		    |
|         			Obeso 		       |                			150 		              |      			Sí 		    |



Tenemos que la clase corresponde a Diabetes={si, no}, por lo tanto la probabilidad a priori corresponde a:

- p(Diabetes=si) = 5/9
- p(Diabetes=no) = 4/9

Luego se deben calcular las probabilidades a posteriori:

- p(Nivel de sobrepeso = Normal / Diabetes=si) = $\frac{0/9}{4/9}$ = 0
- p(Nivel de sobrepeso = Sobrepeso / Diabetes=si) = $\frac{2/9}{4/9}$ = 1/2
- p(Nivel de sobrepeso = Obeso / Diabetes=si) = $\frac{2/9}{4/9}$ = 1/2


- p(Nivel de sobrepeso = Normal / Diabetes=no) = $\frac{3/9}{5/9}$ = 3/5
- p(Nivel de sobrepeso = Sobrepeso / Diabetes=no) = $\frac{1/9}{5/9}$ = 1/5
- p(Nivel de sobrepeso = Obeso / Diabetes=no) = $\frac{1/9}{5/9}$ = 1/5

Ademas:

- $\sigma_{Glucosa\_no} = 15.8$ y $\bar{Glucosa\_no} = 90$  
- $\sigma_{Glucosa\_si} = 12.9$ y $\bar{Glucosa\_si} = 135$

Luego, se tiene constituido el clasificador tipo:

$$ Clase_{NBC} = arg max \{ p(c_i) \Pi^p_i p(a_j / c_i)) \} $$

Si llega un individuo con **Glucosa=90 mg/mL** y su **Nivel de sobrepeso = Obeso**, se tiene:

$$ Clase_{NBC} = arg max \{ \\ 
4/9 \cdot (\text{p(NS = Obeso / Diabetes=si)} \cdot \text{p(NG = 90 / Diabetes=si}), \\ 5/9 \cdot (\text{p(NS = Obeso / Diabetes=no)} \cdot \text{p(NG = 90 / Diabetes=no}) \\ \} $$


In [7]:
library("e1071")
library("caret")

In [9]:
columns = c("area", "perimeter", "compactness", "length", "width", "AC", "lengthGroove", "class")
url = "https://www.dl.dropboxusercontent.com/s/wrexlo5im3g5ioi/seeds_dataset.csv"
seeds = read.csv(url, header = F, sep=",", col.names = columns)
seeds$class = factor(seeds$class, levels = c(1,2,3), labels = c("Kama", "Rosa", "Canadian"))

In [8]:
training.index = createDataPartition(seeds$class, p=0.7)$Resample1
training.set = seeds[training.index, ]
test.set = seeds[-training.index, ]

In [10]:
bayesian.classifier = naiveBayes(class ~ ., data = training.set)
bayesian.classifier


Naive Bayes Classifier for Discrete Predictors

Call:
naiveBayes.default(x = X, y = Y, laplace = laplace)

A-priori probabilities:
Y
     Kama      Rosa  Canadian 
0.3333333 0.3333333 0.3333333 

Conditional probabilities:
          area
Y              [,1]      [,2]
  Kama     14.32388 1.2521944
  Rosa     18.26837 1.4973342
  Canadian 11.91469 0.7252244

          perimeter
Y              [,1]      [,2]
  Kama     14.29531 0.6004585
  Rosa     16.09408 0.6335348
  Canadian 13.26776 0.3561558

          compactness
Y               [,1]       [,2]
  Kama     0.8791878 0.01511354
  Rosa     0.8847816 0.01594135
  Canadian 0.8497776 0.01951416

          length
Y              [,1]      [,2]
  Kama     5.521367 0.2332064
  Rosa     6.136755 0.2765284
  Canadian 5.234612 0.1411087

          width
Y              [,1]      [,2]
  Kama     3.237980 0.1865990
  Rosa     3.675673 0.1959316
  Canadian 2.858612 0.1417621

          AC
Y              [,1]     [,2]
  Kama     2.604086 1.111901
  

In [11]:
bayesian.results = predict(object = bayesian.classifier, test.set)

In [12]:
conf.matrix.cb = confusionMatrix(table(test.set$class, bayesian.results))
print(conf.matrix.cb)

Confusion Matrix and Statistics

          bayesian.results
           Kama Rosa Canadian
  Kama       18    1        2
  Rosa        1   20        0
  Canadian    1    0       20

Overall Statistics
                                          
               Accuracy : 0.9206          
                 95% CI : (0.8244, 0.9737)
    No Information Rate : 0.3492          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.881           
                                          
 Mcnemar's Test P-Value : NA              

Statistics by Class:

                     Class: Kama Class: Rosa Class: Canadian
Sensitivity               0.9000      0.9524          0.9091
Specificity               0.9302      0.9762          0.9756
Pos Pred Value            0.8571      0.9524          0.9524
Neg Pred Value            0.9524      0.9762          0.9524
Prevalence                0.3175      0.3333          0.3492
Detection Rate          