<a href="https://colab.research.google.com/github/jpalma-espinosa/datascience/blob/master/Laboratorio_Clasificador_Bayesiano.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clasificador Bayesiano

- Profesor: Dr. Ing. Rodrigo Salas
- Curso: Minería de Datos

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
%matplotlib inline

### Caso 1: Estudio Univariado

Se tienen dos clases $w_0$ y $w_1$ con atributo $x \in \mathbb{R}$. Asumiremos que cada clase tiene una distribución gaussiana:

$$P(x|w_0) = \frac{1}{\sqrt{2\pi} \sigma_0} e^{-\frac{1}{2} \frac{(x-\mu_0)^2}{\sigma_0^2}}$$

donde la clase $w_0$ está determinada por los parámetros $\mu_0$ y $\sigma_0$.

$$P(x|w_1) = \frac{1}{\sqrt{2\pi} \sigma_1} e^{-\frac{1}{2} \frac{(x-\mu_1)^2}{\sigma_1^2}}$$

donde la clase $w_1$ está determinada por los parámetros $\mu_1$ y $\sigma_1$.

Parámetros de las clases 0 y 1

In [None]:
# Parámetros de la Clase w_0
mu0 = 0
sigma0 = 1
#Parámetros de la Clase w_1
mu1 = 3
sigma1 = 1

In [None]:
z = np.linspace(-5,8,100)
x1 = stats.norm.pdf(z, loc =mu0, scale=sigma0)
plt.plot(z,x1,'-b')
x2 = stats.norm.pdf(z, loc = mu1, scale = sigma1)
plt.plot(z,x2,'-r')

Probabilidades a-priori de cada clase

In [None]:
p_w0 = 0.7
p_w1 = 0.3

Aplicando el Teorema de Bayes:

$$P(w|x) = \frac{p(x|w)p(w)}{p(x)}$$

y descartando el factor de normalización $p(x)$

In [None]:
p_w0_x = x1 * p_w0
p_w1_x = x2 * p_w1
plt.plot(z,p_w0_x,'-b')
plt.plot(z,p_w1_x,'-r')

### Clasificación con distribución conocida

Asumiendo que conocemos los parámetros $\mu$ y $\sigma$ de cada clase, deseamos clasificar un nuevo punto

In [None]:
nuevo_x = 1.5

In [None]:
# Calculamos la verosimilitud del nuevo dato 
#a cada una de las clasews
p_x_w0 = stats.norm.pdf(nuevo_x,loc = mu0, scale = sigma0)
p_x_w1 = stats.norm.pdf(nuevo_x,loc = mu1, scale = sigma1)

# Aplicamos Bayes y descartamos la normalizacion p(x)
p_w0_x = p_x_w0 * p_w0
p_w1_x = p_x_w1 * p_w1

print("""El score de la clase 0 es %f, el score de 
      la clase 1 es %f""" %(p_w0_x,p_w1_x))


In [None]:
# Regla de decisión (Clasificador)
if p_w0_x>p_w1_x:
    decision = 0
else:
    decision = 1
    
print("El dato %f pertenece a la clase %d" %(nuevo_x, decision))

### Simulando los datos de dos clases

In [None]:
n_0 = 100
n_1 = 100
datos_clase_0 = stats.norm.rvs(loc=mu0, scale = sigma0, size=n_0)
datos_clase_1 = stats.norm.rvs(loc=mu1, scale = sigma1, size=n_1)

In [None]:
plt.hist(datos_clase_0, bins=10, density= True, alpha =0.8)
plt.hist(datos_clase_1, bins=10, density= True, alpha =0.8)

En la práctica no se conocen los parámetros de las clases (mu0, sigma0, mu1, sigma1), por lo cual estos deben ser estimado a partir de los datos.

En inferencia estadística se ha demostrado que el estimador máximo verosímil de la media es el promedio:

$$\hat{\mu} = \frac{1}{n} \sum_{i=0}^n x_i = \overline{X}$$

En inferencia estadística se ha demostrado que el estimador insesgado de la varianza es la varianza muestral:

$$\hat{\sigma}^2 = \frac{1}{n-1} \sum_{i=0}^n (x_i - \overline{X})^2 = S_{n-1}^2$$

In [None]:
# Estimando los parámetros de la clase 1 
mu_0 = np.mean(datos_clase_0)
sigma_0 = np.std(datos_clase_0)
mu_1 = np.mean(datos_clase_1)
sigma_1 = np.std(datos_clase_1)
print("Clase 0: media real %f ; media estimada %f" %(mu0, mu_0))
print("Clase 0: std real %f ; std estimada %f" %(sigma0, sigma_0))
print("Clase 1: media real %f ; media estimada %f" %(mu1, mu_1))
print("Clase 1: std real %f ; std estimada %f" %(sigma1, sigma_1))

In [None]:
plt.hist(datos_clase_0, bins=10, density= True, alpha =0.8)
plt.hist(datos_clase_1, bins=10, density= True, alpha =0.8)
z = np.linspace(-5,8,100)
x_1 = stats.norm.pdf(z, loc =mu_0, scale=sigma_0)
plt.plot(z,x_1,'-b')
x_2 = stats.norm.pdf(z, loc = mu_1, scale = sigma_1)
plt.plot(z,x_2,'-r')

Clasificación de un nuevo dato

In [None]:
nuevo_x = 1.74521282
#nuevo_x = 1.5

In [None]:
# Calculamos la verosimilitud del nuevo dato 
#a cada una de las clasews
p_x_w0 = stats.norm.pdf(nuevo_x,loc = mu_0, scale = sigma_0)
p_x_w1 = stats.norm.pdf(nuevo_x,loc = mu_1, scale = sigma_1)

# Aplicamos Bayes y descartamos la normalizacion p(x)
p_w0_x = p_x_w0 * p_w0
p_w1_x = p_x_w1 * p_w1

print("""El score de la clase 0 es %f, el score de 
      la clase 1 es %f""" %(p_w0_x,p_w1_x))

In [None]:
# Regla de decisión (Clasificador)
if p_w0_x>p_w1_x:
    decision = 0
else:
    decision = 1
    
print("El dato %f pertenece a la clase %d" %(nuevo_x, decision))

### Calcular la Frontera de Decisión

In [None]:
sigma_0

In [None]:
mu_0

In [None]:
sigma_1

In [None]:
mu_1

In [None]:
def F(x):
    mu_0 = -0.07162321986817881; sigma_0=0.9786143952464068
    mu_1 = 3.0331569084051404; sigma_1=0.9657104699795493
    p_x_w0 = stats.norm.pdf(x,loc = mu_0, scale = sigma_0)
    p_x_w1 = stats.norm.pdf(x,loc = mu_1, scale = sigma_1)
    p_w0_x = p_x_w0 * p_w0
    p_w1_x = p_x_w1 * p_w1

    return p_w0_x-p_w1_x

In [None]:
import scipy.optimize

In [None]:
solucion = scipy.optimize.broyden1(F, 2, f_tol=1e-12)
solucion

## Algoritmo LDA (Linear Discriminant Analysis) caso bivariado

### Generación de clusters bivariados

In [None]:
n1=100
mu1 = [0.1,0.1]
Sigma1 = [[0.3**2, 0.6*0.3*0.2],[0.6*0.3*0.2,0.2**2]]

n2=100
mu2 = [0.7,0.7]
Sigma2 = [[0.2**2, -0.7*0.3*0.2],[-0.7*0.3*0.2,0.3**2]]

In [None]:
# Generación de los datos aleatorios
X1 = np.random.multivariate_normal(mu1,Sigma1, n1)
X2 = np.random.multivariate_normal(mu2,Sigma2, n2)
plt.plot(X1[:,0],X1[:,1],'.b', alpha=0.7)
plt.plot(X2[:,0],X2[:,1],'.r', alpha=0.7)
# Gráfico del cuadrado con lados de 2-sigma centrado en mu
s1=np.sqrt(Sigma1[0][0])
s2=np.sqrt(Sigma1[1][1])
x_cuad = [mu1[0]-s1,mu1[0]+s1, mu1[0]+s1,mu1[0]-s1,mu1[0]-s1]
y_cuad = [mu1[1]-s2,mu1[1]-s2,mu1[1]+s2,mu1[0]+s2,mu1[1]-s2]
plt.plot(x_cuad,y_cuad,'-b')
s1=np.sqrt(Sigma2[0][0])
s2=np.sqrt(Sigma2[1][1])
x_cuad = [mu2[0]-s1,mu2[0]+s1, mu2[0]+s1,mu2[0]-s1,mu2[0]-s1]
y_cuad = [mu2[1]-s2,mu2[1]-s2,mu2[1]+s2,mu2[0]+s2,mu2[1]-s2]
plt.plot(x_cuad,y_cuad,'-r')

## Estimar los parámetros de cada clase

In [None]:
# Clase 1:
mu1_est = np.matrix(np.mean(X1,0)).T
Sigma_1_est=np.matrix(np.cov(X1.T))
# comparar con mu1 y Sigma1 tienen que ser similares

# Clase 2:
mu2_est = np.matrix(np.mean(X2,0)).T
Sigma_2_est= np.matrix(np.cov(X2.T))
# comparar con mu2 y Sigma2 tienen que ser similares

### Algoritmo LDA

In [None]:
# Algoritmo LDA
Sigma = np.matrix((Sigma_1_est + Sigma_2_est)/2)

### Ajustar los parámetros del LDA

In [None]:
# Probabilidades a-priori de cada clase
p_w1 = 0.7
p_w2 = 0.3
# Ajuste de parametros
W1 = Sigma.I*mu1_est# pendiente clase 1
v1 = -0.5*mu1_est.T*Sigma.I*mu1_est + np.log(p_w1) #intercepto

W2 = Sigma.I*mu2_est# pendiente clase 2
v2 = -0.5*mu2_est.T*Sigma.I*mu2_est + np.log(p_w2) #intercepto

### Clasificar un nuevo dato

In [None]:
x_nuevo = np.matrix([0.6,0.3]).T
g1 = W1.T*x_nuevo + v1
g2 = W2.T*x_nuevo + v2
print("El score de la clase 1 es %f, el score de la clase 2 es %f" %(g1,g2))
if g1>g2:
    decision = 1
else:
    decision = 2
    
print("El dato pertenece a la clase " , decision)

## Algoritmo QDA

In [None]:
# Probabilidades a-priori de cada clase
p_w1 = 0.7
p_w2 = 0.3
# Ajuste de parametros
U1 = -0.5*Sigma_1_est.I
W1 = Sigma_1_est.I*mu1_est# pendiente clase 1
v1 = -0.5*mu1_est.T*Sigma_1_est.I*mu1_est - 0.5*np.log(np.linalg.det(Sigma_1_est)) + np.log(p_w1) #intercepto

U2 = -0.5*Sigma_2_est.I
W2 = Sigma_2_est.I*mu2_est# pendiente clase 2
v2 = -0.5*mu2_est.T*Sigma_2_est.I*mu2_est - 0.5*np.log(np.linalg.det(Sigma_2_est)) + np.log(p_w2) #intercepto

In [None]:
x_nuevo

In [None]:
x_nuevo = np.matrix([0.6,0.3]).T
g1 = x_nuevo.T*U1*x_nuevo + W1.T*x_nuevo + v1
g2 = x_nuevo.T*U2*x_nuevo + W2.T*x_nuevo + v2
print("El score de la clase 1 es %f, el score de la clase 2 es %f" %(g1,g2))
if g1>g2:
    decision = 1
else:
    decision = 2
    
print("El dato pertenece a la clase " , decision)