# Naive Bayes (Ejercicio)

**ALUMNOS:**
- Sebastian Janampa
- Sebastian Favaron
- Agustina Osimani

<strong>VERSIÓN DE PYTHON: </strong> 3.8.3

---

## Introducción
Una estación de radio tiene dos grupos de oyentes, _**graduados**_ y _**estudiantes**_. Se pide calcular la probabilidad de que este oyente sea _**graduado**_ o _**estudiante**_. Si este escucha los programa **A** y **C** pero no le gustan los programa **B** y **D**.

Se nos brinda información general sobre la probabilidad que le gusten los programas.

A | B | C | D | perc | oyente 
--- | --- | --- | --- | --- | --- 
0.95 | 0.05 | 0.02 | 0.20 | 0.1 | estudiante
0.03 | 0.82 | 0.34 | 0.92 | 0.9 | graduado


---

## Teoría
A continuación se muestran la fórmula a utilizar 
### Naive Bayes
- Ecuación:

$P(h|D) = \frac{P(D|h)P(h)}{P(D)}$

$h_{MAP} = argmax_{h\in H}P(D|h)P(h)$
- Ecuación usada en este ejercicio:

$P(o|A,B,C,D) = \frac{P(A,B,C,D|o)P(o)}{P(A,B,C,D)}$

Usando la condición de que **Naive Bayes** considera independencia entre sus variables. Por lo que la ecuación sería la siguiente:

$P(o|A,B,C,D) = \frac{P(A|o)P(B|o)P(C|o)P(D|o)P(o)}{P(A)P(B)P(C)P(D)}$

$o_{MAP} = argmax_{o\in O}P(A|o)P(B|o)P(C|o)P(D|o)P(o)$

**Nota:** la letra _o_ hace referencia a los _oyentes_

---

## Librerías

In [1]:
import pandas as pd
import numpy as np

---
## Desarrollo
A continuación, se replicará la tabla mostrada en la **Introducción**. En la columna **O** se considera **estudiante** como $0$ y **graduado** como $1$.

In [2]:
# Base de datos original (las probabalidades de que les gusten los programas)
pre_data = {
    'A':np.array([0.95, 0.03]),
    'B':np.array([0.05, 0.82]),
    'C':np.array([0.02, 0.34]),
    'D':np.array([0.20, 0.92]),
    'perc':[0.1, 0.9],
    'o':[0, 1]
}

# Ahora se va a añadir las probabilidades de no les gusten los programas
data = pre_data.copy()
for key in ['A', 'B', 'C', 'D']:
    data['not'+key] = 1 - pre_data[key]
    
# Se procede a crear un dataframe
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C,D,perc,o,notA,notB,notC,notD
0,0.95,0.05,0.02,0.2,0.1,0,0.05,0.95,0.98,0.8
1,0.03,0.82,0.34,0.92,0.9,1,0.97,0.18,0.66,0.08


In [3]:
intereses = ['A', 'notB', 'C', 'notD']
results = [] #Probabilidades
args = [] # Argumentos
for case in df['o']:
    prob = df.loc[df['o']==case][intereses].prod(axis=1) * df.loc[df['o']==case]['perc']
    args.append(float(prob))
    prob /= (np.array([df['perc']]).T*np.array(df[intereses])).sum(axis=0).prod()
    results.append(float(prob))
print('- Argumentos: \n\tEstudiantes: %.5f\n\tGraduados: %.5f\n- Probabilidades: \n\tEstudiantes: %.3f\n\tGraduados: %.3f'%(args[0], args[1], results[0], results[1]))

- Argumentos: 
	Estudiantes: 0.00144
	Graduados: 0.00013
- Probabilidades: 
	Estudiantes: 0.984
	Graduados: 0.090
