# Explicación del teorema de bayes

**Autor:** Jazna Meza Hidalgo

**Correo Electrónico:** ja.meza@profesor.duoc.cl

**Fecha de Creación:** Abril de 2025  
**Versión:** 1.0  


---

## Descripción

Este notebook contiene una explicación básica del teorema de Nayes. Debe usarse como un complemento del notebook que muestra el uso del algoritmo de Naive Bayes para construir un modelo de claseficación.

---

## Requisitos de Software

Este notebook fue desarrollado con Python 3.9. A continuación se listan las bibliotecas necesarias:

- pandas (>=1.1.0)

Para verificar la versión instalada ejecutar usando el siguiente comando, usando la librería de la cual quieres saber la versión:

```bash
import pandas as pd
print(pd.__version__)
````

# ¿Qué es el teorema de bayes?

🧠

Es una regla de probabilidad que permite actualizar las creencias sobre la ocurrencia de un evento, dado que se tiene nueva información.

# Fórmula matemática

$P(A|B)=\frac{P(B|A)*P(A)}{P(B)}$

donde:

+ P(A|B) es la probabilidad de que ocurra el evento A dado que ocurrió el evento B (probabildiad posterior)
+ P(B|A) es la probabilidad de que ocurra B dado A (probabilidad condicional)
+ P(A) probabilidad de A (probabilidad a priori)
+ P(B) probabildiad de B (factor de normalización)

# Ejemplo sencillo

Suponga que se quiere **rpedecir** so un correo es spam (clase 1) o no spam (clase 0) en base a ciertas palabras que contiene.

El objetivo es calcular:

P(spam | palabras) y P(no spam | palabras)

Para esto se usa Bayes:
$P(C_k | x)=\frac{P(x | C_k)*P(C_k)}{P(x)}$

donde:

+ $C_k$ es la clase (en este caso spam o no spam)
+ $x$ son las características del ejemplo (palabras, valores, entre otras)

El algoritmo Naive Bayes asume que las caracacterísticas son **condicionalmente independientes**, por lo que:

$P(x | C_k) = P(x_1 | C_k)*P(x_2 | C_k)\ldots P(x_n | C_k)$

✅ **Recordar que la fórmula de probabilidad es:**

$P(A)=\frac{casos\ favorables}{casos\ totales}$

# Ejemplo en Python

In [1]:
import pandas as pd

In [2]:
data = pd.DataFrame({
    'estudio': [1,1,0,1,0,1,0,0],
    'aprueba': [1,1,0,1,0,1,0,0]
})

In [8]:
data

Unnamed: 0,estudio,aprueba
0,1,1
1,1,1
2,0,0
3,1,1
4,0,0
5,1,1
6,0,0
7,0,0


In [7]:
p_aprobar = data["aprueba"].mean()
p_no_aprobar = 1 - p_aprobar

# P(estudio = 1 | aprueba = 1)
p_estudio_dado_aprueba = len(data[(data["estudio"] == 1) & (data["aprueba"] == 1)]) / len(data[data["aprueba"] == 1])

# P(estudio = 1 | aprueba = 0)
p_estudio_dado_no_aprueba = len(data[(data['estudio']==1) & (data['aprueba']== 0)]) / len(data[data['aprueba']== 0])

# P(estudio = 1)
p_estudio = len(data[data.estudio== 1])/len(data)

# Teorema de bayes
posterior_aprueba = (p_estudio_dado_aprueba * p_aprobar) / p_estudio
posterior_no_aprueba = (p_estudio_dado_no_aprueba * p_no_aprobar) / p_estudio

print(f"P(aprueba | estudia) = {posterior_aprueba:.3f}")
print(f"P(no aprueba | estudia) = {posterior_no_aprueba:.3f}")

P(aprueba | estudia) = 1.000
P(no aprueba | estudia) = 0.000


# Comentarios

+ El teorema de Bayes entrega un marco lógico para actualizar probabilidades a la luz de nueva información.

+ En clasificación, ayuda a **inferir la clase más probable** dado un conjunto de observaciones.
+ El clasificador **Naive Bayes** es simple, rápido y bastante efectivo, especialmente cuando se cumplen (màs o menos) las suosiciones de independencia entre variables.