## Introducción Teórica al Algoritmo Naive Bayes

El algoritmo **Naive Bayes** es un clasificador probabilístico basado en el **Teorema de Bayes**, ampliamente utilizado por su simplicidad, eficacia y rapidez en problemas de clasificación.

---
### 1. Teorema de Bayes

El Teorema de Bayes relaciona las probabilidades condicionales de eventos. Matemáticamente, se expresa como:

$$
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
$$

Donde:
- $\mathbf{P(A|B)}$: Probabilidad posterior de \(A\) dado \(B\).
- $\mathbf{P(B|A)}$: Probabilidad de \(B\) dado \(A\) (verosimilitud).
- $\mathbf{P(A)}$: Probabilidad a priori de \(A\).
- $\mathbf{P(B)}$: Probabilidad total de \(B\).

En el contexto de clasificación, \(A\) representa una clase y \(B\) son los datos observados.

---
### 2. Suposición de Independencia

El término "Naive" (ingenuo) proviene de la **suposición de independencia condicional** entre las características. Es decir, se asume que las variables predictoras $X_1, X_2, ..., X_n$ no están correlacionadas entre sí dentro de cada clase. Esto simplifica los cálculos, ya que:

$$
P(X_1, X_2, ..., X_n|C) = P(X_1|C) \cdot P(X_2|C) \cdot ... \cdot P(X_n|C)
$$

Aunque esta suposición no siempre se cumple en la práctica, el algoritmo suele funcionar bien en muchos casos.

---
### 3. Tipos de Naive Bayes

Existen varias versiones de Naive Bayes, dependiendo del tipo de datos:

- **Gaussian Naive Bayes**:
  - Se utiliza para datos continuos.
  - Asume que los valores se distribuyen de manera normal (gaussiana).

$$
P(X|C) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(X - \mu)^2}{2\sigma^2}\right)
$$

- **Multinomial Naive Bayes**:
  - Diseñado para datos discretos, como conteos o frecuencias de palabras.
- **Bernoulli Naive Bayes**:
  - Adecuado para datos binarios.


---
### 4. Clasificación

Para clasificar un dato, se calcula la probabilidad posterior $P(C_k|X)$ para cada clase $C_k$:

## Derivación Matemática del Algoritmo Naive Bayes

### 4.1. Contexto General
Queremos calcular la probabilidad posterior $P(C_k|X)$, donde:
- $C_k$: Una clase específica (por ejemplo, "Spam" o "No Spam").
- $X = \{X_1, X_2, \ldots, X_n\}$: Un conjunto de características observadas.

De acuerdo con el **Teorema de Bayes**, se tiene:
$$
P(C_k|X) = \frac{P(X|C_k) \cdot P(C_k)}{P(X)}
$$
Donde:
- $P(C_k)$: Probabilidad a priori de la clase $C_k$.
- $P(X|C_k)$: Verosimilitud, o la probabilidad de las características $X$ dado que la clase es $C_k$.
- $P(X)$: Probabilidad total de las características $X$.

---

### 4.2. Suposición de Independencia
En Naive Bayes, asumimos que las características $X_1, X_2, \ldots, X_n$ son **independientes condicionalmente** dado la clase $C_k$. Esto significa:
$$
P(X|C_k) = P(X_1, X_2, \ldots, X_n|C_k) = P(X_1|C_k) \cdot P(X_2|C_k) \cdot \ldots \cdot P(X_n|C_k)
$$

Esta suposición simplifica el cálculo de $P(X|C_k)$, ya que no necesitamos estimar la probabilidad conjunta $P(X_1, X_2, \ldots, X_n|C_k)$.

---

### 4.3. Sustitución en el Teorema de Bayes
Reemplazamos $P(X|C_k)$ en la fórmula original del Teorema de Bayes:
$$
P(C_k|X) = \frac{P(C_k) \cdot P(X_1|C_k) \cdot P(X_2|C_k) \cdot \ldots \cdot P(X_n|C_k)}{P(X)}
$$

---

### 4.4. Eliminación del Término $P(X)$
El término $P(X)$ es la probabilidad total de las características $X$, calculada como:
$$
P(X) = \sum_{C_k} P(X|C_k) \cdot P(C_k)
$$

Dado que $P(X)$ es constante para todas las clases $C_k$, podemos ignorarlo al comparar probabilidades relativas entre las clases. Esto nos deja con:
$$
P(C_k|X) \propto P(C_k) \cdot P(X_1|C_k) \cdot P(X_2|C_k) \cdot \ldots \cdot P(X_n|C_k)
$$

---

### 4.5. Clasificación
Para clasificar un nuevo ejemplo, calculamos esta probabilidad proporcional para cada clase $C_k$ y seleccionamos la clase con la mayor probabilidad posterior:
$$
C_{\text{predicha}} = \arg\max_{C_k} \left[ P(C_k) \cdot P(X_1|C_k) \cdot P(X_2|C_k) \cdot \ldots \cdot P(X_n|C_k) \right]
$$

De esta forma, el algoritmo asigna al ejemplo la clase $C_k$ más probable.


### 5. Ventajas y Desventajas

**Ventajas:**
- Rápido y eficiente, incluso para conjuntos de datos grandes.
- Fácil de implementar.
- Funciona bien con datos categóricos y texto.

**Desventajas:**
- La suposición de independencia rara vez se cumple completamente.
- Sensible a características irrelevantes o mal representadas.

### 6. Ejemplo Práctico: Dataset de Correos Electrónicos

| ID | Contiene "Descuento" | Contiene "Gratis" | Contiene "Urgente" | Clase     |
|----|-----------------------|-------------------|---------------------|-----------|
| 1  | Sí                   | Sí                | No                  | Spam      |
| 2  | No                   | Sí                | No                  | No Spam   |
| 3  | Sí                   | No                | Sí                  | Spam      |
| 4  | No                   | No                | No                  | No Spam   |
| 5  | Sí                   | Sí                | Sí                  | Spam      |

---
### Clasificación de un Nuevo Correo

Dado un correo con las características:

- Contiene "Descuento": Sí
- Contiene "Gratis": Sí
- Contiene "Urgente": No



---

### Cálculo de Probabilidades

#### 1. Probabilidades a Priori

Las probabilidades a priori representan la proporción de cada clase en el conjunto de datos:

$$P(\text{Spam}) = \frac{\text{Correos Spam}}{\text{Total de correos}} = \frac{3}{5} = 0.6$$
$$P(\text{No Spam}) = \frac{\text{Correos No Spam}}{\text{Total de correos}} = \frac{2}{5} = 0.4$$

#### 2. Probabilidades Condicionales

**Para la clase Spam:**

$$P(\text{Descuento = Sí} | \text{Spam}) = \frac{3}{3} = 1.0$$
$$P(\text{Gratis = Sí} | \text{Spam}) = \frac{2}{3} \approx 0.67$$
$$P(\text{Urgente = No} | \text{Spam}) = \frac{1}{3} \approx 0.33$$

**Para la clase No Spam:**

$$P(\text{Descuento = Sí} | \text{No Spam}) = \frac{0}{2} = 0.0$$
$$P(\text{Gratis = Sí} | \text{No Spam}) = \frac{1}{2} = 0.5$$
$$P(\text{Urgente = No} | \text{No Spam}) = \frac{2}{2} = 1.0$$

---

**Paso 1: Calcular la probabilidad para Spam**

$$
P(\text{Spam}|\text{Características}) \propto P(\text{Spam}) \cdot P(\text{Descuento = Sí}|\text{Spam}) \cdot P(\text{Gratis = Sí}|\text{Spam}) \cdot P(\text{Urgente = No}|\text{Spam})
$$

$$
P(\text{Spam}|\text{Características}) \propto 0.6 \cdot 1.0 \cdot 0.67 \cdot 0.33 \approx 0.132
$$

**Paso 2: Calcular la probabilidad para No Spam**

$$
P(\text{No Spam}|\text{Características}) \propto P(\text{No Spam}) \cdot P(\text{Descuento = Sí}|\text{No Spam}) \cdot P(\text{Gratis = Sí}|\text{No Spam}) \cdot P(\text{Urgente = No}|\text{No Spam})
$$

$$
P(\text{No Spam}|\text{Características}) \propto 0.4 \cdot 0.0 \cdot 0.5 \cdot 1.0 = 0.0
$$

**Resultado:** El correo es clasificado como **Spam**, ya que tiene la mayor probabilidad posterior.