
#  Naive Bayes: Teor√≠a y Aplicaci√≥n Pr√°ctica


"""
# üåæ Clasificador Naive Bayes (Teor√≠a y Pr√°ctica)

El **m√©todo Naive Bayes** es un clasificador probabil√≠stico basado en el **Teorema de Bayes**,
que calcula la probabilidad de que una observaci√≥n pertenezca a una clase dada la evidencia de sus caracter√≠sticas.

## üß† Teor√≠a B√°sica

El teorema de Bayes establece que:

P(C|X) = [ P(X|C) * P(C) ] / P(X)


Donde:

- **P(C | X)** ‚Üí Probabilidad de que el mensaje pertenezca a una clase *C* (por ejemplo, ‚Äúspam‚Äù) despu√©s de ver el texto *X*.  
- **P(X | C)** ‚Üí Probabilidad de ver ese texto *X* si ya sabemos que es de la clase *C*.  
- **P(C)** ‚Üí Probabilidad de que un mensaje sea de la clase *C* antes de leerlo.  
- **P(X)** ‚Üí Probabilidad total de ver el texto *X* (es igual para todas las clases).


El t√©rmino ‚Äú**Naive**‚Äù (ingenuo) se debe a que asume que **todas las caracter√≠sticas son independientes entre s√≠**,
lo cual rara vez es cierto en la pr√°ctica, pero el modelo sigue funcionando sorprendentemente bien.

## ‚öôÔ∏è Variantes Comunes
- **GaussianNB**: para variables continuas (valores num√©ricos).
- **MultinomialNB**: para conteos o frecuencias (por ejemplo, texto).
- **BernoulliNB**: para variables binarias (palabras presentes o ausentes).

## üéõÔ∏è Hiperpar√°metros importantes
- **alpha**: suavizado de Laplace (evita que probabilidades con cero frecuencia anulen el modelo).
  - Valores altos ‚Üí m√°s suavizado, menor influencia de palabras raras.
  - Valores bajos ‚Üí menos suavizado, m√°s sensible a palabras poco frecuentes.
- **fit_prior**: si se usa o no la probabilidad previa de las clases.

En este ejemplo veremos c√≥mo afectan estos hiperpar√°metros al rendimiento del modelo.
"""


In [7]:
# ================================================
# üß™ Ejemplo Pr√°ctico: Clasificaci√≥n de Mensajes
# ================================================

#!pip install scikit-learn matplotlib

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd
import matplotlib.pyplot as plt

# ===========================================================
# üìö Dataset
# ===========================================================

mensajes = [
    # SPAM
    "gana dinero r√°pido con este m√©todo",
    "oferta exclusiva para ti",
    "compra ahora y recibe un descuento",
    "felicitaciones has sido seleccionado",
    "obt√©n un pr√©stamo sin intereses",
    "recibe dinero f√°cil y r√°pido",
    "tu cuenta ha sido elegida para un premio",
    "ganaste un viaje a la playa totalmente gratis",
    "oferta limitada solo hoy",
    "aprovecha esta promoci√≥n especial",

    # NO SPAM
    "reuni√≥n del departamento ma√±ana",
    "recordatorio de cita m√©dica",
    "tus notas del examen est√°n listas",
    "la tarea debe entregarse hoy",
    "nos vemos en la escuela",
    "gracias por tu ayuda con el informe",
    "revisemos el trabajo antes de entregarlo",
    "hoy toca clase de matem√°ticas",
    "feliz cumplea√±os te deseo lo mejor",
    "confirma tu asistencia a la reuni√≥n"
]

etiquetas = [
    "spam", "spam", "spam", "spam", "spam",
    "spam", "spam", "spam", "spam", "spam",
    "no_spam", "no_spam", "no_spam", "no_spam", "no_spam",
    "no_spam", "no_spam", "no_spam", "no_spam", "no_spam"
]



### ‚úâÔ∏è Vectorizaci√≥n de texto

Los algoritmos de aprendizaje autom√°tico no pueden trabajar directamente con palabras,
ya que necesitan n√∫meros para hacer c√°lculos.  
Por eso, usamos un **vectorizador**, que convierte cada mensaje en un conjunto de n√∫meros.

- **`CountVectorizer()`** toma todos los mensajes y construye un ‚Äúdiccionario‚Äù con las palabras que aparecen.  
- Luego, **`fit_transform(mensajes)`** crea una matriz donde:
  - Cada **fila** representa un mensaje.
  - Cada **columna** representa una palabra.
  - El valor en cada posici√≥n indica **cu√°ntas veces aparece esa palabra** en el mensaje.

As√≠, el texto se transforma en una forma num√©rica que el modelo Naive Bayes puede entender.


In [8]:
# Vectorizaci√≥n de texto
vectorizador = CountVectorizer()
X = vectorizador.fit_transform(mensajes)


In [9]:
# Divisi√≥n en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, etiquetas, test_size=0.25, random_state=42)

### ‚öôÔ∏è Explorando el efecto de los hiperpar√°metros

En esta parte probamos **distintas configuraciones del modelo Naive Bayes** para ver c√≥mo cambian los resultados.

Los hiperpar√°metros que estamos ajustando son:

- **`alpha`** ‚Üí controla el *suavizado de Laplace*.  
  Sirve para evitar que una palabra con frecuencia cero arruine los c√°lculos del modelo.  
  - Valores peque√±os ‚Üí el modelo se ajusta m√°s a los datos (menos general).  
  - Valores grandes ‚Üí el modelo se suaviza m√°s (m√°s general).

- **`fit_prior`** ‚Üí indica si el modelo debe usar o no las probabilidades previas de las clases.  
  - `True`: considera cu√°ntos ejemplos hay de cada clase en el conjunto de entrenamiento.  
  - `False`: trata ambas clases como si fueran igual de probables.

El bucle `for` prueba varias combinaciones de estos dos par√°metros, entrena un modelo para cada una y guarda su **precisi√≥n** (exactitud) en una tabla.  
As√≠ podemos comparar qu√© valores dan el mejor rendimiento.


In [10]:

# ===========================================================
# üîß Explorando el efecto de los hiperpar√°metros
# ===========================================================

resultados = []

# Probaremos diferentes valores de alpha y fit_prior
for alpha in [0.01, 0.1, 0.5, 1.0, 2.0, 5.0]:
    for prior in [True, False]:
        modelo = MultinomialNB(alpha=alpha, fit_prior=prior)
        modelo.fit(X_train, y_train)
        y_pred = modelo.predict(X_test)
        acc = accuracy_score(y_test, y_pred)
        resultados.append({
            "alpha": alpha,
            "fit_prior": prior,
            "accuracy": acc
        })

df_resultados = pd.DataFrame(resultados)
print("Resultados con diferentes hiperpar√°metros:\n")
print(df_resultados)

Resultados con diferentes hiperpar√°metros:

    alpha  fit_prior  accuracy
0    0.01       True       0.8
1    0.01      False       0.8
2    0.10       True       0.8
3    0.10      False       0.8
4    0.50       True       0.8
5    0.50      False       0.8
6    1.00       True       0.8
7    1.00      False       0.8
8    2.00       True       0.8
9    2.00      False       0.8
10   5.00       True       0.8
11   5.00      False       0.8


In [13]:

# ===========================================================
# üèÅ Entrenamos el mejor modelo y mostramos detalles
# ===========================================================
mejor = df_resultados.sort_values("accuracy", ascending=False).iloc[0]
modelo_final = MultinomialNB(alpha=mejor.alpha, fit_prior=mejor.fit_prior)
modelo_final.fit(X_train, y_train)
y_pred_final = modelo_final.predict(X_test)

print("\nüîπ Mejor configuraci√≥n encontrada:")
print(mejor)
print("\nüîπ Reporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred_final))

# Ejemplo de predicci√≥n nueva
nuevo_mensaje = ["obt√©n un descuento especial hoy"]
nuevo_vec = vectorizador.transform(nuevo_mensaje)
print("üîπ Predicci√≥n para mensaje nuevo:", modelo_final.predict(nuevo_vec)[0])



üîπ Mejor configuraci√≥n encontrada:
alpha        0.01
fit_prior    True
accuracy      0.8
Name: 0, dtype: object

üîπ Reporte de clasificaci√≥n:
              precision    recall  f1-score   support

     no_spam       0.67      1.00      0.80         2
        spam       1.00      0.67      0.80         3

    accuracy                           0.80         5
   macro avg       0.83      0.83      0.80         5
weighted avg       0.87      0.80      0.80         5

üîπ Predicci√≥n para mensaje nuevo: spam


## üßÆ Ejemplo 2: Clasificaci√≥n con Gaussian Naive Bayes

En este ejemplo usaremos el modelo **GaussianNB**, que se aplica a variables **num√©ricas continuas**.  
A diferencia de *MultinomialNB* (que trabaja con texto y conteos de palabras),  
este modelo asume que los datos siguen una **distribuci√≥n normal (gaussiana)** dentro de cada clase.

Vamos a crear un conjunto peque√±o con dos caracter√≠sticas:
- **Altura (cm)**
- **Peso (kg)**

El objetivo ser√° clasificar a cada persona en uno de dos grupos (`A` o `B`) seg√∫n sus medidas.

---

### üåæ ¬øQu√© hace el m√©todo Naive Bayes aqu√≠?

El clasificador **Naive Bayes** usa el **Teorema de Bayes** para calcular la probabilidad de que un caso pertenezca a una clase.

\[
P(C|X) = \frac{P(X|C) \times P(C)}{P(X)}
\]

Donde:
- **P(C|X)** ‚Üí probabilidad *a posteriori*: qu√© tan probable es que el ejemplo pertenezca a la clase *C* despu√©s de ver los datos *X*.  
- **P(X|C)** ‚Üí probabilidad de observar esos valores si ya sabemos que es de la clase *C*.  
- **P(C)** ‚Üí probabilidad *a priori* de la clase *C* (qu√© tan frecuente es).  
- **P(X)** ‚Üí probabilidad total de observar los valores de *X* (igual para todas las clases).

---

### üß† ¬øPor qu√© ‚ÄúNaive‚Äù (ingenuo)?

Porque el modelo **supone que las variables son independientes entre s√≠**.  
En nuestro ejemplo, eso significa asumir que la *altura* y el *peso* no dependen una de la otra,  
aunque en la realidad est√°n algo relacionadas.  
Aun as√≠, esta simplificaci√≥n suele dar **muy buenos resultados**.

---

### ‚öôÔ∏è ¬øQu√© hace GaussianNB exactamente?

1. Calcula la **media (Œº)** y la **desviaci√≥n est√°ndar (œÉ)** de cada variable dentro de cada grupo.  
2. Usa la **f√≥rmula de la distribuci√≥n normal** para estimar la probabilidad de ver un valor dado.  
3. Combina esas probabilidades para obtener la probabilidad total de que un individuo pertenezca a cada clase.  
4. Elige la clase con la probabilidad *a posteriori* m√°s alta.

---

### üìà Intuici√≥n simple

- Si alguien tiene **altura y peso cercanos** a los promedios del grupo B, el modelo lo clasificar√° como **B**.  
- Si sus valores est√°n m√°s cerca de los del grupo A, lo asignar√° a **A**.  
- Todo esto se hace usando **probabilidades**, no comparaciones directas.

---

En resumen, **Gaussian Naive Bayes** usa el teorema de Bayes con la suposici√≥n de que los datos num√©ricos de cada clase siguen una curva normal.  
Es r√°pido, sencillo y funciona muy bien cuando los datos se distribuyen de forma m√°s o menos ‚Äúredondeada‚Äù alrededor de sus promedios.


In [14]:
# ===========================================================
# üìä Ejemplo con datos num√©ricos ‚Äî GaussianNB
# ===========================================================

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd



In [15]:
# Dataset peque√±o y equilibrado
datos = pd.DataFrame({
    "altura": [160, 165, 170, 155, 180, 175, 185, 150, 172, 168],
    "peso":   [60, 65, 68, 50, 80, 75, 85, 48, 70, 66],
    "grupo":  ["A", "A", "A", "A", "B", "B", "B", "A", "B", "B"]
})

print("üìã Dataset inicial:")
print(datos)

# Variables (X) y etiquetas (y)
X = datos[["altura", "peso"]]
y = datos["grupo"]

üìã Dataset inicial:
   altura  peso grupo
0     160    60     A
1     165    65     A
2     170    68     A
3     155    50     A
4     180    80     B
5     175    75     B
6     185    85     B
7     150    48     A
8     172    70     B
9     168    66     B


In [16]:
# Dividimos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [17]:
# ===========================================================
# üß† Entrenamiento con GaussianNB
# ===========================================================
modelo = GaussianNB()
modelo.fit(X_train, y_train)

# Predicciones
y_pred = modelo.predict(X_test)

# Resultados
print("\nüîπ Precisi√≥n del modelo:", accuracy_score(y_test, y_pred))
print("\nüîπ Reporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred))


üîπ Precisi√≥n del modelo: 1.0

üîπ Reporte de clasificaci√≥n:
              precision    recall  f1-score   support

           A       1.00      1.00      1.00         1
           B       1.00      1.00      1.00         2

    accuracy                           1.00         3
   macro avg       1.00      1.00      1.00         3
weighted avg       1.00      1.00      1.00         3



In [18]:
# Ejemplo nuevo
nuevo = [[178, 77]]  # Altura 178 cm, peso 77 kg
prediccion = modelo.predict(nuevo)[0]
print(f"\nüîπ Predicci√≥n para altura=178, peso=77 ‚Üí Grupo {prediccion}")


üîπ Predicci√≥n para altura=178, peso=77 ‚Üí Grupo B


