# Naives Bayes Classification

# References:
- [Naives Bayes Classification](https://jakevdp.github.io/PythonDataScienceHandbook/05.05-naive-bayes.html)
- [Video](https://youtu.be/O2L2Uv9pdDA)

Problema: Diagnosticar una enfermedad rara
Contexto:

Una enfermedad rara afecta al 1% de la población (P(Enfermo) = 0.01)

Existe una prueba médica con:

99% de precisión para detectar la enfermedad (verdaderos positivos)

5% de falsos positivos (personas sanas que dan positivo)

Pregunta: Si un paciente da positivo, ¿cuál es la probabilidad real de que esté enfermo?

In [1]:
def teorema_bayes(p_a, p_b_dado_a, p_b_dado_no_a):
    """
    Calcula P(A|B) usando el teorema de Bayes
    
    Parámetros:
    p_a: P(A) - Probabilidad previa del evento A
    p_b_dado_a: P(B|A) - Probabilidad de B dado A
    p_b_dado_no_a: P(B|¬A) - Probabilidad de B dado no A
    
    Retorna:
    P(A|B) - Probabilidad de A dado B
    """
    # Calculamos P(B) usando la ley de probabilidad total
    p_b = p_b_dado_a * p_a + p_b_dado_no_a * (1 - p_a)
    
    # Aplicamos el teorema de Bayes
    p_a_dado_b = (p_b_dado_a * p_a) / p_b
    
    return p_a_dado_b

# Probabilidades del problema
p_enfermo = 0.01          # Prevalencia de la enfermedad
p_positivo_enfermo = 0.99  # Sensibilidad de la prueba
p_positivo_sano = 0.05     # Tasa de falsos positivos

# Calculamos la probabilidad de estar enfermo dado un positivo
probabilidad = teorema_bayes(p_enfermo, p_positivo_enfermo, p_positivo_sano)

print(f"Probabilidad de estar enfermo dado un resultado positivo: {probabilidad:.2%}")

Probabilidad de estar enfermo dado un resultado positivo: 16.67%


In [2]:
import numpy as np
from sklearn.naive_bayes import GaussianNB

# Simulamos datos para 100,000 pacientes
np.random.seed(42)
n_pacientes = 100000

# 1% enfermos (clase 1), 99% sanos (clase 0)
enfermos = np.random.choice([0, 1], size=n_pacientes, p=[0.99, 0.01])

# Simulamos resultados de pruebas
pruebas = np.zeros(n_pacientes)

# Para enfermos: 99% positivos (1), 1% negativos (0)
enfermo_idx = np.where(enfermos == 1)[0]
pruebas[enfermo_idx] = np.random.choice([0, 1], size=len(enfermo_idx), p=[0.01, 0.99])

# Para sanos: 5% positivos (1), 95% negativos (0)
sano_idx = np.where(enfermos == 0)[0]
pruebas[sano_idx] = np.random.choice([0, 1], size=len(sano_idx), p=[0.95, 0.05])

# Preparamos los datos para scikit-learn
X = pruebas.reshape(-1, 1)  # Resultado de la prueba
y = enfermos                # Estado real

# Entrenamos el modelo Naive Bayes
model = GaussianNB()
model.fit(X, y)

# Hacemos predicciones para positivo (1) y negativo (0)
print("Probabilidad predicha por el modelo:")
print(f"P(Enfermo|Positivo) = {model.predict_proba([[1]])[0][1]:.2%}")
print(f"P(Enfermo|Negativo) = {model.predict_proba([[0]])[0][1]:.2%}")

# Verificamos con los datos reales
positivos = np.sum((pruebas == 1) & (enfermos == 1)) / np.sum(pruebas == 1)
print(f"\nProporción real en los datos simulados:")
print(f"P(Enfermo|Positivo) real = {positivos:.2%}")

Probabilidad predicha por el modelo:
P(Enfermo|Positivo) = 99.55%
P(Enfermo|Negativo) = 0.00%

Proporción real en los datos simulados:
P(Enfermo|Positivo) real = 16.08%


One place where multinomial naive Bayes is often used is in text classification, where the features are related to word counts or frequencies within the documents to be classified. We discussed the extraction of such features from text in Feature Engineering; here we will use the sparse word count features from the 20 Newsgroups corpus to show how we might classify these short documents into categories.

Let's download the data and take a look at the target names:

In [4]:
from sklearn.datasets import fetch_20newsgroups

data = fetch_20newsgroups()
data.target_names

KeyboardInterrupt: 

In [None]:
categories = ['talk.religion.misc', 'soc.religion.christian',
              'sci.space', 'comp.graphics']
train = fetch_20newsgroups(subset='train', categories=categories)
test = fetch_20newsgroups(subset='test', categories=categories)

print(train.data[5])


NameError: name 'fetch_20newsgroups' is not defined

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Datos de ejemplo
data = {
    'Horas_Estudio': [2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
    'Horas_Sueño': [7, 6, 5, 6, 7, 8, 7, 6, 5, 4],
    'Aprobado': [0, 0, 0, 1, 1, 1, 1, 1, 1, 1]  # 0: No aprobado, 1: Aprobado
}

# Crear un DataFrame
df = pd.DataFrame(data)

# Separar características (X) y etiquetas (y)
X = df[['Horas_Estudio', 'Horas_Sueño']]
y = df['Aprobado']

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo de regresión logística
model = LogisticRegression()
model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo

# La precisión es una métrica que mide el porcentaje de predicciones sobre los datos de prueba, correctas del modelo sobre el total de predicciones realizadas.
print("Precisión:", accuracy_score(y_test, y_pred))

# La matriz de confusión es una tabla que muestra el desempeño del modelo en términos de:
# Verdaderos Negativos (TN): Casos negativos correctamente clasificados.
# Falsos Positivos (FP): Casos negativos incorrectamente clasificados como positivos.
# Falsos Negativos (FN): Casos positivos incorrectamente clasificados como negativos.
# Verdaderos Positivos (TP): Casos positivos correctamente clasificados.
# [[TN, FP],
#  [FN, TP]]
print("Matriz de Confusión:\n", confusion_matrix(y_test, y_pred))

# El reporte de clasificación proporciona métricas detalladas para evaluar el desempeño del modelo en cada clase. Las métricas principales son:
# Precisión (Precision): Proporción de predicciones positivas correctas sobre el total de predicciones positivas.
# Recall (Sensibilidad): Proporción de casos positivos correctamente identificados sobre el total de casos positivos reales.
# F1-Score: Media armónica entre precisión y recall. Es útil cuando hay un desbalance entre clases.
# Soporte (Support): Número de ocurrencias de cada clase en el conjunto de prueba.
# 
# Precisión: Indica cuán confiable es el modelo al predecir una clase.
# Recall: Indica cuán bien el modelo identifica todos los casos positivos.
# F1-Score: Es una métrica balanceada entre precisión y recall.
# Soporte: Nos dice cuántos casos hay de cada clase en el conjunto de prueba.
print("Reporte de Clasificación:\n", classification_report(y_test, y_pred))

# Coeficientes del modelo
# Los coeficientes son los valores que multiplican cada característica en la ecuación de la regresión logística. Representan la contribución de cada característica a la predicción.
print("Coeficientes:", model.coef_)

# El intercepto es el término independiente en la ecuación de la regresión logística. Representa el valor de z (la combinación lineal de características) cuando todas las características son 0.
print("Intercepto:", model.intercept_)

Precisión: 1.0
Matriz de Confusión:
 [[1 0]
 [0 2]]
Reporte de Clasificación:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       1.00      1.00      1.00         2

    accuracy                           1.00         3
   macro avg       1.00      1.00      1.00         3
weighted avg       1.00      1.00      1.00         3

Coeficientes: [[0.97522929 0.34657993]]
Intercepto: [-6.25826117]
