## Clasificador Naive Bayes: Explicación y Formalismo

El **clasificador Naive Bayes** es un modelo de aprendizaje supervisado basado en el **Teorema de Bayes**, diseñado para tareas de clasificación y especialmente adecuado para problemas con datos de alta dimensionalidad y pocas muestras. Es conocido por su simplicidad y eficiencia, lo que permite su aplicación en áreas como el procesamiento de lenguaje natural, la clasificación de texto y el filtrado de spam.

### 1. Concepto Básico

Naive Bayes es un clasificador probabilístico que se basa en calcular la probabilidad de que una muestra pertenezca a una clase determinada. La característica distintiva de este modelo es que asume que los **atributos son independientes** entre sí, lo cual rara vez se cumple en la práctica, pero simplifica los cálculos. A pesar de esta "ingenuidad" (de ahí su nombre "naive"), el clasificador tiende a producir buenos resultados en muchos problemas reales.

### 2. Formalismo Matemático

Para construir un clasificador Naive Bayes, usamos el **Teorema de Bayes**, que expresa la probabilidad condicional de que una muestra \( X = (X_1, X_2, \ldots, X_n) \) pertenezca a una clase \( C_k \):

$$
P(C_k | X) = \frac{P(X | C_k) \cdot P(C_k)}{P(X)}
$$

Como solo nos interesa la clase con la mayor probabilidad, y \( P(X) \) es constante para todas las clases, podemos simplificarlo a:

$$
P(C_k | X) \propto P(X | C_k) \cdot P(C_k)
$$

Con la asunción de independencia condicional entre las características \( X_i \), el modelo se simplifica aún más:

$$
P(C_k | X) \propto P(C_k) \prod_{i=1}^n P(X_i | C_k)
$$

Aquí:
- \( P(C_k) \): es la probabilidad de la clase \( C_k \), conocida como la **probabilidad a priori**.
- \( P(X_i | C_k) \): es la probabilidad condicional de cada característica dado \( C_k \).

En la práctica, estas probabilidades se calculan a partir de las frecuencias observadas en el conjunto de datos de entrenamiento.

### 3. Formalismo Computacional

Desde un punto de vista computacional, el clasificador Naive Bayes es eficiente debido a su naturaleza basada en conteos y multiplicaciones. Los pasos principales en su implementación son:

1. **Estimación de Probabilidades**: Primero, calculamos las probabilidades a priori de cada clase y las probabilidades condicionales de cada característica para cada clase.
2. **Clasificación de Nuevas Muestras**: Para una nueva muestra, el clasificador Naive Bayes calcula la probabilidad de que la muestra pertenezca a cada clase usando la ecuación anterior y selecciona la clase con la mayor probabilidad.
3. **Escalabilidad**: La clasificación de cada muestra es rápida y no requiere mucho procesamiento, lo que hace que el modelo sea adecuado para grandes volúmenes de datos y problemas con muchas características.

En Python, esto se implementa con bibliotecas como `scikit-learn`, que ofrecen métodos eficientes para ajustar y predecir con modelos de Naive Bayes.

### 4. Variantes de Naive Bayes

Existen varias variantes del clasificador Naive Bayes según el tipo de datos que se utilice:

- **Naive Bayes Gaussiano**: Suponiendo que las características siguen una distribución normal, se calcula la probabilidad condicional usando la media y varianza de cada clase.
- **Naive Bayes Multinomial**: Diseñado para datos discretos (como palabras en un texto), se utiliza en problemas de clasificación de texto.
- **Naive Bayes Bernoulli**: Adecuado para características binarias (presencia o ausencia), usado también en clasificación de texto binarizado.

### 5. Ventajas y Desventajas de Naive Bayes

**Ventajas**:
- **Simplicidad y Rapidez**: La independencia condicional permite simplificar el cálculo de probabilidades, haciéndolo rápido y eficiente.
- **Escalabilidad**: Funciona bien en problemas con muchas características y clases, escalando eficientemente con grandes volúmenes de datos.
- **Robustez con Datos Ruidosos**: Aunque la independencia condicional rara vez se cumple en la práctica, el modelo suele tener un rendimiento aceptable incluso en presencia de correlaciones entre características.

**Desventajas**:
- **Suposición de Independencia**: La suposición de independencia es poco realista en muchos problemas, lo que puede reducir la precisión si las características están altamente correlacionadas.
- **Datos Continuos**: Aunque el Naive Bayes Gaussiano trata datos continuos, el modelo original funciona mejor con datos discretos.

### 6. Implementación en Python

Podemos implementar un clasificador Naive Bayes de manera rápida y sencilla usando `scikit-learn`. A continuación, un ejemplo básico:


In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Cargar datos
data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.3, random_state=42)

# Crear y entrenar el modelo
model = GaussianNB()
model.fit(X_train, y_train)

# Predicción y evaluación
y_pred = model.predict(X_test)
print(f"Precisión del modelo: {accuracy_score(y_test, y_pred):.4f}")

# Clasificación con Maquinas de soporte Vectorial

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import pandas as pd
from sklearn import preprocessing

In [None]:
#Apertura de archivo csv a un dataframe de pandas

#revisar la ruta para tu caso particular
ruta = "/content/Social_Network_Ads.csv"
dataset = pd.read_csv(ruta)
dataset.head(5)

In [None]:
#Sacar las variables independientes
X = dataset.iloc[:,[2,3]].values

# Sacar la variable dependientes
y = dataset.iloc[:,4].values

In [None]:
#Division de Datos - entrenamiento y validacion

#herramienta para dividir los datos
from sklearn.model_selection import train_test_split

#divide los datos en 20% para la validacion y se colocar una semilla para hacer la division
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [None]:
# Escalado de Variables - Estandarizacion y Normalizacion

#Es preferible utilizalo en algortimos que usan el calculo de distancia - pitagoras

#Estandarizacion
sc_X = preprocessing.StandardScaler()

X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

In [None]:
from sklearn.naive_bayes import GaussianNB
#Ajuste del clasificdor con Maquinas de soporte vectorial

clasificador = GaussianNB()
clasificador.fit(X_train, y_train)

In [None]:
#Prediccion de los resultados con el conjusto de testing

y_pre = clasificador.predict(X_test)
#respuesta del modelo
print(y_pre)
#Valores dados por los datos de testing
print(y_test)

In [None]:
#Comprobacion del resultado - Matriz de confucion
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pre)
cm

In [None]:
from matplotlib.colors import ListedColormap

X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))

# Actualiza el cmap y asegúrate de que los colores sean válidos.
cmap = ListedColormap(['#FF0000', '#00FFF0'])

plt.contourf(X1, X2, clasificador.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha=0.75, cmap=cmap)
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())

# Corrige el mapeo de colores para cada clase.
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                color=cmap(i), label=j)

plt.title('Clasificador (Conjunto de Entrenamiento)')
plt.xlabel('Edad')
plt.ylabel('Sueldo Estimado')
plt.legend()
plt.show()

In [None]:
from matplotlib.colors import ListedColormap

X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start=X_set[:, 0].min() - 1, stop=X_set[:, 0].max() + 1, step=0.01),
                     np.arange(start=X_set[:, 1].min() - 1, stop=X_set[:, 1].max() + 1, step=0.01))

# Define el colormap con colores en formato hexadecimal
cmap = ListedColormap(['#FF0000', '#00FF00'])

# Genera el gráfico con el clasificador
plt.contourf(X1, X2, clasificador.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha=0.75, cmap=cmap)
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())

# Colorea y etiqueta cada clase
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                color=cmap(i), label=j)

plt.title('Clasificador (Conjunto de Test)')
plt.xlabel('Edad')
plt.ylabel('Sueldo Estimado')
plt.legend()
plt.show()

# Ejemplo con clasificador de Naive Bayes

Consideremos un conjunto de datos artificial sobre el cual podamos probar un clasificador de Naive Bayes:

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm

X, y = make_blobs(n_samples=10000, centers=2, n_features=2, random_state=1)

# esta función ajusta una gausiana
# a un conjunto 'data'
def fit_distribution(data):
  mu = data.mean()
  sigma = data.std()
  dist = norm(mu, sigma)
  return dist

plt.scatter(X[y==1][:,0], X[y==1][:,1], label = '1', color='red')
plt.scatter(X[y==0][:,0], X[y==0][:,1], label = '0', color = 'blue')
plt.legend()

Consideramos un modelo de clasificacion de Naive Bayes:

$$
P(c \vert x) = P(x \vert c)P(c)
$$

donde $P(c)$ es la probabilidad prior dada una clase $c$ y $P(x\vert c)$ es la verosimilitud de $x$ dada la una clase $c$, con Naive Bayes esto resulta en:

$$
P(c \vert x) = P(c)\prod_iP(x_i \vert c)
$$

Lo cual para nuestro caso (`n_features=2`) se traduce en:

$$
P(c \vert x) = \underbrace{P(c)}_{\text{prior}} \underbrace{P(x_0 \vert c) P(x_1 \vert c)}_{\text{likelihood}}
$$

In [None]:
# calculamos priors
def prior(c):
  return len(X[y==c])/len(X)

# tenemos cuatro posibles distribuciones a ajustar (verosimilitud)
# Izquierda
def distX0(c):
  if c==0:
    return fit_distribution(X[y==0][:,0])
  elif c==1:
    return fit_distribution(X[y==1][:,0])

# Derecha
def distX1(c):
  if c==0:
    return fit_distribution(X[y==0][:,1])
  elif c==1:
    return fit_distribution(X[y==1][:,1])

# verosimilitud
def likelihood(X, c):
  return distX0(c).pdf(X[0])*distX1(c).pdf(X[1])

# posterior
def probability(c, X):
  return prior(c)*likelihood(X,c)

predictions = [np.argmax([probability(0, vector), probability(1, vector)]) for vector in X]

Al final la distribución posterior nos da la probabilidad de que un dato `X` corresponda a una clase `c`. Luego de esto evaluamos el ajuste del modelo de clasificación al dataset artificial con una matriz de confusión:  

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y, predictions)

Donde vemos que la distribución ajusta perfectamente los datos, de lo cual podemos también estimar la clase para otros puntos que no estaban inicialmente en el dataset:

In [None]:
def class_distribution(x, y):
  return np.argmax([probability(0, [x,y]), probability(1, [x,y])])

class_distribution(-6, 0)

In [None]:
class_distribution(-4, 0)

In [None]:
plt.scatter(X[y==1][:,0], X[y==1][:,1], label = '1', color='red', marker = '*')
plt.scatter(X[y==0][:,0], X[y==0][:,1], label = '0', color = 'blue', marker='*')
plt.scatter(-6, 0, color = 'red', marker='s', s=53)
plt.scatter(-4, 0, color = 'blue', marker='s', s=53)
plt.legend()

En este plot anterior se evidencia cómo el clasificador basado en una distribución posterior puede clasificar puntos que no estaban en el conjunto de datos inicial (puntos con forma de cuadrado), permitiendo de esta manera extrapolar las funciones de clasificación mas allá de los datos iniciales.

# Otro ejemplo con Naive Bayes

Haremos un ejemplo para ilustrar el clasificador Naive Bayes.

En este ejemplo, clasificaremos textos según hablen de China ('zh') o Japón ('ja').

In [None]:
import numpy as np

## Datos de Entrenamiento

Supongamos que tenemos los siguientes datos de entrenamiento:

In [None]:
training = [
    ('chinese beijing chinese', 'zh'),
    ('chinese chinese shangai', 'zh'),
    ('chinese macao', 'zh'),
    ('tokyo japan chinese', 'ja'),
]

In [None]:
X_train = [doc for doc, _ in training]
y_train = [cls for _, cls in training]

In [None]:
X_train

In [None]:
classes = ['zh', 'ja']

In [None]:
features = ['chinese', 'beijing', 'shangai', 'macao', 'tokyo', 'japan']

## Clasificador Naive Bayes

### Distribución a Priori ("prior")

Calculemos la distribución a priori (probabilidad de cada clase) usando máxima verosimilitud:

$$P(Y = y) = \frac{Count(Y = y)}{\sum_{y'} Count(Y = y')}$$

In [None]:
from collections import Counter

class_count = Counter(y_train)
class_count

In [None]:
prior_prob = {}
for c in classes:
    prior_prob[c] = class_count[c] / len(y_train)

    print(f'P({c}) = {prior_prob[c]:0.2f}')

In [None]:
prior_prob

### Distribuciones Condicionales

Calculemos las distribuciones condicionales, esto es, la probabilidad de cada feature para cada clase.

Usaremos máxima verosimilitud y suavizado "add-one":

$$P(X_i = x|Y = y) = \frac{Count(X_i = x, Y = y) + 1}{\sum_{x'} Count(X_i = x', Y = y)+ |V|}$$

Primero calculamos los conteos:

In [None]:
feature_count = {}

for doc, cls in training:
    tokens = doc.split()  # lista de palabras
    for feature in tokens:
        if (feature, cls) not in feature_count:
            feature_count[feature, cls] = 0
        feature_count[feature, cls] = feature_count[feature, cls] + 1

O más cortito con `defaultdict`:

In [None]:
from collections import defaultdict
feature_count = defaultdict(int)

for doc, cls in training:
    tokens = doc.split()  # lista de palabras
    for feature in tokens:
        feature_count[feature, cls] += 1

In [None]:
dict(feature_count)

Ahora calculamos las distribuciones:

In [None]:
V = len(features)

cond_prob = {}
for c in classes:
    cond_prob[c] = {}

    count_sum = sum(feature_count[f, c] for f in features)
    denom = count_sum + V

    for f in features:
        num = feature_count[f, c] + 1
        cond_prob[c][f] = num / denom

        print(f'P({f}|{c}) = {num} / {denom} ~ {cond_prob[c][f]:0.2f}')

### Predicción

Dado un documento, calculemos su clasificación. Para ello, calcularemos la probabilidad de cada clase, o mejor dicho algo propocional a esos valores (nos ahorramos el denominador $P(X=x)$).

$$P(Y=y|X=x) \propto P(Y=y) \prod_{i} P(X_i = x_i|Y=y)$$

In [None]:
doc = 'chinese chinese chinese tokyo japan'.split()

In [None]:
zh_prob = prior_prob['zh']
for w in doc:
    zh_prob = zh_prob * cond_prob['zh'][w]

print(f'P(zh|doc) ~ {zh_prob:0.4f}')

In [None]:
ja_prob = prior_prob['ja']
for w in doc:
    ja_prob = ja_prob * cond_prob['ja'][w]

print(f'P(ja|doc) ~ {ja_prob:0.4f}')

**¿Cuál es la clasificación?**
Valores probabilísticos:

In [None]:
zh_prob / (zh_prob + ja_prob), ja_prob / (zh_prob + ja_prob)

## Naive Bayes con Scikit-learn

Veamos cómo podemos clasificar documentos en **scikit-learn** usando Naive Bayes.

### Bolsas de Palabras (Bag of Words)

Representaremos a los documentos de manera vectorial usando bolsas de palabras:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

Entrenamos (sin etiquetas) para que el vectorizador asigne una columna a cada feature posible:

In [None]:
vect.fit(X_train)

In [None]:
vect.get_feature_names_out()

Veamos cómo se vectorizan los datos de entrenamiento:

In [None]:
X2 = vect.transform(X_train)

In [None]:
X2

In [None]:
X2.todense()

Internamente, el vectorizador guarda el mapeo de features a columnas:

In [None]:
vect.vocabulary_

Ahora vectorizamos un nuevo documento:

In [None]:
doc = 'chinese chinese chinese tokyo japan'

In [None]:
X_test = vect.transform([doc])

In [None]:
X_test.todense()

In [None]:
# qué pasa si vectorizo esto?
doc = 'buenos aires'
X_test = vect.transform([doc])
X_test.todense()

### Multinomial Naive Bayes

Instanciamos y entrenamos [Naive Bayes](https://scikit-learn.org/stable/modules/naive_bayes.html#multinomial-naive-bayes):

In [None]:
from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()
mnb.fit(X2, y_train)

Ahora predecimos:

In [None]:
mnb.predict(X_test)

También podemos obtener las probabilidades:

In [None]:
mnb.predict_proba(X_test)

### Parámetros Internos

Veamos cómo es internamente el modelo Naive Bayes en scikit-learn.

In [None]:
mnb.classes_

In [None]:
mnb.class_count_

In [None]:
mnb.feature_count_

In [None]:
np.exp(mnb.class_log_prior_)

In [None]:
np.exp(mnb.feature_log_prob_)

## Referencias

- [Naive Bayes classifier (Wikipedia)](https://en.wikipedia.org/wiki/Naive_Bayes_classifier)

Python:
- [defaultdict](https://docs.python.org/2/library/collections.html#collections.defaultdict)

Scikit-learn:
- [Working With Text Data](https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html)
- [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)
- [Naive Bayes](https://scikit-learn.org/stable/modules/naive_bayes.html#naive-bayes)