# 2.1 Clasificadores Bayesianos: Naive Bayes

1. Cargar el conjunto de datos de entrenamiento

2. Calcular las probabilidades a priori de cada clase en el conjunto de entrenamiento

3. Calcular las probabilidades condicionales de cada atributo dado cada clase en el conjunto de entrenamiento

4. Repetir para cada instancia en el conjunto de prueba:
 
    a. Calcular la probabilidad a posteriori para cada clase utilizando las probabilidades a priori y condicionales
 
    b. Clasificar la instancia en la clase con la probabilidad a posteriori más alta


In [54]:
import csv
import math
import random
import numpy as np
import pandas as pd

In [43]:
class NaiveBayes:
    def __init__(self):
        self.priors = {}
        self.means = {}
        self.variances = {}

    def fit(self, X, y):
        # Calcula los priors para las clases
        self.priors = {}
        # tabla de frecuencias
        unique_classes, counts = np.unique(y, return_counts=True)
        total_samples = len(y)
        
        for c, count in zip(unique_classes, counts):
            self.priors[c] = count / total_samples

        # Calcula medias y varianzas para cada clase
        self.means = {}
        self.variances = {}
        for c in unique_classes:
#             X_c = X[y == c]
            X_c = X[np.squeeze(y) == c]
            self.means[c] = np.mean(X_c, axis=0)
            self.variances[c] = np.var(X_c, axis=0)

    def predict(self, X):
        y_pred = []
        # 1. Recorre cada muestra de los datos de prueba X.
        for sample in X:
            # 2. Inicializa una lista vacía posteriors 
            # para almacenar las probabilidades posteriores de cada clase para la muestra actual.
            posteriors = []
            # 3. Recorre cada clase en self.priors.keys(), que contiene las etiquetas de clase
            # aprendidas durante el entrenamiento.
            for c in self.priors.keys():
                # 4. Para cada clase, calcula la probabilidad a priori (prior) de esa clase, que se 
                # almacena en self.priors.
                prior = self.priors[c]                
                # 5.Calcula la verosimilitud de que la muestra actual pertenezca a la clase actual 
                # utilizando el método gaussian_likelihood, que calcula la función de densidad de 
                # probabilidad gaussiana para cada característica de la muestra dada la media (self.means[c]) 
                # y la varianza (self.variances[c]) del atributo correspondiente para esa clase.
                likelihood = np.prod(self.gaussian_likelihood(sample, self.means[c], self.variances[c]))
                # Multicar el prior y el likelihood para obtener la posterior probability 
                # de la clase actual.
                posterior = prior * likelihood
                #  Añade la probabilidad posterior a la lista de posteriors.
                posteriors.append(posterior)
            # Después de recorrer todas las clases, selecciona la clase con la máxima 
            # probabilidad posterior utilizando la función max con una función lambda personalizada y añade 
            # la etiqueta de clase correspondiente a la lista y_pred, que almacena las etiquetas de clase previstas 
            # para todas las muestras.
            y_pred.append(max(self.priors, key=lambda x: posteriors[x]))
        # Devuelve la lista y_pred que contiene las etiquetas de clase predichas para todas las muestras de X.
        return y_pred

    def gaussian_likelihood(self, x, mean, variance):
        likelihood = (1 / np.sqrt(2 * np.pi * variance)) * np.exp(-((x - mean) ** 2) / (2 * variance))
        return likelihood


In [44]:
# Example usage with a small dataset
X_train = np.array([[2.0, 2.0], [1.0, 4.0], [2.5, 1.5], [1.5, 3.5], [3.0, 2.0], [3.5, 0.5]])
y_train = np.array([0, 0, 0, 1, 1, 1])

# Instantiate and fit the NaiveBayes classifier
clf = NaiveBayes()
clf.fit(X_train, y_train)

In [45]:
# Example test data
X_test = np.array([[2.1, 1.9], [1.3, 3.8], [3.2, 1.6], [2.0, 3.0]])

# Make predictions
y_pred = clf.predict(X_test)

# Print predictions
print("Predictions:", y_pred)

Predictions: [0, 0, 1, 0]


### Algún ejemplo más elaborado con los datos iris: https://archive.ics.uci.edu/ml/datasets/iris 

0 -> Iris-setosa
1 -> Iris-versicolor
2 -> Iris-virginica

In [50]:
data = pd.read_csv("data/iris.data")
data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [51]:
X = data[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']].values
Y = data[['class']].values

In [52]:
np.shape(X), np.shape(Y)

((150, 4), (150, 1))

In [53]:
# Instantiate and fit the NaiveBayes classifier
clf = NaiveBayes()
clf.fit(X,Y)

### Ejercicio: Variar ligeramente los valores de 3 diferentes registros y verificar la predicción de la especie hecha por el clasificador. 

In [55]:
# Example test data
X_test = np.array()

# Make predictions
y_pred = clf.predict(X_test)

# Print predictions
print("Predictions:", y_pred)

TypeError: array() missing required argument 'object' (pos 0)