# Práctica 4 Reconocimiento de Formas: Clasificador Bayesiano Paramétrico

* **Alumno 1**: Víctor Nieves Sánchez
* **Alumno 2**: Javier Barragán Haro


In [77]:
import numpy as np
from sklearn.covariance import ShrunkCovariance, empirical_covariance
from sklearn import preprocessing
from abc import abstractmethod
import pandas as pd
import numpy as np


class Classifier:

    @abstractmethod
    def fit(self,X,y):
        pass

    @abstractmethod
    def predict(self,X):
        pass

class ClassifBayesianoParametrico(Classifier):
    def __init__(self, share_covs=False, shrinkage=0.0):
        """Constructor de la clase
        share_covs: Indica si la matriz de covarianzas va a ser compartida entre las distintas clases.
        shrinkage: Parámetro que determina la diagonalidad de la matriz de covarianzas. 
        Ver sklearn.covariance.ShrunkCovariance
        """
        assert 0 <= shrinkage <= 1
        self.labels = None
        self.ln_apriories = None
        self.means = None
        self.ln_determinants = None
        self.inv_covs = None
        self.share_covs = share_covs
        self.shrinkage = shrinkage
        self.scaler = None

    def fit(self, X, y):
        """Entrena el clasificador
        X: matriz numpy cada fila es un dato, cada columna una medida
        y: vector de etiquetas, tantos elementos como filas en X
        retorna objeto clasificador"""
        assert X.ndim == 2 and X.shape[0] == len(y)
        # Aseguramos que las etiquetas son numeros tal que: [0, 1, ..., N]
        y = pd.factorize(y)[0]
        # Preprocesamos los datos de entrada
        self.scaler = preprocessing.scale(X)      
        self.labels = y

        # Contar cuantos ejemplos hay de cada etiqueta
        unique, counts = np.unique(y, return_counts=True)
        # Usando el contador de ejemplos de cada etiqueta, calcular el logaritmo neperiano de las 
        # probabilidades a-priori
        self.ln_apriories = np.array([np.log((counts[i]/np.sum(counts))) for i in unique])
        # Calcular para los ejemplos de cada clase, la media de cada una de sus características (centroide)
        self.means = np.array([np.mean(X[y==i], axis=0) for i in unique])
        print(self.means)
        
        if self.share_covs:
            # Restamos al dato de cada clase su centroide
            newX = np.array([X[y==i] - self.means[i] for i in unique])
            print(newX)
            # Calcula la matriz de covarianzas empleando la clase ShrunkCovariance de sklearn
            covs = empirical_covariance(self.scaler)
            print("COV1--->", covs)
            covs = ShrunkCovariance().fit(covs,self.shrinkage)
            print("COV--->", covs)
            # La reproducimos tantas veces como número de clases
            for i in unique:
                covs = empirical_covariance(covs)
                covs = ShrunkCovariance.fit(covs, self.shrinkage) 
        else:
            # Calcula la matriz de covarianzas empleando la clase ShrunkCovariance de sklearn
            covs = ShrunkCovariance.fit(X,y)
        print("COV--->", covs)
        # Para cada una de las clases, calcular el logaritmo neperiano de su matriz de covarianzas 
        # (puedes emplear compresión de listas o la función map)
        self.ln_determinants = np.log(list(map(np.linalg.det, covs)))
        # Para cada una de las clases, calcular la inversa de su matriz de covarianzas 
        # (puedes emplear compresión de listas o la función map)
        self.inv_covs = np.array(list(map(np.linalg.pinv,covs)))
        
        return self

    def predict(self, X):
        """Estima el grado de pertenencia de cada dato a todas las clases
        X: matriz numpy cada fila es un dato, cada columna una medida del vector de caracteristicas.
        Retorna una matriz, con tantas filas como datos y tantas columnas como clases tenga
        el problema, cada fila almacena los valores pertenencia de un dato a cada clase"""
        
        assert self.means is not None, "Error: The classifier needs to be fitted. Please call fit(X, y) method."
        assert X.ndim == 2 and X.shape[1] == self.means.shape[1]

        # Preprocesamos nuestros datos
        X = preprocessing.scale(X)

        # Resta la media de cada clase a cada ejemplo en X
        X_mean0 = self.means[:,np.newaxis,:] - X       

        # Calcula el logaritmo de la función de decisión gausiana
        # Transparencias de Métodos paramétricos de clasificación: página 14:
        # -(1/2)ln|Sigma_i| - (1/2)*(x- mu_i)^T Sigma_i^-1 (x- mu_i) + lnP(alpha_i)
        return -0.5 * self.ln_determinants[:, np.newaxis] \
            - 0.5 * np.array([np.sum((X_mean0[i] @ self.inv_covs[i]) 
                                     * X_mean0[i], axis=1) for i in np.unique(y)]) \
            + self.ln_apriories[:, np.newaxis]        


    def pred_label(self, X):
        """Estima la etiqueta de cada dato. La etiqueta puede ser un entero o bien un string.
        X: matriz numpy cada fila es un dato, cada columna una medida
        retorna un vector con las etiquetas de cada dato"""
        return np.argmax(X, axis = 0)

    def num_aciertos(self, X): 
        """Cuenta el numero de aciertos del clasificador para un conjunto de datos X.
        X: matriz de datos a clasificar"""
        same_values = []
        [same_values.append(X[i] == self.labels[i]) for i in range(0, len(self.labels))]
        number = same_values.count(True)

        return number, (number / len(X)) * 100

## Iris Dataset
Carga, entrenamiento, predicción y evaluación en la base de datos de Iris:

In [78]:
# 1. Cargar los datos de la base de datos de entrenamiento
from sklearn.datasets import load_iris
dataset = load_iris()
X = dataset.data
# print("X: \n" + str(X))
y = dataset.target
# print("y: \n" + str(y))
# 2. Entrenar el clasificador
ClassifBayes = ClassifBayesianoParametrico(True)
ClassifBayes.fit(X,y)

# 3. Predecir empleando la base de datos de entrenamiento (X)
predict_matrix = ClassifBayes.predict(X)

# 4. Evaluar el clasificador calculando el porcentaje de datos correctamente clasificados
labels_matrix = ClassifBayes.pred_label(predict_matrix)

correct = ClassifBayes.num_aciertos(labels_matrix)
print("Correct answers:", correct[0], "/", len(y))
print("Success rate:", correct[1])


[[5.006 3.428 1.462 0.246]
 [5.936 2.77  4.26  1.326]
 [6.588 2.974 5.552 2.026]]
[[[ 0.094  0.072 -0.062 -0.046]
  [-0.106 -0.428 -0.062 -0.046]
  [-0.306 -0.228 -0.162 -0.046]
  [-0.406 -0.328  0.038 -0.046]
  [-0.006  0.172 -0.062 -0.046]
  [ 0.394  0.472  0.238  0.154]
  [-0.406 -0.028 -0.062  0.054]
  [-0.006 -0.028  0.038 -0.046]
  [-0.606 -0.528 -0.062 -0.046]
  [-0.106 -0.328  0.038 -0.146]
  [ 0.394  0.272  0.038 -0.046]
  [-0.206 -0.028  0.138 -0.046]
  [-0.206 -0.428 -0.062 -0.146]
  [-0.706 -0.428 -0.362 -0.146]
  [ 0.794  0.572 -0.262 -0.046]
  [ 0.694  0.972  0.038  0.154]
  [ 0.394  0.472 -0.162  0.154]
  [ 0.094  0.072 -0.062  0.054]
  [ 0.694  0.372  0.238  0.054]
  [ 0.094  0.372  0.038  0.054]
  [ 0.394 -0.028  0.238 -0.046]
  [ 0.094  0.272  0.038  0.154]
  [-0.406  0.172 -0.462 -0.046]
  [ 0.094 -0.128  0.238  0.254]
  [-0.206 -0.028  0.438 -0.046]
  [-0.006 -0.428  0.138 -0.046]
  [-0.006 -0.028  0.138  0.154]
  [ 0.194  0.072  0.038 -0.046]
  [ 0.194 -0.028 -0.06

IndexError: tuple index out of range

## Wine dataset
Carga, entrenamiento, predicción y evaluación en la base de datos de Wine:

In [3]:
# 1. Cargar los datos de la base de datos de entrenamiento
from sklearn.datasets import load_wine
dataset = load_wine()
X = dataset.data
# print("X: \n" + str(X))
y = dataset.target
# print("y: \n" + str(y))

# 2. Entrenar el clasificador

# 3. Predecir empleando la base de datos de entrenamiento (X)

# 4. Evaluar el clasificador calculando el porcentaje de datos correctamente clasificados



## Breast cancer dataset
Carga, entrenamiento, predicción y evaluación en la base de datos de Breast cancer:

In [4]:
# 1. Cargar los datos de la base de datos de entrenamiento
from sklearn.datasets import load_breast_cancer
dataset = load_breast_cancer()
X = dataset.data
# print("X: \n" + str(X))
y = dataset.target
# print("y: \n" + str(y))

# 2. Entrenar el clasificador

# 3. Predecir empleando la base de datos de entrenamiento (X)

# 4. Evaluar el clasificador calculando el porcentaje de datos correctamente clasificados


## MNIST Database (Modified National Institute of Standards and Technology database)
MNIST es una base de datos de texto manuscrito, que se usa de forma clásica para entrenar sistemas de procesado de imágenes.

Carga, entrenamiento, predicción y evaluación en la base de datos de MNIST:

In [5]:
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_openml

# Cargamos MNIST desde internet ( https://www.openml.org/d/554 )
all_X, all_y = fetch_openml('mnist_784', version=1, return_X_y=True, cache=True)
X = all_X[:60000]
y = all_y[:60000]
y = pd.factorize(y)[0]

# print("X: \n" + str(X))
# print("y: \n" + str(y))

In [6]:
# 2. Entrenar el clasificador

# 3. Predecir empleando la base de datos de entrenamiento (X)

# 4. Evaluar el clasificador calculando el porcentaje de datos correctamente clasificados


## Isolet Dataset (Isolated Letter Speech Recognition)
Carga, entrenamiento, predicción y evaluación en la base de datos de Isolet

In [7]:
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_openml

# 1. Cargar los datos de la base de datos de entrenamiento
X, y = fetch_openml('isolet', version=1, return_X_y=True, cache=True)
y = pd.factorize(y)[0]
# print("X: \n" + str(X))
# print("y: \n" + str(y))


In [8]:
# 2. Entrenar el clasificador

# 3. Predecir empleando la base de datos de entrenamiento (X)

# 4. Evaluar el clasificador calculando el porcentaje de datos correctamente clasificados


Resultados de los tres experimentos:

| Base de datos | Número de aciertos | Porcentaje de aciertos |
| --- | --- | --- |
| Iris   |  |  |
| Wine   |  |  |
| Cancer |  |  |
| MNIST  |  |  |
| Isolet |  |   |