# Práctica 1 Reconocimiento de Formas: Clasificador de la distancia euclídea 

* **Alumno 1**: Javier Barragán Haro
* **Alumno 2**: Victor Nieves Sanchez


In [4]:

import numpy as np
from abc import abstractmethod
from scipy.spatial import distance

class Classifier:

    @abstractmethod
    def fit(self,X,y):
        pass

    @abstractmethod
    def predict(self,X):
        pass


class ClassifEuclid(Classifier):
    def __init__(self, labels=[]):
        """Constructor de la clase
        labels: lista de etiquetas de esta clase"""
        self.labels = labels
        self.coordinates = []
        self.occurrences = []
        pass

    def fit(self, x, y):
        """Entrena el clasificador
        X: matriz numpy cada fila es un dato, cada columna una medida
        y: vector de etiquetas, tantos elementos como filas en X
        retorna objeto clasificador"""
        self.occurrences = np.unique(self.labels, return_counts=True)
        begin = 0
        for e in enumerate(self.occurrences[1]):
            self.coordinates.append((np.mean(x[begin:begin + e[1]], axis=0)))
            begin += e[1]
        """    
        predict_matrix = self.predict(x)
        labels_matrix = self.pred_label(predict_matrix)
        self.num_aciertos(labels_matrix, self.labels)
        """
        return self

    def predict(self, x):
        """Estima el grado de pertenencia de cada dato a todas las clases
        X: matriz numpy cada fila es un dato, cada columna una medida del vector de caracteristicas.
        Retorna una matriz, con tantas filas como datos y tantas columnas como clases tenga
        el problema, cada fila almacena los valores pertenencia de un dato a cada clase"""
        result = np.zeros((x.shape[0], self.occurrences[0].size))

        for j in range(0, len(self.occurrences[1])):
            for i in range(0, len(x)):
                result[i, j] = distance.euclidean(x[i], self.coordinates[j])

        return result

    def pred_label(self, x):
        """Estima la etiqueta de cada dato. La etiqueta puede ser un entero o bien un string.
        X: matriz numpy cada fila es un dato, cada columna una medida
        retorna un vector con las etiquetas de cada dato"""
        result = []
        [result.append((e - 1).argmin()) for e in x]

        return result

    def num_aciertos(self, x, y):
        """Cuenta el numero de aciertos del clasificador para un conjunto de datos X.
        X: matriz de datos a clasificar
        y: vector de etiquetas correctas"""
        same_values = []
        [same_values.append(x[i] == y[i]) for i in range(0, len(self.labels))]
        number = same_values.count(True)

        return number, (number / len(x)) * 100



## Código para cargar la base de datos desde un fichero en drive:

In [5]:
# from google.colab import drive
# from sklearn.datasets import load_iris

# drive.mount('/content/gdrive')
# drive_dir = '/content/gdrive/My Drive/Colab Notebooks/'

# import pandas as pd
# # Cargar las características de la BD
# X = np.genfromtxt(drive_dir + 'irisData.txt', delimiter='\t')[:, :-1]
# print("X: \n" + str(X))

# # Leer las etiquetas y convertirlas a enteros
# y = np.genfromtxt(drive_dir + 'irisData.txt', dtype=str, delimiter='\t')[:, -1]
# y = pd.factorize(y)[0]
# print("y: \n" + str(y))

## Código para cargar la base de datos Iris directamente desde sklearn:

In [6]:
from sklearn.datasets import load_iris
import numpy as np

if __name__ == "__main__":
    # Load the data
    dataset = load_iris()
    samples = dataset.data
    labels = dataset.target
    
    unique = list(np.unique(labels))
    aux_labels = []

    for index, element in enumerate(labels):
        aux_labels.append(unique.index(element))
    labels = aux_labels
    del aux_labels

    print("Sample matrix dimension:", samples.shape)
    print("Labels matrix dimension:", "(" + str(len(labels)) + ", 1)")

    classifEuclid = ClassifEuclid(labels)

    classifEuclid.fit(samples, labels)

    predict_matrix = classifEuclid.predict(samples)

    labels_matrix = classifEuclid.pred_label(predict_matrix)

    correct = classifEuclid.num_aciertos(labels_matrix, labels)

    print("Correct answers:", correct[0], "/", len(labels))
    print("Success rate:", correct[1])

    

Sample matrix dimension: (150, 4)
Labels matrix dimension: (150, 1)
Correct answers: 139 / 150
Success rate: 92.66666666666666


Entrenamiento, predicción y evaluación

In [105]:
# 1. Cargar los datos de la base de datos de entrenamiento

# 2. Entrenar el clasificador

# 3. Predecir empleando la base de datos de entrenamiento (X)

# 4. Evaluar el clasificador calculando el porcentaje de datos correctamente clasificados

Pruebas con la base de datos wine 

In [9]:
from sklearn.datasets import load_wine
import numpy as np

if __name__ == "__main__":
    # Load the data
    dataset = load_wine()
    samples = dataset.data
    labels = dataset.target
    
    unique = list(np.unique(labels))
    aux_labels = []

    for index, element in enumerate(labels):
        aux_labels.append(unique.index(element))
    labels = aux_labels
    del aux_labels

    print("Sample matrix dimension:", samples.shape)
    print("Labels matrix dimension:", "(" + str(len(labels)) + ", 1)")

    classifEuclid = ClassifEuclid(labels)

    classifEuclid.fit(samples, labels)

    predict_matrix = classifEuclid.predict(samples)

    labels_matrix = classifEuclid.pred_label(predict_matrix)

    correct = classifEuclid.num_aciertos(labels_matrix, labels)

    print("Correct answers:", correct[0], "/", len(labels))
    print("Success rate:", correct[1])


Sample matrix dimension: (178, 13)
Labels matrix dimension: (178, 1)
Correct answers: 129 / 178
Success rate: 72.47191011235955


Pruebas con la base de datos cancer

In [11]:
from sklearn.datasets import load_breast_cancer
import numpy as np

if __name__ == "__main__":
    # Load the data
    dataset = load_breast_cancer()
    samples = dataset.data
    labels = dataset.target
    
    unique = list(np.unique(labels))
    aux_labels = []

    for index, element in enumerate(labels):
        aux_labels.append(unique.index(element))
    labels = aux_labels
    del aux_labels

    print("Sample matrix dimension:", samples.shape)
    print("Labels matrix dimension:", "(" + str(len(labels)) + ", 1)")

    classifEuclid = ClassifEuclid(labels)

    classifEuclid.fit(samples, labels)

    predict_matrix = classifEuclid.predict(samples)

    labels_matrix = classifEuclid.pred_label(predict_matrix)

    correct = classifEuclid.num_aciertos(labels_matrix, labels)

    print("Correct answers:", correct[0], "/", len(labels))
    print("Success rate:", correct[1])


Sample matrix dimension: (569, 30)
Labels matrix dimension: (569, 1)
Correct answers: 519 / 569
Success rate: 91.21265377855887


Resultados de los tres experimentos:

| Base de datos | Número de aciertos | Porcentaje de aciertos | 
| --- | --- | --- |
| Iris   |  139 / 150 | 92.66 |
| Wine   | 129/178 | 72.47191011235955  |
| Cancer | 519/569 | 91.212 |
