In [97]:
#!/usr/bin/python3
# -*- coding: utf-8 -*-

# Práctica 1 - Aprendizaje automático
### Grupo 1463
---------

* Pablo Marcos Manchón
* Dionisio Pérez Alvear

In [98]:
# Importamos Librerias
import numpy as np
import collections
from abc import ABCMeta,abstractmethod
from scipy.stats import norm

#from sklearn import datasets
import sklearn.naive_bayes as nb
from sklearn.naive_bayes import GaussianNB
from sklearn import preprocessing
from sklearn.model_selection import train_test_split, cross_val_score, KFold

Definición de la clase ***Datos*** implementada en la práctica 0.

Hemos añadido unas pocas variaciones respecto al diseño original:
* Al inicializar puede especificarse el tipo de datos con el que se guarda la matriz de datos (atributo cast).
* Metodos _ _ len _ _ , _ _ getitem _ _ y _ _ yield_ _ sobrecargados para utilizar de forma mas cómoda la clase.
* El método extraeDatos permite indexar por

El resto de atributos y funciones se encuentran documentados en el código.

In [4]:

class Datos(object):
    """Clase para leer y almacenar los datos de los ficheros .data proporcionados

    Attributes:
        ndatos (int): Numero de entradas de nuestro conjunto de datos
        nAtributos (int): Numero de atributos de cada dato
        nombreAtributos (list): Lista con los nombres de los atributos
        tipoAtributos (list): Lista con string representando el tipo de cada atributo
        nominalAtributos (list): Lista con True en las posiciones de los atributos nominales
        diccionarios (list): Lista de diccionarios con el valor de cada uno de los atributos nominales
        datos (numpy.ndarray) : Matrix ndatosxnAtributos con los datos recolectados y los atributos
            nominales traducidos.
    """

    TiposDeAtributos=('Continuo','Nominal')

    def __init__(self, nombreFichero, cast=None):
        """Constructor de la clase Datos

        Args:
            nombreFichero (str): path del fichero de datos a cargar
            cast (np.dtype, opcional) : Si se especifica la matriz de datos se
                casteara al tipo especificado, en otro caso si todos los atributos
                son nominales se almacenaran en tipo entero y si hay algun dato
                continuo en tipo float.
        """

        # Abrimos el fichero y procesamos la cabecera
        with open(nombreFichero) as f:

            # Guardamos el numero de datos
            self.nDatos = int(f.readline())

            # Guardamos la lista de nombres de atributos
            self.nombreAtributos = f.readline().replace('\n','').split(",")

            # Guardamos la lista de atributos
            self.tipoAtributos = f.readline().replace('\n','').split(",")

            # Numero de atributos
            self.nAtributos = len(self.tipoAtributos)

            # Comprobacion atributos
            if any(atr not in Datos.TiposDeAtributos for atr in self.tipoAtributos):
                raise ValueError("Tipo de atributo erroneo")

            # Guardamos True en las posiciones de atributos nominales
            self.nominalAtributos = [atr == 'Nominal' for atr in self.tipoAtributos]

        # Leemos los datos de numpy en formate string para los datos nominales
        datosNominales = np.genfromtxt(nombreFichero, dtype='S', skip_header=3, delimiter=',')

        # Inicializamos los diccionarios con los distintos valores de los atributos
        self._inicializarDiccionarios(datosNominales)

        # Transformamos los datos nominales en datos numericos empleando los diccionarios
        for i, nominal in enumerate(self.nominalAtributos):
            if nominal:
                datosNominales[:,i] = np.vectorize(self.diccionarios[i].get)(datosNominales[:,i])

        # Convertimos la matriz a tipo numerico, en caso de no especificarse
        # Si todos los atributos son nominales usamos el tipo np.int para ahorrar espacio
        # Si hay datos continuos lo guardamos en tipo np.float
        if cast == None: cast = np.int if all(self.nominalAtributos) else np.float
        self.datos = datosNominales.astype(cast)

        # Convertimos los nombres nominales a string en vez de dejarlos en bytes
        diccionarios_aux = []
        for d in self.diccionarios:
            aux = {}
            for k in d: aux[k.decode('utf-8')] = d[k]
            diccionarios_aux.append(aux)

        self.diccionarios = diccionarios_aux

    def _inicializarDiccionarios(self, datos):
        """Funcion interna para inicializar los diccionarios buscando todos
            los valores que toman los atributos en la matriz de datos"""

        self.diccionarios = []

        for i, nominal in enumerate(self.nominalAtributos):

            if not nominal: # Incluimos diccionarios vacios en los datos no nominales
                self.diccionarios.append({})
            else:
                # Buscamos todos los valores distintos por atributo y creamos el diccionario
                values = np.unique(datos[:,i])
                values.sort()
                self.diccionarios.append({k: v for v, k in enumerate(values)})

    def extraeDatos(self, idx):
        return self.datos[idx]
    
    def __getitem__(self, idx):
        return self.extraeDatos(idx)
    
    def __len__(self):
        return self.nDatos
    
    def __yield__(self):
        for i in range(len(self)):
            yield self.datos[i]

    

In [5]:


class Particion:
  
    def __init__(self, train=[], test=[]):
        self.indicesTrain= train
        self.indicesTest= test
    
    def __str__(self):
        return "Particion:\nTrain: {}\nTest:  {}".format(str(self.indicesTrain),str(self.indicesTest)) 

#####################################################################################################

class EstrategiaParticionado:
  
      # Clase abstracta
    __metaclass__ = ABCMeta
  
    def __init__(self, nombre="null"):
        self.nombreEstrategia=nombre
        self.numeroParticiones=0
        self.particiones=[]
    
    def __call__(self, datos):
        return self.creaParticiones(datos)
    
    def __iter__(self):
        for part in self.particiones:
            yield part
  
    @abstractmethod
    # TODO: esta funcion deben ser implementadas en cada estrategia concreta  
    def creaParticiones(self,datos,seed=None):
        pass

#####################################################################################################

class ValidacionSimple(EstrategiaParticionado):
    """Crea particiones segun el metodo tradicional 
    de division de los datos segun el porcentaje deseado."""
    
    def __init__(self,porcentaje=.75):

        self.porcentaje = porcentaje
        super().__init__("Validacion Simple con {}\% de entrenamiento".format(100*porcentaje))


    def creaParticiones(self,datos,seed=None):    
        np.random.seed(seed)

        self.numeroParticiones = 1

        # Generamos una permutacion de los indices
        indices = np.arange(datos.nDatos)
        np.random.shuffle(indices)

        # Separamos en base al porcentaje necesario
        l = int(datos.nDatos*self.porcentaje)
        self.particiones = [Particion(indices[:l], indices[l:])]

        return self.particiones
    
      
#####################################################################################################      
class ValidacionCruzada(EstrategiaParticionado):
    
    def __init__(self, k=1):
        self.k = k
        super().__init__("Validacion Cruzada con {} particiones".format(k))
  
  # Crea particiones segun el metodo de validacion cruzada.
  # El conjunto de entrenamiento se crea con las nfolds-1 particiones
  # y el de test con la particion restante
  # Esta funcion devuelve una lista de particiones (clase Particion)
    def creaParticiones(self,datos,seed=None):   
        np.random.seed(seed)
        
        self.numeroParticiones = self.k
        # Tam de cada bloque
        l = int(datos.nDatos/self.k)
        
        # Generamos una permutacion de los indices
        indices = np.arange(datos.nDatos)
        np.random.shuffle(indices)
        self.particiones = []
        
        
        for i in range(self.k):

            train = np.delete(indices, range(i*l,(i+1)*l))
            test =  indices[i*l:(i+1)*l-1]
            self.particiones.append(Particion(train, test))
                                    
        return self.particiones
            
        
    
#####################################################################################################

class ValidacionBootstrap(EstrategiaParticionado):
    
    def __init__(self, n):
        super().__init__("Validacion Bootstrap con {} particiones".format(n))
        self.n = n

  # Crea particiones segun el metodo de boostrap
  # Devuelve una lista de particiones (clase Particion)
    def creaParticiones(self,datos,seed=None):    
        np.random.seed(seed)

        self.numeroParticiones = self.n

        # Generamos una permutacion de los indices
        indices = np.arange(datos.nDatos)
        self.particiones = []

        for i in range(self.n):

            # Generamos numeros aleatorios con repeticion
            aleatorios = np.random.randint(0, datos.nDatos, datos.nDatos)
            # Nos quedamos los ejemplos de los indices
            train = indices[aleatorios]
            # Obtenemos los indices que han sido excluidos
            excluidos = [i not in aleatorios for i in indices] 
            
            # El conjunto de indices esta formado por los indices excluidos
            test = indices[excluidos]

            self.particiones.append(Particion(train, test))

        return self.particiones
    
#####################################################################################################

    
class ValidacionSimpleScikit(EstrategiaParticionado):
    """Crea particiones segun el metodo tradicional 
    de division de los datos segun el porcentaje deseado."""
    
    def __init__(self,porcentaje=.75):

        self.porcentaje = porcentaje
        super().__init__("Validacion Simple Scikit con {}\% de entrenamiento".format(100*porcentaje))

    def creaParticiones(self,datos,seed=None): 
        
        #Primero encriptamos los atributos
        encAtributos = preprocessing.OneHotEncoder(categorical_features=datos.nominalAtributos[:-1], sparse=False)
        
        # Guardamos la matriz de atributos codificada
        X = encAtributos.fit_transform(dataset.datos[:,:-1])
        # Guardamos la clase de cada patron
        Y =dataset.datos[:,-1] 

        # Creamos Train y Test para atributos y clases (clases tb?)
        XTrain, XTest = train_test_split(X, train_size = self.porcentaje, shuffle=True)
        YTrain, YTest = train_test_split(Y, train_size = self.porcentaje, shuffle=True) #?
        
        self.particiones.append(Particion(XTrain, XTest))
        self.particiones.append(Particion(YTrain, YTest))
        
        return self.particiones
    
#####################################################################################################

    
class ValidacionCruzadaScikit(EstrategiaParticionado):
    """Crea particiones segun el metodo tradicional 
    de division de los datos segun el porcentaje deseado."""
    
    def __init__(self, k=1):
        self.k = k
        super().__init__("Validacion Cruzada Scikit con {} particiones".format(k))

    def creaParticiones(self,datos,seed=None): 
        
        self.numeroParticiones = self.k
        self.particiones = []
            
        #Primero encriptamos los atributos
        encAtributos = preprocessing.OneHotEncoder(categorical_features=datos.nominalAtributos[:-1], sparse=False)
        
        # Guardamos la matriz de atributos codificada
        X = encAtributos.fit_transform(dataset.datos[:,:-1])
        # Guardamos la clase de cada patron
        Y =dataset.datos[:,-1]    

        # Creamos particiones
        kf = KFold(n_splits=self.k, shuffle=True)
        for train, test in kf.split(X, Y):
            XTrain, XTest = X[train], X[test]
            YTrain, YTest = Y[train], Y[test]
            self.particiones.append(Particion(XTrain, XTest))
            self.particiones.append(Particion(YTrain, YTest))
        
        return self.particiones


In [6]:
# Prueba de los metodos de particiones de la semana1

if __name__ == '__main__':
    
    
    dataset = Datos('../ConjuntosDatos/balloons.data')
    
    
    # Creamos una particion con validacion simple
    validacion1 = ValidacionSimple(0.8)
    particion1 = validacion1(dataset)
    
    # Creamos una particion con validacion cruzada
    k=4
    validacion2 = ValidacionCruzada(k)
    particion2 = validacion2(dataset)
    
    # Creamos una particion usando Validacion Bootstrap
    n=10
    validacion3 = ValidacionBootstrap(n)
    particion3 = validacion3(dataset)


In [7]:


class Clasificador:
  
    # Clase abstracta
    __metaclass__ = ABCMeta

    # Metodos abstractos que se implementan en casa clasificador concreto
    @abstractmethod
    # TODO: esta funcion deben ser implementadas en cada clasificador concreto
    # datosTrain: matriz numpy con los datos de entrenamiento
    # atributosDiscretos: array bool con la indicatriz de los atributos nominales
    # diccionario: array de diccionarios de la estructura Datos utilizados para la codificacion
    # de variables discretas
    def entrenamiento(self,datosTrain,atributosDiscretos,diccionario):
        pass


    @abstractmethod
    # TODO: esta funcion deben ser implementadas en cada clasificador concreto
    # devuelve un numpy array con las predicciones
    def clasifica(self,datosTest,atributosDiscretos,diccionario):
        pass


    # Obtiene el numero de aciertos y errores para calcular la tasa de fallo
    # TODO: implementar
    def error(self,datos,pred):
    # Aqui se compara la prediccion (pred) con las clases reales y se calcula el error    
        pass


    # Realiza una clasificacion utilizando una estrategia de particionado determinada
    # TODO: implementar esta funcion
    def validacion(self,particionado,dataset,clasificador,seed=None):

    # Creamos las particiones siguiendo la estrategia llamando a particionado.creaParticiones
    # - Para validacion cruzada: en el bucle hasta nv entrenamos el clasificador con la particion de train i
    # y obtenemos el error en la particion de test i
    # - Para validacion simple (hold-out): entrenamos el clasificador con la particion de train
    # y obtenemos el error en la particion test
        pass





class ScikitNaiveBayes(Clasificador):
    
    def entrenamiento(self, datos, indices):
          
        # Calculamos las posteriori de los discretos
        self.NB = nb.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)
        # Calculamos NaiveBayes
        self.NB.fit(indices[0], indices[1])
        # indices[0] contiene la particion de datos
        # indices[1] contiene la particion de clases (?) 
        # y en el caso de val.cruzada?

    def clasifica(self, datos, indices):
        
        print(self.NB.predict(indices[0]))     
                
    
      

In [93]:

class ClasificadorNaiveBayes(Clasificador):


    def entrenamiento(self, datos, indices, laplace=False): 

        # Numero de atributos
        self.nAtributos = len(datos.diccionarios) - 1
  
        # Numero de clases (longitud del diccionario del campo clase)
        self.nClases = len(datos.diccionarios[-1])
        
        # Normalizacion de laplace
        self.laplace = laplace
        
        # Guardamos que atributos son nominales
        self.nominalAtributos = datos.nominalAtributos
        
        # Variables necesarias para el entrenamiento
        # (No se guaran en la estructura)
        nEntrenamiento = len(indices)
        datosEntrenamiento = datos[indices]
        arrayClases = datosEntrenamiento[:,-1]

        # Tablas de probabilidad a priori (una por clase)
        self.priori = self._calcula_prioris(arrayClases)
        
        
        # Tablas de probabilidad a posteriori (una por atributo)
        self.posteriori = np.empty(self.nAtributos, dtype=object)
               
        # Iteramos sobre los datos de entrenamiento (sin contar la clase)
        for i, discreto in enumerate(datos.nominalAtributos[:-1]):
            
            # Caso atributo discreto
            if discreto:
                # Numero de valores que toma el atributo
                n_valores = len(datos.diccionarios[i])
                
                # Creamos la tabla de probabilidades a posteriori donde
                # el elemento (i,j) guardara P(C_i | X=j)
                self.posteriori[i] = self._entrena_discreto(datosEntrenamiento[:,i], 
                                                            arrayClases, 
                                                            n_valores)
                
            else:
               # Creamos una tabla que guardara la media y desviacion del dato
                self.posteriori[i] = self._entrena_continuo(datosEntrenamiento[:,i], 
                                                            arrayClases)              

                
    def _calcula_prioris(self, clases):
        r"""Calcula la tabla de probabilidades a priori
        
            Args:
                clases: array con clases
            Returns:
                array con probabilidades a posteriori
        """
        
        # Lista para prioris
        prioris = np.empty(self.nClases)
        n_entrenamiento = len(clases)
        
        # Calcuamos las probabilidades a priori
        for c in range(self.nClases):
            prioris[c] = len(np.where(clases == c)[0])/ n_entrenamiento
        
        
        return prioris
        
    def _entrena_discreto(self, datos, clases, n_valores):
        r"""Funcion para calcular la tabla de probabilidad a 
        posteriori de un atributo
        
        Args: 
            datos: Array unidimensional con valores del atributo
            clases: Array con valores de la clase para cada atributo
            n_valores: Numero de valores que puede tomar el atributo
        
        Returns:
            numpy.array con la tabla de probabilidades a posteriori
        """
        
        # Tabla de probabilidades a posteriori
        posteriori = np.zeros((self.nClases, n_valores))
        
        # Calculamos los conteos de atributos de cada clase      
        for c in range(self.nClases):
            
            # Repeticiones de la clase c por valor
            repeticiones = collections.Counter(datos[clases == c])

            for v in repeticiones:
                posteriori[c,int(v)] = repeticiones[v]

            
        # Comprueba si hay que hacer correccion de laplace
        if self.laplace and (posteriori == 0).any():
            posteriori += 1
            n_valores += 1
            
        # Dividimos entre el numero de datos para obtener las probabilidades
        posteriori /= len(clases)
                
        return posteriori
                
    def _entrena_continuo(self, datos, clases):
        r"""Funcion para calcular los datos de un atributo
            continuo, guardara para cada una de las clases
            su media y desviacion estandart
        """
        # Tabla con los datos para cada una de las clases
        estadisticas = np.empty((self.nClases, 2))
        
        for c in range(self.nClases):
            data = datos[clases == c]
            estadisticas[c,0] = np.mean(data)
            estadisticas[c,1] = np.std(data)
            
        return estadisticas
            
    def probabilidadClase(self, dato):

        # Inicializamos la lista con las probabilidades a priori
        probabilidades = np.copy(self.priori)
        
        for c in range(self.nClases):
            for atr, nominal in enumerate(self.nominalAtributos[:-1]): 
                if nominal:
                    # Atributo discreto
                    probabilidades[c] *= self.posteriori[atr][c, int(dato[atr])]
                else:
                    # Atributo continuo
                    probabilidades[c] *= norm.pdf(dato[atr], 
                                                  self.posteriori[atr][c, 0], 
                                                  self.gaussianas[atr][c, 1])
            
        # Normalizamos las probabilidades
        probabilidades /= np.sum(probabilidades)
            
        return probabilidades

            

    def clasifica(self, datos, indices):
        r""" Clasifica los datos una vez entrenado el clasificador
            Args:
                datos: Clase Datos con los datos cargados
                indices: Lista con indices de datos a clasificar
        
        """
        
        clasificacion = np.full(len(indices), -1)
        
        for i, dato in enumerate(datos[indices]):
                
            probabilidades = self.probabilidadClase(dato)
            clasificacion[i] = np.argmax(probabilidades)

             
        return clasificacion


In [94]:
dataset = Datos('../ConjuntosDatos/balloons.data')

# Creamos particion
#validacion1 = ValidacionSimple(0.8)
#particion1 = validacion1(dataset)

# Creamos clasificador Naive-Bayes
c = ClasificadorNaiveBayes()
c.entrenamiento(dataset, range(20),False)
clasificacion = c.clasifica(dataset, range(20))
#print(dataset[particion1[0].indicesTest])
#clasificacion = c.clasifica(dataset, range(len(dataset)))

# Particion por validacion simple scikit
#validacion1 = ValidacionSimpleScikit(0.8)
#particion1 = validacion1(dataset)
#Particion por validacion cruzada scikit
#validacion2 = ValidacionCruzadaScikit(4)
#particion2 = validacion2(dataset)

#c = ScikitNaiveBayes()
#c.entrenamiento(dataset, [particion2[0].indicesTrain, particion2[1].indicesTrain])
#c.clasifica(dataset, [particion2[0].indicesTest])

In [95]:
print(dataset.datos[:,-1])
print(clasificacion)

[1 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 1 0 0 0]
[1 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 1 0 0 0]


In [91]:
dataset.datos[0]

array([1, 1, 1, 0, 1])

In [96]:
c.probabilidadClase([1,1,1,0])

array([0.45762712, 0.54237288])