In [24]:
import numpy as np

class Datos(object):
    TiposDeAtributos = ('Continuo', 'Nominal')
    tipoAtributos = []
    nombreAtributos = []
    nominalAtributos = []
    datos = []
    diccionarios = []


    def __init__(self, nombreFichero):
        fichero = open(nombreFichero, 'r')

        # Leemos las 3 primeras lineas del fichero
        nDatos = int(fichero.readline())
        self.nombreAtributos = fichero.readline().strip().split(",")
        self.tipoAtributos = fichero.readline().strip().split(",")

        columnas = len(self.tipoAtributos) # Variable auxiliar

        # Comprobamos que todos los atributos sean nominales o continuos
        for atributo in Datos.tipoAtributos:
            if atributo == 'Continuo':
                Datos.nominalAtributos.append(False)
            elif atributo == 'Nominal':
                Datos.nominalAtributos.append(True)
            else:
                raise (ValueError)

        contador = [0]*(columnas)
        fila = [0]*(columnas)  # Variable auxiliar en la que vamos creando las filas
        self.datos = np.empty((0,columnas),np.float32) #Reestructuramos los datos para las columnas del fichero

        self.diccionarios = [{} for i in  range(len(self.tipoAtributos))]

        for i in range(nDatos):
            linea = fichero.readline().split('\n')[0].split(",")  # linea = [data,data,data....]
            for j in range(len(linea)):
                if self.tipoAtributos[j] == 'Nominal':
                    if not linea[j] in self.diccionarios[j]:    # Comprobamos si ese data esta en un diccionario
                        self.diccionarios[j].update({linea[j]:contador[j]})   # Añadimos en caso de que no esté
                        contador[j] += 1

                    fila[j] = self.diccionarios[j].get(linea[j])       # Añadimos a la fila el valor del diccionario
                else:
                    fila[j] = linea[j]    # Si es una variable continua la añadimos directamente

            self.datos = np.vstack([self.datos,[fila]])   # Añadimos la fila a datos

    def extraeDatos(self,idx):
        filas = len(idx)
        columnas = self.datos.shape[1]

        data = np.zeros((filas,columnas))
        #ret = [ [] for i in self.datos if i in idx ]

        for i in range(filas):
            data[i] = self.datos[idx[i]]

        return data

In [23]:
from abc import ABCMeta,abstractmethod
import random
import Datos

class Particion():

  # Esta clase mantiene la lista de índices de Train y Test para cada partición del conjunto de particiones
  def __init__(self):
    self.indicesTrain=[]
    self.indicesTest=[]

#####################################################################################################

class EstrategiaParticionado(object):
  
    # Clase abstracta
    __metaclass__ = ABCMeta

    # Atributos: deben rellenarse adecuadamente para cada estrategia concreta: nombreEstrategia, numeroParticiones, listaParticiones. Se pasan en el constructor 

    @abstractmethod
    # TODO: esta funcion deben ser implementadas en cada estrategia concreta  
    def creaParticiones(self,datos,seed=None):
        pass


#####################################################################################################

class ValidacionSimple(EstrategiaParticionado):
  
  # Crea particiones segun el metodo tradicional de division de los datos segun el porcentaje deseado.
  # Devuelve una lista de particiones (clase Particion)
  # TODO: implementar
    def creaParticiones(self,datos,seed=None):
        p = Particion()
        num = datos.shape[0]/2

        random.seed(seed)

        while len(p.indicesTrain) < num:
            a =random.randint(0,datos.shape[0]-1)

            if not a in p.indicesTrain: p.indicesTrain.append(a)

        for i in range(datos.shape[0]):
            if not i in p.indicesTrain:
                p.indicesTest.append(i)

        return p


class ValidacionCruzada(EstrategiaParticionado):
  
      # Crea particiones segun el metodo de validacion cruzada.
      # El conjunto de entrenamiento se crea con las nfolds-1 particiones y el de test con la particion restante
      # Esta funcion devuelve una lista de particiones (clase Particion)
      # TODO: implementar
    def creaParticiones(self,datos,seed=None):   
        random.seed(seed)
        pass


#####################################################################################################      
class ValidacionBootstrap(EstrategiaParticionado):
  
    # Crea particiones segun el metodo de validacion por bootstrap.
    # Esta funcion devuelve una lista de particiones (clase Particion)
    # TODO: implementar
    def creaParticiones(self,datos,seed=None):   
        random.seed(seed)
        pass


In [25]:
from abc import ABCMeta,abstractmethod


class Clasificador(object):

    # Clase abstracta
    __metaclass__ = ABCMeta

    # Metodos abstractos que se implementan en casa clasificador concreto
    @abstractmethod
    # TODO: esta funcion deben ser implementadas en cada clasificador concreto
    # datosTrain: matriz numpy con los datos de entrenamiento
    # atributosDiscretos: array bool con la indicatriz de los atributos nominales
    # diccionario: array de diccionarios de la estructura Datos utilizados para la codificacion
    # de variables discretas
    def entrenamiento(self,datosTrain,atributosDiscretos,diccionario):
        pass


    @abstractmethod
    # TODO: esta funcion deben ser implementadas en cada clasificador concreto
    # devuelve un numpy array con las predicciones
    def clasifica(self,datosTest,atributosDiscretos,diccionario):
        pass


    # Obtiene el numero de aciertos y errores para calcular la tasa de fallo
    # TODO: implementar
    def error(self,datos,pred):
    # Aqui se compara la prediccion (pred) con las clases reales y se calcula el error    
        pass


    # Realiza una clasificacion utilizando una estrategia de particionado determinada
    # TODO: implementar esta funcion
    def validacion(self,particionado,dataset,clasificador,seed=None):

    # Creamos las particiones siguiendo la estrategia llamando a particionado.creaParticiones
    # - Para validacion cruzada: en el bucle hasta nv entrenamos el clasificador con la particion de train i
    # y obtenemos el error en la particion de test i
    # - Para validacion simple (hold-out): entrenamos el clasificador con la particion de train
    # y obtenemos el error en la particion test
        pass


##############################################################################

class ClasificadorNaiveBayes(Clasificador):



    # TODO: implementar
    def entrenamiento(self,datostrain,atributosDiscretos,diccionario):
        pass



    # TODO: implementar
    def clasifica(self,datostest,atributosDiscretos,diccionario):
        pass

In [26]:
d = Datos.Datos('balloons.data')
print(d.datos)
#print("\n\n SubMatriz: \n\n")
#print(d.extraeDatos([]))

e = EstrategiaParticionado.ValidacionSimple()
particiones = e.creaParticiones(d.datos)

print(particiones.indicesTrain)
print(particiones.indicesTest)



AttributeError: type object 'Datos' has no attribute 'Datos'