In [6]:
import numpy as np

In [7]:
class Datos ( object ):
    TiposDeAtributos = ('Continuo','Nominal')    
    
    def parseMetaDatos(fichero):    
        """  Parsea las tres primeras lineas del fichero  """
        
        numAtrs = int(fichero.readline())
        nombreAtributos = fichero.readline().replace("\n","").split(",")
        tipoAtributos = fichero.readline().replace("\n","").split(",")
        return numAtrs, nombreAtributos, tipoAtributos
    
    def iniDicc(nombreAtributos):
        """  Crea un diccionario con los nombres de los atributos como claves  """
        
        diccionarios = {}
        for atr in nombreAtributos:
            diccionarios[atr] = []
        return diccionarios
    
    def insertAtr(fichero, nombreAtributos):
        """  Rellena el diccionario con los posibles valores de cada atributo  """
        
        diccionarios = Datos.iniDicc(nombreAtributos)
        for linea in fichero:
            valor = linea.replace("\n","").split(",")
            
            for i in range(len(valor)): 
                if valor[i] not in diccionarios[nombreAtributos[i]]:
                    diccionarios[nombreAtributos[i]].append(valor[i])
        return diccionarios
    
    def transformaADicc(fichero, nombreAtributos, tipoAtributos):
        """  Rellena el diccionario con una codificacion de numeros 
            para cada valor de los atributos nominales 
        """
        
        diccionarios = Datos.insertAtr(fichero, nombreAtributos)
        for atr in diccionarios:
            valores = sorted(diccionarios[atr])
            
            diccionarios[atr] = {}
            if tipoAtributos[nombreAtributos.index(atr)] == 'Nominal':
                for valor in valores:
                    diccionarios[atr].update({valor:valores.index(valor)})
        return diccionarios
    
    def extraerMetaDatos(nombreFichero):
        """  Genera:
            un diccionario de la codificacion de los valores, 
            un array con los nombres de los atributos y
            un array con el tipo de los atributos
        """
        
        fichero = open(nombreFichero, "r")        
        numAtrs, nombreAtributos, tipoAtributos = Datos.parseMetaDatos(fichero)
        diccionarios = Datos.transformaADicc(fichero, nombreAtributos, tipoAtributos)
        fichero.close()
        return diccionarios, numAtrs, nombreAtributos, tipoAtributos
    
    def transformDataToArray(nombreFichero):
        """  Genera un array de datos codificando los valores acorde al diccionario creado
        """
        
        diccionarios, numAtrs, nombreAtributos, tipoAtributos = Datos.extraerMetaDatos(nombreFichero)
        fichero = open(nombreFichero, "r") 
        
        lineas = fichero.readlines()[3:]
        datos = np.empty( (numAtrs,len(nombreAtributos)))
        
        for j in range(numAtrs):
            valores = lineas[j].replace("\n","").split(",")
            
            for i in range(len(valores)):                 
                if tipoAtributos[i] == 'Nominal':
                    datos[j][i] = Datos.buscarDiccionario(diccionarios,valores[i])                    
                else:
                    datos[j][i] = valores[i]
                        
        fichero.close()
        return datos, diccionarios, nombreAtributos, tipoAtributos
    
    def buscarDiccionario(dic, valor):
        """  Busca la codificacion de un valor en el diccionario
        """
        
        for atr in dic:
            if valor in dic[atr]:
                return dic[atr][valor]
    
        
    def __init__ ( self, filename ):        
        
        self.datos, self.diccionarios, self.nombreAtributos, self.tipoAtributos = Datos.transformDataToArray(filename)
                
        pass
    
        
    def extraeDatos(self, idx):
        pass


In [9]:
dataset = Datos("ConjuntosDatos/german.data")
print (dataset.diccionarios)

{'A1': {'A11': 0, 'A12': 1, 'A13': 2, 'A14': 3}, 'A2': {}, 'A3': {'A30': 0, 'A31': 1, 'A32': 2, 'A33': 3, 'A34': 4}, 'A4': {'A40': 0, 'A41': 1, 'A410': 2, 'A42': 3, 'A43': 4, 'A44': 5, 'A45': 6, 'A46': 7, 'A48': 8, 'A49': 9}, 'A5': {}, 'A6': {'A61': 0, 'A62': 1, 'A63': 2, 'A64': 3, 'A65': 4}, 'A7': {'A71': 0, 'A72': 1, 'A73': 2, 'A74': 3, 'A75': 4}, 'A8': {}, 'A9': {'A91': 0, 'A92': 1, 'A93': 2, 'A94': 3}, 'A10': {'A101': 0, 'A102': 1, 'A103': 2}, 'A11': {}, 'A12': {'A121': 0, 'A122': 1, 'A123': 2, 'A124': 3}, 'A13': {}, 'A14': {'A141': 0, 'A142': 1, 'A143': 2}, 'A15': {'A151': 0, 'A152': 1, 'A153': 2}, 'A16': {}, 'A17': {'A171': 0, 'A172': 1, 'A173': 2, 'A174': 3}, 'A18': {}, 'A19': {'A191': 0, 'A192': 1}, 'A20': {'A201': 0, 'A202': 1}, 'Class': {'1': 0, '2': 1}}
