# Práctica 3: RBF

1. Importamos las librerías necesarias

In [6]:
import numpy as np
import pandas as pd
import sklearn
import math
import matplotlib.pyplot as plt

from sklearn.cluster import KMeans
from sklearn.cross_validation import StratifiedShuffleSplit
from scipy.spatial.distance import pdist, squareform
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error, confusion_matrix



2. Recogemos los datos de entrada para configurar la red

In [20]:
train_data =pd.read_csv("basesDatosPr3IMC/csv/train_vote.csv", header=None)
test_data = pd.read_csv("basesDatosPr3IMC/csv/test_vote.csv", header = None)
l2 = True
ratio_rbf = 0.3
eta = 10**-5
classification = False
outputs = 1
porcentaje_neuronas = 0.5

3. Declaramos el main

In [21]:
if __name__ == "__main__":
    entrenar_rbf_total(train_data, test_data, classification, ratio_rbf, l2, eta, outputs)

-----------
Semilla: 100
-----------
Número de RBFs utilizadas: 98
El numero de centros usados:  98
El numero de distancias existentes es:  326
MSE de entrenamiento: 0.017053
MSE de test: 0.049492
-----------
Semilla: 200
-----------
Número de RBFs utilizadas: 98
El numero de centros usados:  98
El numero de distancias existentes es:  326
MSE de entrenamiento: 0.012570
MSE de test: 0.046376
-----------
Semilla: 300
-----------
Número de RBFs utilizadas: 98
El numero de centros usados:  98
El numero de distancias existentes es:  326
MSE de entrenamiento: 0.013825
MSE de test: 0.044510
-----------
Semilla: 400
-----------
Número de RBFs utilizadas: 98
El numero de centros usados:  98
El numero de distancias existentes es:  326
MSE de entrenamiento: 0.015720
MSE de test: 0.044486
-----------
Semilla: 500
-----------
Número de RBFs utilizadas: 98
El numero de centros usados:  98
El numero de distancias existentes es:  326
MSE de entrenamiento: 0.015434
MSE de test: 0.048989

**************

3. Declaramos la función entrenar_rbf_total

In [8]:
def entrenar_rbf_total(train_data, test_data, classification, ratio_rbf, l2, eta, outputs):
    """ Modelo de aprendizaje supervisado mediante red neuronal de tipo RBF.
        Ejecución de 5 semillas.
    """
    train_mses = np.empty(5)
    train_ccrs = np.empty(5)
    test_mses = np.empty(5)
    test_ccrs = np.empty(5)

    for s in range(100,600,100):   
        print("-----------")
        print("Semilla: %d" % s)
        print("-----------")     
        np.random.seed(s)
        train_mses[s//100-1], test_mses[s//100-1], train_ccrs[s//100-1], test_ccrs[s//100-1], matriz_confusion = \
            entrenar_rbf(train_data, test_data, classification, ratio_rbf, l2, eta, outputs)
        print("MSE de entrenamiento: %f" % train_mses[s//100-1])
        print("MSE de test: %f" % test_mses[s//100-1])
        if classification:
            print("CCR de entrenamiento: %.2f%%" % train_ccrs[s//100-1])
            print("CCR de test: %.2f%%" % test_ccrs[s//100-1])
    
    print("\n*********************")
    print("Resumen de resultados")
    print("*********************")
    print("MSE de entrenamiento: %f +- %f" % (np.mean(train_mses), np.std(train_mses)))
    print("MSE de test: %f +- %f" % (np.mean(test_mses), np.std(test_mses)))
    if classification:
        print("CCR de entrenamiento: %.2f%% +- %.2f%%" % (np.mean(train_ccrs), np.std(train_ccrs)))
        print("CCR de test: %.2f%% +- %.2f%%" % (np.mean(test_ccrs), np.std(test_ccrs)))
        print("La matriz de confusión es la siguiente:")
        print(matriz_confusion)

4. Delaramos la cunción entrenar_rbf

In [9]:
def entrenar_rbf(train_data, test_data, classification, ratio_rbf, l2, eta, outputs):
    """ Modelo de aprendizaje supervisado mediante red neuronal de tipo RBF.
        Una única ejecución.
        Recibe los siguientes parámetros:
            - train_file: nombre del fichero de entrenamiento.
            - test_file: nombre del fichero de test.
            - classification: True si el problema es de clasificacion.
            - ratio_rbf: Ratio (en tanto por uno) de neuronas RBF con 
              respecto al total de patrones.
            - l2: True si queremos utilizar L2 para la Regresión Logística. 
              False si queremos usar L1 (para regresión logística).
            - eta: valor del parámetro de regularización para la Regresión 
              Logística.
            - outputs: número de variables que se tomarán como salidas 
              (todas al final de la matriz).
        Devuelve:
            - train_mse: Error de tipo Mean Squared Error en entrenamiento. 
              En el caso de clasificación, calcularemos el MSE de las 
              probabilidades predichas frente a las objetivo.
            - test_mse: Error de tipo Mean Squared Error en test. 
              En el caso de clasificación, calcularemos el MSE de las 
              probabilidades predichas frente a las objetivo.
            - train_ccr: Error de clasificación en entrenamiento. 
              En el caso de regresión, devolvemos un cero.
            - test_ccr: Error de clasificación en test. 
              En el caso de regresión, devolvemos un cero.
    """
    train_inputs, train_outputs, test_inputs, test_outputs = lectura_datos(train_data, test_data, outputs)

    #TODO: Obtener num_rbf a partir de ratio_rbf
    num_rbfs=int(round(ratio_rbf*len(train_inputs)))  #Multiplicar el ratio por el numero de patrones de train
    print("Número de RBFs utilizadas: %d" %(num_rbfs))

    kmedias, distancias, centros = clustering(classification, train_inputs, train_outputs, num_rbfs)
    radios = calcular_radios(centros, num_rbfs)
    matriz_r = calcular_matriz_r(distancias, radios)
    
    if not classification:
        coefficients = invertir_matriz_regresion(matriz_r, train_outputs)
    else:
        logreg = logreg_clasificacion(matriz_r, train_outputs, eta, l2)

    """
    TODO: Calcular las distancias de los centroides a los patrones de test
          y la matriz R de test
    """
    distancias_test = kmedias.transform(test_inputs)
    matriz_r_test = calcular_matriz_r(distancias_test, radios)
    
    if not classification:
        """
        TODO: Obtener las predicciones de entrenamiento y de test y calcular
              el MSE
        """
        predicted_test_a = np.dot(matriz_r_test, coefficients)
        predicted_train_a = np.dot(matriz_r, coefficients)
        
        predicted_test= np.round(predicted_test_a)
        predicted_train= np.round(predicted_train_a) 
        
        predicted_test += 0.
        predicted_train += 0.
        
        test_mse = mean_squared_error(test_outputs, predicted_test_a)
        train_mse = mean_squared_error(train_outputs, predicted_train_a)
        
        train_ccr = 0
        test_ccr = 0
        matriz_confusion = np.ones(predicted_train.shape)
    else:
        """
        TODO: Obtener las predicciones de entrenamiento y de test y calcular
              el CCR. Calcular también el MSE, comparando las probabilidades 
              obtenidas y las probabilidades objetivo
        """
        predicted_train = logreg.predict(matriz_r)
        predicted_test = logreg.predict(matriz_r_test)
        
        train_mse = mean_squared_error(predicted_train, train_outputs)
        test_mse = mean_squared_error(predicted_test, test_outputs)
        
        train_ccr = logreg.score(matriz_r, train_outputs)*100
        test_ccr = logreg.score(matriz_r_test, test_outputs)*100
        
        #Mostramos la matriz de confusion
        matriz_confusion = confusion_matrix(test_outputs, predicted_test)
       
    return train_mse, test_mse, train_ccr, test_ccr, matriz_confusion

5. Declaramos la función para leer los datos


In [10]:
def lectura_datos(train_data, test_data, outputs):
    """ Realiza la lectura de datos.
        Recibe los siguientes parámetros:
            - fichero_train: nombre del fichero de entrenamiento.
            - fichero_test: nombre del fichero de test.
            - outputs: número de variables que se tomarán como salidas 
              (todas al final de la matriz).
        Devuelve:
            - train_inputs: matriz con las variables de entrada de 
              entrenamiento.
            - train_outputs: matriz con las variables de salida de 
              entrenamiento.
            - test_inputs: matriz con las variables de entrada de 
              test.
            - test_outputs: matriz con las variables de salida de 
              test.
    """
    
    train_inputs = train_data.values[:, 0:-outputs];
    train_outputs = train_data.values[:, -outputs];#Guarda las clases existentes

    test_inputs = test_data.values[:, 0:-outputs];
    test_outputs = test_data.values[:, -outputs];
    #TODO: Completar el código de la función
    return train_inputs, train_outputs, test_inputs, test_outputs

6. Declaramos la función clustering:

Para realizar el clustering, vamos primero a inicializar los centros. Si se trata de un problema de clasificación, dividiremos los centros de una manera estratificada. En caso contrario, es decir, en regresión, inicializaremos los centros de manera aleatoria.

In [11]:
def clustering(clasificacion, train_inputs, train_outputs, num_rbfs):
    if classification == True:
        centros = inicializar_centroides_clas(train_inputs, train_outputs, num_rbfs)
    else:
        centros = train_inputs[np.random.choice(train_inputs.shape[0], num_rbfs, replace=False), :]
    
    kmedias = KMeans(n_init=1, max_iter=500, n_clusters=num_rbfs, init=centros).fit(train_inputs)
    centros = kmedias.cluster_centers_
    print("El numero de centros usados: ", len(centros))
    distancias = kmedias.transform(train_inputs)
    print("El numero de distancias existentes es: ", len(distancias))
    
    return kmedias, distancias, centros

7. Declaramos la función para inicializar los centros

En esta función utilizaremos la función proporcionada por scklearn llamada StratifiedShuffleSplit, la cual inicializa los centros de manera estratificada. Para ello, elegimos el número de iteraciones para 

In [12]:
def inicializar_centroides_clas(train_inputs, train_outputs, num_rbfs):
    """ Inicializa los centroides para el caso de clasificación.
        Debe elegir los patrones de forma estratificada, manteniendo
        la proporción de patrones por clase.
        Recibe los siguientes parámetros:
            - train_inputs: matriz con las variables de entrada de 
              entrenamiento.
            - train_outputs: matriz con las variables de salida de 
              entrenamiento.
            - num_rbf: número de neuronas de tipo RBF.
        Devuelve:
            - centroides: matriz con todos los centroides iniciales
                          (num_rbf x num_entradas).
    """
    
    #TODO: Completar el código de la función
    sss = StratifiedShuffleSplit(train_outputs, n_iter=10, train_size=num_rbfs, test_size=None)
    print(train_inputs)
    for train_index, test_index in sss:
        centroides = train_inputs[train_index,:]
    
    indice = 0
   
    while centroides.shape[0] < num_rbfs:        
        centroides = np.r_[centroides, [train_inputs[test_index[indice]]]] 
        indice += 1
        
    while centroides.shape[0] > num_rbfs:
        centroides = centroides[np.random.choice(centroides.shape[0], num_rbfs,0),:]
    return centroides

8. Declaramos la función para calcular los radios

In [13]:
def calcular_radios(centros, num_rbfs):
    """ Calcula el valor de los radios tras el clustering.
        Recibe los siguientes parámetros:
            - centros: conjunto de centroides.
            - num_rbf: número de neuronas de tipo RBF.
        Devuelve:
            - radios: vector (num_rbf) con el radio de cada RBF.
    """

    distancias_centros = squareform(pdist(centros, 'euclidean'))
    radios = distancias_centros.sum(axis=1)
    radios = radios/(2*num_rbfs-1)
    return radios

9. Declaramos la función para calcular la matriz de salidas

In [14]:
def calcular_matriz_r(distancias, radios):
    """ Devuelve el valor de activación de cada neurona para cada patrón 
        (matriz R en la presentación)
        Recibe los siguientes parámetros:
            - distancias: matriz (num_patrones x num_rbf) con la distancia 
              desde cada patrón hasta cada rbf.
            - radios: array (num_rbf) con el radio de cada RBF.
        Devuelve:
            - matriz_r: matriz (num_patrones x (num_rbf+1)) con el valor de 
              activación (out) de cada RBF para cada patrón. Además, añadimos
              al final, en la última columna, un vector con todos los 
              valores a 1, que actuará como sesgo.
    """
    matriz_r = np.ones(shape = (distancias.shape[0], distancias.shape[1]+1))
    matriz_r[:,:-1] =  np.exp(-(distancias**2)/(2*(np.power(radios, 2))))

    return matriz_r

10. Declaramos la función para invertir la matriz R cuando estamos en regresión

In [15]:
def invertir_matriz_regresion(matriz_r, train_outputs):
    """ Devuelve el vector de coeficientes obtenidos para el caso de la 
        regresión (matriz beta en las diapositivas)
        Recibe los siguientes parámetros:
            - matriz_r: matriz (num_patrones x (num_rbf+1)) con el valor de 
              activación (out) de cada RBF para cada patrón. Además, añadimos
              al final, en la última columna, un vector con todos los 
              valores a 1, que actuará como sesgo.
            - train_outputs: matriz con las variables de salida de 
              entrenamiento.
        Devuelve:
            - coeficientes: vector (num_rbf+1) con el valor del sesgo y del 
              coeficiente de salida para cada rbf.
    """
    coefficients = np.transpose(np.dot(np.linalg.pinv(matriz_r), train_outputs))

    return coefficients

11. Declaramos la función para calcular la regresión logística L1 o L2

In [16]:
def logreg_clasificacion(matriz_r, train_outputs, eta, l2):
    """ Devuelve el objeto de tipo regresión logística obtenido a partir de la
        matriz R.
        Recibe los siguientes parámetros:
            - matriz_r: matriz (num_patrones x (num_rbf+1)) con el valor de 
              activación (out) de cada RBF para cada patrón. Además, añadimos
              al final, en la última columna, un vector con todos los 
              valores a 1, que actuará como sesgo.
            - train_outputs: matriz con las variables de salida de 
              entrenamiento.
            - eta: valor del parámetro de regularización para la Regresión 
              Logística.
            - l2: True si queremos utilizar L2 para la Regresión Logística. 
              False si queremos usar L1.
        Devuelve:
            - logreg: objeto de tipo sklearn.linear_model.LogisticRegression ya
              entrenado.
    """

    if l2 == True:
        logreg = LogisticRegression(penalty='l2', C=1/eta, solver='liblinear', fit_intercept=False).fit(matriz_r,train_outputs)
    else:
        logreg = LogisticRegression(penalty='l1', C=1/eta, solver='liblinear', fit_intercept=False).fit(matriz_r,train_outputs)
    
    return logreg

In [None]:
plt.plot(train_data.sort_values(by=0).values[:,0], train_data.sort_values(by=0).values[:,1])