Proyecto: Evaluación de coches
===
Autores: Lidia Concepción Echeverría y Francisco Ponce Belmonte
---

Nuestro dataset contiene como atributos una serie de características de un coche y como resultado una evaluación del coche en su conjunto (no aceptable, aceptable, bueno y muy bueno). El objetivo de nuestro proyecto consiste en analizar esta evaluación subjetiva y poder predecir nuevas evaluaciones sobre otros coches, dadas sus características.

Los atributos de los que disponemos para analizar el dataset, son los siguientes (en orden):
* __Buying__: precio de compra del coche. Sus valores se dividen en [v-high, high, med, low].
* __Maint__: precio de mantenimiento. Sus valores se dividen en [v-high, high, med, low].
* __Doors__: número de puertas. Sus valores se dividen en [2, 3, 4, 5-more].
* __Persons__: número de pasajeros. Sus valores se dividen en [2, 4, more].
* __Lug-boot__: tamaño del maletero. Sus valores se dividen en [small, med, big].
* __Safety__: seguridad estimada del coche. Sus valores se dividen en [low, med, high].

La proporción de los resultados de la valoración en la muestra es de:
* __Unacceptable__ (inaceptable): 1210, (70.023 %) 
* __Acceptable__ (aceptable): 384, (22.222 %) 
* __Good__ (bueno): 69, (3.993 %)
* __Very Good__ (muy bueno): 65, (3.762 %) 

In [1]:
%matplotlib notebook
import csv
import pandas as pd
from scipy.io import loadmat
import numpy as np
import scipy.optimize as opt
from pandas.io.parsers import read_csv
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
from matplotlib import cm
from sklearn.preprocessing import PolynomialFeatures
import sklearn.svm as svm

In [2]:
def load_data(filename):
    data = pd.read_csv(filename, header=None, delimiter=',').values
    attrnum = data.shape[1]-1
    return data[:, :attrnum], data[:, attrnum]

Al disponer de valores discretos y no numéricos, hemos utilizado la función factorize de pandas, para poder trabajar con ellos de forma más sencilla.

In [3]:
data, y = load_data('car.csv')
y, label = pd.factorize(y)

for i in range(data.shape[1]):
    data[:,i], labels= pd.factorize(data[:,i])

data = data.astype('float64')
y = y.astype('float64')
y = y.reshape(len(y),1)

# Añadimos la columna de unos a x para el entrenamiento
unos = np.full((y.shape[0],1),1)
th =np.zeros((7,1))
x = np.append(unos.astype('float64'), data, axis=1)

Además de la carga habitual de los datos, realizamos una división de los mismos, en función de su resultado en la clasificación. De esta forma, podremos tener un conjunto de datos para entrenamiento, otro para validación y un último para testeo, todos con la misma proporción en la clasificación.

In [4]:
def seleccion(x, y, valor):
    matriz_x = []
    matriz_y = []
    for i in range(len(y)):
        if(y[i] == valor):
            matriz_x.append(x[i])
            matriz_y.append(y[i])
    return np.array(matriz_x), np.array(matriz_y)

In [5]:
percent_train = 0.8
percent_val = 0.1
x0, y0 = seleccion(x,y, 0)
x1, y1 = seleccion(x,y, 1)
x2, y2 = seleccion(x,y, 2)
x3, y3 = seleccion(x,y, 3)

x0train = x0[:int(x0.shape[0] * percent_train)]
x1train = x1[:int(x1.shape[0] * percent_train)]
x2train = x2[:int(x2.shape[0] * percent_train)]
x3train = x3[:int(x3.shape[0] * percent_train)]

y0train = y0[:int(y0.shape[0] * percent_train)]
y1train = y1[:int(y1.shape[0] * percent_train)]
y2train = y2[:int(y2.shape[0] * percent_train)]
y3train = y3[:int(y3.shape[0] * percent_train)]

x0val = x0[int(x0.shape[0] * percent_train):int(x0.shape[0] * percent_train+x0.shape[0] * percent_val)]
x1val = x1[int(x1.shape[0] * percent_train):int(x1.shape[0] * percent_train+x1.shape[0] * percent_val)]
x2val = x2[int(x2.shape[0] * percent_train):int(x2.shape[0] * percent_train+x2.shape[0] * percent_val)]
x3val = x3[int(x3.shape[0] * percent_train):int(x3.shape[0] * percent_train+x3.shape[0] * percent_val)]

y0val = y0[int(y0.shape[0] * percent_train):int(y0.shape[0] * percent_train+y0.shape[0] * percent_val)]
y1val = y1[int(y1.shape[0] * percent_train):int(y1.shape[0] * percent_train+y1.shape[0] * percent_val)]
y2val = y2[int(y2.shape[0] * percent_train):int(y2.shape[0] * percent_train+y2.shape[0] * percent_val)]
y3val = y3[int(y3.shape[0] * percent_train):int(y3.shape[0] * percent_train+y3.shape[0] * percent_val)]

x0test = x0[int(x0.shape[0] * percent_train+x0.shape[0] * percent_val):]
x1test = x1[int(x1.shape[0] * percent_train+x1.shape[0] * percent_val):]
x2test = x2[int(x2.shape[0] * percent_train+x2.shape[0] * percent_val):]
x3test = x3[int(x3.shape[0] * percent_train+x3.shape[0] * percent_val):]

y0test = y0[int(y0.shape[0] * percent_train+y0.shape[0] * percent_val):]
y1test = y1[int(y1.shape[0] * percent_train+y1.shape[0] * percent_val):]
y2test = y2[int(y2.shape[0] * percent_train+y2.shape[0] * percent_val):]
y3test = y3[int(y3.shape[0] * percent_train+y3.shape[0] * percent_val):]

xtrain = np.concatenate((x0train,x1train,x2train,x3train))
ytrain = np.concatenate((y0train,y1train,y2train,y3train))

xval = np.concatenate((x0val,x1val,x2val,x3val))
yval = np.concatenate((y0val,y1val,y2val,y3val))

xtest = np.concatenate((x0test,x1test,x2test,x3test))
ytest = np.concatenate((y0test,y1test,y2test,y3test))

OneVsAll
===
Como primer abordaje al dataset, y sabiendo que se trata de un problema de clasificación, nos hemos decantado por utilizar el método OneVsAll, visto en la primera parte de la práctica 3. De esta forma, podemos entrenar múltiples clasificadores, uno por cada resultado posible. 

Además de la función OneVsAll, hemos incluido las funciones requeridas de la misma práctica para que éste funcione.

In [6]:
def sigmoide(z):
    s = np.dot(z,-1)
    e = np.exp(s)
    d = 1 + e
    return 1/d

In [7]:
def coste(th, x, y, lamda=1):
    g = sigmoide(np.dot(x,th))
    log1 = np.log(g)
    log2 = np.log(1-g)
    tr1 = np.dot(np.transpose(log1),y)
    tr2 = np.dot(np.transpose(log2),(1-y))
    c = -(tr1+tr2)/len(y)
    s = np.sum(th**2)/(2*len(y))
    return c + lamda*s

In [8]:
def lrgradientReg(theta,X,y, reg):
    m = y.size
    h = sigmoide(X.dot(theta.reshape(-1,1)))
      
    grad = (1/m)*X.T.dot(h-y) + (reg/m)*np.r_[[[0]],theta[1:].reshape(-1,1)]
        
    return(grad.flatten())

In [9]:
def oneVsAll(X, y, num_etiquetas, reg=0):
    matriz = []
    calificacion = np.zeros((num_etiquetas,X.shape[0]))
    th = np.zeros((7,1))
    for i in range(num_etiquetas):
        c = np.isin(y,i)
        result = opt.fmin_tnc(func=coste, x0=th, fprime=lrgradientReg, args=(X, c*1,reg))
        matriz.append(result[0])
    j = np.dot(matriz,np.transpose(X))
    for u in range(len(X)):
        calificacion[np.argmax(j[:,u])][u] = 1
    return np.transpose(calificacion), np.asarray(matriz).T

In [10]:
def testeo(y, f):
    result = np.argmax(f,axis=1).reshape(f.shape[0],1)   
    result = (result == (y))*1
    porcentaje = (sum(result)*100) / y.shape[0]
    return result, porcentaje

In [11]:
regs = [0, 0.1, 1, 10, 100, 1000]

for i in regs:
    f, matriz =oneVsAll(xtrain,ytrain,4,i)
    print("Término de regularización: ", i)
    print("Resultados: ", testeo(ytrain,f)[1][0])
    print()

Término de regularización:  0
Resultados:  83.86396526772793

Término de regularización:  0.1
Resultados:  83.06801736613603

Término de regularización:  1
Resultados:  81.83791606367583

Término de regularización:  10
Resultados:  77.71345875542691

Término de regularización:  100
Resultados:  73.22720694645442

Término de regularización:  1000
Resultados:  70.04341534008682



Como podemos observar tras múltiples pruebas, cuanto menor es el término de regularización, mayor es el porcentaje de acierto. A medida que crece el término, el porcentaje de aciertos termina coincidiendo con el porcentaje de casos Inaceptables. Al ser el caso con mayor porcentaje, el clasificador identifica como válida una solución en la que todos los coches sean inaceptables.

Comprobación curva aprendizaje
==
Para visualizar si nuestro algoritmo está aprendiendo correctamente, hemos decidido combinar la curva de aprendizaje estudiada durante la práctica 5 con el clasificador oneVsAll. De esta forma, a medida que aumente el volumen de datos, podremos comprobar el error generado por el clasificador, a la vez que aplicarlo sobre los datos de validación.

In [12]:
def curva_aprendizaje(x,y,xval,yval):
    pesos = []
    error = []
    val = []
    for i in range(len(x)):
        pesos.append(oneVsAll(x[0:i+1],y[0:i+1],4,0.5)[1])
        error.append(np.sum(np.square(np.dot(x[0:i+1],pesos[i]) - y[0:i+1]))/(2*(i+1)))
        val.append(np.sum(np.square(np.dot(xval,pesos[i]) - (yval)))/(2*len(xval)))
    return error, val

In [13]:
error, val = curva_aprendizaje(xtrain,ytrain,xval,yval)

In [14]:
plt.figure()
plt.plot(range(len(xtrain)),np.asarray(error).T, label= 'train error')
plt.plot(range(len(xtrain)),np.asarray(val).T, label = 'cross val')
plt.legend(loc= 'upper left')

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x22640696518>

Tras observar los resultados, podemos ver que el error aumenta, por lo que está aprendiendo. Finalmente, se puede ver que, al estar separadas al final las dos gráficas, se produce sesgo. Esto se debe a que el volumen de datos del tipo Inaceptable es mucho mayor al resto.

Redes Neuronales
==
Después de implementar el clasificador OneVsAll, decidimos probar otros métodos para poder comparar los resultados. Nuestra siguiente opción resultó ser una red neuronal, tal y como vimos en las prácticas 3 y 4. Debido a la poca cantidad de atributos y salidas posibles, nos decantamos por una red neuronal con una capa intermedia de tamaño (7,5) y una de salida de tamaño (6,4). 

Al no tener conocimiento sobre pesos adecuados para el problema, hemos utilizado el mismo generador de pesos aleatorios que vimos en la práctica 4.

In [15]:
def pesosAleatorios(L_in, L_out):
    e_ini = 0.12
    pesos = np.random.uniform(-e_ini,e_ini,size=(L_out, L_in+1))
    return pesos

Para comenzar, hemos utilizado el método de propagación hacia delante, visto en la práctica 3, y utilizando la red neuronal generada anteriormente con los pesos aleatorios.

In [16]:
def propagacion (x,th):
    a = []
    unos = np.full((x.shape[0],1),1)
    for i in range(len(x)):
        z = np.dot(x[i],np.transpose(th))
        a.append(sigmoide(z))

    return np.append(unos,a, axis = 1)

In [17]:
for i in range(10):
    theta1 = pesosAleatorios(6,5)
    theta2 = pesosAleatorios(5,4)
    f = propagacion(x,theta1)
    f2 = propagacion(f,theta2)
    f = np.copy(f2[:,1:])
    print("Resultado en prueba número ", i+1, ": ", testeo(y,f)[1][0])

Resultado en prueba número  1 :  22.22222222222222
Resultado en prueba número  2 :  3.761574074074074
Resultado en prueba número  3 :  3.761574074074074
Resultado en prueba número  4 :  3.761574074074074
Resultado en prueba número  5 :  3.761574074074074
Resultado en prueba número  6 :  3.9930555555555554
Resultado en prueba número  7 :  70.02314814814815
Resultado en prueba número  8 :  22.22222222222222
Resultado en prueba número  9 :  3.761574074074074
Resultado en prueba número  10 :  7.581018518518518


Debido a la aleatoriedad de los pesos, los resultados de la propagación hacia delante varían, desde un 0 % hasta un 97,8 % en el mejor de los casos observado.

Back-propagation
===
Ampliando nuestra investigación dentro de las redes neuronales, acabamos probando el método de back-propagation. Para ello, empleamos el código utilizado en la práctica 4.

In [18]:
def coste_no_reg(h,Y,num_etiquetas):  
    c = 0
    for i in range(num_etiquetas):
        y = (Y==i+1)*1
        c += sum(-y*(np.log(h[i])) - (1-y)*(np.log(1-h[i])))
        
    return c / Y.shape[0]

In [19]:
def coste_reg(h, Y, th1, th2, num_etiquetas, reg):
    m = Y.shape[0]
    th1[0] = 0
    th2[0] = 0
    c = coste_no_reg(h,Y,num_etiquetas)
    c += (sum(sum(th1**2)) + sum(sum(th2**2))) * (reg/m*2)
       
    return c

In [20]:
def deriv_sig(Z):
    sig = sigmoide(Z)
    return sig * (1 - sig)

In [21]:
def prop(X,th1,th2): 
    a1 = sigmoide(np.dot(X, th1.T))
    a1 = np.concatenate((np.ones([a1.shape[0],1]),a1),axis=1)
    a2 = sigmoide(np.dot(a1, th2.T))
    
    return a2

In [22]:
def retro_prop(X, Y, th1, th2, reg, num_etiquetas):    
    a1 = sigmoide(np.dot(X, theta1.T))
    a2 = np.concatenate((np.ones([a1.shape[0],1]),a1),axis=1)
    a3 = sigmoide(np.dot(a2, theta2.T))
    
    y = np.zeros((Y.shape[0],num_etiquetas))    
    for i in range (num_etiquetas):
        y[i, Y[i]-1] = 1 
        
    s3 = a3 - y
    s2 = np.dot(s3, th2)[:,1:]
    s2 = s2 * deriv_sig(np.dot(X, th1.T))
    delta1 = np.dot(s2.T, X)
    delta2 = np.dot(s3.T, a2)

    m = Y.shape[0]
    grad1 = delta1/m
    grad2 = delta2/m
    
    th1[:,1]=0
    th2[:,1]=0
    grad1 = grad1+(reg/m)*th1
    grad2 = grad2+(reg/m)*th2
    
    return np.concatenate((np.ravel(grad1),np.ravel(grad2))) 

In [23]:
def backprop (params_rn, num_entradas, num_ocultas, num_etiquetas, X, Y, reg ):
    th1 = np.reshape(params_rn [:num_ocultas * (num_entradas + 1)], (num_ocultas, (num_entradas + 1)))
    th2 = np.reshape(params_rn [num_ocultas * (num_entradas + 1):], (num_etiquetas, (num_ocultas + 1)))    
    p = prop(X,th1,th2).T

    coste = coste_reg(p, Y, th1, th2, num_etiquetas, reg)
    grad = retro_prop(X, Y, th1, th2, reg, num_etiquetas)

    return coste, grad

In [24]:
def aprendNN(X, Y, params, num_entradas, num_ocultas, num_etiquetas, lamb, maxiter):
    fmin = opt.minimize(fun=backprop, x0=params, 
                        args=(num_entradas, num_ocultas, num_etiquetas, X, Y, lamb),
                        method='TNC', jac=True, options={'maxiter': maxiter})
    
    theta1 = np.reshape(fmin.x [:num_ocultas * (num_entradas + 1)], (num_ocultas, (num_entradas + 1)))
    theta2 = np.reshape(fmin.x [num_ocultas * (num_entradas + 1):], (num_etiquetas, (num_ocultas + 1)))
    
    res = prop(X,theta1,theta2)   
    result = np.argmax(res,axis=1)     
    result = (result == (Y))*1
    
    porcentaje = (sum(result)*100) / Y.shape[0]

    return porcentaje

De nuevo, para realizar la prueba, generamos una nueva red con los pesos aleatorios.

In [25]:
theta1 = pesosAleatorios(6,5)
theta2 = pesosAleatorios(5,4)

In [26]:
yt = np.array(y.T)[0]    
theta_vec = np.concatenate((np.ravel(theta1),np.ravel(theta2)))
num_entradas = theta1.shape[1]-1
num_ocultas = theta1.shape[0]
aprendNN(x.astype('int'),yt.astype('int'),theta_vec,num_entradas, num_ocultas, 4, 0.1, 2000)

70.02314814814815

Precisamente por la aleatoriedad de la red, los valores obtenidos mediante este método varían, llegando como mucho al 70.023 % de aciertos. Este resultado coincide con el porcentaje de casos Inaceptables, por lo que podemos deducir que la red se sobreentrena y sólo acepta casos de cierto tipo. Por tanto, esta prueba tampoco resulta concluyente.

Support Vector Machines (SVM)
===
Como última prueba, hemos utilizado las SVMs estudiadas en la práctica 6. En este caso, al tener más de dos resultados posibles en la clasificación, hemos decidido emplear un kernel gaussiano (rbf). De la misma forma que en la práctica, entrenamos el modelo múltiples veces, modificando los valores de los parámetros C y sigma para encontrar los que mejor resultado den en este problema. 

In [27]:
def train_model_rbf(X, Y, Xval, Yval):
    modelo = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30]
    maxPredict = 0
    for i in modelo:
        for j in modelo:
            svc = svm.SVC(kernel='rbf', C = i, gamma = 1 / (2 * j**2))
            svc.fit(X,Y)

            prediction = np.sum((svc.predict(Xval) == Yval) * 1)
            percent = prediction / Yval.shape[0] * 100
            if percent > maxPredict:
                maxPredict = percent
                maxC = i
                maxSig = j
                print("Nuevo máximo: ", percent, "con C = ", i, ", sigma = ", j)
    
    return maxC, maxSig
maxC, maxSig = train_model_rbf(xtrain, ytrain.ravel(), xval, yval.ravel())

Nuevo máximo:  70.34883720930233 con C =  0.01 , sigma =  0.01
Nuevo máximo:  73.25581395348837 con C =  0.1 , sigma =  1
Nuevo máximo:  78.48837209302324 con C =  0.1 , sigma =  3
Nuevo máximo:  91.86046511627907 con C =  0.3 , sigma =  1
Nuevo máximo:  94.18604651162791 con C =  1 , sigma =  1
Nuevo máximo:  95.34883720930233 con C =  3 , sigma =  1
Nuevo máximo:  96.51162790697676 con C =  10 , sigma =  1


Tras la ejecución de entrenamiento, aplicando los conjuntos de entrenamiento y de validación, tomamos el último y mejor resultado de ambos parámetros. Para comprobar que no está sobreentrenando, aplicamos estos parámetros en la predicción sobre el conjunto de testeo, que no ha sido utilizado para el entrenamiento.

In [28]:
svc = svm.SVC(kernel='rbf', C = maxC, gamma = 1 / (2 * maxSig**2))
svc.fit(xtrain,ytrain.ravel())

prediction = np.sum((np.array(svc.predict(xtest)) == ytest.ravel()) * 1)
percent = prediction / ytest.shape[0] * 100
percent

85.63218390804597

Como podemos comprobar, el porcentaje de acierto resulta menor que el dado durante el entrenamiento, pero sigue siendo un buen resultado válido.

Conclusión
===
Resultados
---
Para recapitular, echaremos un vistazo a los aciertos producidos durante todas las pruebas vistas anteriormente:
* __OneVsAll__: 83,86 %, sin término de regularización.
* __Propagación hacia delante__: Aleatorio, no concluyente.
* __Back-propagation__: 70,023 %, coincidente con datos de tipo Inaceptable.
* __SVM__: 85,63 %, en testeo.

Vistos los resultados, podemos concluir que las SVM son más efectivas en este dataset. Además, al no tener un gran volumen de datos, no surge el principal inconveniente de que tarde en ser entrenado. 