In [1]:
%matplotlib inline

# Memoria Práctica 1

Autores: Román García y Patricia Losana

In [2]:
from Datos import Datos
from EstrategiaParticionado import *
from Clasificador import *
from Roc import *
import numpy as np
from sklearn import preprocessing 
from sklearn.naive_bayes import MultinomialNB, GaussianNB
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
import pprint
import matplotlib.pyplot as plt
from itertools import cycle
from sklearn.metrics import accuracy_score

## 1. Particionado

Las tres estrategias de particionado implementadas parten de la misma idea principal: dado el conjunto de datos dataset, se genera un array con tantos elementos como filas tenga el conjunto (es decir, los índices). Este array se va a permutar para evitar que las particiones sean generadas sin ningún tipo de sesgo, y, en función de la estrategia, se devolverán unos u otros índices para entrenamiento y pruebas, respectivamente.

A continuación vamos a ver una descripción de los índices de train y test devueltos por cada uno de los métodos de particionado, y las principales ventajas y desventajas de los mismos

### 1.1 Validación Simple

Validación simple contiene un array de Particiones, con tantos elementos como valor tenga el atributo numeroParticiones. El valor 'porcentaje' especifica el porcentaje del array que va a formar parte de los índices de train, de forma que el resto de elementos formarán parte de los índices de test.

Para facilitar la comprensión, se ha acompañado la explicación de una figura. 

![title](img/Simple.png)

Ventajas: es rápido y aleatorio

Inconvenientes: los índices no se dividen de manera controlada. Aunque es improbable, puede darse el caso de que para las numeroParticiones veces que se repita la generación de particiones, los índices de Train y Test estén formados siempre por el mismo subconjunto de datos. 

### 1.2 Validación Cruzada

Validación cruzada contiene un array de Particiones, con tantos elementos como valor tenga el atributo numeroParticiones. El valor 'numeroParticiones' especifica el número de Particiones que se van a hacer del mismo tamaño del array. De esta manera, después de permutar, se iterará numeroParticiones veces y el número de iteración especificará el conjunto de índices que formarán parte de Test.

Para facilitar la comprensión, se ha acompañado la explicación de una figura.

![title](img/Cruzada.png)

Ventaja frente a Validación Simple: es mucho más controlada en cuanto a que tenemos la certeza de que todos los datos van a formar parte de los índices de prueba y entrenamiento, por lo que no hay tanto peligro de sobreaprendizaje.

Un posible inconveniente es que sólo se permuta una vez y que los índices que formen parte del entrenamiento van a ser parecidos en todas las iteraciones (sólo cambiarán K elementos cada vez)

### 1.3 Validación por Bootstrap

La estrategia de particionamiento de bootstrap es similar a la de Validación simple, con la diferencia de que los índices de Train se extraen de manera aleatoria con reemplazamiento (por tanto, puede darse el caso de entrenar varias veces con el mismo dato).

Para lograr esto, se permuta el array de índices cada vez que se selecciona un elemento a incluir en la partición de entrenamiento (el proceso se repite numeroParticiones veces). Posteriormente, el resto de elementos que no se hayan seleccionado como índices de entrenamiento pasarán a formar parte de los índices de prueba.

Ventaja: es totalmente aleatoria

Inconveniente: está aún menos controlada que la validación Simple

## 2. Naive-Bayes

## 2.1 Resultados de ejecución de tic-tac-toe.data

In [3]:
dataset = Datos("ConjuntosDatos/tic-tac-toe.data")

### Validación Simple

##### Sin la corrección de Laplace:

In [4]:
estrategia = ValidacionSimple()
clas = ClasificadorNaiveBayes()
val = clas.validacion(estrategia,dataset,clas)
media_error1 = np.mean(val)
desv_error1 = np.std(val)

print("Promedio del error = ", media_error1, "\nDesviación típica = ", desv_error1)

Promedio del error =  0.33994778067885123 
Desviación típica =  0.02923349347734393


##### Con la corrección de Laplace:

In [5]:
estrategia = ValidacionSimple()
clas = ClasificadorNaiveBayes(laplace=True)
val = clas.validacion(estrategia,dataset,clas)
media_error2 = np.mean(val)
desv_error2 = np.std(val)

print("Promedio del error = ", media_error2, "\nDesviación típica = ", desv_error2)

Promedio del error =  0.33577023498694514 
Desviación típica =  0.00942844390875603


### Validación Cruzada

##### Sin la corrección de Laplace:

In [6]:
estrategia = ValidacionCruzada()
clas = ClasificadorNaiveBayes()
val = clas.validacion(estrategia,dataset,clas)
media_error3 = np.mean(val)
desv_error3 = np.std(val)

print("Promedio del error = ", media_error3, "\nDesviación típica = ", desv_error3)

Promedio del error =  0.3458333333333334 
Desviación típica =  0.21598450304490727


##### Con la corrección de Laplace:

In [7]:
estrategia = ValidacionCruzada()
clas = ClasificadorNaiveBayes(laplace=True)
val = clas.validacion(estrategia,dataset,clas)
media_error4 = np.mean(val)
desv_error4 = np.std(val)

print("Promedio del error = ", media_error4, "\nDesviación típica = ", desv_error4)

Promedio del error =  0.3479166666666667 
Desviación típica =  0.22313073833268443


### Validación por Bootstrap

##### Sin la corrección de Laplace:

In [8]:
estrategia = ValidacionBootstrap()
clas = ClasificadorNaiveBayes()
val = clas.validacion(estrategia,dataset,clas)
media_error5 = np.mean(val)
desv_error5 = np.std(val)

print("Promedio del error = ", media_error5, "\nDesviación típica = ", desv_error5)

Promedio del error =  0.3 
Desviación típica =  0.24494897427831783


##### Con la corrección de Laplace:

In [9]:
estrategia = ValidacionBootstrap()
clas = ClasificadorNaiveBayes(laplace=True)
val = clas.validacion(estrategia,dataset,clas)
media_error6 = np.mean(val)
desv_error6 = np.std(val)

print("Promedio del error = ", media_error6, "\nDesviación típica = ", desv_error6)

Promedio del error =  0.4 
Desviación típica =  0.37416573867739417


## Resultados de ejecución de german.data

In [10]:
dataset = Datos("ConjuntosDatos/german.data")

### Validación Simple

##### Sin la corrección de Laplace:

In [11]:
estrategia = ValidacionSimple()
clas = ClasificadorNaiveBayes()
val = clas.validacion(estrategia,dataset,clas)
media_error = np.mean(val)
desv_error = np.std(val)

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.305 
Desviación típica =  0.010606601717798222


##### Con la corrección de Laplace:

In [12]:
estrategia = ValidacionSimple()
clas = ClasificadorNaiveBayes(laplace=True)
val = clas.validacion(estrategia,dataset,clas)
media_error = np.mean(val)
desv_error = np.std(val)

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.2885 
Desviación típica =  0.02118962010041709


### Validación Cruzada


##### Sin la corrección de Laplace:

In [13]:
estrategia = ValidacionCruzada()
clas = ClasificadorNaiveBayes()
val = clas.validacion(estrategia,dataset,clas)
media_error = np.mean(val)
desv_error = np.std(val)

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.298 
Desviación típica =  0.21070358326331332


##### Con la corrección de Laplace:

In [14]:
estrategia = ValidacionCruzada()
clas = ClasificadorNaiveBayes(laplace=True)
val = clas.validacion(estrategia,dataset,clas)
media_error = np.mean(val)
desv_error = np.std(val)

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.29800000000000004 
Desviación típica =  0.21999090890307263


### Validación por Bootstrap

##### Sin la corrección de Laplace:

In [15]:
estrategia = ValidacionBootstrap()
clas = ClasificadorNaiveBayes()
val = clas.validacion(estrategia,dataset,clas)
media_error = np.mean(val)
desv_error = np.std(val)

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.5 
Desviación típica =  0.4472135954999579


##### Con la corrección de Laplace:

In [16]:
estrategia = ValidacionBootstrap()
clas = ClasificadorNaiveBayes(laplace=True)
val = clas.validacion(estrategia,dataset,clas)
media_error = np.mean(val)
desv_error = np.std(val)

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.3 
Desviación típica =  0.24494897427831783


### Análisis de los resultados

Como se puede observar, los errores promedios son relativamente bajos y no hay grandes cambios se aplique o no la corrección de Laplace.
Las desviaciones típicas de los promedios son bastante altas en la estrategia de validación cruzada y por bootstrap. Este hecho no es sorprendente en el caso del bootstrap, ya que por la forma de seleccionar los datos de entrenamiento, puede no haber no obtenido la información suficiente para predecir correctamente.

## 3. Scikit-Learn

## 3.1 Resultados de ejecución de tic-tac-toe.data

In [17]:
dataset = Datos("ConjuntosDatos/tic-tac-toe.data")

### Validación Simple

##### Sin la corrección de Laplace:

In [18]:
# Encode categorical integer features using a one-hot aka one-of-K scheme (categorical features)
encAtributos = preprocessing.OneHotEncoder(categorical_features=dataset.nominalAtributos[:-1],sparse=False)
# X contendra la matriz de atributos codificada
X = encAtributos.fit_transform(dataset.datos[:,:-1])

# Y contendra la clase de cada patron
Y =dataset.datos[:,-1] 

#Discretos = MultinomialNB
#para no Laplace -> alpha = 0 (pero el valor 0 da un warning)
clf = MultinomialNB(alpha=1.0e-10)

#Validacion Simple
xTrain, xTest, yTrain, yTest = train_test_split(X, Y, train_size = 0.6, test_size = 0.4 )

#Entrena el clasificador a partir de xTrain e yTrain
classifier = clf.fit(xTrain, yTrain)
#Predice el resultado de xTest en base al entrenamiento
pred = classifier.predict(xTest)

# Calcula el error (1 - la precision de la clasificacion)
error = 1  - accuracy_score(pred, yTest)
print("Error =", error)

Error = 0.32291666666666663


##### Con la corrección de Laplace:

In [19]:
# Encode categorical integer features using a one-hot aka one-of-K scheme (categorical features)
encAtributos = preprocessing.OneHotEncoder(categorical_features=dataset.nominalAtributos[:-1],sparse=False)
# X contendra la matriz de atributos codificada
X = encAtributos.fit_transform(dataset.datos[:,:-1])

# Y contendra la clase de cada patron
Y =dataset.datos[:,-1] 

#Discretos = MultinomialNB
#para Laplace -> alpha = 1
clf = MultinomialNB(alpha=1)

#Validacion Simple
xTrain, xTest, yTrain, yTest = train_test_split(X, Y, train_size = 0.6, test_size = 0.4 )

#Entrena el clasificador a partir de xTrain e yTrain
classifier = clf.fit(xTrain, yTrain)
#Predice el resultado de xTest en base al entrenamiento
pred = classifier.predict(xTest)

# Calcula el error (1 - la precision de la clasificacion)
error = 1  - accuracy_score(pred, yTest)
print("Error =", error)

Error = 0.36197916666666663


### Validación Cruzada


##### Sin la corrección de Laplace:

In [20]:
# Encode categorical integer features using a one-hot aka one-of-K scheme (categorical features)
encAtributos = preprocessing.OneHotEncoder(categorical_features=dataset.nominalAtributos[:-1],sparse=False)
# X contendra la matriz de atributos codificada
X = encAtributos.fit_transform(dataset.datos[:,:-1])

# Y contendra la clase de cada patron
Y =dataset.datos[:,-1] 

#Discretos = MultinomialNB
#para no Laplace -> alpha = 0
clf = MultinomialNB(alpha=1.0e-10)

#Validacion Cruzada: obtenemos los resultados de las predicciones de cv iteraciones
pred_kfolds = cross_val_score(clf, X, Y, cv = 5)

#Obtenemos el error de la media de las predicciones
media_error = 1 - pred_kfolds.mean()

#Obtenemos la desviacion tipica de las predicciones
desv_error = pred_kfolds.std()

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.37965224841530354 
Desviación típica =  0.07553484138584828


##### Con la corrección de Laplace:

In [21]:
# Encode categorical integer features using a one-hot aka one-of-K scheme (categorical features)
encAtributos = preprocessing.OneHotEncoder(categorical_features=dataset.nominalAtributos[:-1],sparse=False)
# X contendra la matriz de atributos codificada
X = encAtributos.fit_transform(dataset.datos[:,:-1])

# Y contendra la clase de cada patron
Y =dataset.datos[:,-1] 

#Discretos = MultinomialNB
#para Laplace -> alpha = 1
clf = MultinomialNB(alpha=1)

#Validacion Cruzada: obtenemos los resultados de las predicciones de cv iteraciones
pred_kfolds = cross_val_score(clf, X, Y, cv = 5)

#Obtenemos el error de la media de las predicciones
media_error = 1 - pred_kfolds.mean()

#Obtenemos la desviacion tipica de las predicciones
desv_error = pred_kfolds.std()

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.37965224841530354 
Desviación típica =  0.07553484138584828


## 3.2 Resultados de ejecución de german.data

In [22]:
dataset = Datos("ConjuntosDatos/german.data")

### Validación Simple

In [23]:
# Encode categorical integer features using a one-hot aka one-of-K scheme (categorical features)
encAtributos = preprocessing.OneHotEncoder(categorical_features=dataset.nominalAtributos[:-1],sparse=False)
# X contendra la matriz de atributos codificada
X = encAtributos.fit_transform(dataset.datos[:,:-1])

# Y contendra la clase de cada patron
Y =dataset.datos[:,-1] 

#Continuos = GaussianNB
clf = GaussianNB()

#Validacion Simple
xTrain, xTest, yTrain, yTest = train_test_split(X, Y, train_size = 0.6 , test_size = 0.4)

#Entrena el clasificador a partir de xTrain e yTrain
classifier = clf.fit(xTrain, yTrain)
#Predice el resultado de xTest en base al entrenamiento
pred = classifier.predict(xTest)

# Calcula el error (1 - la precision de la clasificacion)
error = 1  - accuracy_score(pred, yTest)
print("Error =", error)

Error = 0.4375


### Validación Cruzada

In [24]:
# Encode categorical integer features using a one-hot aka one-of-K scheme (categorical features)
encAtributos = preprocessing.OneHotEncoder(categorical_features=dataset.nominalAtributos[:-1],sparse=False)
# X contendra la matriz de atributos codificada
X = encAtributos.fit_transform(dataset.datos[:,:-1])

# Y contendra la clase de cada patron
Y =dataset.datos[:,-1] 

#Discretos = MultinomialNB
#para no Laplace -> alpha = 0
clf = GaussianNB()

#Validacion Cruzada: obtenemos los resultados de las predicciones de cv iteraciones
pred_kfolds = cross_val_score(clf, X, Y, cv = 5)

#Obtenemos el error de la media de las predicciones
media_error = 1 - pred_kfolds.mean()

#Obtenemos la desviacion tipica de las predicciones
desv_error = pred_kfolds.std()

print("Promedio del error = ", media_error, "\nDesviación típica = ", desv_error)

Promedio del error =  0.33299999999999996 
Desviación típica =  0.036551333764994115


### Análisis de los resultados

Como se puede observar, en generar el promedio de error en la librería sklearn es parecido, o incluso peor, que los promedios obtenidos por nuestro clasificador. 
Sin embargo, las desviaciones de la media son menores que nuestro clasificador, lo que quiere decir que los resultados de las ejecuciones son más homogéneos.

## 4. Evaluación de hipótesis mediante Análisis ROC 

## Validación Simple

Matriz de confusión y diagramas del clasificador en el espacio ROC 

In [28]:
r = Roc()
r.medias_roc()
medias = r.calcula_medias_roc()

print(r.simple)
for i in balloons['TPR'].keys():
    plt.figure()
    lw = 2
    plt.plot([0, 1], [0, 1], color='skyblue', lw=lw, linestyle='--')
    plt.xlim([0.0, balloons['FPR'][i]])
    plt.ylim([0.0, balloons['TPR'][i]])
    plt.xlabel('FPR')
    plt.ylabel('TPR')
    plt.title('Espacio ROC balloons.data en Clase ' + str(i) )
    plt.show()


Validacion simple
	Balloons
	German
	Tic-tac-toe
Validacion cruzada
	Balloons
	German
	Tic-tac-toe
Validacion Bootstrap
	Balloons
	German
	Tic-tac-toe

Validacion simple
[{'FPR': {0: 0.5, 1: 0.5}, 'TPR': {0: 0.5, 1: 0.5}},
 {'FPR': {0: 0.783, 1: 0.27}, 'TPR': {0: 0.73, 1: 0.217}},
 {'FPR': {0: 0.0, 1: 0.5}, 'TPR': {0: 0.5, 1: 1.0}}]

Validacion cruzada
[{'FPR': {0: 0.75, 1: 0.45}, 'TPR': {0: 0.55, 1: 0.25}},
 {'FPR': {0: 25.0, 1: 19.975}, 'TPR': {0: 30.025, 1: 25.0}},
 {'FPR': {0: 0.0, 1: 24.0}, 'TPR': {0: 24.0, 1: 48.0}}]

Validacion Bootstrap
[{'FPR': {0: 0.5, 1: 1.0}, 'TPR': {0: 0.0, 1: 0.5}},
 {'FPR': {0: 0.5, 1: 0.5}, 'TPR': {0: 0.5, 1: 0.5}},
 {'FPR': {0: 0.0, 1: 0.5}, 'TPR': {0: 0.5, 1: 1.0}}]
[[{0: {'TPR': 0.5, 'FNR': 0.5, 'FPR': 0.5, 'TNR': 0.5}, 1: {'TPR': 0.5, 'FNR': 0.5, 'FPR': 0.5, 'TNR': 0.5}}, {0: {'TPR': 0.6, 'FNR': 0.4, 'FPR': 0.333, 'TNR': 0.667}, 1: {'TPR': 0.667, 'FNR': 0.333, 'FPR': 0.4, 'TNR': 0.6}}, {0: {'TPR': 0.5, 'FNR': 0.5, 'FPR': 0.5, 'TNR': 0.5}, 1: {'TPR':

NameError: name 'balloons' is not defined

In [None]:
print(german)
for i in german['TPR'].keys():
    plt.figure()
    lw = 2
    plt.plot([0, 1], [0, 1], color='skyblue', lw=lw, linestyle='--')
    plt.xlim([0.0, german['FPR'][i]])
    plt.ylim([0.0, german['TPR'][i]])
    plt.xlabel('FPR')
    plt.ylabel('TPR')
    plt.title('Espacio ROC german.data en Clase ' + str(i) )
    plt.show()


In [None]:
print(tic_tac)
for i in tic_tac['TPR'].keys():
    plt.figure()
    lw = 2
    plt.plot([0, 1], [0, 1], color='skyblue', lw=lw, linestyle='--')
    plt.xlim([0.0, tic_tac['FPR'][i]])
    plt.ylim([0.0, tic_tac['TPR'][i]])
    plt.xlabel('FPR')
    plt.ylabel('TPR')
    plt.title('Espacio ROC tic_tac_toe.data en Clase ' + str(i) )
    plt.show()


## Validación Cruzada