# Apartado 1: Particionado

In [89]:
from Datos import Datos
from ValidacionBootstrap import ValidacionBootstrap
from ValidacionCruzada import ValidacionCruzada
from ValidacionSimple import ValidacionSimple

balloons = Datos('ConjuntosDatos/balloons.data')
tic_tac_toe = Datos('ConjuntosDatos/tic-tac-toe.data')

validaciones = [ValidacionSimple(70), ValidacionCruzada(6), ValidacionBootstrap()]

for val in validaciones:
    val.creaParticiones(tic_tac_toe.datos)
    
    print("\nÍndices de ", val.nombre_estrategia, " para tic-tac-toe: ", sep='')
    for particion in val.particiones:
        print("\tTrain: ", sorted(particion.indicesTrain)[:20], "...", sep='')
        print("\tTest: ", sorted(particion.indicesTest)[:20], "...", sep='')

print("\n\n")
for val in validaciones:
    val.creaParticiones(balloons.datos)
    
    print("\nÍndices de ", val.nombre_estrategia, " para balloons: ", sep='')
    for particion in val.particiones:
        print("\tTrain: ", sorted(particion.indicesTrain), sep='')
        print("\tTest: ", sorted(particion.indicesTest), sep='')



Índices de Validación Simple para tic-tac-toe: 
	Train: [2, 3, 4, 5, 6, 7, 8, 10, 11, 13, 14, 15, 16, 23, 24, 25, 27, 29, 30, 31]...
	Test: [0, 1, 9, 12, 17, 18, 19, 20, 21, 22, 26, 28, 32, 36, 39, 41, 45, 48, 50, 54]...

Índices de Validación cruzada para tic-tac-toe: 
	Train: [1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 20, 21, 23, 24]...
	Test: [0, 4, 14, 19, 22, 25, 29, 42, 48, 50, 54, 63, 80, 82, 94, 96, 99, 101, 104, 106]...
	Train: [0, 1, 2, 4, 5, 6, 7, 8, 9, 12, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]...
	Test: [3, 10, 11, 13, 30, 41, 70, 81, 83, 84, 86, 90, 102, 110, 120, 124, 155, 157, 164, 165]...
	Train: [0, 1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 16, 17, 19, 20, 22, 23]...
	Test: [6, 15, 18, 21, 26, 27, 28, 31, 33, 38, 43, 44, 47, 49, 52, 60, 61, 66, 73, 75]...
	Train: [0, 3, 4, 6, 7, 8, 10, 11, 13, 14, 15, 16, 17, 18, 19, 21, 22, 23, 24, 25]...
	Test: [1, 2, 5, 9, 12, 20, 32, 35, 39, 46, 53, 56, 57, 72, 78, 85, 95, 100, 107, 125]...
	Train: [0, 1, 2, 3, 4

## Descripcción de los índices de train y test

Hemos imprimido los índices ordenados para que sean más fáciles de analizar a simple vista.

Vemos que para validación simple, cogemos todos los índices y aleatoriamente tomamos un porcentaje para test y el resto son de test.

Para validación cruzados vemos cómo se crean las 6 particiones (folds) que hemos especificado, y que en cada una de las particiones los índices de test son diferentes hasta completar todos los índices. Los índices de train de cada partición son los que no hemos tomado para test.

En validación por Bootstrap tomamos como train tantos índices aleatorios como datos haya, permitiendo que haya repeticiones, y los datos de test son aquellos índices que no hemos cogido.


## Ventajas/desventajas de cada una de las validaciones

Validación simple es claramente el más fácil de entender e implementar y si se dividen los datos aleatoriamente funciona bien.

Validación cruzada al hacer más particiones dará una tasa de fallos más realista, pero a costa de tener que realizar múltiples veces el proceso de entrenamiento, haciendo que el tiempo de validación aumente proporcionalmente al número de folds.

El principal inconveniente de Bootstrap es que elegimos para train varias veces los mismos ejemplos, haciendo que la tasa de error esté subestimada.

# Apartado 2: Naive-Bayes

In [90]:
import numpy as np

from ClasificadorNaiveBayes import ClasificadorNaiveBayes

german = Datos('ConjuntosDatos/german.data')
nb = ClasificadorNaiveBayes()

for val in validaciones:
    format_header = "\t%-30s %-30s %-30s"
    format_cell = "\t%-30s %-30f %-30f"
    
    print("\n\n", val.nombre_estrategia, "sin corrección de Laplace:")
    print(format_header % ("", "tasa de error", "desviación típica del error"))
    
    errores, tasa_de_error = nb.validacion(val, balloons, nb, aplicar_correccion_de_laplace=False)
    print(format_cell % ("balloons", tasa_de_error, np.std(errores)))
    
    errores, tasa_de_error = nb.validacion(val, tic_tac_toe, nb, aplicar_correccion_de_laplace=False)
    print(format_cell % ("tic-tac-toe", tasa_de_error, np.std(errores)))
    
    errores, tasa_de_error = nb.validacion(val, german, nb, aplicar_correccion_de_laplace=False)
    print(format_cell % ("german", tasa_de_error, np.std(errores)))
    
    
    print("\n", val.nombre_estrategia, "con corrección de Laplace:")
    print(format_header % ("", "tasa de error", "desviación típica del error"))
    
    errores, tasa_de_error = nb.validacion(val, balloons, nb)
    print(format_cell % ("balloons", tasa_de_error, np.std(errores)))
    
    errores, tasa_de_error = nb.validacion(val, tic_tac_toe, nb)
    print(format_cell % ("tic-tac-toe", tasa_de_error, np.std(errores)))
    
    errores, tasa_de_error = nb.validacion(val, german, nb)
    print(format_cell % ("german", tasa_de_error, np.std(errores)))




 Validación Simple sin corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.000000                       0.000000                      
	tic-tac-toe                    0.267361                       0.442582                      
	german                         0.220000                       0.414246                      

 Validación Simple con corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.166667                       0.372678                      
	tic-tac-toe                    0.291667                       0.454530                      
	german                         0.250000                       0.433013                      


 Validación cruzada sin corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons 

	tic-tac-toe                    0.301670                       0.458983                      


	german                         0.259000                       0.438086                      

 Validación cruzada con corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.000000                       0.000000                      
	tic-tac-toe                    0.299582                       0.458075                      


	german                         0.252000                       0.434161                      


 Validación Bootstrap sin corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.000000                       0.000000                      


	tic-tac-toe                    0.276056                       0.447045                      
	german                         0.242667                       0.428695                      

 Validación Bootstrap con corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.111111                       0.314270                      
	tic-tac-toe                    0.289086                       0.453338                      
	german                         0.234043                       0.423399                      


## Análisis de los resultados

Vemos que para balloons la tasa de fallos es muy baja o nula. Esto es debido a que el número de datos es muy pequeño.

Para tic-tac-toe y German vemos que con validación simple al aplicar la corrección de Laplace la tasa de aciertos mejora, mientras que para validación cruzada permanece prácticamente igual y para bootstrap empeora.

En tic-tac-toe vemos que el porcentaje de errores para cualquiera de las validaciones está en torno a un 30%

En los datos de German el porcentaje de errores es ligeramente menor, estando en torno a un 25%

# Apartado 3: Scikit-Learn

In [91]:
import itertools

from sklearn import preprocessing
from sklearn.model_selection import train_test_split, KFold
from sklearn.naive_bayes import GaussianNB

for dataset in [german, tic_tac_toe]:
    if dataset == german:
        print("german:")
    else:
        print("tic-tac-toe:")
    
    # Encode categorical integer features using a one-hot aka one-of-K scheme (categorical features). Hay DeprecationWarnings
    encAtributos = preprocessing.OneHotEncoder(categorical_features=dataset.nominalAtributos[:-1], sparse=False)
    X = encAtributos.fit_transform(dataset.datos[:, :-1])
    
    # Clases correspondientes a cada uno de los array de X
    y = dataset.datos[:, -1]
    
    # Particiones del modo Validacion Simple
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
    
    # Entrenamiento y clasificacion de X_test
    gnb = GaussianNB()
    y_pred = gnb.fit(X_train, y_train).predict(X_test)
    
    errores = y_pred != y_test
    tasa_de_error = sum(errores) / len(errores)
    
    print("\tTasa de error con validación simple:", tasa_de_error)
    
    # Particiones del modo Validacion Cruzada
    kf = KFold(n_splits=6, shuffle=True)
    
    errores = []
    for train_index, test_index in kf.split(X):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
        
        y_pred = gnb.fit(X_train, y_train).predict(X_test)
        
        errores.append(y_pred != y_test)
    
    errores = list(itertools.chain.from_iterable(errores))
    tasa_de_error = sum(errores) / len(errores)
    print("\tTasa de error con validación cruzada:", tasa_de_error)

print("\n" * 2)


german:
	Tasa de error con validación simple: 0.37666666666666665
	Tasa de error con validación cruzada: 0.277
tic-tac-toe:
	Tasa de error con validación simple: 0.3055555555555556
	Tasa de error con validación cruzada: 0.3246346555323591





In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.
In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


Hemos hecho la mismas validaciones que en el apartado anterior y vemos que los porcentajes de error son muy similares a los que teníamos antes