In [63]:
from Datos import Datos
from ValidacionBootstrap import ValidacionBootstrap
from ValidacionCruzada import ValidacionCruzada
from ValidacionSimple import ValidacionSimple

balloons = Datos('ConjuntosDatos/balloons.data')
tic_tac_toe = Datos('ConjuntosDatos/tic-tac-toe.data')

validaciones = [ValidacionSimple(70), ValidacionCruzada(6), ValidacionBootstrap()]

for val in validaciones:
    val.creaParticiones(tic_tac_toe.datos)
    
    print("\nÍndices de ", val.nombre_estrategia, " para tic-tac-toe: ", sep='')
    for particion in val.particiones:
        print("\tTrain: ", sorted(particion.indicesTrain)[:20], "...", sep='')
        print("\tTest: ", sorted(particion.indicesTest)[:20], "...", sep='')

print("\n\n")
for val in validaciones:
    val.creaParticiones(balloons.datos)
    
    print("\nÍndices de ", val.nombre_estrategia, " para balloons: ", sep='')
    for particion in val.particiones:
        print("\tTrain: ", sorted(particion.indicesTrain), sep='')
        print("\tTest: ", sorted(particion.indicesTest), sep='')



Índices de Validación Simple para tic-tac-toe: 
	Train: [3, 4, 8, 9, 10, 14, 15, 18, 21, 22, 23, 24, 25, 26, 29, 30, 31, 32, 33, 36]...
	Test: [0, 1, 2, 5, 6, 7, 11, 12, 13, 16, 17, 19, 20, 27, 28, 34, 35, 51, 54, 60]...

Índices de Validación cruzada para tic-tac-toe: 
	Train: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 21]...
	Test: [19, 20, 32, 34, 37, 38, 42, 54, 56, 67, 75, 78, 90, 91, 99, 114, 115, 122, 124, 129]...
	Train: [0, 1, 2, 3, 4, 5, 7, 8, 9, 10, 12, 13, 17, 18, 19, 20, 21, 22, 23, 25]...
	Test: [6, 11, 14, 15, 16, 24, 26, 30, 45, 52, 57, 58, 59, 60, 61, 65, 79, 83, 102, 103]...
	Train: [0, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14, 15, 16, 17, 19, 20, 21, 22, 24, 26]...
	Test: [1, 2, 3, 8, 18, 23, 25, 31, 40, 43, 49, 50, 64, 72, 76, 94, 95, 98, 100, 112]...
	Train: [0, 1, 2, 3, 5, 6, 8, 11, 12, 13, 14, 15, 16, 18, 19, 20, 22, 23, 24, 25]...
	Test: [4, 7, 9, 10, 17, 21, 27, 39, 47, 48, 51, 53, 63, 71, 74, 85, 88, 92, 93, 96]...
	Train: [1, 2, 3, 4, 6, 7, 

## Descripcción de los índices de train y test

Hemos imprimido los índices ordenados para que sean más fáciles de analizar a simple vista.

Vemos que para validación simple, cogemos todos los índices y aleatoriamente tomamos un porcentaje para test y el resto son de test.

Para validación cruzados vemos cómo se crean las 6 particiones (folds) que hemos especificado, y que en cada una de las particiones los índices de test son diferentes hasta completar todos los índices. Los índices de train de cada partición son los que no hemos tomado para test.

En validación por Bootstrap tomamos como train tantos índices aleatorios como datos haya, permitiendo que haya repeticiones, y los datos de test son aquellos índices que no hemos cogido.


## Ventajas/desventajas de cada una de las validaciones

Validación simple es claramente el más fácil de entender e implementar y si se dividen los datos aleatoriamente funciona bien.

Validación cruzada al hacer más particiones dará una tasa de fallos más realista, pero a costa de tener que realizar múltiples veces el proceso de entrenamiento, haciendo que el tiempo de validación aumente proporcionalmente al número de folds.

El principal inconveniente de Bootstrap es que elegimos para train varias veces los mismos ejemplos, haciendo que la tasa de error esté subestimada.

In [80]:
import numpy as np

from ClasificadorNaiveBayes import ClasificadorNaiveBayes

german = Datos('ConjuntosDatos/german.data')
nb = ClasificadorNaiveBayes()

for val in validaciones:
    format_header = "\t%-30s %-30s %-30s"
    format_cell = "\t%-30s %-30f %-30f"
    
    print("\n\n", val.nombre_estrategia, "sin corrección de Laplace:")
    print(format_header % ("", "tasa de error", "desviación típica del error"))
    
    errores, tasa_de_error = nb.validacion(val, balloons, nb, aplicar_correccion_de_laplace=False)
    print(format_cell % ("balloons", tasa_de_error, np.std(errores)))
    
    errores, tasa_de_error = nb.validacion(val, tic_tac_toe, nb, aplicar_correccion_de_laplace=False)
    print(format_cell % ("tic-tac-toe", tasa_de_error, np.std(errores)))
    
    errores, tasa_de_error = nb.validacion(val, german, nb, aplicar_correccion_de_laplace=False)
    print(format_cell % ("german", tasa_de_error, np.std(errores)))
    
    
    print("\n", val.nombre_estrategia, "con corrección de Laplace:")
    print(format_header % ("", "tasa de error", "desviación típica del error"))
    
    errores, tasa_de_error = nb.validacion(val, balloons, nb)
    print(format_cell % ("balloons", tasa_de_error, np.std(errores)))
    
    errores, tasa_de_error = nb.validacion(val, tic_tac_toe, nb)
    print(format_cell % ("tic-tac-toe", tasa_de_error, np.std(errores)))
    
    errores, tasa_de_error = nb.validacion(val, german, nb)
    print(format_cell % ("german", tasa_de_error, np.std(errores)))




 Validación Simple sin corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.000000                       0.000000                      
	tic-tac-toe                    0.305556                       0.460642                      
	german                         0.290000                       0.453762                      

 Validación Simple con corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.000000                       0.000000                      
	tic-tac-toe                    0.312500                       0.463512                      
	german                         0.253333                       0.434920                      


 Validación cruzada sin corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons 

	german                         0.255000                       0.435861                      

 Validación cruzada con corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.000000                       0.000000                      
	tic-tac-toe                    0.297495                       0.457156                      
	german                         0.250000                       0.433013                      


 Validación Bootstrap sin corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.000000                       0.000000                      
	tic-tac-toe                    0.318681                       0.465965                      


	german                         0.210526                       0.407682                      

 Validación Bootstrap con corrección de Laplace:
	                               tasa de error                  desviación típica del error   
	balloons                       0.000000                       0.000000                      
	tic-tac-toe                    0.309192                       0.462161                      
	german                         0.249315                       0.432617                      


## Análisis de los resultados

Vemos que para balloons la tasa de fallos es muy baja o nula. Esto es debido a que el número de datos es muy pequeño.

Para tic-tac-toe y German vemos que con validación simple al aplicar la corrección de Laplace la tasa de aciertos mejora, mientras que para validación cruzada permanece prácticamente igual y para bootstrap empeora.

En tic-tac-toe vemos que el porcentaje de errores para cualquiera de las validaciones está en torno a un 30%

En los datos de German el porcentaje de errores es ligeramente menor, estando en torno a un 25%