# Práctica 1

In [1]:
import Clasificador
import EstrategiaParticionado
from Datos import Datos
from sklearn import preprocessing as pp
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

## Apartado 1 - Particionado

### Validación Simple

In [2]:
# Elegimos el conjunto de datos
# dataset = Datos('./datos/german.data')
# dataset = Datos('./datos/lenses.data')
dataset = Datos('./datos/tic-tac-toe.data')


# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionSimple()

# Creamos las particiones

lista_particiones = estrategia.creaParticiones(dataset.datos)


Validación Simple crea una lista de particiones con una única partición, la cual contiene las tablas de índices 'indicesTrain' e 'indicesTest'. Estos indices están en un orden aleatorizado, para poder generar subconjuntos aleatorios útiles con los que poder trabajar y comparar.

La partición se crea en función al porcentaje que se le pase por argumento (50% por defecto). Las tablas contienen los índices que se utilizarán junto con la función 'extraeDatos' de Datos.py para crear nuevos subconjuntos de datos con los que poder entrenar y probar los clasificadores.

### Validación Cruzada

In [3]:
# Elegimos el conjunto de datos
dataset = Datos('./datos/german.data')
# dataset = Datos('./datos/lenses.data')
# dataset = Datos('./datos/tic-tac-toe.data')


# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionCruzada(numero_particiones = 4)

# Creamos las particiones

lista_particiones = estrategia.creaParticiones(dataset.datos)

Validación Cruzada crea una lista de particiones con N particiones (siendo N el argumento de número de particiones, que en su defecto es 2), las cuales contienen cada una de ellas las tablas de índices 'indicesTrain' e 'indicesTest'.

Las particiones de validación cruzada constan de N-1 (siendo N el numero de párticiones) segmentos del total de índices que forman la tabla de índices de entrenamiento, y de un segmento para la tabla de índices de prueba. En cada partición, el segmento de prueba rota, y los segmentos de entrenamiento son los N-1 restantes. Así se consiguen N particiones distíntas para poder entrenar y probar clasificadores.

Las particiones se crean de manera equitativa (por ejemplo: en un conjunto de 100 datos y 4 particiones, las particiones serán de tamaño igual a 25). Las tablas contienen los índices que se utilizarán junto con la función 'extraeDatos' de Datos.py para crear nuevos subconjuntos de datos con los que poder entrenar y probar los clasificadores.

## Apartado 2 - Clasificador Naïve Bayes

### Conjunto de Datos german.data

In [4]:
dataset = Datos('./datos/german.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionSimple()
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=False)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Simple - Sin Corrección de Laplace

In [5]:
print(error_media)
print(error_std)

0.268
0


In [6]:
dataset = Datos('./datos/german.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionSimple()
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=True)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Simple - Con Corrección de Laplace

In [7]:
print(error_media)
print(error_std)

0.234
0


In [8]:
dataset = Datos('./datos/german.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionCruzada(numero_particiones = 4)
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=False)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Cruzada - Sin Corrección de Laplace

In [9]:
print(error_media)
print(error_std)

0.243
0.02819574435974338


In [10]:
dataset = Datos('./datos/german.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionCruzada(numero_particiones = 4)
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=True)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Cruzada - Con Corrección de Laplace

In [11]:
print(error_media)
print(error_std)

0.24
0.028142494558940568


### Conjunto de Datos lenses.data

In [12]:
dataset = Datos('./datos/lenses.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionSimple()
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=False)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Simple - Sin Corrección de Laplace

In [13]:
print(error_media)
print(error_std)

0.5833333333333334
0


In [14]:
dataset = Datos('./datos/lenses.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionSimple()
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=True)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Simple - Con Corrección de Laplace

In [15]:
print(error_media)
print(error_std)

0.3333333333333333
0


In [16]:
dataset = Datos('./datos/lenses.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionCruzada(numero_particiones = 4)
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=False)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Cruzada - Sin Corrección de Laplace

In [17]:
print(error_media)
print(error_std)

0.08333333333333333
0.08333333333333333


In [18]:
dataset = Datos('./datos/lenses.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionCruzada(numero_particiones = 4)
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=True)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Cruzada - Con Corrección de Laplace

In [19]:
print(error_media)
print(error_std)

0.08333333333333333
0.14433756729740646


### Conjunto de Datos tic-tac-toe.data

In [20]:
dataset = Datos('./datos/tic-tac-toe.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionSimple()
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=False)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Simple - Sin Corrección de Laplace

In [21]:
print(error_media)
print(error_std)

0.29018789144050106
0


In [22]:
dataset = Datos('./datos/tic-tac-toe.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionSimple()
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=True)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Simple - Con Corrección de Laplace

In [23]:
print(error_media)
print(error_std)

0.2860125260960334
0


In [24]:
dataset = Datos('./datos/tic-tac-toe.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionCruzada(numero_particiones = 4)
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=False)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Cruzada - Sin Corrección de Laplace

In [25]:
print(error_media)
print(error_std)

0.289147489539749
0.019233373280746067


In [26]:
dataset = Datos('./datos/tic-tac-toe.data')
# Elegimos la estrategia de particionado
estrategia = EstrategiaParticionado.ValidacionCruzada(numero_particiones = 4)
# Elegimos el clasificados (actualmente solo tenemos naive bayes
clasificador = Clasificador.ClasificadorNaiveBayes(laplace=True)
# Calculamos el error y la desviación tipica
error_media, error_std = clasificador.validacion(estrategia, dataset, clasificador)

Validación Cruzada - Con Corrección de Laplace

In [27]:
print(error_media)
print(error_std)

0.2922855648535565
0.01405978035676695


### Breve Análisis de los Resultados Anteriores

Cuando aplicamos validación simple, no obtenemos desviación típica.

Laplace corrige en algunas ocasiones, pero al ser estos conjuntos de datos muy grandes y manejar muy pocos ceros, no suele afectar de forma determinante. Se observa que la desviación típica para validación cruzada si es afectada por Laplace, siendo esta menor en la mayoría de los casos.

Si ejecutamos el código, al estar realizado con particiones aleatorias, obtendremos distintos resultados, pero suelen ser siempre muy semejantes.

El conjunto de datos 'lenses.data' es muy pequeño y por ello suele generar resultados con unas variaciones muy grandes entre sus ejecuciones.
También es el más afectado por Laplace debido a la distribución de datos.

El conjunto más estable es 'lenses.data' con validación cruzada y con corrección de Laplace.
La peor predicción la produce también 'lenses.data' pero con validación simple, con o sin correción de Laplace.
Se puede entender que es debido a su reducido tamaño de datos.
Su tasa de error varia de un 50% a un 10% en función de que estrategia de particionado usemos y si aplicamos Laplace o no.

El conjunto 'german.data' es el único que posee atributos continuos. También es bastante estable en sus resultados. Su tasa de error se encuentra en torno al 26%.

El conjunto 'tic-tac-toe.data' produce buenos resultados con una tasa de error de en torno al 30%.





## Apartado 3 - Scikit Learn

### GaussianNB, german.data

In [28]:
dataset = Datos('./datos/german.data')

g = GaussianNB()
data = dataset.datos[:, :-1]
data_class = dataset.datos[:, -1]


Validación Simple

In [29]:
data_train, data_test, data_class_train, data_class_test = train_test_split(data, data_class,
                                                                            test_size=0.5)
g.fit(data_train, data_class_train)
score = g.score(data_test, data_class_test)
invertido = 1 - score
print(invertido)

0.246


Validación Cruzada

In [30]:
score = cross_val_score(g, data, data_class, cv=4)
media = score.mean()
invertido = 1 - media
desv = score.std()
print(invertido, desv)

0.266 0.024248711305964305


### GaussianNB, tic-tac-toe.data

In [31]:
dataset = Datos('./datos/tic-tac-toe.data')

g = GaussianNB()
data = dataset.datos[:, :-1]
data_class = dataset.datos[:, -1]


Validación Simple

In [32]:
data_train, data_test, data_class_train, data_class_test = train_test_split(data, data_class,
                                                                            test_size=0.5)
g.fit(data_train, data_class_train)
score = g.score(data_test, data_class_test)
invertido = 1 - score
print(invertido)

0.267223382045929


Validación Cruzada

In [33]:
score = cross_val_score(g, data, data_class, cv=4)
media = score.mean()
invertido = 1 - media
desv = score.std()
print(invertido, desv)

0.42071565550906553 0.10340656571229914


### GaussianNB, lenses.data

In [34]:
dataset = Datos('./datos/lenses.data')

g = GaussianNB()
data = dataset.datos[:, :-1]
data_class = dataset.datos[:, -1]


Validación Simple

In [35]:
data_train, data_test, data_class_train, data_class_test = train_test_split(data, data_class,
                                                                            test_size=0.5)
g.fit(data_train, data_class_train)
score = g.score(data_test, data_class_test)
invertido = 1 - score
print(invertido)

0.33333333333333337


Validación Cruzada

In [36]:
score = cross_val_score(g, data, data_class, cv=4)
media = score.mean()
invertido = 1 - media
desv = score.std()
print(invertido, desv)

0.17500000000000004 0.11873172373979174


### MultiNominalNB, german.data

In [37]:
dataset = Datos('./datos/german.data')

m = MultinomialNB(alpha=1.0)
data = dataset.datos[:, :-1]
data_class = dataset.datos[:, -1]


Validación Simple

In [38]:
data_train, data_test, data_class_train, data_class_test = train_test_split(data, data_class,
                                                                            test_size=0.5)
m.fit(data_train, data_class_train)
score = m.score(data_test, data_class_test)
invertido = 1 - score
print(invertido)

0.362


Validación Cruzada

In [39]:
score = cross_val_score(m, data, data_class, cv=4)
media = score.mean()
invertido = 1 - media
desv = score.std()
print(invertido, desv)

0.36 0.030066592756745846


### MultiNominalNB, tic-tac-toe.data

In [40]:
dataset = Datos('./datos/tic-tac-toe.data')

m = MultinomialNB(alpha=1.0)
data = dataset.datos[:, :-1]
data_class = dataset.datos[:, -1]


Validación Simple

In [41]:
data_train, data_test, data_class_train, data_class_test = train_test_split(data, data_class,
                                                                            test_size=0.5)
m.fit(data_train, data_class_train)
score = m.score(data_test, data_class_test)
invertido = 1 - score
print(invertido)

0.32359081419624214


Validación Cruzada

In [42]:
score = cross_val_score(m, data, data_class, cv=4)
media = score.mean()
invertido = 1 - media
desv = score.std()
print(invertido, desv)

0.3507017085076708 0.014643056198736864


### MultiNominalNB, lenses.data

In [43]:
dataset = Datos('./datos/lenses.data')

m = MultinomialNB(alpha=1.0)
data = dataset.datos[:, :-1]
data_class = dataset.datos[:, -1]


Validación Simple

In [44]:
data_train, data_test, data_class_train, data_class_test = train_test_split(data, data_class,
                                                                            test_size=0.5)
m.fit(data_train, data_class_train)
score = m.score(data_test, data_class_test)
invertido = 1 - score
print(invertido)

0.33333333333333337


Validación Cruzada

In [45]:
score = cross_val_score(m, data, data_class, cv=4)
media = score.mean()
invertido = 1 - media
desv = score.std()
print(invertido, desv)

0.3380952380952381 0.04068573212055968


### Breve Análisis de los Resultados Anteriores

Cuando aplicamos validación simple, no obtenemos desviación típica.

Laplace corrige en algunas ocasiones, pero al ser estos conjuntos de datos muy grandes y manejar muy pocos ceros, no suele afectar de forma determinante. Se observa que la desviación típica para validación cruzada si es afectada por Laplace, siendo esta menor en la mayoría de los casos.

Si ejecutamos el código, al estar realizado con particiones aleatorias, obtendremos distintos resultados, pero suelen ser siempre muy semejantes.

El conjunto de datos 'lenses.data' es muy pequeño y por ello suele generar resultados con unas variaciones muy grandes entre sus ejecuciones.
También es el más afectado por Laplace debido a la distribución de datos.

El conjunto más estable es 'lenses.data' con validación cruzada y con corrección de Laplace.
La peor predicción la produce también 'lenses.data' pero con validación simple, con o sin correción de Laplace.
Se puede entender que es debido a su reducido tamaño de datos.
Su tasa de error varia de un 50% a un 10% en función de que estrategia de particionado usemos y si aplicamos Laplace o no.

El conjunto 'german.data' es el único que posee atributos continuos. También es bastante estable en sus resultados. Su tasa de error se encuentra en torno al 26%.

El conjunto 'tic-tac-toe.data' produce buenos resultados con una tasa de error de en torno al 30%.



