# Laboratorio del algoritmo de Clasificación Naïve Bayes 

Este es uno de los algoritmos mas simples y poderosos para clasificación de datos. Trabaja sumamente bien con grandes cantidades de datos, y su velocidad y versatilidad lo hacen uno de los favoritos para un primer acercamiento a modelos de clasificación. Hay muchas variantes de este algoritmo, sin embargo, en este lab., desarrollaremos el clásico. 

In [2]:
# Librerías que importaremos:

# Librería de aprendizaje automático.
import sklearn 

# Librería de graficación
import matplotlib.pyplot as plt

# En esta ocación importaremos uno de los datasets que vienen con la librería.
from sklearn import datasets 

# Hemos elegido un conjunto de datos relacionado con la industria del vino (de nuevo).
vinos = datasets.load_wine()

Los datos corresponden al análisis realizado por un laboratorio químico a un conjunto de  178 muestras de vinos. Estos corresponden a tres grandes casas productoras de vino en la misma región de Italia. El reto de este laboratorio es predecir de cual de los cultivadores de vino proviene la muestra analizada. Para cada muestra se caracterizan 13 de sus constituyentes. Por lo que es un problema alto-dimensional, en donde graficar es una tarea ligeramente compleja (aunque no imposible). 

Fuente: Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy. 

Atributos reportados en las muestras:

1) Alcohol. 

2) Ácido málico. 

3) Ceniza.  

4) Alcalinidad de la ceniza.

5) Magnesio. 

6) Fenoles totales.

7) Flavanoides. 

8) Fenoles no flavonoides.

9) Proantocianidina. 

10) Intensidad de Color.

11) Hue. 

12) OD280/OD315 de vinos diluidos.

13) Prolina.


In [3]:
# Veamos las propiedades de los vinos, disponibles en este conjunto de datos. 
print('Propiedades:', vinos.feature_names)
print('En total:', len(vinos.feature_names))

Propiedades: ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
En total: 13


In [4]:
# Y la variable objetivo o etiqueta que las acompañan
print("Etiquetas: ", vinos.target_names)

Etiquetas:  ['class_0' 'class_1' 'class_2']


Notamos que los vinos son clasificados en tres clases. Finalmente, veamos cuantos registros tiene nuestro conjunto de datos

In [5]:
print(vinos.data.shape[0])

178


Podemos hacer una revisión de las primeras 3 filas de nuestro conjunto de datos. 

In [6]:
print(vinos.data[0:3])

[[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
  2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 1.120e+01 1.000e+02 2.650e+00 2.760e+00
  2.600e-01 1.280e+00 4.380e+00 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 1.860e+01 1.010e+02 2.800e+00 3.240e+00
  3.000e-01 2.810e+00 5.680e+00 1.030e+00 3.170e+00 1.185e+03]]


In [7]:
# También podemos ver la etiqueta de la clase codificada para cada vino:

In [8]:
print(vinos.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]


Procedemos entonces a crear y entrenar nuestro modelo de Naïve Bayes. Empezamos dividiendo nuestro conjunto de datos en datos de entrenamiento y testing/prueba, usando la función de sklearn train_test_split.

In [9]:
from sklearn.model_selection import train_test_split

y creamos las variables que nos permitirán separar nuestro conjunto de datos.

In [10]:
X_train, X_test, Y_train, Y_test = train_test_split(vinos.data, vinos.target, test_size=0.2) 

hemos tomado 80% para entrenamiento y 20% para el proceso de validación de nuestro modelo. En lo siguiente supondremos que la verosimilitud de las propiedades siguen una distribución Gaussiana. En general, esta hipotesis es bastante buena, aunque dependiendo del tipo de datos que tengamos, puede que convenga, i.e., pensar en una distribución binomial (para clasificación binaria), o la variante de Naive Bayes complementario (basado en distribuciones multinomiales) para variables no-balanceadas. En este caso utilizaremos la elección mas común, i.e., el modelo de Bayes Gaussiano:

In [11]:
# Cargamos la función que nos permitirá crear nuestros clasificadores Gaussianos:
from sklearn.naive_bayes import GaussianNB

# y creamos nuestro clasificador 
gnb = GaussianNB()

# ¿Muy fácil no? ... esto es la denominada democratización de la inteligencia artíficial.

# Entrenamos luego nuestro modelo usando los datos de entrenamiento, y usamos el método fit. 
gnb.fit(X_train, Y_train)

# y finalmente usamos el método predict para predecir sobre los datos de prueba.
Y_pred = gnb.predict(X_test)

In [12]:
# En este caso mediremos el rendimiento de este modelo usando accuracy 
from sklearn import metrics

# La calculamos y mostramos
print("Accuracy:"+str(metrics.accuracy_score(Y_test, Y_pred))+'%')

Accuracy:0.9444444444444444%


In [20]:
print('el vino con los atributos químicos: \n\n', X_test[1])
print('\n')
print('Naïve Bayes lo predice en la clase ', Y_pred[1])
print('y en efecto pertenece a la clase ', Y_test[1])

el vino con los atributos químicos: 

 [1.237e+01 1.170e+00 1.920e+00 1.960e+01 7.800e+01 2.110e+00 2.000e+00
 2.700e-01 1.040e+00 4.680e+00 1.120e+00 3.480e+00 5.100e+02]


Naïve Bayes lo predice en la clase  1
y en efecto pertenece a la clase  1


In [None]:
'''Contenplad el poder de la Inteligencia Artificial'''