# Naïve Bayes: Iris

Vamos a crear un modelo de clasificación con Naïve Bayes para el dataset de Iris.

Importamos las librerías que vamos a utilizar

In [1]:
import numpy as np #operaciones matriciales y con vectores
import pandas as pd #tratamiento de datos
#import matplotlib.pyplot as plt #gráficos
from sklearn import naive_bayes, neighbors, datasets, metrics
from sklearn.model_selection import train_test_split #metodo de particionamiento de datasets para evaluación
from sklearn.model_selection import cross_val_score, cross_validate #método para evaluar varios particionamientos de C-V
#from sklearn.model_selection import KFold, StratifiedKFold, RepeatedKFold, LeaveOneOut #Iteradores de C-V
#import seaborn as sns


## Preparación de los datos

Cargamos los datos y creamos una sola estructura con todos los datos para poder visualizarlos más fácilmente

In [2]:
iris = datasets.load_iris()
X = iris.data
y = iris.target
data = np.concatenate((X, np.expand_dims(y, axis=1)), axis = 1)
data[0:5]

array([[5.1, 3.5, 1.4, 0.2, 0. ],
       [4.9, 3. , 1.4, 0.2, 0. ],
       [4.7, 3.2, 1.3, 0.2, 0. ],
       [4.6, 3.1, 1.5, 0.2, 0. ],
       [5. , 3.6, 1.4, 0.2, 0. ]])

## Clasificación a partir de Naïve Bayes

Vamos a utilizar un clasificador Naïve Bayes que supone una distribución Gaussiana de los datos numéricos, ya que los valores de las variables independientes son continuos.

In [4]:
gnb = naive_bayes.GaussianNB()
modeloGNB = gnb.fit(X, y)

Veamos los patrones que encuentra el clasificador con respecto a las clases (conteo, probabilidades a priori) y los parámetros de sus distribuciones (promedios y desviaciones estándar).

In [5]:
modeloGNB.class_count_

array([50., 50., 50.])

In [6]:
modeloGNB.class_prior_

array([0.33333333, 0.33333333, 0.33333333])

In [7]:
modeloGNB.theta_

array([[5.006, 3.428, 1.462, 0.246],
       [5.936, 2.77 , 4.26 , 1.326],
       [6.588, 2.974, 5.552, 2.026]])

In [19]:
modeloGNB.sigma_

array([[0.121764, 0.142276, 0.029504, 0.011264],
       [0.261104, 0.0965  , 0.2164  , 0.038324],
       [0.396256, 0.101924, 0.298496, 0.073924]])

## Predicción

Veamos como nos va sobre el mismo dataset de entrenamiento.

In [20]:
y_pred = modeloGNB.predict(iris.data)

In [21]:
print("El modelo de Naïve Bayes se equivocó en %d de los %d registros que componen el dataset original"
      % ((y != y_pred).sum(), iris.data.shape[0]))


El modelo de Naïve Bayes se equivocó en 6 de los 150 registros que componen el dataset original


## Comparación con K-NN

El mejor modelo K-NN que habíamos encontrado previamente consideraba un parámetro K=3.
Vamos a compararlos con respecto al accuracy, siguiendo un protocolo de cross-validation.

In [29]:
knn = neighbors.KNeighborsClassifier(n_neighbors=3)
knn_exactitudes = cross_val_score(knn, X, y, cv=20, scoring='accuracy')
knn_exactitudes

array([1.        , 1.        , 0.88888889, 1.        , 1.        ,
       1.        , 0.77777778, 0.88888889, 1.        , 1.        ,
       1.        , 0.83333333, 1.        , 1.        , 1.        ,
       1.        , 1.        , 1.        , 1.        , 1.        ])

Vemos que con KNN los scores de las 20 iteraciones del CV dan resultados entre 77.7% y 100%.

In [32]:
gnb_exactitudes = cross_val_score(gnb, X, y, cv=20, scoring='accuracy')
gnb_exactitudes

array([0.88888889, 1.        , 0.88888889, 1.        , 1.        ,
       1.        , 0.77777778, 1.        , 1.        , 0.88888889,
       1.        , 0.83333333, 0.83333333, 1.        , 1.        ,
       1.        , 1.        , 1.        , 1.        , 1.        ])

Vemos que con Naïve Bayes los scores de las 20 iteraciones del CV dan resultados entre 77.7% y 100%.

Podemos obtener un intervalo de confianza del 95% para tener una idea más clara.

In [33]:
print("KNN. Exactitudes: %0.2f (+/- %0.2f)" % (knn_exactitudes.mean(), knn_exactitudes.std() * 2))
print("GNB. Exactitudes: %0.2f (+/- %0.2f)" % (gnb_exactitudes.mean(), gnb_exactitudes.std() * 2))

KNN. Exactitudes: 0.97 (+/- 0.13)
GNB. Exactitudes: 0.96 (+/- 0.14)


Vemos que los dos modelos son bastante parecidos para el dataset iris, con una ligera ventaja para el modelo KNN. No siempre va a ser igual. Hay que tener en cuenta que este es un dataset muy sencillo.