### DS sacado de: https://www.kaggle.com/uciml/zoo-animal-classification

##### Es el mismo DS que utilizamos para KNN_Ejemplo1

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn import metrics
#LIbrerias de visualizacion:
%matplotlib inline
import matplotlib.pyplot as plt

In [2]:
#Carga de DS con los animales
DF_Animals = pd.read_csv("DataSourceTL3/zoo.csv") #Armamos un Data Frame con nuestros datos de entrada.
#URL para descargar el CSV: https://www.aprendemachinelearning.com/articulos_ml/
DF_Animals.shape #Vemos sus dimensiones (tiene 161 Filas/registros x 8 columnas/features)

(101, 18)

In [3]:
#Cargamos el DS con las clases (nombres):
DF_Clases = pd.read_csv("DataSourceTL3/class.csv")
DF_Clases.shape

(7, 4)

In [4]:
#Vamos a considerar TODAS las variables numéricas en nuestro DS para predecir la variable "class_type".
#Por esto sacamos del DF a la variable animal_name que no nos interesa y tambien nuestra variable target (class_type):

x_data = DF_Animals.drop(["animal_name","class_type"],axis=1)

#Y acá colocamos nuestra variable class_type que queremos predecir:
y = DF_Animals["class_type"]

In [5]:
#Entrenamiento... separamos 20% test y 80% para entrenamiento:
X_train,X_test,y_train,y_test = train_test_split(x_data,y,test_size=0.2,random_state=4)
nb = GaussianNB() #Definimos el algortimo de Naive Bayes.
nb.fit(X_train,y_train) #Entrenamos el algoritmo con los  x_train e Y_train que elegimos previamente.
y_pred=nb.predict(X_test) #Y ahora hacemos una predicción con los X_Test.

#El modelo que nosotros creamos y entrenamos GaussianNB() implementa esta fórmula para obtener las 
#probabilidades para el valor que le damos y cada clase (calcula la probabilidad  de que una nueva muestra de datos D -animal- pertenezca a una clase en particular C):
#P (C | D) = ( P (D | C) x P ( C) ) / P (D)

#Asi calculamos P (C | D) para cada clase posible, ignorando el término P (D) por su característica de "Naive Bayes".

#Y cuando hacemos la predicción SOLO nos devuelve la clase que obtuvo la mayor de estas probabilidades.

#Naive Bayes utiliza datos anteriores para actualizar el modelo; nos permite que el modelo sea flexible y actualice nuevos datos e incorpore una creencia previa.
#De esta manera no tenemos que calcular las probabilidades nuevaente.


from sklearn.metrics import accuracy_score
print("Precisión de Naive Bayes:",metrics.accuracy_score(y_test, y_pred))

Precisión de Naive Bayes: 0.9047619047619048


In [6]:
#La Accuracy del modelo es el número total de predicciones correctas dividido por el número total de predicciones. 
 ##--> Accuracy = predicciones correctas / número total de predicciones 
    
dicClasses = {1:'Mammal',2:'Bird',3:'Reptile',4:'Fish',5:'Amphibian',6:'Bug',7:'Invertebrate'}

x_new = [   [1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1],   #Oso.
            [0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0],   #Pollo.
            [0,1,1,0,0,0,1,1,1,1,0,0,4,0,1,1],   #Animal random.
        ]

y_predict = nb.predict(x_new)

print(dicClasses[y_predict[0]]) 
print(dicClasses[y_predict[1]]) 
print(dicClasses[y_predict[2]]) 

Mammal
Bird
Mammal


In [7]:
#Vemos que con Bayes clasificó bien los 2 primeros y clasificó que el último es "Mammal"

In [8]:
#Creamos un "Reporte de clasificación" y luego una "Matriz de confusion" que nos dará
#una clara idea de la eficacia y el entrenamiento de nuestro modelo de Bayes:

expected = y_test #Nuestros 21 valores reales (Son 21 ya que eran el 20% del y total cuando hicimos el split en train y test)
predicted = y_pred #Nuestros 21 valores predichos.

print(metrics.classification_report(expected, predicted)) #Analizamos las metricas para ver la eficacia del algoritmo en CADA CLASE.

#Abajo muestra solo 6 filas y no 7 ya que de la clase 3 (reptile) no tenemos ninguna en nuestro set de entrenamiento.
#support es la cantidad de clases en y_test (las reales)... teniamos 7 de clase 1, 5 de clase 2, etc.

#2 animales que eran de categoría 6 los clasificó como 7.

             precision    recall  f1-score   support

          1       1.00      1.00      1.00         7
          2       1.00      1.00      1.00         5
          4       1.00      1.00      1.00         1
          5       1.00      1.00      1.00         1
          6       1.00      0.33      0.50         3
          7       0.67      1.00      0.80         4

avg / total       0.94      0.90      0.89        21



In [9]:
print(metrics.confusion_matrix(expected, predicted))
#Abajo muestra solo 6 filas y no 7 ya que de la clase 3 (reptile) no tenemos ninguna en nuestro set de entrenamiento.
#Vemos que el 2 que está en la fila 5 es porque clasificó mal (osea que uno que era de clase 6 lo clasificó como clase 6)

#En la diagonal de la matriz tenemos los casos que clasificó CORRECTAMENTE:

[[7 0 0 0 0 0]
 [0 5 0 0 0 0]
 [0 0 1 0 0 0]
 [0 0 0 1 0 0]
 [0 0 0 0 1 2]
 [0 0 0 0 0 4]]


In [10]:
#1-La Precisión de una clase define cuan confiable es un modelo en responder si un punto pertenece a esa clase. 

#2-El Recall (o tambien llamado "tasa de verdaderos positivos" o SENSIBILIDAD) de una clase expresa cuan bien puede el
#modelo detectar a esa clase.

#3-El F1 Score de una clase es dada por la media harmonía de precisión y recall 
    #(2 x precision x recall / (precision+recall)) digamos que combina precisión y recall en una sola métrica. 

#Vemos que los valores de precisión, recall, y f1-score dieron valores cercanos a 1, 
#de esta manera podemos confiar en las predicciones de nuestro modelo.

#Tenemos cuatro casos posibles para cada clase:
#Alta precision y alto recall: el modelo maneja perfectamente esa clase --> para las clases 1,2,4,5.
#Alta precision y bajo recall: el modelo no detecta la clase muy bien, pero cuando lo hace es altamente confiable. --> clase 6.
#Baja precisión y alto recall: La clase detecta bien la clase pero también incluye muestras de otras clases. --> clase 7.
#Baja precisión y bajo recall: El modelo no logra clasificar la clase correctamente.--> ninguna.
    
#Como mejora podríamos analizar esto de matriz de confusión y classification_report
#para el ejemplo anterior con el modelo de KNN.
#Como conclusión confiamos en que clasificó correctamente (Ya que tiene un score de 0.9)

#MEJORA: Explicar bien los cálculos de Precisión y Recall y agregar el cálculo de Especificidad (explicando los VP, VN, FN, FP).