In [1]:
# Un estimador de incertidumbre es una función que viene incluida en
# algunos de los algoritmos de clasificación de SKLEARNING.
# Esta función nos ayuda a ver que tan seguro se siente nuestro algoritmo
# a la hora de clasificar un nuevo punto.
#
# Por ejemplo:
# Si tenemos que hacer un algortmo que clasifique entre 0 y 1, un 
# estimador de incertidumbre nos va a decir que tan seguro se siente
# nuestro programa para decir que el nuevo punto que va a predecir 
# pertenece al grupo 1 o al 0.
# Esto nos puede ayudar cuando queremos que un algoritmo no pase por 
# una decisión con un cierto nivel de incertidumbre.
# 
# Si tenemos un algoritmo que está 50% seguro de que pertenece al grupo
# 0 podríamos preferir que no hiciera la predicción en ese punto ya que
# el 50% es el equivalente a lanzar una moneda a ver que sale.

In [4]:
# Primero, importamos el DataSet de "IRIS".
# Segundo, importamos la función train_test_split para dividir(training, testing).
# Tercero, importamos el algoritmo a utilizar (SVM), Support-Vector Machine.
#
# SVM (Support-Vecrtor Machine) traza una lina recta o un hiperplano
# para segmentar nuestros datos y poder clasificarlos.

In [5]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn import svm

In [6]:
# Pasamos nuestro DataSet a la variable "iris", como siempre:

In [7]:
iris = load_iris()

In [8]:
# Dividimos nuestros datos entre entrenamiento y prueba (Training y Testing):

In [9]:
Xe,Xt,ye,yt = train_test_split(iris.data, iris.target)

In [10]:
# A la variable "algoritmo" le asigno nuestro algoritmo SVM:

In [12]:
algoritmo = svm.SVC(probability=True)

In [15]:
# Lo entrenamos con nuestros datos de entrenamiento y lo comparamos:

In [22]:
algoritmo.fit(Xe,ye)



SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='rbf', max_iter=-1, probability=True, random_state=None,
  shrinking=True, tol=0.001, verbose=False)

In [23]:
# Aquí tenemos dos funciones para estimar la incertidumbre,
# "decision_function": Nos va a decir un número que va a decir que tan lejos está el punto del hiperplano que lo clasifica.
# "predict_proba": Nos va a decir lo mismo pero en términos de probabilidad.

In [27]:
algoritmo.decision_function_shape = "ovr"
algoritmo.decision_function(Xt)[:10]        

#10 muestras únicamente.
# Obtenemos tres grupos de clasificación donde el número más alto de cada columna es el mas alejado del hiperplano.
# HIPER-PLANO

array([[ 2.40134191, -0.20902739,  0.80768548],
       [ 2.38464271,  0.81497481, -0.19961752],
       [-0.31847247,  2.49283432,  0.82563815],
       [-0.21650776,  2.34681886,  0.8696889 ],
       [-0.25527341,  2.32776618,  0.92750723],
       [-0.3372782 ,  2.26238167,  1.07489652],
       [ 2.3754827 , -0.2119257 ,  0.836443  ],
       [-0.33085243,  1.13776127,  2.19309116],
       [-0.29213949,  0.84185985,  2.45027964],
       [-0.30908895,  0.83072939,  2.47835956]])

In [29]:
algoritmo.predict_proba(Xt)[:10]

# Observa el primer número; nuestro algoritmo está al 96% seguro de que pertenece a ese grupo.
# PROBABILIDAD

array([[0.96177545, 0.01820111, 0.02002344],
       [0.95537097, 0.02309307, 0.02153596],
       [0.00940989, 0.98513613, 0.00545398],
       [0.0243933 , 0.93443607, 0.04117063],
       [0.01851229, 0.91184679, 0.06964092],
       [0.0126846 , 0.785666  , 0.2016494 ],
       [0.9509468 , 0.02166077, 0.02739243],
       [0.01567643, 0.35189925, 0.63242433],
       [0.01045609, 0.0085608 , 0.98098311],
       [0.01071455, 0.00505703, 0.98422842]])

In [30]:
# Ahora vamos a ejecutar nuestro algoritmo "predict" para ver como lo predice:

In [31]:
algoritmo.predict(Xt)[:10]

# GRUPOS

array([0, 0, 1, 1, 1, 1, 0, 2, 2, 2])

In [32]:
# Esto quiere decir que el primer elemento está clasificado en el el grupo 0, 
# el segundo elementoe clasificado en el grupo 0 también , el tercero en el grupo 1 ..

In [33]:
# Si tenemos un algoritmo que sabemos que está muy seguro en todas sus predicciones
# seguramente esté muy sobreajustado y tendremos que ocuparnos de él antes de 
# seguir. Y si nuestro algoritmo no está muy sobreajustado siempre tomaremos el
# que esté más seguro de sus decisiones (más cercano al 1).