<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/Machine-Learning/blob/main/ML/classes/class_mach_8/class_march_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Medidas de desempeño para un clasificador

### Medición de la exactitud mediante validación cruzada

In [1]:
import numpy as np 
from sklearn.datasets import fetch_openml

In [2]:
mnist = fetch_openml('mnist_784', version = 1) 

In [3]:
X,y = mnist['data'], mnist['target'] 

# Convertir predictores y etiquetas en arreglos de NumPy 

In [4]:
X = X.values
y = y.values.ravel().astype(np.int8) 

In [5]:
X_train, X_test, y_train, y_test = X[:60_000, :], X[60_000:,:], y[:60_000], y[60_000:]

# Configurar las etiquetas para tener un problema de clasificación de 5 y no 5

In [6]:
y_train_5 = (y_train == 5)
y_test_5 = (y_test == 5)

# Tomar a SGDClassifier como clasificador

In [7]:
from sklearn.linear_model import SGDClassifier 

In [8]:
sgd_clf = SGDClassifier(random_state = 42) 

In [9]:
sgd_clf.fit(X_train, y_train_5) 

SGDClassifier(random_state=42)

# Midamos su desempeño con la madida de exactitud

In [10]:
y_train_predict = sgd_clf.predict(X_train)

In [11]:
n_coincidencias = sum(y_train_5==y_train_predict)

In [12]:
n_coincidencias/len(y_train_5)

0.9522666666666667

In [15]:
sgd_clf.predict([X[11,:]])

array([ True])

### Medición de la exactitud mediante validación cruzada

In [16]:
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone
skfolds = StratifiedKFold(n_splits=3)
for train_index, test_index in skfolds.split(X_train, y_train_5):
    clone_clf = clone(sgd_clf)
    X_train_folds = X_train[train_index,:]
    y_train_folds = y_train_5[train_index]
    X_test_fold = X_train[test_index,:]
    y_test_fold = y_train_5[test_index]
    clone_clf.fit(X_train_folds, y_train_folds)
    y_pred = clone_clf.predict(X_test_fold)
    n_correct = sum(y_test_fold==y_pred )
    print(n_correct / len(y_pred)) 

0.95035
0.96035
0.9604


cuenta el número de predicciones correctas y genera la proporción de predicciones correctas. A esta proporción la llmaremos **exactitud**.

In [17]:
from sklearn.model_selection import cross_val_score 

cross_val_score(sgd_clf, X_train, y_train_5, cv = 3, scoring = 'accuracy')

array([0.95035, 0.96035, 0.9604 ])

## Lo insuficiente de la medida de exactitud

In [18]:
from sklearn.model_selection import cross_val_score
from sklearn.base import BaseEstimator

class Clasificador_nunca_es_5(BaseEstimator):
    def fit(self, X, y = None):
        pass
    def predict(self, X):
        return np.zeros((len(X), 1), dtype = bool) 

In [19]:
clasificador_nunca_es_5 = Clasificador_nunca_es_5()

In [20]:
cross_val_score(clasificador_nunca_es_5, X_train, y_train_5, cv = 3, scoring = 'accuracy') 

array([0.91125, 0.90855, 0.90915])

In [21]:
sum(y_train_5)/len(y_train_5)

0.09035

## Matriz de confusión

La idea general es contar el número de veces que las instancias de la clase A se clasifican como clase B.

usar la función `cross_val_predict()`:

In [22]:
from sklearn.model_selection import cross_val_predict

y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv = 3) 

In [23]:
y_train_pred

array([ True, False, False, ...,  True, False, False])

Ahora está listo para obtener la matriz de confusión usando la función `confusion_matrix()`.

Simplemente pásele las clases objetivo (`y_train_5`) y las clases predichas (`y_train_pred`):

In [24]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_train_5, y_train_pred) 

array([[53892,   687],
       [ 1891,  3530]], dtype=int64)

In [25]:
y_train_perfect_predictions = y_train_5
confusion_matrix(y_train_5, y_train_perfect_predictions) 

array([[54579,     0],
       [    0,  5421]], dtype=int64)

Una interesante para observar es la precisión de las predicciones positivas; esto se llama la **precisión del clasificador**:

$$ \text{precision} = \frac{TP}{FP + TP} $$


$$ \text{recall} = \frac{TP}{FN + TP} $$



<img src = 'https://github.com/marco-canas/Machine-Learning/blob/main/ML/classes/class_mach_8/digitos_mnist_2.png?raw=true'>

In [26]:
from sklearn.metrics import precision_score, recall_score 

In [27]:
precision_score(y_train_5, y_train_pred) 

0.8370879772350012

In [28]:
recall_score(y_train_5, y_train_pred) 

0.6511713705958311

$$ F_{1} = \frac{2}{\frac{1}{\text{precision}} + \frac{1}{\text{recall}}} = 2 \times \frac{\text{precision} \times \text{recall}}{\text{precision} + \text{recall}} = \frac{TP}{TP + \frac{FN + FP}{2}} $$

In [29]:
from sklearn.metrics import f1_score 

f1_score(y_train_5, y_train_pred) 

0.7325171197343846

La puntuación $F_{1}$ favorece a los clasificadores que tienen una precisión y recuperación similares.

Esto no siempre es lo que desea: en algunos contextos, lo que más le importa es la precisión, y en otros contextos realmente le importa es el recall. 

Por ejemplo, si entrenó un clasificador para **detectar videos que son seguros para los niños**, probablemente preferiría un clasificador que rechace muchos videos buenos (baja recuperación) pero solo mantenga los seguros (alta precisión), en lugar de un clasificador que tiene mucho mejor recuerdo, pero permite que aparezcan algunos videos realmente malos en su producto (en tales casos, es posible que desee agregar una canalización humana para verificar la selección de videos del clasificador).

Por otro lado, suponga que entrena a un clasificador para **detectar ladrones en imágenes de vigilancia**: probablemente esté bien si su clasificador tiene solo un 30 % de precisión siempre que tenga un 99 % de recuperación (claro, los guardias de seguridad recibirán algunas alertas falsas, pero casi todos los ladrones serán atrapados).

## Intercambio de precisión/recuperación

<img src = 'https://github.com/marco-canas/Machine-Learning/blob/main/ML/classes/class_mach_8/digitos_mnist_3.png?raw=true'>

In [30]:
y_scores = sgd_clf.decision_function([X[0,:]])
y_scores

array([2164.22030239])

In [31]:
threshold = 0
y_pred_primer_digito = (y_scores > threshold)
y_pred_primer_digito

array([ True])

In [32]:
threshold = 8000
y_pred_primer_digito  = (y_scores > threshold)
y_pred_primer_digito 


array([False])

Esto confirma que elevar el umbral disminuye el recuerdo.

La imagen en realidad representa un 5, y el clasificador lo detecta cuando el umbral es 0, pero lo pierde cuando el umbral aumenta a 8000.

# Muchas gracias 