<a href="https://colab.research.google.com/github/Jorge2018/DataScience2022-2/blob/main/Classification_Metrics_Exercise.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Classification Metrics:


![target image](https://github.com/ninja-josh/image-storage/raw/main/qft5tas90c801%20(1).jpeg)
## ¿Cómo sabemos si nuestra modelo es bueno?



## Regression vs Classification Metricas

### Regression Metricas

En un modelo de regresión, una etiqueta objetivo podría tener cualquier valor (teóricamente).

Cuando estamos creando un modelo de regresión, intentamos crear un modelo que prediga una etiqueta que sea lo más cercana posible al valor de etiqueta real para una muestra. Es por eso que usamos métricas como error absoluto medio, error cuadrático medio o error cuadrático medio. Queremos saber qué tan lejos está la predicción de la verdad. De hecho, es posible que nuestro modelo nunca haga una predicción perfectamente precisa y eso está bien, siempre que se acerque lo suficiente.

### Classification Metricas

Con los modelos de clasificación, cada muestra es miembro de una de un número finito de clases. Para cada muestra, el modelo predice la clase correcta o predice una de las clases incorrectas. Es correcto o incorrecto, no hay 'cerrar'.

Debido a esto, necesitamos diferentes métricas. En esta lección exploraremos cómo evaluar un modelo de clasificación usando:

1. Accuracy
2. Precision
3. Recall
4. A Confusion Matrix

In [1]:
import pandas as pd
import numpy as np
#import seaborn to make a nice heatmap for our confusion matrix
import seaborn as sns

#import some necessary tools
from sklearn.datasets import load_breast_cancer, load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

#import accuracy, precision, recall, classification report, and confusion matrix scoring functions
from sklearn.metrics import accuracy_score, precision_score, recall_score, classification_report, ConfusionMatrixDisplay

#Importing the Classifiers
from sklearn.tree import DecisionTreeClassifier
from sklearn.dummy import DummyClassifier

'Breast Cancer Wisconsin' es un conjunto de datos de clasificación binaria que viene con el paquete sklearn para demostrar y experimentar con modelos. Usaremos este conjunto de datos bien estudiado y previamente limpiado para demostrar cómo evaluar un modelo de clasificación en un problema de clasificación binaria. Cada registro en este conjunto de datos es una masa en un seno y cada característica es una medida de esa masa. El objetivo es 0 = benigno o 1 = maligno.

Nuestra tarea será crear un modelo que clasifique una masa determinada como benigna o maligna.

In [2]:
#Load the Data
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns = data.feature_names)
y = pd.DataFrame(data.target, columns=['outcome'])
print(y.value_counts(normalize=True))
X.head()

outcome
1          0.627417
0          0.372583
dtype: float64


Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [None]:
#Train-test split.  Set the random state to 42



# Baseline vs Decision Tree

In [None]:
#Create a DecisionTreeClassifier model
#Create a DummyClassifier model using the 'most_frequent' strategy

#Fit both models on the training data and save their predictions on the test sets


Recuerde rápidamente lo que aprendió sobre los errores de tipo 1 y tipo 2. En cada problema de clasificación binaria, seleccionamos una clase para que sea la clase **'positiva'** y otra para que sea la clase **'negativa'**. La clase positiva debe ser la que más le interese encontrar. Para nuestro conjunto de datos de cáncer de mama, la clase positiva serán las masas malignas y la clase negativa será la benigna.

## Error tipo 1:
Si nuestro modelo predice que una masa es maligna, pero en realidad es benigna, habrá cometido un error de tipo 1. Esto también se conoce como falso positivo.

## Error tipo 2:
Si nuestro modelo predice que una masa es benigna, cuando en realidad es maligna, habrá cometido un error de tipo 2. Esto también se conoce como falso negativo.


*¿Cuál de estos crees que es peor en este caso? Si tenemos que aumentar un tipo de error para minimizar el otro, ¿cuál querríamos minimizar? ¿Por qué?*

# Accuracy

La precisión es la métrica más intuitiva. Esto se define como:

$$
accuracy = \frac{True  Positives + True  Negatives}{All  Samples}
$$

En otras palabras, la precisión son las predicciones correctas que nuestro modelo hizo a partir del número total de predicciones.

Ventajas:
La precisión es fácil de entender y ofrece una imagen combinada de ambos tipos de errores en un número.

Contras: la precisión puede ser engañosa cuando un conjunto de datos está desequilibrado. Tampoco brinda información específica sobre los tipos de errores que está cometiendo un modelo.

Por ejemplo, vimos arriba que el 62% de nuestras muestras son masas malignas cuando hicimos
 `y.value_counts(normalize=True)`

Para usar las funciones de métricas de sklearn, primero les pasamos las etiquetas verdaderas, luego las etiquetas predichas. Por ejemplo:
 `accuracy = accuracy_score(y_test, y_pred)`

In [None]:
#Print the accuracy of both models on the test set


Si nuestro conjunto de datos fuera aún más desequilibrado, digamos 99,9% maligno, entonces una predicción de que TODO es maligno tendría una precisión muy alta. Sin embargo, ese no sería un modelo muy útil para uso médico real. Más a menudo vemos lo contrario: una enfermedad es muy rara, ocurre .01% del tiempo o menos, y un modelo que predice que NINGUNA muestra tendrá la enfermedad tendrá una alta precisión, pero en realidad será inútil... y ¡peligroso!

# Recall

Cuando queremos reducir el número de falsos negativos, queremos mejorar el recall.

Recall es definido asi: 

$$
recall = \frac{True Positives}{False Negatives + True Positives}
$$

Es decir: ¿cuántas muestras marcó nuestro modelo como positivas de todas las muestras positivas verdaderas?

Pros: un mayor recuerdo significa menos predicciones falsas negativas, también conocidas como errores de tipo 2. Es genial para cuando clasificar un positivo como negativo es un error costoso.

Contras: no considera cuántas muestras se etiquetan falsamente como positivas o falsas positivas. No penaliza los errores de tipo 1.

En el caso de este conjunto de datos, podríamos suponer que la consecuencia de un falso negativo es que una persona muere innecesariamente de cáncer, mientras que la consecuencia de un falso positivo es que alguien se somete a una cirugía innecesaria. Si bien ninguno es excelente, el segundo generalmente será menos malo. Un recuerdo alto significa menos masas malignas sin tratar.

Puedes usar la function Scikit-Learn: `recall_score()` para calcular esto. Consulte la documentación sobre esta función para obtener más información..

In [None]:
#Print the recall scores of both models.



Puede ver que nuestro modelo de árbol de decisiones tiene un alto recuerdo, pero solo predecir que TODOS los tumores son malignos nos da un recuerdo perfecto de 1. Si bien queremos detectar tantos tumores malignos como sea posible, no queremos simplemente enviar a todos bajo el quirófano, ¡especialmente porque sabemos que el 38 % no necesita cirugía!

# Precision

Cuando queremos reducir el número de falsos positivos, queremos mejorar la precision.

Precision se define como:

$$
precision = \frac{True Positives}{False Positives + True Positives}
$$

En otras palabras: ¿Qué proporción de las muestras que predijimos que estaban en la clase positiva estaban realmente en la clase positiva?

Pros: una alta precisión significa menos errores de tipo 1 o menos falsos positivos. Esta es una buena métrica para maximizar si una predicción falsa positiva es un error costoso.

Contras: la precisión no penaliza a un modelo por falsos negativos. No cuenta los errores de tipo 2.

En este caso, la precisión sería medir cuántos de los tumores que elegimos para operar eran realmente malignos.

Puedes usar la funcion Scikit-Learn: `precision_score()` para calcular esto. Consulte la documentación sobre esta función para obtener más información.

In [None]:
#Print the precision scores of both models.


# La Imagen Completa: Matrices de Confusión y Classification_report()

Como ha visto, la precisión, la precisión y el recall solo cuentan una parte de la historia. Para obtener una imagen completa de cómo se está desempeñando su modelo y qué tipo de errores tiende a cometer, debe consultar una matriz de confusión y/o la práctica fucntion de sklearn. `classification_report()`.

Use ConfusionMatrixDisplay to display a confusion matrix of the model predictions.

Vemos las predicciones de falsos positivos (arriba a la derecha) y las predicciones de falsos negativos (abajo a la izquierda) que hizo nuestro modelo. Sin embargo, la parte inferior izquierda es de 89 en total y la parte superior derecha es de 54 en total. Podemos ver las proporciones normalizadas de predicciones verdaderas y falsas al normalizar a lo largo de los ejes 'verdadero' o 'pred' en ConfusionMatrixDisplay.

Para normalizar a lo largo del eje 'true', establecemos normalizar = 'true'`.  

Tenga en cuenta que es la cadena 'true' NOT el valor booleano: `True`

In [None]:
#Recreate the confusion matrix above, but with the values normalized along the 'true' axis.


Ahora podemos ver que nuestro modelo de árbol de decisiones clasificó con éxito el 94% de las muestras en ambas clases, benignas (clase 0) y malignas (clase 1)

Otra forma rápida de verificar la exactitud, recuperación y precisión de un modelo en un conjunto de prueba es con`classification_report()`, que ejecuta varias métricas en ambas clases simultáneamente.

In [None]:
#Use classifiction_report() to print a report of several metrics for all classes at once
#for both models


Notará que cada clase tiene una recuperación y una precisión diferentes. f1-score, por cierto, es la media armónica de la precisión y la recuperación.

El informe_clasificación también nos dice los promedios de las precisiones, las medias y las puntuaciones f1. 'soporte' es cuántas muestras hay de cada clase.

# Multi-class Metrics

Precision, recall, and accuracy también se extienden a los casos en los que tenemos más de 2 clases posibles. Sin embargo, para saber cómo calcular la precisión y recordar tenemos que decidir qué clase es nuestra clase positiva. También nos interesamos en los patrones de errores más complejos que pueden ocurrir.

Por ejemplo, supongamos que tenemos un problema con 3 clases posibles. Podríamos preguntar:

Cuando nuestro modelo clasifica erróneamente las muestras de clase 1, ¿las clasifica más a menudo como clase 0 o clase 2? Esto puede ayudarnos a comprender por qué está cometiendo ese tipo de error y cómo podemos mejorar el rendimiento.

La matriz de confusion y la function `classification_report()` , al igual que con la clasificación binaria, serán sus mejores herramientas para esto, ya que pueden mostrar fácilmente métricas para múltiples clases.

Intentemos esto con datos multiclase: el conjunto de datos Iris

# The Iris Dataset

In [3]:
iris = load_iris()

X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.DataFrame(iris.target)
print(y.value_counts(normalize=True))
X.head()

0    0.333333
1    0.333333
2    0.333333
dtype: float64


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [None]:
# Train test split the iris data


# Modeling and Evaluating with Multiclass Datasets

In [None]:
# Create a dummy classifier with the 'most_frequent' strategy and fit in on the
# iris data


In [None]:
# Evaluate the dummy classifier on the training data using 
# classification report and a confusion matrix


In [None]:
# Evaluate the dummy classifier on the testing data using 
# classification_report() and a confusion matrix


In [None]:
# Fit and a DecisionTreeClassifier on the iris data


In [None]:
# Evaluate the decision tree on the training data using classification_report()
# and a confusion matrix


In [None]:
# Evaluate the decision tree on the training data using classification_report()
# and a confusion matrix


# Resumen

Accuracy, precision, and recall todas son métricas que nos brindan diferentes perspectivas sobre el rendimiento de nuestro modelo al hacer predicciones. Ninguno de ellos por sí solo nos lo dice todo, y diferentes métricas son más o menos importantes según el problema de nuestro negocio.

Sin embargo, necesitamos medir los tres para asegurarnos de que nuestro modelo está haciendo predicciones útiles. Dos formas de hacer esto rápidamente son con una matriz de confusión y un informe de clasificación.