# Clasificación

<div style="text-align: right"><a>por </a><a href="https://www.linkedin.com/in/sheriff-data/" target="_blank">Manuel López Sheriff</a></div>

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Data-exploration" data-toc-modified-id="Data-exploration-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Data exploration</a></span></li><li><span><a href="#Logistic-regression" data-toc-modified-id="Logistic-regression-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Logistic regression</a></span><ul class="toc-item"><li><span><a href="#1-predictor" data-toc-modified-id="1-predictor-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>1 predictor</a></span><ul class="toc-item"><li><span><a href="#Model" data-toc-modified-id="Model-2.1.1"><span class="toc-item-num">2.1.1&nbsp;&nbsp;</span>Model</a></span></li><li><span><a href="#Accuracy-score" data-toc-modified-id="Accuracy-score-2.1.2"><span class="toc-item-num">2.1.2&nbsp;&nbsp;</span>Accuracy score</a></span></li></ul></li><li><span><a href="#Many-predictors" data-toc-modified-id="Many-predictors-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Many predictors</a></span><ul class="toc-item"><li><span><a href="#Model" data-toc-modified-id="Model-2.2.1"><span class="toc-item-num">2.2.1&nbsp;&nbsp;</span>Model</a></span></li><li><span><a href="#Accuracy-score" data-toc-modified-id="Accuracy-score-2.2.2"><span class="toc-item-num">2.2.2&nbsp;&nbsp;</span>Accuracy score</a></span></li><li><span><a href="#predict_proba" data-toc-modified-id="predict_proba-2.2.3"><span class="toc-item-num">2.2.3&nbsp;&nbsp;</span><code>predict_proba</code></a></span></li><li><span><a href="#Elegir-manualmente-el-umbral" data-toc-modified-id="Elegir-manualmente-el-umbral-2.2.4"><span class="toc-item-num">2.2.4&nbsp;&nbsp;</span>Elegir manualmente el umbral</a></span></li></ul></li><li><span><a href="#Las-matemáticas-de-la-regresión-logística" data-toc-modified-id="Las-matemáticas-de-la-regresión-logística-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Las matemáticas de la regresión logística</a></span></li></ul></li><li><span><a href="#Métricas" data-toc-modified-id="Métricas-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Métricas</a></span><ul class="toc-item"><li><span><a href="#Accuracy" data-toc-modified-id="Accuracy-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Accuracy</a></span></li><li><span><a href="#Recall" data-toc-modified-id="Recall-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Recall</a></span></li><li><span><a href="#Precision" data-toc-modified-id="Precision-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Precision</a></span></li><li><span><a href="#F1-score" data-toc-modified-id="F1-score-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>F1 score</a></span></li><li><span><a href="#F_beta-score" data-toc-modified-id="F_beta-score-3.5"><span class="toc-item-num">3.5&nbsp;&nbsp;</span>F_beta score</a></span></li></ul></li><li><span><a href="#Choosing-the-best-threshold" data-toc-modified-id="Choosing-the-best-threshold-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Choosing the best threshold</a></span></li><li><span><a href="#Summary" data-toc-modified-id="Summary-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Summary</a></span></li><li><span><a href="#Further-materials" data-toc-modified-id="Further-materials-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Further materials</a></span></li></ul></div>

Recuerda:

Los modelos de regresión se utilizan cuando la variable objetivo es **cuantitativa**:
 - salarios
 - emisiones de gases
 - edad de una persona en una foto
 - ...

Los modelos de clasificación se utilizan cuando la variable objetivo es **cualitativa**:
 - sobrevivir (o no) al Titanic
 - devolver (o no) un préstamo
 - identificar si  hay (o no) a un perro en una foto
 - decidir cuál de 3 especies de plantas es ésta
 - ...

Las métricas son especialmente importantes en los problemas de clasificación.

Debemos comprender el objetivo del caso de uso para elegir la métrica adecuada.

## Data exploration

In [None]:
import pandas as pd
import seaborn as sns

In [None]:
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = [4.5, 3]

In [None]:
df = pd.read_csv("./datasets/breast_cancer_bis.csv")

In [None]:
df.shape

In [None]:
df.head(5)

In [None]:
df.columns

Documentation:  
a) radius (mean of distances from center to points on the perimeter)  
b) texture (standard deviation of gray-scale values)  
c) perimeter  
d) area  
e) smoothness (local variation in radius lengths)  
f) compactness (perimeter^2 / area - 1.0)  
g) concavity (severity of concave portions of the contour)  
h) concave points (number of concave portions of the contour)  
i) symmetry  
j) fractal dimension ("coastline approximation" - 1)  

La variable a predecir es `is_cancer`  
Es una variable categórica, que toma los valores $0$ o $1$

## Análisis exploratorio

In [None]:
sns.countplot(x=df.is_cancer, hue=df.is_cancer, palette=["lightgreen", "red"])

In [None]:
sns.histplot(x=df.mean_radius)

In [None]:
sns.kdeplot(x=df.mean_radius, hue=df.is_cancer)

In [None]:
sns.kdeplot(x=df.mean_area, hue=df.is_cancer)

In [None]:
sns.scatterplot(x=df.mean_radius, y=df.mean_area)

## Logistic regression

La regresión logística es el algoritmo de clasificación más simple

### 1 predictor

#### Model

Tratemos de predecir `is_cancer` usando sólo como predictor `mean_radius`

In [None]:
sns.scatterplot(x=df.mean_radius, y=df.is_cancer)

In [None]:
df2 = df[["mean_radius", "is_cancer"]].copy()

In [None]:
df2.head()

In [None]:
df2.sample(10).sort_values("mean_radius")

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
log = LogisticRegression()

In [None]:
df2.shape

In [None]:
df2.head()

In [None]:
log.fit(
    X=df2[["mean_radius"]],
    y=df2.is_cancer
)

Un model entrenado es una _máquina de hacer predicciones_

Qué tal habría predicho a los 5 primeros pacientes?

In [None]:
df2.mean_radius.head()

In [None]:
df2.is_cancer.head()

In [None]:
log.predict(df2[["mean_radius"]])[:5]

In [None]:
df2["prediction_cancer"] = log.predict(df2[["mean_radius"]])

In [None]:
df2.sample(10)

#### Accuracy score

Cuántas predicciones fueron correctas?

In [None]:
df2.head()

In [None]:
df2["correct"] = df2.is_cancer == df2.prediction_cancer

In [None]:
df2.sample(10)

Accuracy es la proporción de predicciones buenas

In [None]:
accuracy = df2.correct.sum() / df2.shape[0]

In [None]:
accuracy.round(3)

Hagamos lo mismo con el train / test split (como deberíamos hacer siempre)

In [None]:
X = df2[["mean_radius"]]
y = df2.is_cancer

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=466)

In [None]:
X_train.shape, X_test.shape

In [None]:
log = LogisticRegression()

In [None]:
log.fit(
    X_train, 
    y_train
)

In [None]:
X_test[:5]

In [None]:
y_test[:5]

In [None]:
log.predict(X_test)[:5]

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
# train score
accuracy_score(y_train, log.predict(X_train)).round(4)

In [None]:
# test score
accuracy_score(y_test, log.predict(X_test)).round(4)

In [None]:
from sklearn.model_selection import cross_validate

Veamos los resultados con 5 folds de cross validation

In [None]:
cv_results = cross_validate(LogisticRegression(), X, y, cv=5, return_train_score=True)

In [None]:
pd.DataFrame(cv_results).round(3)

In [None]:
cv_results.get("test_score").mean().round(3)

Cuántos True/False Positives/Negatives tenemos?

Construimos la matriz de confusión

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/conf_matrix.png">

In [None]:
df.shape

In [None]:
df2.head(10)

In [None]:
pd.crosstab(
    df2.is_cancer,
    df2.prediction_cancer
)

In [None]:
import numpy as np

In [None]:
x = np.linspace(df.mean_radius.min(), df.mean_radius.max(), 100)
y = log.predict(x.reshape(-1, 1))

In [None]:
import matplotlib.pyplot as plt

In [None]:
sns.scatterplot(x=df.mean_radius, y=df.is_cancer)
plt.plot(x, y, c= "red")

### Many predictors

#### Model

In [None]:
# if no max_iter, convergence problems arise (python warns you)
log = LogisticRegression(max_iter=20000)

Usamos todas las variables **excepto** `is_cancer` para intentar predecir `is_cancer`

In [None]:
df3 = df.copy()

In [None]:
X = df3.drop("is_cancer", axis=1)
y = df3.is_cancer

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=466)

In [None]:
X_train.shape, X_test.shape

In [None]:
y_train.shape

In [None]:
log = LogisticRegression()

In [None]:
log.fit(
    X_train, 
    y_train
)

In [None]:
X_test[:5]

In [None]:
y_test[:5]

In [None]:
log.predict(X_test)[:5]

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
# train score
accuracy_score(y_train, log.predict(X_train)).round(4)

In [None]:
# test score
accuracy_score(y_test, log.predict(X_test)).round(4)

Olvidémonos por el momento del train / test y tomemos todo el dataset X, y para entrenar y predecir

In [None]:
log.fit(X, y)

In [None]:
df3["prediction_cancer"] = log.predict(X)

In [None]:
df3b = df3[["is_cancer", "prediction_cancer"]].copy()

In [None]:
df3b["correct"] = (df3b.is_cancer == df3.prediction_cancer)

In [None]:
# accuracy
df3b.correct.mean()

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/conf_matrix.png">

In [None]:
pd.crosstab(
    df3b.is_cancer,
    df3b.prediction_cancer
)

#### Accuracy score

In [None]:
acc = (337 + 182) / df3.shape[0]

In [None]:
round(acc, 3)

Conseguimos mayor accuracy utilizando muchos predictores en lugar de uno (como era de esperar!)

#### `predict_proba`

En realidad, la Regresión Logística predice probabilidades

Nosotros, como data scientists, queremos información más precisa (si es posible) que la predicción *discreta* 0, 1

In [None]:
df.iloc[35:40]

In [None]:
log.predict(X[35:40])

In [None]:
log.predict_proba(X[35:40]).round(3)[:, 1]

In [None]:
df3["prediction_proba_cancer"] = log.predict_proba(X)[:, 1]

In [None]:
df3b["prediction_proba_cancer"] = df3.prediction_proba_cancer

In [None]:
sns.histplot(df3b.prediction_proba_cancer)

In [None]:
df3b.sample(10, random_state=166)

Interpretación gráfica en el caso de UN PREDICTOR

La curva muestra la probabilidad (Y) de cáncer dado el `mean_radius` (X)

<img src="https://static.javatpoint.com/tutorial/machine-learning/images/logistic-regression-in-machine-learning.png">

#### Elegir manualmente el umbral

Por defecto, `predict` computa `predict_proba` > 0.5

In [None]:
df3b.head()

In [None]:
pd.crosstab(
    df3b.is_cancer,
    df3b.prediction_cancer
)

Cambiemos el umbral y veamos cómo cambian los resultados

Umbral = 0.1 _invitará_ a las predicciones a ser Positivas

Subirán los Falsos positivos?
Subirán los Falsos negativos?

**Ejemplo 1: umbral bajo**

In [None]:
threshold = 0.1

In [None]:
pd.crosstab(
    df3b.is_cancer,
    df3b.prediction_proba_cancer > threshold
)

In [None]:
accu = (308 + 210) / df.shape[0]

In [None]:
round(accu, 3)

Se encontraron casi todos los positivos (**recall** alto)

Aparecieron falsos positivos (**precisión** baja)

**Ejemplo 2: umbral alto**

Recordemos umbral 0.5

In [None]:
pd.crosstab(
    df3b.is_cancer,
    df3b.prediction_cancer
)

In [None]:
threshold = 0.8

In [None]:
pd.crosstab(
    df3b.is_cancer,
    df3b.prediction_proba_cancer > threshold
)

Casi todos las predicciones positivas son ciertas (**precisión** alta)

Predecimos 35 verdaderos cáncer como Falsos (**recall** bajo)

### Las matemáticas de la regresión logística

La función logística es una función matemática definida como:
$$\sigma(z)=\frac{1}{1 + e^{-z}}$$

**Ejercicio**: 
 * $\sigma(0)= $

 * $\lim_{z \rightarrow \infty} \sigma(z)=$

 * $\lim_{z \rightarrow -\infty} \sigma(z)=$

In [None]:
z = np.linspace(-10, 10, 100)
sigma = 1 / (1 + np.exp(-z))

In [None]:
plt.plot(z, sigma, "-")

**Ejercicio**: $$\sigma'(z)=\sigma(z)(1-\sigma(z))$$

In [None]:
pd.Series(log.coef_[0], index=X.columns).head()

La regresión logística encuentra los parámetros $\beta_0$, ..., $\beta_n$ **óptimos** de forma que: 
$$\hat{y}=\sigma(\beta _{0}+\beta _{1}x_1 + ... + \beta_n x_n)=\frac{1}{1 + e^{-(\beta _{0}+\beta _{1}x_1 + ... + \beta_n x_n)}}$$ tenga el menor error

## Métricas

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, fbeta_score

OJO:

 - la métrica debe elegirse a-priori, con conocimiento del problema. A continuación, se entrenan varios modelos y se elige el que obtiene el mejor resultado
 - aquí vamos a presentar diferentes métricas para el mismo modelo como ejercicio. Los resultados (0,94, 0,92, 0,95 no deben compararse en ningún caso).

En el rectángulo de la izquierda, Positivos reales  
En el rectángulo de la derecha, Negativos reales  

Dentro del círculo: positivos predichos  
Fuera del círculo: negativos predichos  

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/buckets.png">

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/conf_matrix.png">

### Accuracy

 - Representa la proporción de muestras predichas correctamente
 - Es la métrica más utilzada en la clasificación
 - Es útil cuando:
   - el conjunto de datos tiene clases equilibradas (proporción similar de Verdadero y Falso)
   - hay simetría entre Verdadero y Falso (por ejemplo, predicción de "hombre" o "mujer")
 - A menudo se utiliza mal, pues:
    - muchos problemas tienen clases desequilibradas (por ejemplo, terrorista frente a no terrorista)
    - muchos problemas no son simétricos (por ejemplo, cáncer frente a no cáncer)
    - estate alerta!

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/accuracy.png">

In [None]:
df3b.head()

In [None]:
accuracy_score(
    y_true=df3b.is_cancer,
    y_pred=df3b.prediction_cancer
)

In [None]:
pd.crosstab(
    df3b.is_cancer,
    df3b.prediction_cancer
)

In [None]:
(337 + 182) / (337 + 30 + 20 + 182)

### Recall

(también conocida como sensibilidad) es la fracción de eventos positivos que predigo correctamente, como se muestra a continuación

Valora como crucial identificar casos verdaderos (útil para la detección de cáncer / terroristas aeroupuerto)

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/recall.png">

In [None]:
recall_score(
    y_true=df3b.is_cancer,
    y_pred=df3b.prediction_cancer
)

In [None]:
pd.crosstab(
    df3b.is_cancer,
    df3b.prediction_cancer
)

In [None]:
182 / (182 + 30)

### Precision

es la fracción de eventos predichos positivos que son realmente positivos

Valora como crucial no tener Falsos Positivos (tratamientos muy agresivos de enfermedades poco maliciosas)

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/precision.png">

In [None]:
precision_score(
    y_true=df3b.is_cancer,
    y_pred=df3b.prediction_cancer
)

In [None]:
pd.crosstab(
    df3b.is_cancer,
    df3b.prediction_cancer
)

In [None]:
182 / (182 + 20)

### F1 score

 - en general, recall es más importante que precision, pero...
 - un mayor recall siempre implica una menor precision
 - hay que encontrar un equilibrio

La puntuación F1 es la media armónica de la recall y la precision:

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/f1_score.png">

In [None]:
f1_score(
    y_true=df3b.is_cancer,
    y_pred=df3b.prediction_cancer
)

### F_beta score

La métrica $F_\beta$ 
  es la media ponderada del recall y la precision

<img width=600 src="https://miro.medium.com/max/1180/1*cHOhrncdnWK0vA2baH0AWA.jpeg">

El parámetro `beta` determina el peso del recall en la media ponderada

Nosotros, junto con los médicos (técnicos) y el gobierno (dinero, tiempo) decidimos que $\beta=3$
  es una buena opción para la detección del cáncer de mama, pues:

 - valoramos encontrar verdaderos positivos...
 - 3 veces más que...
 - perder tiempo con falsos positivos

In [None]:
fbeta_score(
    y_true=df3b.is_cancer,
    y_pred=df3b.prediction_cancer,
    beta=3
)

## Choosing the best threshold

Encontremos el umbral que maximiza la métrica $F_3$

In [None]:
df3b[["is_cancer", "prediction_proba_cancer"]].sample(10, random_state=666)

In [None]:
import numpy as np

In [None]:
results = []

In [None]:
y_true = df3b.is_cancer

for threshold in np.arange(0, 1.01, 0.05):
    y_pred = df3b.prediction_proba_cancer > threshold
    
    result = {
        "threshold": threshold,
        "accuracy": accuracy_score(y_true, y_pred),
        "precision": precision_score(y_true, y_pred),
        "recall": recall_score(y_true, y_pred),
        "f3": fbeta_score(y_true, y_pred, beta=3)
    }
    
    results.append(result)

In [None]:
res = pd.DataFrame(results)
res

In [None]:
optimal_threshold = res.threshold[res.f3.argmax()]
optimal_threshold

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/conf_matrix.png">

In [None]:
pd.crosstab(df3b.is_cancer, df3b.prediction_proba_cancer > 0.15)

In [None]:
pd.crosstab(df3b.is_cancer, df3b.prediction_proba_cancer > 0.000001)

<img width=700 src="https://2.bp.blogspot.com/-EvSXDotTOwc/XMfeOGZ-CVI/AAAAAAAAEiE/oePFfvhfOQM11dgRn9FkPxlegCXbgOF4QCLcBGAs/s1600/confusionMatrxiUpdated.jpg">

## Summary

 * La clasificación predice resultados cualitativos (clases)
 * La regresión logística es el algoritmo de clasificación más utilizado (no por ser el mejor, sino por ser explicable y clásico)
 * La regresión logística predice probabilidades (`.predict_proba`, entre 0 y 1) y puede aplicarle umbrales (`.predict`)

 * Existen diferentes métricas de clasificación
 * Hay que decidir una métrica antes de entrenar diferentes modelos! El criterio humano se traduce en la elección de la métrica
 * Una métrica nos permite elegir el mejor modelo
 * Para elegir una métrica, debemos fijarnos en 
   - el equilibrio de la clase
   - simetría de clase

## Further materials

[ROC Curve](https://en.wikipedia.org/wiki/Receiver_operating_characteristic)