# Machine Learning - Supervised learning - Clasificación

![imagen](images/tit.jpeg)

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Exploración-de-los-datos" data-toc-modified-id="Exploración-de-los-datos-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Exploración de los datos</a></span></li><li><span><a href="#Regresión-logística" data-toc-modified-id="Regresión-logística-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Regresión logística</a></span></li><li><span><a href="#Manos-a-la-obra" data-toc-modified-id="Manos-a-la-obra-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Manos a la obra</a></span><ul class="toc-item"><li><span><a href="#Vamos-a-entrenar-un-modelo" data-toc-modified-id="Vamos-a-entrenar-un-modelo-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Vamos a entrenar un modelo</a></span></li><li><span><a href="#Vamos-a-crear-una-columna-de-predicción-para-todo-el-dataframe" data-toc-modified-id="Vamos-a-crear-una-columna-de-predicción-para-todo-el-dataframe-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Vamos a crear una columna de predicción para todo el dataframe</a></span></li></ul></li><li><span><a href="#Métricas!" data-toc-modified-id="Métricas!-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Métricas!</a></span><ul class="toc-item"><li><span><a href="#Matriz-de-confusión" data-toc-modified-id="Matriz-de-confusión-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Matriz de confusión</a></span></li><li><span><a href="#Matriz-de-confusión-con-nuestros-datos" data-toc-modified-id="Matriz-de-confusión-con-nuestros-datos-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Matriz de confusión con nuestros datos</a></span></li><li><span><a href="#Accuracy" data-toc-modified-id="Accuracy-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Accuracy</a></span></li><li><span><a href="#Precision-(Precisión)" data-toc-modified-id="Precision-(Precisión)-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span>Precision (Precisión)</a></span></li><li><span><a href="#Recall-(Exhaustividad)" data-toc-modified-id="Recall-(Exhaustividad)-4.5"><span class="toc-item-num">4.5&nbsp;&nbsp;</span>Recall (Exhaustividad)</a></span></li><li><span><a href="#Diferenciando-precision-y-recall" data-toc-modified-id="Diferenciando-precision-y-recall-4.6"><span class="toc-item-num">4.6&nbsp;&nbsp;</span>Diferenciando precision y recall</a></span></li><li><span><a href="#F1-Score" data-toc-modified-id="F1-Score-4.7"><span class="toc-item-num">4.7&nbsp;&nbsp;</span>F1 Score</a></span></li></ul></li><li><span><a href="#Repaso-de-Train-Test-Split" data-toc-modified-id="Repaso-de-Train-Test-Split-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Repaso de Train Test Split</a></span></li><li><span><a href="#Entrenemos-el-modelo" data-toc-modified-id="Entrenemos-el-modelo-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Entrenemos el modelo</a></span></li><li><span><a href="#Hacemos-predicciones" data-toc-modified-id="Hacemos-predicciones-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Hacemos predicciones</a></span></li><li><span><a href="#Sacamos-todas-las-métricas" data-toc-modified-id="Sacamos-todas-las-métricas-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Sacamos todas las métricas</a></span></li></ul></div>

In [None]:
import pandas as pd
import seaborn as sns

 * Los modelos de regresión se utilizan cuando la variable objetivo es **cuantitativa**: 
  - salarios
  - emisiones de gases
  - edad de la persona en una foto
  - ...
 * Los modelos de clasificación se utilizan cuando la variable objetivo es cualitativa: 
  - sobrevivir (o no) al Titanic
  - devolver (o no) un préstamo
  - identificar un perro (o no) en una foto
  - decidir cuál de 3 especies de plantas es ésta
  - ...

## Exploración de los datos

In [None]:
df = pd.read_csv("data/breast_cancer.csv")

Documentation:  
a) radius (mean of distances from center to points on the perimeter)  
b) texture (standard deviation of gray-scale values)  
c) perimeter  
d) area  
e) smoothness (local variation in radius lengths)  
f) compactness (perimeter^2 / area - 1.0)  
g) concavity (severity of concave portions of the contour)  
h) concave points (number of concave portions of the contour)  
i) symmetry  
j) fractal dimension ("coastline approximation" - 1)  

La variable objetivo es `es_cáncer`.

Es una variable categórica, que toma los valores posibles $0$ y $1$º

In [None]:
# Vamos a visualizar de forma rápida el balanceo de variables categóricas


## Regresión logística
La regresión logística es uno de los algoritmos más populares y utilizados para los problemas de clasificación. Como además es relativamente poco complejo y fácil de implementar, se suele utilizar como modelo de partida, aunque también puede producir resultados de muy alto rendimiento utilizado en producción. Aquí vamos a hablar de la Regresión Logística Binomial, que se utiliza para resultados binarios. La Regresión Logística Multinomial existe y puede utilizarse para problemas de clasificación multiclase, pero se utiliza con menos frecuencia. No la trataremos en esta lección. 

La regresión logística es en realidad una función de regresión lineal transformada. Podemos ver en la imagen de abajo que si intentáramos ajustar una regresión lineal a unos datos con un resultado binario, ajustaríamos una línea que no predice muy bien para ningún valor que no esté en los valores extremos: en el medio hay mucha zona en la que la línea está muy lejos de los puntos. Para acercar nuestra función a los datos, tenemos que transformar la función que estamos utilizando. En este caso, es útil utilizar una función sigmoidea, que estima una forma de "S". Ahora podemos ver que nuestra línea se ajusta a los datos mucho mejor. 

![regresiónlogística](http://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1534281070/linear_vs_logistic_regression_edxw03.png)

Refs:

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html     
https://techdifferences.com/difference-between-linear-and-logistic-regression.html    
https://stackoverflow.com/questions/12146914/what-is-the-difference-between-linear-regression-and-logistic-regression

## Manos a la obra

Intentemos predecir `es_cáncer` usando sólo como predictor `radio_medio`.

### Vamos a entrenar un modelo

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
# Vamos a ver cómo funcionarcía con los primeroos 5 pacientes

In [None]:
#Un modelo entrenado es una "máquina de predicción"

### Vamos a crear una columna de predicción para todo el dataframe

## Métricas!

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, fbeta_score, confusion_matrix

### Matriz de confusión

Confusion Matrix (Matriz de Confusión)
Vamos a explicar como funciona la matriz de confusión con un ejemplo hipotético de marketing. En este ejemplo, contactamos a 100 clientes y 80 de ellos nos dicen que no están interesados y 20 de ellos que sí.

Nuestro modelo (en el ejemplo) no es muy bueno, aunque dependiendo de qué métrica usemos podría parecer que es mejor de lo que es.

Hemos utilizado como valores de la clasificación binaria:

- 0: no está interesado    
- 1: sí está interesado

![matrizdeconfusión](https://www.iartificial.net/wp-content/uploads/2019/11/Matriz-Confusion-Ejemplo.webp)

En la matriz de confusión de la izquierda podéis ver los valores para este ejemplo. En la matriz de confusión de la derecha, los nombres genéricos cuando usamos la nomenclatura inglesa: True Negative [TN], True Positive [TP], False Positive [FP], False Negative [FN].

Truco: para recordar fácilmente la matriz de confusión:

Positivo (Positive) o Negativo (Negative): se refiere a la predicción. Si el modelo predice 1 entonces será positivo, y se predice 0 será negativo.
Verdadero (True) o Falso (False): se refiere si la predicción es correcta o no.

<img src="https://github.com/andrewwlong/classification_metrics_sklearn/raw/541a0d065ffb8b3ff705161f6d16088d434b2ea7/img/conf_matrix.png">

### Matriz de confusión con nuestros datos

Equivalente con sklearn

In [None]:
from sklearn.metrics import confusion_matrix

### Accuracy

La exactitud (accuracy) mide el porcentaje de casos que el modelo ha acertado. Esta es una de las métricas más usadas y favoritas … que te recomiendo evitar! El problema con la exactitud es que nos puede llevar al engaño, es decir, puede hacer que un modelo malo parezca que es mucho mejor de lo que es.
Representa la proporción de muestras predichas correctamente
 * La métrica más común para la clasificación
 * Es útil cuando
  - el conjunto de datos tiene clases equilibradas (proporción similar de Verdadero y Falso)
  - hay simetría entre Verdadero y Falso (por ejemplo, predicción de "hombre" o "mujer")
 * **¡A menudo se utiliza mal!** ya que:
  - muchos problemas no son simétricos (por ejemplo, cáncer frente a no cáncer)

El accuracy (exactitud) se calcula con la siguiente fórmula:

$$accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$


### Precision (Precisión)

Con la métrica de precisión podemos medir la calidad del modelo de machine learning en tareas de clasificación. En el ejemplo, se refiere a que la precisión es la respuesta a la pregunta ¿qué porcentaje de los clientes que contactemos estarán interesados?

Para calcular la precisión usaremos la siguiente fórmula:

$$precision = \frac{TP}{TP + FP}$$    

Es la fracción de eventos positivos predichos que son realmente positivos como se muestra a continuación

<img src="https://www.iartificial.net/wp-content/uploads/2019/11/precision.webp">

Interpretando esta métrica, vemos que el modelo ha acertado el 87% de los diagnósticos, esto es, se equivocará el 13% de las veces que prediga.

### Recall (Exhaustividad)

La métrica de exhaustividad nos va a informar sobre la cantidad que el modelo de machine learning es capaz de identificar. En el ejemplo, se refiere a que la exhaustividad (recall) es la respuesta a la pregunta ¿qué porcentaje de los clientes están interesados somos capaces de identificar?

Para calcular la exhaustividad (recall) usaremos la siguiente fórmula:

$$recall = \frac{TP}{TP + FN}$$


<img src="https://www.iartificial.net/wp-content/uploads/2019/11/recall-exhaustividad.webp">

### Diferenciando precision y recall
A pesar de ser similares, poseen distinciones sutiles.

- Precision: ¿Cuántas veces lo que mi modelo dice es realmente cierto?
- Recall: ¿Cuántas veces mi modelo es capaz de identificar la verdad?     
Precision se centra en lo que modelo dice y luego lo compara con la realidad. Por otro lado, recall parte de la realidad, y después evalúa que tan bueno es el modelo para reconocerla.

### F1 Score

El valor F1 se utiliza para combinar las medidas de precision y recall en un sólo valor. Esto es práctico porque hace más fácil el poder comparar el rendimiento combinado de la precisión y la exhaustividad entre varias soluciones.

F1 se calcula haciendo la media armónica entre la precisión y la exhaustividad:

$$F1 = 2 \cdot \frac{precision \cdot recall}{precision + recall}$$

He extraído documentación de las métricas de [este](https://www.iartificial.net/precision-recall-f1-accuracy-en-clasificacion/) artículo excepcionalmente explicado.
Pero aquí os dejo más:
- https://towardsdatascience.com/accuracy-precision-recall-or-f1-331fb37c5cb9
- https://blog.exsilio.com/all/accuracy-precision-recall-f1-score-interpretation-of-performance-measures/
- https://wiki.pathmind.com/accuracy-precision-recall-f1
- https://datasmarts.net/es/mas-alla-del-accuracy-precision-recall-y-f1/

## Repaso de Train Test Split

In [None]:
# Dibujo train test split

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
from sklearn.model_selection import train_test_split

## Entrenemos el modelo

## Hacemos predicciones

## Sacamos todas las métricas