# Predicción
**Autores:** José A. Troyano, Beatriz Pontes &nbsp;&nbsp;&nbsp; **Última modificación:** 10/03/2022

---------------------------------------------------------------------
## Contenido

1. <a href="#entrenamiento_clf"> Entrenamiento de un clasificador </a> <br>
    1.1. <a href="#reg_log"> ¿Qué es la regresión logística? ¿Es regresión o clasificación? </a> <br>
    1.2. <a href="#estimador_reg_log"> El estimador _LogisticRegression_ </a>  <br>
2. <a href="#metricas_clf"> Métricas de evaluación de clasificadores </a> <br>
    2.1. <a href="#confusion"> Matriz de confusión: TP, FP, TN, FN </a> <br>
    2.2. <a href="#pcf1"> Precisión, cobertura y f1 </a> <br>
    2.3.  <a href="#clasificadores"> Experimentos de clasificación </a> <br>
    
3. <a href="#entrenamiento_reg"> Entrenamiento de un regresor  </a> <br>
    3.1. <a href="#regresion_lineal"> Regresión lineal </a><br>
    3.2. <a href="#estimador_reg_lin"> El estimador _LinearRegression_ </a> <br>
4. <a href="#metricas_reg"> Métricas de evaluación de regresores </a> <br>
    4.1. <a href="#r2"> Coeficiente r2 </a> <br>
    4.2. <a href="#mae"> MAE </a> <br>
    4.3. <a href="#regresores"> Experimentos de regresión  </a> <br>
------------------------------------------------------

En este notebook veremos cómo entrenar un estimador de sklearn y distintas formas de evaluar la calidad del modelo obtenido. Trabajaremos con clasificadores (predicción de un atributo discreto) y regresores (predicción de un atributo numérico). 

Empezaremos por importar todos los elementos que usaremos a lo largo del notebook:

In [None]:
import time
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

# Numpy, scipy y pandas
import numpy as np
import scipy.stats
import pandas as pd

# Datasets
from sklearn.datasets import load_breast_cancer

# Evaluación
from sklearn import metrics
from sklearn.model_selection import train_test_split, cross_val_predict, cross_val_score, learning_curve

# Visualización
import seaborn as sns
from pySankey import sankey     # pip install pySankey
import matplotlib.pyplot as plt

%matplotlib inline

## 1. Entrenamiento de un clasificador <a name="entrenamiento_clf"> </a>

Usaremos el dataset _breast cancer_, disponible en el repositorio UCI y también incluido en el conjunto de datasets de prueba de Sklearn. 

El dataset contiene 569 registros correspondientes a pacientes de cáncer de mama. Los atributos se corresponden con métricas calculadas sobre las células identificadas en imágenes de biopsias. Para cada paciente se realizan 10 métricas sobre varias células, y para cada métrica se registran la media, desviación estándar y peor resultado de todos valores. La clase a predecir es $0$ ó $1$ en función de que el tumor sea maligo o no.

In [None]:
# EJERCICIO: acceder al dataset disponible en sklearn y crear el dataframe 'X' para los atributos, y la serie 'y' para la clase
#    - Mostrar información sobre las columnas
#    - Mostrar con una gráfica la distribución de los valores de la clase


Entrenar un clasificador es muy simple en Sklearn. Basta con crear un objeto del estimador que queramos entrenar y ejecutar el método <code>fit</code>. En este notebook usaremos uno de los clasificadores que mejor resultado suele dar de los disponibles en Sklearn: <code>LogisticRegression</code>. 

### 1.1. ¿Qué es la regresión logística? ¿Es regresión o clasificación? <a name="reg_log"> </a>

Es una técnica que se usa para predecir el resultado de una variable discreta, es por tanto una _técnica de clasificación_. En su formulación más simple (la binaria) se aprende a estimar la probabilidad de que una instancia pertenezca a la clase positiva de la siguiente forma:
- Probabilidades cercanas a $1$ darán lugar a clasificar la instancia como de la clase positiva
- Probabilidades cercanas a $0$ darán lugar a clasificar la instancia como de la clase negativa



El modelo logístico establece la siguiente relación entre la probabilidad de pertenecer a la clase positiva y los valores de los atributos de la instancia $X$:

$$
P(X) = P(y=1\;| \;x_1, x_2, ..., x_n)  = \frac{1}{1+exp(-\alpha-\beta_1x_1-\beta_2x_2...-\beta_nx_n)}
$$

A este tipo de funciones se les denomina _logísticas_ (de ahí el nombre _regresión logística_).

Se puede generalizar a una clasificación no binaria (con $k$ categorías) mediante la construcción de $k-1$ clasificadores binarios.

La función _logit_ nos permite convertir el problema de estimar la probablilidad en un problema de regresión lineal. Esta es la función _logit_:
$$
logit(p) = ln(\frac{p}{1-p})
$$

Y mediante una serie de transformaciones se demuestra que:

$$
logit(P(y=1\;| \;x_1, x_2, ..., x_n)) = \alpha+\beta_1x_1+\beta_2x_2...+\beta_nx_n
$$

Gracias a usar la función _logit_ como función de enlace se consigue una formulación lineal del problema, lo que permite la aplicación de técnicas de regresión lineal (de ahí el nombre _regresión_ logística)  para el aprendizaje de los coeficientes $\alpha$ y $\beta_i$.



### 1.2. El estimador <code>LogisticRegression</code> <a name="estimador_reg_log"> </a>

#### 1.2.1 Entrenamiento con el conjunto de datos completo 

In [None]:
# EJERCICIO: crear un estimador de la clase LogisticRegression y entrenarlo con el dataset <X,y>


Una vez entrenado un clasificador, podemos usarlo para predecir la clase de un conjunto de instancias con el método <code>predict</code>.

In [None]:
# EJERCICIO: predecir la salida de los primeros 10 valores de X con el clasificador entrenado anteriormente


#### 1.2.2 Separación en conjuntos de entrenamiento y validación 

In [None]:
# EJERCICIO: dividir el dataset <X, y> en dos datasets <X_train, y_train> y <X_test, y_test> con una distribución 80%-20%,
#            entrenar el clasificador con <X_train, y_train> y calcular la métrica accuracy con <X_test, y_test>


Una vez entrenado un clasificador, podemos usarlo para predecir la clase de un conjunto de instancias con el método <code>predict</code>. Muchos estimadores nos proporcionan también las probabilidades de cada una de las clases gracias al método <code>predict_proba</code>.

In [None]:
# EJERCICIO: calcular las probabilidades de cada clase para las instancias de X_test y guardarlas en y_test_proba


Como podemos observar aparecen dos probabilidades para cada fila: la probabilidad de elegir la clase $0$ y la probabilidad de elegir la clase $1$. Un análisis de la distribución de estas probabilidades, nos dará pistas sobre si el conjunto de datos a clasificar está _bien separado_. Si es así, habrá pocos casos dudosos al clasificador le costará menos trabajo decidir.

In [None]:
# EJERCICIO: mostrar con un histograma la distribución de la probabilidad de pertenecer a la clase 1


#### 1.2.3 Entrenamiento y evaluación mediante validación cruzada

Podemos aplicar validación cruzada para evaluar. Por defecto la métrica de evaluación es <code>accuracy_score</code> aunque, como veremos en la siguiente sección, hay más métricas implementadas en Sklearn.

In [None]:
# EJERCICIO: predecir la salida de todas las instancias mediante validación cruzada y guardar las prediccciones en y_pred


In [None]:
from sklearn.metrics import accuracy_score

In [None]:
# EJERCICIO: calcular el score por defecto sobre todas las instancias mediante validación cruzada


In [None]:
# EJERCICIO: calcular las probabilidades de cada clase para todas las instancias y guardarlas en y_pred_prob


In [None]:
# EJERCICIO: mostrar con un histograma la distribución de la probabilidad de pertenecer a la clase 1


## 2. Métricas de evaluación <a name="metricas_clf"> </a>

A partir de esta sección trabajaremos sobre los resultados de la validación cruzada (mediante las series <code>y</code> e <code>y_pred</code>) aunque el análisis podía haberse hecho perfectamente con una evaluación _train/test_.

En el siguiente enlace se puede consultar la evaluación de modelos en sklearn:
https://scikit-learn.org/stable/modules/model_evaluation.html

### 2.1. Matriz de confusión: TP, FP, TN, FN <a name="confusion"> </a>

La matriz de confusión muestra el número de veces que se han producido los distintos tipos de aciertos y fallos. En una clasificación binaria tiene cuatro celdas que suelen denominarse con los siguientes nombres:
- TP: _true positives_
- TN: _true negatives_
- FP: _false positives_
- FN: _false negatives_

In [None]:
# EJERCICIO: crear la matriz de confusión a partir de 'y' e 'y_pred' en un DataFrame con esta estructura:
#   - Columnas: [Predicted 0, Predicted 1]
#   - Índice: [True 0,True 1]


In [None]:
# EJERCICIO: mostrar la matriz de confusión mediante un mapa de calor de Seaborn


In [None]:
# EJERCICIO: calcular TP, FP, TN y FN a partir de la matriz de confusión anterior
#cm = metrics.confusion_matrix(y, y_pred)


Una de las métricas más usadas es el _accuracy_ que mide directamente el porcentaje de aciertos. Si el dataset está balanceado es un buen indicador, pero si alguna de las clases es muy mayoritaria (o minoritaria) la información que nos dá la métrica puede ser bastante engañosa. En las siguientes secciones veremos otras métricas que son menos sensibles a datasets mal balanceados.

### 2.2. Precisión, cobertura y f1 <a name="pcf1"> </a>

El siguiente paquete de métricas es el formado por la precisión, cobertura (_recall_) y medida f1. Son métricas que dan diferente importancia al tipo de error (p.e. falsos positivos o falsos negativos en clasificación binaria). Pueden ser de utilidad para sistemas en los que nos preocupan más unos errores que otros: por ejemplo, es menos grave dejar pasar un correo _spam_ que eliminar un correo correcto. El significado intuitivo de las métricas es el siguiente:
- _precision_: grado de acierto en las instancias propuestas como positivas (¿son todos los que están?)
- _recall_: porcentaje de recuperación del total de las instancias positivas (¿están todos los que son?)
- _f1_ : media armónica de precisión y cobertura.

Al combinar dos métricas complementarias, la medida _f1_ es apropiada para datasets que no estén bien balanceados.

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score

In [None]:
# EJERCICIO: calcular la medida 'precisión' a partir de 'y' e 'y_pred'


In [None]:
# EJERCICIO: calcular la medida 'cobertura' a partir de 'y' e 'y_pred'


In [None]:
# EJERCICIO: calcular la medida 'f1' a partir de 'y' e 'y_pred'


### 2.3. Experimentos de clasificación <a name="clasificadores"> </a>

En esta sección veremos algunas técnicas más de clasificación de la oferta de sklearn. Para comparar los distintos métodos, almacenaremos los resultados en el siguiente dataframe con tres columnas, dos de ellas serán métricas (_accuracy_ y _f1_) y la última el tiempo de ejecución:

In [None]:
# DataFrame donde iremos guardando los resultados de los experimentos
RESULTADOS_CLF = pd.DataFrame(columns=['ACCURACY', 'F1', 'TIEMPO'])
RESULTADOS_CLF

In [None]:
# EJERCICIO: implementar la función 'experimento_clf' que encapsule todos los pasos de un experimento de clasificación
#    PARÁMETROS DE ENTRADA:
#       - clasificador: estimador usado en el experimento
#       - X: matriz de atributos
#       - y: vector de salida
#    SALIDAS:
#       - Tupla (accuracy, f1, roc-auc, tiempo) con las métricas del experimento y el tiempo invertido en segundos


In [None]:
# EJERCICIO: usar la función 'experimento_clasificacion' con los siguientes clasificadores y almacenar los resultados 
#            en el dataframe RESULTADOS_CLF:
# - Regresión logística
# - Vecinos más cercanos, con k=3
# - Árbol de decisión
# - Gradient boosting
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier


## 3. Entrenamiento de un regresor <a name="entrenamiento_reg"> </a>

Usaremos el dataset _concrete_, disponible en el repositorio UCI. El dataset contiene 1030 registros correspondientes a medidas de resistencia de hormigón. Los atributos se corresponden con las proporciones de la mezcla distintas muestras de hormigón y la edad (en días) de la muestra. La variable numérica a predecir es la resistencia de cada muestra.

In [None]:
# EJERCICIO: leer el fichero 'concrete.csv' y crear el dataframe 'X' para los atributos, y la serie 'y' para la clase (atributo 'Concrete compressive strength')


Entrenar un regresor es muy simple en Sklearn, basta con crear un objeto del estimador que queramos entrenar y ejecutar el método <code>fit</code>. En este notebook usaremos uno de los regresores más comunes: <code>LinearRegression</code>.

### 3.1 ¿Qué es la regresión lineal? <a name="regresion_lineal"> </a>

Es un modelo matemático usado para aproximar la relación entre una variable dependiente $y$, y las variables independientes $x_i$. El modelo se expresa con la siguiente fórmula:

$$
y \approx \alpha+\beta_1x_1+\beta_2x_2...+\beta_nx_n
$$

Sklearn proporciona distinos métodos para realizar regresión lineal. El más simple de ellos es el de los _mínimos cuadrados_ que es el que implementa el estimador <code>LinearRegression</code>. La técnica de los mínimos cuadrados se utiliza para determinar los coeficientes de una función de regresión que minimicen la suma de los cuadrados de los errores. Para una función de regresión lineal, se trataría de minimizar esta expresión:

$$
S = \sum (y - f(X))^2 = \sum (y - \alpha+\beta_1x_1+\beta_2x_2...+\beta_nx_n)^2
$$


### 3.2 El estimador <code>LinearRegression</code> <a name="estimador_reg_lin"> </a>

In [None]:
# EJERCICIO: crear un estimador de la clase LinearRegression y entrenarlo con el dataset <X,y>
from sklearn.linear_model import LinearRegression


Una vez entrenado un estimador, podemos usarlo para predecir la clase de un conjunto de instancias con el método <code>predict</code>.

In [None]:
# EJERCICIO: predecir la salida de los primeros 10 valores de X con el regresor entrenado anteriormente


In [None]:
# EJERCICIO: dividir el dataset <X, y> en dos datasets <X_train, y_train> y <X_test, y_test> con una distribución 80%-20%,
#            entrenar el regresor con <X_train, y_train> y calcular la métrica r2 con <X_test, y_test>


Podemos aplicar validación cruzada para evaluar. Por defecto la métrica de evaluación es <code>r2_score</code> aunque, como veremos en la siguiente sección, hay más métricas implementadas en Sklearn.

In [None]:
# EJERCICIO: predecir la salida de todas las instancias mediante validación cruzada y guardar las prediccciones en y_pred


In [None]:
# EJERCICIO: calcular el score por defecto sobre todas las instancias mediante validación cruzada


## 4. Métricas de evaluación <a name="metricas_reg"> </a>

En las tareas de clasificación las métricas de evaluación se basan en el número de aciertos de las predicciones. En la regresión, sin embargo, no se puede hablar de aciertos ya que las predicciones son numéricas y es muy improbable predecir exactamente el valor correcto. Lo importante para evaluar un regresor es medir la diferencia entre el valor real y el valor predicho. 

En el siguiente enlace se puede consultar la evaluación de modelos en sklearn:
https://scikit-learn.org/stable/modules/model_evaluation.html

### 4.1. Coeficiente r2 <a name="r2"> </a>
R2, o también conocido como coeficiente de determinación, es un coeficente normalizado (entre $-1$ a $1$) que determina la calidad de un modelo para replicar los resultados obsrevados. Se calcula con la siguiente fórmula: 
$$
R2 = 1 - \frac{\sum (y -f(X))^2}{\sum (\bar{y} - y)}
$$

In [None]:
from sklearn.metrics import r2_score, mean_absolute_error

In [None]:
# EJERCICIO: dadas los siguientes vectores 'y_real' e 'y_pred' calcular la métrica R2
#    y_real = [1,   0.5, 1.5, 0]
#    y_pred = [1.5, 0,   1.5,  1]


In [None]:
# EJERCICIO: calcular la métrica  R2 usando 'cross_val_score' y el estimador LinearRegression


### 4.2. MAE <a name="mae"> </a>

En la métrica MAE (_mean absolute error_) el error se calcula con la media de las diferencias absolutas entre los valores observados y las predicciones. Es una métrica lineal que se puede interpretar en términos de la magnitud a predecir. Se calcula con la siguiente fórmula: 

$$
MAE = \frac{\sum |\;y -f(X)\;|}{n}
$$

In [None]:
# EJERCICIO: dadas los siguientes vectores 'y_real' e 'y_pred' calcular la métrica MAE
#    y_real = [1,   0.5, 1.5, 0]
#    y_pred = [1.5, 0,   1.5,  1]


In [None]:
# EJERCICIO: calcular la métrica MAE usando 'cross_val_score' y el estimador LinearRegression
# NOTA: los scores de MAE son negativos para que los valores altos se correspondan con mejores resultados


### 4.3. Experimentos de regresión <a name="regresores"> </a>

En esta sección veremos algunas técnicas más de regresión de la oferta de sklearn. Para comparar los distintos métodos, almacenaremos los resultados en el siguiente dataframe con tres columnas, dos de ellas serán métricas (_accuracy_ y _f1_) y la última el tiempo de ejecución:

In [None]:
# DataFrame donde iremos guardando los resultados de los experimentos
RESULTADOS_REG = pd.DataFrame(columns=['R2', 'MAE', 'TIEMPO'])
RESULTADOS_REG

In [None]:
# EJERCICIO: implementar la función 'experimento_regresion' que encapsule todos los pasos del experimento de la sección anterior
#    PARÁMETROS DE ENTRADA:
#       - regresor: estimador usado en el experimento
#       - X: matriz de atributos
#       - y: vector de salida
#    SALIDAS:
#       - Devolver la tupla (r2, mae, tiempo) con la puntuación del experimento y el tiempo invertido en segundos


In [None]:
# EJERCICIO: usar la función 'experimento_regresion' con los siguientes regresores y almacenar los resultados 
#            en el dataframe RESULTADOS_REG:
# - Regresión lineal
# - Vecinos más cercanos, con k=3
# - Vecinos más cercanos, con k=5
# - Árbol de decisión
# - Gradient boosting
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor
