`Lab creado por Margarita Geleta para el curso Introducción a Machine Learning JEDI, edición 2021`

In [None]:
! pip3 install -r requirements.txt

# [I] Introducción a Machine Learning

> Objetivo: **Predicción**

El aprendizaje automático es un campo de las ciencias de computación que interseca estadística, probabilidad, optimización y algoritmia, cuyo objetivo es explorar métodos automáticos para inferir modelos a partir de datos.

Es decir, que las máquinas (computadoras) *aprendan*. Un modelo capta patrones, cuando la máquina vuelve a ver los mismos patrones en los datos, los detecta. Esta detección es lo que aprende. Gracias a esto, podemos hacer predicciones.

**Un sistema aprende si utiliza su anterior experiencia para mejorar el posterior rendimiento.**

¿Cómo lo hacemos con máquinas?

- La máquina analiza los datos (obtiene experiencia).
- Construye un modelo que resume las regularidades (patrones) encontrados en el conjunto de datos analizados. El objetivo es contruir un modelo que **generalice** los datos.
- Utilizar el modelo para hacer predicciones.

---

### Machine Learning VS Programación "tradicional"

<div style="display:flex; justify-content: center;">
    <img src="data/intro.png" alt="drawing" style="height:400px;"/>
</div>

In [None]:
# Tradicional #
def fiebre(T):
    return 1 if T >= 37 else 0

In [None]:
fiebre(36.2), fiebre(38.8)

In [None]:
# Machine Learning #
import pandas as pd
import numpy as np
from sklearn import tree

X = np.array([36.4, 37.2, 36.7]).reshape(-1, 1)
Y = np.array([0, 0, 1]).reshape(-1, 1)

fiebre = tree.DecisionTreeClassifier()
fiebre.fit(X, Y)

In [None]:
fiebre.predict(np.array([36.2, 38.8]).reshape(-1, 1))

In [None]:
tree.plot_tree(fiebre, impurity = False, 
               class_names = ['No','Si'],
              feature_names = ['Temperatura']);

---

### Subcampos de Machine Learning

<div style="display:flex; justify-content: center;">
    <img src="data/intro2.png" alt="drawing" style="height:400px;"/>
</div>

Machine Learning tiene varios subcampos. La taxonomía es la siguiente:

- **Supervised learning** (aprendizaje supervisado): el modelo $f$ crea una correspondencia con los datos de entrada $X$ y sus respectivas etiquetas $Y$, es decir $f(x)=y$. Hay dos tipos:
 - *Clasificación*: el objetivo es predecir una clase (o categoria) de cada ejemplo $x_i$. Hay variaciones: clasificación binaria / multiclase, clasificación probabilísitica, etc. La variable $Y$ es categórica.
 - *Regresión*: el objetivo es predecir un valor numérico de cada ejemplo $x_i$. $Y$ puede ser entera o contínua.
- **Unsupervised learning** (aprendizaje no supervisado): no disponemos de $Y$. El modelo $f$ debe reconocer los patrones de los datos para poder etiquetar las entradas $X$.
 - *Clustering*: descubrir grupos en los datos. Estos grupos se llaman *clusters*.
 - *Reducción de dimensionalidad*: reducir la dimensionalidad de los datos. Lo veremos mañana.
 
Hay otros más, como el *aprendizaje por refuerzo*, *aprendizaje semi-supervisado* ... pero en este curso nos centraremos en los dos subcampos citados.

---

> Ejemplos: www.kaggle.com 

**Kaggle** (de *Google*) es una plataforma que organiza competiciones de ML y DL. En *datasets* encontramos un extenso repositorio con diferentes datasets de todo tipo.

- Muy famoso: **Titanic: Machine Learning from Disaster**, predecir la supervivencia en el Titanic a partir de muchas variables como el nombre, la edad, la clase socio-económica, etc.
- Identificar quién hará una transacción bancaria (https://www.kaggle.com/c/santander-customer-transaction-prediction) 65.000\$
- Predecir la capacidad de devolver un préstamo del banco (https://www.kaggle.com/c/home-credit-default-risk) 70.000\$
- Identificar comentarios tóxicos (https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge) 35.000\$
- Más en https://www.kaggle.com/competitions ...

---

### Overfitting & Underfitting

In [None]:
import matplotlib.pyplot as plt
import numpy as np

import warnings
warnings.filterwarnings('ignore')

def gen_data(N = 5000):
    x = 2.0 * (np.random.rand(N) - 0.5) 
    f = lambda x: np.exp(-x**2) * (-x) * 5 + x / 3
    y = f(x) + np.random.randn(len(x)) * 0.5
    return x, y, f

x, y, f = gen_data(N = 1000)
xp = np.linspace(-1, 1, 10000) 

fig, ax = plt.subplots(4, 1, figsize = (16,16))
for n in range(4):
    for k in range(1):

        order = 10 * n + 10 * k + 1
        z = np.polyfit(x, y, order)
        p = np.poly1d(z)

        ax[n].scatter(x, y, label = "Datos reales", s = 10)
        ax[n].plot(xp, f(xp), label = "Función real", color = 'black', linewidth = 5)
        ax[n].plot(xp, p(xp), label = "Polinomio de orden = {}".format(order), color = 'C1', linewidth = 3)
        ax[n].legend()

¿Qué modelo $f$ es mejor? Basándonos solo en los datos de Training no podemos decidir qué modelo es mejor. Necesitamos añadir "algo" la complejidad de nuestro modelo. Un modelo demasiado complejo tiende a aprender demasiado los patrones propios del conjunto de Training, con lo cual no generaliza.

El objetivo es conservar la señal (el patrón) y negligir el ruido (error). A esto se le llama **generalizar**.

- El error es la aleatoriedad presente en la naturaleza y en los datos.
- El patrón es la regularidad presente en la naturaleza y en los datos.

El overfitting pasa cuando el modelo $f$ empieza a aprender el error (cuando empieza a considerarlo como patrón). El modelo $f$ es demasiado complejo y tiene mucha variancia (variance).

El underfitting pasa cuando el modelo $f$ no aprende lo bastante (ni siquiera detecta el patrón de la señal). El modelo $f$ es demasiado simple y tiene mucho cesgo (bias).

Debemos encontrar un modelo que tenga un balance entre el cesgo y la variancia.

### (1) ¿Cómo detectar overfitting?

- Si el modelo es mucho mejor que en training que en test (el error de training << error de test), seguramente estamos haciendo overfitting.
- Si dos modelos aproximadamente tienen el mismo rendimiento, opta por el más simple.

### (2) ¿Cómo detectar underfitting?

- Si es malo en todo. Así de simple.

### (3) ¿Qué podemos hacer parar evitar overfitting?

- Dividir los datos en conjuntos de training y test (training, validación y test).

- Realizar Cross-Validation (CV):

Generar pequeños subconjuntos de train y test dentro del training set. $k$-fold CV parte el conjunto de training en $k$ subconjuntos (llamados "folds"). Entrenar el algoritmo con $m$ combinaciones utilizando $k-1$ subconjuntos como training y $1$ como test (llamado "holdout fold").

- Añadir más datos al conjunto de training: 

Esto no es siempre posible (ej. datos médicos). Más datos normalmente ayudan a detectar mejor la señal, a no ser que añadamos datos muy ruidosos y fuera de contexto.

- Trabajar con las features:

Escoger bien las variables (feature selection) es muy importante. Meter todas las variables en el modelo quizás no sea la mejor opción (algunas variables no aportan información, son irrelevantes o redundantes). También es posible crear nuevas variables que pueden capturar más información (feature extraction), por ej. PCA.

- Añadir regularización: 

La regularización es una penalización sobre la complejidad. Esta técnica fuerza que los modelos sean más simples. De esta manera penalizamos ambos: el error de training (error de ajuste a los datos) y la complejidad.

- Ensembling:

Entrenar varios modelos independientes y combinar sus predicciones. Lo veremos más adelante en el curso.

A continuación, ejemplo de https://scikit-learn.org/stable/auto_examples/model_selection/plot_underfitting_overfitting.html

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score


def true_fun(X): return np.sin(1.5 * np.pi * X)

np.random.seed(0)

n_samples = 30
N = 100
degrees = [1, 2, 4, 8, 10, 15]

X_train = np.sort(np.random.rand(n_samples))
Y_train = true_fun(X_train) + np.random.randn(n_samples) * 0.1

X_test = np.sort(np.random.rand(N))
Y_test = true_fun(X_test) + np.random.randn(N) * 0.1

plt.figure(figsize = (15, 10))

for i in range(len(degrees)):
    ax = plt.subplot(2, len(degrees) // 2, i + 1)
    plt.setp(ax, xticks = (), yticks = ())

    polynomial_features = PolynomialFeatures(degree = degrees[i],
                                             include_bias = False)
    linear_regression = LinearRegression()
    pipeline = Pipeline([("polynomial_features", polynomial_features),
                         ("linear_regression", linear_regression)])
    pipeline.fit(X_train[:, np.newaxis], Y_train)

    # Evaluate the models using crossvalidation
    scores = cross_val_score(pipeline, X_train[:, np.newaxis], Y_train,
                             scoring = "neg_mean_squared_error", cv = 10)

    X_test = np.linspace(0, 1, 100)
    plt.scatter(X_test, Y_test, s = 20, label = "Test samples", color = "pink")
    plt.scatter(X_train, Y_train, edgecolor = 'b', s = 20, label = "Train samples")
    plt.plot(X_test, true_fun(X_test), label = "True function", color = 'red')
    plt.plot(X_test, pipeline.predict(X_test[:, np.newaxis]), label = "Model", color = 'blue')
    plt.xlabel("x")
    plt.ylabel("y")
    plt.xlim((0, 1))
    plt.ylim((-2, 2))
    plt.legend(loc = "best")
    plt.title("Degree {}\nMSE = {:.5}(+/- {:.2})".format(
        degrees[i], -scores.mean(), scores.std()))
plt.show()

---

### Métricas de evaluación

No existe una única métrica de evaluación. Las métricas son esenciales para evaluar un modelo y dependen del tipo de modelo (modelo de regresión, clasificación, clustering ...). Es crucial escoger una métrica de evaluación correcta. 

IMPORTANTE: cuando ajustamos un modelo, minimizamos una función de coste (de error) con la que entrenamos un modelo. Las métricas con formulas de evaluación SOLO (por eso, no necesariamente deben ser diferenciables) aunque una fórmula de métrica podría usarse como una función de coste. 

Veremos a fondo las funciones de coste en el siguiente notebook.

Veamos las métricas ...

#### Métricas de Regresión

- MSE (Mean Squared Error): el error cuadrático medio es la métrica más famosa y en muchos casos también se utiliza como función de coste en modelos de regresión. MSE encuentra el error cuadrático medio entre los valores reales y los predecidos:
$$
MSE = \frac{1}{N}\sum_{i=1}^N (y_i - f(x_i))^2
$$

- MAE (Mean Absolute Error): MAE encuentra el error absoluto medio entre los valores reales y los predecidos. Es más robusto que MSE respecto los outliers, ya que MSE, al tener el cuadrado, llama mucho la atención a los outliers.
$$
MSE = \frac{1}{N}\sum_{i=1}^N |y_i - f(x_i)|
$$

#### Métricas de Clasificación

Podemos calcularlas a partir de la **matriz de confusión**. Supongamos clasificación binária. Creamos una matriz 2x2 (clase positiva, clase negativa) x (pred. positiva , pred. negativa). Hay 4 opciones: TP, TN, FP, FN. 

<div style="display:flex; justify-content: center;">
    <img src="data/intro3.png" alt="drawing" style="height:200px;"/>
</div>

- Accuracy: la métrica más simple, correcto / total.
$$ Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$

- Precisión: hay muchos casos cuando accuracy no es la mejor opción para evaluar (puede ser muy alta, pero el clasificador puede ser horrible). Uno de estos casos es cuando tenemos clases no balanceadas (una clase más frecuente que otras). Un clasificador con alta precisión es muy conservador, si no está seguro del todo no clasificará como positivo. Podemos tener más falsos negativos. **Un clasificador con alta precisión se centra en buscar SOLO los casos relevantes (positivos).**

$$ Precision = \frac{TP}{TP+FP}$$

- Recall: es el opuesto. Un clasificador con recall alta clasifica más en positivo y podemos tener más falsos positivos. **Un clasificador con recall alta se centra en buscar TODOS los casos relevantes (positivos).**

$$Recall = \frac{TP}{TP+FN}$$

- F1-Score: hay aplicaciones donde la precisión es más importante que recall, y viceversa, pero a veces nos es indiferente o ambas son importantes. F1-Score es una métrica que combina las dos métricas, haciendo una media harmónica entre los dos valores:

$$F1Score = \frac{2TP}{2TP+FN + FP}$$


Las métricas de clustering ya las veremos más adelante.