<center>
<p><img src="https://www.gob.mx/cms/uploads/image/file/179499/outstanding_quienes-somos.jpg" width="300">
</p>



# Curso *Machine Learning con uso de pandas, scikit learn y libretas jupyter*

# Curvas de validación o paramétricas


<p> Julio Waissman Vilanova </p>
<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="80">
</p>
</center>



Las curvas de validación nos permiten entender y ajustar parámetros en función del resultado de la aplicación de un alforitmo de aprendizaje máquina que depende de algún hiperparámetro.

Estos hiperparámetros se ajustan en principio, asegurando una relación correcta entre sesgo y varianza. Esto lo vamos a hacer, suponiendo que el error que tengamos con la muestra de validación sea representativa del conjunto total.

## Generación de un conjunto sintético de prueba

Vamos a generar un conjunto muy simple


In [None]:
import numpy as np
import matplotlib.pyplot as pl

x_real = np.linspace(-3, 3, 200)
y_real = 1 / (1 + np.exp(-x_real))

rng = np.random.RandomState(1)
x = np.linspace(-3, 3, 20)
y = 1 / (1 + np.exp(-x)) + .3 * rng.normal(0, 0.1, x.shape[0])
x = x.reshape(-1, 1)

pl.figure(figsize=(15, 7))
pl.plot(x_real, y_real, label="Verdad")
pl.plot(x, y, 'o', label='Entrenamiento')
pl.title("Ejemplo de logística con ruido gaussiano")
pl.legend()
pl.show()

## Calculando la curva de validación para un parámetro

Para empezar, vamos a calcular la curva de validación para un parámetro de una regresión por SVM. El parámetro que vamos a ajustar es $\gamma$.

In [16]:
from sklearn.svm import SVR
from sklearn.model_selection import validation_curve

rango = np.logspace(-4, 2, 10)
train_scores, test_scores = validation_curve(
    SVR(), x, y, 
    param_name="gamma", 
    param_range=rango,
    scoring="neg_median_absolute_error"
)
train_scores_mean = np.mean(train_scores, axis=1)
train_scores_std = np.std(train_scores, axis=1)
test_scores_mean = np.mean(test_scores, axis=1)
test_scores_std = np.std(test_scores, axis=1)


## Graficando la curva paramétrica


In [None]:
with pl.style.context(('ggplot')):
  pl.figure(figsize=(15,7))
  pl.title(r"Curva de validación de $\gamma$ para un SVR")
  pl.xlabel(r"$\gamma$")
  pl.ylabel("MAE")
  pl.semilogx(
      rango, 
      train_scores_mean, 
      label="Training score", color="darkorange", lw=2
  )
  pl.fill_between(
      rango, 
      train_scores_mean - train_scores_std,
      train_scores_mean + train_scores_std, 
      alpha=0.2, color="darkorange", lw=2
  )
  pl.semilogx(
      rango, 
      test_scores_mean, 
      label="Cross-validation score", color="navy", lw=2
  )
  pl.fill_between(
      rango, 
      test_scores_mean - test_scores_std,
      test_scores_mean + test_scores_std, 
      alpha=0.2, color="navy", lw=2)
  pl.legend(loc="best")
  pl.show()

## Ahora vamos a probar

1. Prueba con otros parámetros ($\epsilon$ o C por ejemplo).
2. Prueba con otros métodos (y sus propios parámetros)
