In [None]:
import numpy as np
import math
import matplotlib.pyplot as plt
import pandas as pd
import ipywidgets as widgets
import warnings
%matplotlib widget
layout = widgets.Layout(align_items = 'center')
warnings.filterwarnings('ignore')

<h1>MEJORAS DEL MODELO</h1>
<h2>EVALUACIÓN DE LA HIPÓTESIS</h2>
Es posible que una función hipótesis tenga un error bajo para los datos de entrenamiento 
pero que igualmente sea incorrecta, por ejemplo en el caso de overfitting. Para 
evaluar una hipótesis, dado un set de datos de entrenamiento es posible dividir 
los datos en 2 sets:

<ul>
    <li><strong>SET DE ENTRENAMIENTO</strong> (training set): 70% de los datos</li>
    <li><strong>SET DE PRUEBA</strong> (test set): 30% de los datos</li>
</ul>

A partir de estos 2 sets, se realiza un nuevo procedimiento:

<ol>
    <li>Se calculan los valores de $\Theta$ que minimicen la función $J_{train}(\Theta)$ utilizando el set de entrenamiento.</li>
    <li>Se calcula el error del set de prueba $J_{test}(\Theta)$</li>
</ol>


<div  class="alert alert-block alert-success"> 
   Cuando el error de prueba, también llamado error de generalización 
    es pequeño, puede decirse que el modelo utilizado ha aprendido la 
    función que relaciona los datos de entrada y salida. Por lo que
    es posible confiar en que el mismo funcione con otros datos nuevos.
</div>

<dl> 
    <dt>ERROR DEL SET DE PRUEBA</dt>
        <dd>
            $$
                J(\Theta) = \frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}\left(h_{\Theta}(x_{test}^i)-y_{test}^i\right)^2
            $$
        </dd>
</dl>


<h2>SELECCIÓN DEL MODELO</h2>
Que un algoritmo de aprendizaje se adapte bien a un conjunto de 
entrenamiento, no implica que sea una buena hipótesis. Podría 
darse el caso de overfitting por el que las predicciones para el
set de prueba serían malas. <strong>El error de la hipótesis 
medido en el set de datos de entrenamiento será menor que el 
error en cualquier otro set de datos.</strong>

Sin embargo, dados varios modelos, es posible 
testear cada uno de ellos y utilizar el valor del error resultante
para seleccionar el modelo de hipótesis correcto.
Para ello el set de datos inicial puede ser dividido en 3 nuevos sets:

<ul>
    <li><strong>SET DE ENTRENAMIENTO</strong> (training set): 60% de los datos originales, 
        utilizados para entrenar el modelo.</li>
    <li><strong>SET DE VALIDACIÓN CRUZADA</strong> (cross validation set): 20% de los datos 
    originales, utilizados para seleccionar el modelo más apropiado y configurar 
    los denominados hiperparámetros: regularización, $\alpha$ del gradiente descendente,
    número de capas y nodos por capa de una red, etc.</li>
    <li><strong>SET DE PRUEBA</strong> (test set): 20% de los datos originales, utilizados
    para estimar el error de generalización.</li>
</ul>

A partir de estos sets, se calculan 3 errores diferentes:

<ol>
    <li>Se calculan los valores de $\Theta$ que minimicen la función 
        $J_{train}(\Theta)$ utilizando el set de entrenamiento para 
        cada uno de los distintos modelos.</li>
    <li>Se selecciona el modelo que tenga el menor error 
        $J_{cv}(\Theta)$ utilizando el set de validación cruzada.</li>
    <li>Se estima el error de generalización $J_{test}(\Theta)$ 
        utilizando el set de prueba.</li>
</ol>

<div  class="alert alert-block alert-danger"> 
   Si utilizamos el set de datos de validación cruzada para seleccionar 
   el modelo, no es posible utilizarlo también para
   seleccionar el valor del parámetro $\lambda$ de regularización.
</div>

<h2>HIGH BIAS vs HIGH VARIANCE</h2>
<div  class="alert alert-block alert-success"> 
   <ol>
       <li><strong>HIGH BIAS</strong> (UNDERFITTING): Tanto el error de 
           entrenamiento como el de validación cruzada son grandes: 
           $J_{cv}(\Theta) \approx J_{train}(\Theta)$.</li>
       <li><strong>HIGH VARIANCE</strong> (OVERFITTING): El error de 
           entrenamiento es pequeño, mientras que el de validación cruzada 
           es mucho mayor: $J_{train}(\Theta) << J_{cv}(\Theta)$.</li>
   </ol>
</div>

<h3>GRADO DEL POLINOMIO</h3>
<ul>
    <li>El ERROR DE ENTRENAMIENTO $J_{train}(\Theta)$ tiende a <strong>decrecer
        </strong> al aumentar el grado del polinomio.</li>
    <li>El ERROR DE VALIDACIÓN CRUZADA $J_{cv}(\Theta)$ tiende a decrecer
        al aumentar el grado del polinomio hasta un cierto punto, a 
        partir del cual comienza a aumentar, formando una <strong>curva convexa
        </strong>.</li>
</ul>

<strong>EJEMPLO:</strong> Variación de los errores de entrenamiento y validación cruzada con el grado de polinomio del modelo:

<ol>
    <li>A partir de un set de datos se obtiene un set de datos de entrenamiento y 
        uno de validación cruzada.</li>
</ol>

In [None]:
data = pd.read_csv('test.csv')

data.head(5)

In [None]:
x_data = data.loc[:,'x'].values.reshape(-1,1)
y_data = data.loc[:,'y'].values

Se utiliza la librería <strong>scikit-learn</strong>. Específicamente la función 
<strong>train_test_split</strong> permite dividir de manera aleatoria un set de 
datos en la proporción que se desee:

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_cv, y_train, y_cv = train_test_split(x_data, y_data, test_size = 0.2,random_state = 1)

<div  class="alert alert-block alert-warning"> 
   <ul>
       <li>Los resultados obtenidos varían según los datos que se seleccionen como 
           de entrenamiento.</li>
       <li>El parámetro <strong>random_state</strong> controla el barajado aplicado 
        a los datos antes de ser divididos. Al pasar un entero, se obtienen los
        mismos resultados en sucesivas llamadas a la función.</li>
   </ul>
</div>

<ol start="2">
    <li>La clase <strong>LinearRegression</strong> permite crear un modelo de 
        regresión lineal, el cual es entrenado con el set de datos ($x_{train}^i,y_{train}^i$)</li>
</ol>

In [None]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression(normalize = True)
lin_reg.fit(x_train, y_train)

<ol start="3">
    <li>Se calcula el costo tanto para el set de entrenamiento como el de validación cruzada.</li>
</ol>

In [None]:
def costFunction(h, y):
    m = h.shape[0]
    J = 1/(2 * m) * np.sum(np.square(h - y))  
    return J

In [None]:
Jtrain = np.array([costFunction(lin_reg.predict(x_train), y_train)])
Jcv = np.array([costFunction(lin_reg.predict(x_cv), y_cv)])

<ol start="4">
    <li>Para crear modelos de regresión polinómica, se debe definir en primer lugar 
        el grado del polinomio. Para ello se utiliza <strong>PolynomialFeatures</strong> 
        de la librería <strong>scikit-learn</strong>.</li>
</ol>

In [None]:
from sklearn.preprocessing import PolynomialFeatures
pf = PolynomialFeatures(degree = 2)

<ol start="5">
    <li>Se deben transformar las variables tanto del set de entrenamiento como el de validación cruzada para que tengan el grado deseado.</li>
</ol>

In [None]:
x_train_poly = pf.fit_transform(x_train)
x_cv_poly = pf.fit_transform(x_cv)

<ol start="6">
    <li>Se utiliza nuevamente la clase <strong>LinearRegression</strong> para crear un modelo de 
        regresión lineal, el cual es entrenado con el set de datos ya transformado al grado correspondiente.</li>
</ol>

In [None]:
poly_reg = LinearRegression(normalize = True)
poly_reg.fit(x_train_poly, y_train)

<ol start="7">
    <li>Se calculan nuevamente el costo tanto para el set de entrenamiento como el de validación cruzada.</li>
</ol>

In [None]:
Jtrain = np.append(Jtrain,costFunction(poly_reg.predict(x_train_poly), y_train)) 
Jcv = np.append(Jcv,costFunction(poly_reg.predict(x_cv_poly), y_cv))

<ol start="8">
    <li>Se puede utilizar una función que cree el modelo de regresión lineal del
        grado deseado y lo entrene.</li>
</ol>

In [None]:
def fit_poly(d, x_train):
    pf = PolynomialFeatures(degree = d)
    x_train_poly = pf.fit_transform(x_train)
    
    poly_reg = LinearRegression(normalize = True)
    poly_reg.fit(x_train_poly, y_train)
    
    return pf, poly_reg

In [None]:
for d in range(3,25,1):
    pf, poly_reg = fit_poly(d, x_train)
    
    x_train_poly = pf.fit_transform(x_train)
    x_cv_poly = pf.fit_transform(x_cv)
    
    Jtrain = np.append(Jtrain,costFunction(poly_reg.predict(x_train_poly), y_train)) 
    Jcv = np.append(Jcv,costFunction(poly_reg.predict(x_cv_poly), y_cv))
    

In [None]:
plots_d = widgets.Output()

with plots_d:
    figs_d, axs_d = plt.subplots(2,1,figsize = (8,8),tight_layout = True)
    figs_d.suptitle(r'INFLUENCIA DEL GRADO DEL POLINOMIO')
    
    axs_d[0].set_title(fr'Hipótesis vs Valores de salida reales')
    axs_d[0].scatter(x_data,y_data,marker= 'o',s = 30,color ='black', alpha = 0.3,label = 'Datos')
    lineh, = axs_d[0].plot(x_data,lin_reg.predict(x_data),label ='Valores predichos')
    axs_d[0].set_xlabel('x')
    axs_d[0].set_ylabel('y')
    axs_d[0].grid(True)
    axs_d[0].legend()
    
    axs_d[1].set_title(fr'Variación de función costo $J(\theta)$')
    d = [i for i in range(1,len(Jtrain)+1)]
    axs_d[1].plot(d, Jtrain, label = r'$J_{train}(\Theta)$')
    axs_d[1].plot(d, Jcv, label = r'$J_{cv}(\Theta)$')
    axs_d[1].set_xticks(d)
    axs_d[1].set_xlabel('d')
    axs_d[1].set_ylabel(r'$J(\Theta)$')
    axs_d[1].grid(True)
    axs_d[1].legend();

In [None]:
d_slider = widgets.IntSlider(min = 1, max = 24, value = 1, description = r'Grado')

def update_plots_d (change):
    if d_slider.value == 1:
        x_predicted = lin_reg.predict(x_data)
    else:
        pf, poly_reg = fit_poly(d_slider.value, x_train)
        x_data_poly = pf.fit_transform(x_data)
        x_predicted = poly_reg.predict(x_data_poly) 
    
    lineh.set_ydata(x_predicted)

    
d_slider.observe(update_plots_d ,'value')


In [None]:
widgets.VBox([plots_d, d_slider],layout=layout)

<div  class="alert alert-block alert-info"> 
   <ul>
       <li>Un modelo con <strong>grado polinómico bajo</strong> tiene high bias, 
           por lo que el modelo predice pobremente el modelo 
           deseado.</li>
       <li>Un modelo con <strong>grado polinómico alto</strong>, permite predecir 
            extremadamente bien los datos de entrenamiento, pero
            no a los datos de prueba debido a que sufre de high
            variance.</li>
       <li>El <strong>grado de polinomio óptimo</strong> para utilizar en el algoritmo es aquel que 
           <strong>minimice</strong> la función de costo del set de datos de validación 
           cruzada $J_{cv}(\Theta)$.</li>
   </ul>
</div>

<h3>REGULARIZACIÓN</h3>

Un valor de <strong>$\lambda$ muy grande</strong> penaliza los parámetros de más, 
simplificando demasiado el modelo y causando <strong>underfitting</strong>.

<ul>
    <li>El ERROR DE ENTRENAMIENTO $J_{train}(\Theta)$ tiende a <strong>crecer
        </strong> al aumentar el parámetro de regularización.</li>
    <li>El ERROR DE VALIDACIÓN CRUZADA $J_{cv}(\Theta)$ tiende a decrecer
        al aumentar el parámetro de regularización hasta un cierto punto, a 
        partir del cual comienza a aumentar, formando una <strong>curva convexa
        </strong>.</li>
</ul>


<strong>EJEMPLO:</strong> Variación de los errores de entrenamiento y validación cruzada con el parámetro de regularización:

<ol>
    <li>Se define el grado del polinomio y se crea un modelo de regresión 
        polinómica. Para ello se utiliza <strong>PolynomialFeatures</strong> 
        de la librería <strong>scikit-learn</strong>.</li>
</ol>

In [None]:
pf_r = PolynomialFeatures(degree = 20)

<ol start="2">
    <li>Se transforman las variables tanto del set de entrenamiento como el de validación cruzada para que tengan el grado deseado.</li>
</ol>

In [None]:
x_train_r = pf_r.fit_transform(x_train)
x_cv_r = pf_r.fit_transform(x_cv)
x_data_r = pf_r.fit_transform(x_data)

<ol start="3">
    <li>Se utiliza la clase <strong>Ridge</strong> para crear un modelo de 
        regresión con regulatización de tipo Ridge, el cual es entrenado 
        con el set de datos ya transformado al grado correspondiente.</li>
</ol>

In [None]:
from sklearn.linear_model import Ridge
rid_reg = Ridge(alpha = 0, normalize = True)
rid_reg.fit(x_train_r, y_train)

In [None]:
rid_reg.get_params()

<ol start="4">
    <li>Se calcula el costo tanto para el set de entrenamiento como el de 
        validación cruzada. En estos cálculos se utiliza la función costo
        <strong>sin regularización</strong>.</li>
</ol>

In [None]:
Jtrain_r = np.array([costFunction(rid_reg.predict(x_train_r), y_train)])
Jcv_r = np.array([costFunction(rid_reg.predict(x_cv_r), y_cv)])

In [None]:
plots_r = widgets.Output()

with plots_r:
    figs_r, axs_r = plt.subplots(2,1,figsize = (8,8),tight_layout = True)
    figs_r.suptitle(r'INFLUENCIA DE LA REGULARIZACIÓN')
    
    axs_r[0].set_title(fr'Hipótesis vs Valores de salida reales')
    axs_r[0].scatter(x_data, y_data, marker= 'o', s = 30, color ='black', alpha = 0.3, label = 'Datos')
    lineh_r, = axs_r[0].plot(x_data,rid_reg.predict(x_data_r),label ='Valores predichos')
    axs_r[0].set_xlabel('x')
    axs_r[0].set_ylabel('y')
    axs_r[0].grid(True)
    axs_r[0].legend()

<ol start="5">
    <li>Se puede utilizar una función que cree el modelo de regresión con
        la regularización deseada y lo entrene.</li>
</ol>

In [None]:
def fit_reg(l, x_train):
    rid_reg = Ridge(alpha = l, normalize = True)
    rid_reg.fit(x_train, y_train)
    
    return rid_reg

In [None]:
L = np.arange(0.01,0.51,0.01)
for l in L:
    rid_reg = fit_reg(l, x_train_r)
    
    Jtrain_r = np.append(Jtrain_r,costFunction(rid_reg.predict(x_train_r), y_train)) 
    Jcv_r = np.append(Jcv_r,costFunction(rid_reg.predict(x_cv_r), y_cv))

In [None]:
axs_r[1].set_title(fr'Variación de función costo $J(\theta)$')
l = np.append(0,L)
axs_r[1].plot(l, Jtrain_r, label = r'$J_{train}(\Theta)$')
axs_r[1].plot(l, Jcv_r, label = r'$J_{cv}(\Theta)$')
axs_r[1].set_xticks(l[::5])
axs_r[1].set_xlabel(r'$\lambda$')
axs_r[1].set_ylabel(r'$J(\Theta)$')
axs_r[1].grid(True)
axs_r[1].legend();

In [None]:
l_slider = widgets.FloatSlider(min = 0.0, max = 0.5, value = 0.0,step = 0.01, description = r'$\lambda$')

indx = math.ceil(l_slider.value*100)

out_J_lambda = widgets.HTMLMath(value = fr'El valor de $Jcv(\theta)$ es {Jcv_r[indx]:.3f}')
    
    
def update_plots_r (change):
    rid_reg = Ridge(alpha = l_slider.value, normalize = True)
    rid_reg.fit(x_train_r, y_train)
    x_predicted = rid_reg.predict(x_data_r),
    lineh_r.set_ydata(x_predicted)
    indx = math.ceil(l_slider.value*100)
    out_J_lambda.value = fr'El valor de $Jcv(\theta)$ es {Jcv_r[indx]:.3f}'

    
l_slider.observe(update_plots_r ,'value')


In [None]:
widgets.VBox([plots_r, l_slider, out_J_lambda],layout = layout)

<div  class="alert alert-block alert-info"> 
   <ul>
        <li>$\lambda$ MUY GRANDE: Causa underfitting (High Bias).</li>
        <li>$\lambda$ MUY PEQUEÑO: Causa overfitting (High Variance).</li>
        <li>$\lambda$ ÓPTIMO: Minimiza el valor de $J_{cv}(\Theta)$.</li>
    </ul>
</div>

<h3>SET DE ENTRENAMIENTO</h3>
<dl> 
    <dt>HIGH BIAS (Underfitting):</dt>
        <dd>
            <ul>
                <li>Set de entrenamiento <strong>pequeño</strong>:
                    el valor de $J_{train}(\Theta)$ es pequeño, 
                    mientras que el valor de $J_{cv}(\Theta)$ es grande.
                </li>
                <li>Set de entrenamiento <strong>grande</strong>:
                    tanto el valor de $J_{train}(\Theta)$ como el de 
                    $J_{cv}(\Theta)$ son grandes.
                </li>
            </ul>
        </dd>
</dl>


<dl>
    <dt>HIGH VARIANCE (Overfitting):</dt>
        <dd>
           <ul>
                <li>Set de entrenamiento <strong>pequeño</strong>:
                    el valor de $J_{train}(\Theta)$ es pequeño, 
                    mientras que el valor de $J_{cv}(\Theta)$ es grande.
                </li>
                <li>Set de entrenamiento <strong>grande</strong>:
                    el valor de $J_{train}(\Theta)$ se incrementa con el tamaño
                    del set de entrenamiento, mientras que el valor de 
                    $J_{cv}(\Theta)$ decrece. La diferencia entre ambos 
                    permanece significativa  $J_{cv}(\Theta) > J_{train}(\Theta)$.
                </li>
            </ul>
        </dd>
</dl>

<strong>EJEMPLO:</strong> Variación de los errores de entrenamiento y validación cruzada con el tamaño del set de entrenamiento:

<div  class="alert alert-block alert-warning"> 
   Para este ejemplo se dividió aleatoriamente el set de datos inicial en un 
   20% para validación cruzada y un 80% para entrenamiento. Luego se varió el 
   porcentaje de datos de entrenamiento utilizados de este 80% previamente 
   seleccionado. Por lo que <strong>todos los casos</strong> poseen el <strong>
   mismo set de validación cruzada</strong>.
</div>

In [None]:
ridReg = Ridge(alpha = 0.5, normalize = True) #Bias

pf_20 = PolynomialFeatures(degree = 20)

x_data_20 = pf_20.fit_transform(x_data)
x_cv_20 = pf_20.fit_transform(x_cv)

def Jfunctions(ridReg):
    M = np.arange(0.05, 1.0, 0.05)

    Jtrain = np.array([])
    Jcv = np.array([])

    for m in M:

        x_train_m, x_notUsed, y_train_m, y_notUsed = train_test_split(x_train, \
                                                    y_train, train_size = m, \
                                                    random_state = 1)

        x_train_20 = pf_20.fit_transform(x_train_m)

        ridReg.fit(x_train_20, y_train_m)

        Jtrain = np.append(Jtrain, costFunction(ridReg.predict(x_train_20), \
                                                y_train_m)) 
        Jcv = np.append(Jcv, costFunction(ridReg.predict(x_cv_20), y_cv))

    return Jtrain, Jcv

Jtrain_values, Jcv_values = Jfunctions(ridReg)

In [None]:
def makePredictions(ridReg, m):
    x_train_m, x_notUsed, y_train_m, y_notUsed = train_test_split(x_train, \
                                                y_train, train_size = m, \
                                                random_state = 1)

    x_train_20 = pf_20.fit_transform(x_train_m)

    ridReg.fit(x_train_20, y_train_m)
    
    h = ridReg.predict(x_data_20)
    
    return h

predictedValues = makePredictions(ridReg, 0.9)

In [None]:
plots_high = widgets.Output()

with plots_high:
    figs_high, axs_high = plt.subplots(2, 1, figsize = (8,8), tight_layout = True)
    figs_high.suptitle(r'HIGH BIAS')
    
    axs_high[0].set_title(fr'Hipótesis vs Valores de salida reales')
    axs_high[0].scatter(x_data, y_data, marker= 'o', s = 30, color ='black', alpha = 0.3, label = 'Datos')
    lineh_high, = axs_high[0].plot(x_data, predictedValues,label ='Valores predichos')
    axs_high[0].set_xlabel('x')
    axs_high[0].set_ylabel('y')
    axs_high[0].grid(True)
    axs_high[0].legend()
    
    axs_high[1].set_title(fr'Variación de función costo $J(\theta)$')
    M = np.arange(0.05,1.0,0.05)
    line_Jtrain, = axs_high[1].plot(M, Jtrain_values, label = r'$J_{train}(\Theta)$')
    line_Jcv, = axs_high[1].plot(M, Jcv_values, label = r'$J_{cv}(\Theta)$')
    axs_high[1].set_ylim(0,100)
    axs_high[1].set_xlabel(r'm (tamaño set de entrenamiento)')
    axs_high[1].set_ylabel(r'$J(\Theta)$')
    axs_high[1].grid(True)
    axs_high[1].legend();

In [None]:
M_slider = widgets.FloatSlider(min = 0.1, max = 0.9, value = 0.9, step = 0.1, description = 'm')

highType = widgets.Dropdown(
    options = ['Bias', 'Variance'],
    value = 'Bias',
    description ='High:',
    layout = {'width': 'max-content'}
)

In [None]:
def update_plots_high (change):
    
    if highType.value == 'Bias':
        ridReg = Ridge(alpha = 0.5, normalize = True)
    else:
        ridReg = Ridge(alpha = 0.0, normalize = True)
    
    Jtrain_values, Jcv_values = Jfunctions(ridReg)
    line_Jtrain.set_ydata(Jtrain_values)
    line_Jcv.set_ydata(Jcv_values)
    
    predictedValues = makePredictions(ridReg, M_slider.value)
    
    lineh_high.set_ydata(predictedValues)

In [None]:
M_slider.observe(update_plots_high,'value')
highType.observe(update_plots_high,'value')

In [None]:
widgets.VBox([plots_high, M_slider, highType],layout=layout)

<div  class="alert alert-block alert-info"> 
   <ul>
        <li>Si un algoritmo sufre de high bias, aumentar la cantidad 
            de datos de entrenamiento no producirá una mejora.</li>
        <li>Si un algoritmo sufre de high variance, aumentar la cantidad 
            de datos de entrenamiento generalmente produce mejoras.</li>
       <li>El error obtenido en un algoritmo que sufre de high variance 
           por lo general es menor que el de un algoritmo que sufre de
           high bias.</li>
    </ul>
</div>