In [29]:
import random
import numpy as np
np.random.seed(1) 

In [30]:
np.random.randn(1000)

array([ 1.62434536e+00, -6.11756414e-01, -5.28171752e-01, -1.07296862e+00,
        8.65407629e-01, -2.30153870e+00,  1.74481176e+00, -7.61206901e-01,
        3.19039096e-01, -2.49370375e-01,  1.46210794e+00, -2.06014071e+00,
       -3.22417204e-01, -3.84054355e-01,  1.13376944e+00, -1.09989127e+00,
       -1.72428208e-01, -8.77858418e-01,  4.22137467e-02,  5.82815214e-01,
       -1.10061918e+00,  1.14472371e+00,  9.01590721e-01,  5.02494339e-01,
        9.00855949e-01, -6.83727859e-01, -1.22890226e-01, -9.35769434e-01,
       -2.67888080e-01,  5.30355467e-01, -6.91660752e-01, -3.96753527e-01,
       -6.87172700e-01, -8.45205641e-01, -6.71246131e-01, -1.26645989e-02,
       -1.11731035e+00,  2.34415698e-01,  1.65980218e+00,  7.42044161e-01,
       -1.91835552e-01, -8.87628964e-01, -7.47158294e-01,  1.69245460e+00,
        5.08077548e-02, -6.36995647e-01,  1.90915485e-01,  2.10025514e+00,
        1.20158952e-01,  6.17203110e-01,  3.00170320e-01, -3.52249846e-01,
       -1.14251820e+00, -

In [31]:
def standard_normal_mi_version_charcha(x: np.array, sigma = 1, mu = 0):
    f = 1/(sigma*np.sqrt(2*np.pi)) * (-0.5*np.exp((x-mu/sigma)**2))
    return f

In [32]:
standard_normal_mi_version_charcha(x = np.array([1,2,3,4,5,6]))

array([-5.42218776e-01, -1.08907552e+01, -1.61633139e+03, -1.77252260e+06,
       -1.43628994e+10, -8.59966272e+14])

In [33]:
help(np.random.randn)

Help on built-in function randn:

randn(...) method of numpy.random.mtrand.RandomState instance
    randn(d0, d1, ..., dn)
    
    Return a sample (or samples) from the "standard normal" distribution.
    
    .. note::
        This is a convenience function for users porting code from Matlab,
        and wraps `standard_normal`. That function takes a
        tuple to specify the size of the output, which is consistent with
        other NumPy functions like `numpy.zeros` and `numpy.ones`.
    
    .. note::
        New code should use the
        `~numpy.random.Generator.standard_normal`
        method of a `~numpy.random.Generator` instance instead;
        please see the :ref:`random-quick-start`.
    
    If positive int_like arguments are provided, `randn` generates an array
    of shape ``(d0, d1, ..., dn)``, filled
    with random floats sampled from a univariate "normal" (Gaussian)
    distribution of mean 0 and variance 1. A single float randomly sampled
    from the distribu

### Preguntas sobre Gradiente Descendiente :D

In [40]:
def calculo_de_derivadas(x, y, theta_1, theta_0):
    """
    Cálculo del gradiente para el problema de regresión lineal.
    Argumentos:
      x (ndarray (n,)): datos, n ejemplos
      y (ndarray (n,)): valores objetivos
      theta_1,theta_0 (escalares)    : parámetros del modelo
    Returna
      dj_d_theta_1 (escalar): gradiente de la función de perdida para el parámetro theta_1 respecto de la data de entrenamiento.
      dj_d_theta_0 (escalar): gradiente de la función de perdida para el parámetro theta_0 respecto de la data de entrenamiento.
     """

    # Número de ejemplos de entrenamiento
    n = x.shape[0]
    # Inicializando los gradientes en cero
    dj_d_theta_1 = 0
    dj_d_theta_0 = 0

    # cálculo de los gradientes
    for i in range(n):
        g_theta = theta_1 * x[i] + theta_0
        dj_d_theta_1_i = (g_theta - y[i]) * x[i]
        dj_d_theta_0_i = g_theta - y[i]
        dj_d_theta_1 += dj_d_theta_1_i
        dj_d_theta_0 += dj_d_theta_0_i
    dj_d_theta_1 = dj_d_theta_1 / n
    dj_d_theta_0 = dj_d_theta_0 / n

    return dj_d_theta_1, dj_d_theta_0

In [41]:
def funcion_de_perdida(x: np.array, y: np.array, theta_1: float, theta_0: float):
    '''
      Función que calcula el valor de pérdida/costo asociado al modelo.
      También conocido como error cuadrático.
    '''
    n = x.shape[0]
    perdida = 0

    for i in range(n):
        q_theta = theta_1 * x[i] + theta_0
        perdida = perdida + (q_theta - y[i])**2 # acumulo el valor de pérdida
    perdida_total = 1 / (2 * n) * perdida

    return perdida_total

In [89]:
import math 
def gradiente_estocastico(theta_1,theta_0,x,y):
    dj_d_theta_0 = (((theta_1 * x + theta_0)) - y)
    dj_d_theta_1 = ((theta_1 * x + theta_0)- y) * x
    return dj_d_theta_0,dj_d_theta_1

def gradiente_descendiente(x, y, theta_1_in, theta_0_in, alpha, num_iters, funcion_de_perdida, calculo_de_derivadas):
    """
    Realiza el Gradiente Descendiente para calcular theta_1 y theta_0. Actualiza los valores theta_1,theta_0
    realizando num_iters pasos de gradiente con una tasa de aprendizaje alpha

    Argumentos:
      x (ndarray (n,))  : Datos, n ejemplos
      y (ndarray (n,))  : valores objetivo
      theta_1_in,theta_0_in (scalar): valores iniciales de los parámetros.
      alpha (float):     tasa de aprendizaje
      num_iters (int):   número de iteraciones del gradiente descendiente.
      funcion_de_perdida:     funcion_de_perdida.
      calculo_de_derivadas: cálculo de derivadas.

    Returna:
      theta_1 (escalar): valor actualizado del parámetro tras correr el gradiente
      theta_0 (escalar): valor actualizado del parámetro tras correr el gradiente
      J_historia (List): historia de los valores de pérdida
      p_historia (List): historia de los parámetros actualizados [theta_1,theta_0]
      """

    # An array to store cost J and w's at each iteration primarily for graphing later
    J_historia = []
    theta_historia = []
    theta_0 = theta_0_in
    theta_1 = theta_1_in

    for i in range(num_iters):
        for i in range(len(x)):
            # Calculamos el gradiente de los parámetros
            #dj_d_theta_1, dj_d_theta_0 = calculo_de_derivadas(x[i], y[i], theta_1 , theta_0)

            # actualizamos los parámetros utilizando las ecuaciones
            dj_d_theta_0,dj_d_theta_1 = gradiente_estocastico(theta_1,theta_0,x[i],y[i])
            theta_0= theta_0 - alpha *  dj_d_theta_0
            theta_1 = theta_1 - alpha *  dj_d_theta_1 

            # salvamos la pérdida en cada iteración
            if i%3 == 0:      # prevenimos un número de iteraciones mayores a 100K
                J_historia.append(funcion_de_perdida(x, y, theta_1 , theta_0))
                theta_historia.append([theta_1,theta_0])
            # Si hay menos de 10 iteraciones imprimimos cada valor obtenido, en caso contrario cada 10 iteraciones.
            if i% math.ceil(num_iters/10) == 0:
                print(f"Iteration {i:4}: Cost {J_historia[-1]:0.2e} ",
                    f"dj_d_theta_1: {dj_d_theta_1: 0.3e}, dj_d_theta_0: {dj_d_theta_0: 0.3e}  ",
                    f"theta_1: {theta_1: 0.3e}, theta_0:{theta_0: 0.5e}")

    return theta_1, theta_0, J_historia, theta_historia #retornamos los parámetros, las historias para poder graficar.

### Primera iteración

In [65]:
x_train = np.array([1,2,3])
y_train = np.array([1,0.5,2])

x_validation= np.array([1,1,2.9])
y_validation = np.array([2,0.3,1.8])

In [66]:
theta_0 = 0
theta_1 = 0

print("Error (Cost) Train", funcion_de_perdida(x_train, y_train, theta_1, theta_0))
print("Error (Cost) Validation", funcion_de_perdida(x_validation, y_validation, theta_1, theta_0))

Error (Cost) Train 0.875
Error (Cost) Validation 1.2216666666666667


In [67]:
d_theta_1, d_theta_0 = calculo_de_derivadas(x_train, y_train, theta_1, theta_0)
print("d_theta_0", d_theta_0)
print("d_theta_1", d_theta_1)

d_theta_0 -1.1666666666666667
d_theta_1 -2.6666666666666665


In [68]:
alpha = 0.1 #hiperparametro

In [69]:
theta_0 = theta_0 -alpha*d_theta_0
theta_1 = theta_1 -alpha*d_theta_1
print("theta 0 nuevo:", theta_0)
print("theta 1 nuevo:", theta_1)
print("Error (Cost) Train", funcion_de_perdida(x_train, y_train, theta_1, theta_0))
print("Error (Cost) Validation", funcion_de_perdida(x_validation, y_validation, theta_1, theta_0))

theta 0 nuevo: 0.11666666666666668
theta 1 nuevo: 0.26666666666666666
Error (Cost) Train 0.26273148148148145
Error (Cost) Validation 0.574775925925926


### Segunda Iteración

In [70]:
d_theta_1, d_theta_0 = calculo_de_derivadas(x_train, y_train, theta_1, theta_0)
print("d_theta_0", d_theta_0)
print("d_theta_1", d_theta_1)

d_theta_0 -0.5166666666666666
d_theta_1 -1.1888888888888889


In [71]:
theta_0 = theta_0 -alpha*d_theta_0
theta_1 = theta_1 -alpha*d_theta_1
print("theta 0 nuevo:", theta_0)
print("theta 1 nuevo:", theta_1)
print("Error (Cost) Train", funcion_de_perdida(x_train, y_train, theta_1, theta_0))
print("Error (Cost) Validation", funcion_de_perdida(x_validation, y_validation, theta_1, theta_0))

theta 0 nuevo: 0.16833333333333333
theta 1 nuevo: 0.38555555555555554
Error (Cost) Train 0.1412919238683127
Error (Cost) Validation 0.4032393703703705


### Usemos el gradiente

In [90]:
# inicializando los parámetros theta
theta_0_init = 0
theta_1_init = 0
# algunas configuraciones del algoritmo
iterations = 100
tmp_alpha = 1.0e-2
# run gradient descent
theta_1, theta_0, J_historia, theta_historia = gradiente_descendiente(x_train ,y_train, theta_1_init, theta_0_init, tmp_alpha,
                                                    iterations, funcion_de_perdida, calculo_de_derivadas)
print(f"(theta_1,theta_0) found by gradient descent: ({theta_1:8.4f},{theta_0:8.4f})")

Iteration    0: Cost 8.37e-01  dj_d_theta_1: -1.000e+00, dj_d_theta_0: -1.000e+00   theta_1:  1.000e-02, theta_0: 1.00000e-02
Iteration    0: Cost 6.21e-01  dj_d_theta_1: -8.888e-01, dj_d_theta_0: -8.888e-01   theta_1:  8.610e-02, theta_0: 4.28592e-02
Iteration    0: Cost 4.69e-01  dj_d_theta_1: -7.953e-01, dj_d_theta_0: -7.953e-01   theta_1:  1.501e-01, theta_0: 7.04508e-02
Iteration    0: Cost 3.61e-01  dj_d_theta_1: -7.167e-01, dj_d_theta_0: -7.167e-01   theta_1:  2.040e-01, theta_0: 9.36127e-02
Iteration    0: Cost 2.86e-01  dj_d_theta_1: -6.507e-01, dj_d_theta_0: -6.507e-01   theta_1:  2.493e-01, theta_0: 1.13049e-01
Iteration    0: Cost 2.33e-01  dj_d_theta_1: -5.951e-01, dj_d_theta_0: -5.951e-01   theta_1:  2.874e-01, theta_0: 1.29353e-01
Iteration    0: Cost 1.96e-01  dj_d_theta_1: -5.484e-01, dj_d_theta_0: -5.484e-01   theta_1:  3.195e-01, theta_0: 1.43023e-01
Iteration    0: Cost 1.70e-01  dj_d_theta_1: -5.092e-01, dj_d_theta_0: -5.092e-01   theta_1:  3.465e-01, theta_0: 1.54