# Gradient Descent hecho a mí manera
### (o en otras palabras: *sin saber lo que hago*)


### Pasos del gradient descent:
 1. Derivada de la loss function para cada parámetro (**gradient** (diferentes derivadas de una sola función) **of the loss function**).
 2. Asignarle valores aleatorios a los parámetros.
 3. Evaluar los valores de los parámetros en las derivadas (**gradient**).
 4. Calcular el tamaño de los pasos: **step size = parameter * learning rate**.
 5. Calcular el valor nuevo de los parámetros: **new parameter value = old parameter value - step size**.
 6. Repetir desde el paso 3 hasta que se llegue al número máximo de pasos (>= 1000) o se llegue al tamaño mínimo de paso (<= 0.001).
 

In [1]:
# Importación de las librerías
import sympy as sym
import numpy as np

In [2]:
# Definición de la función de gradient_descent
def gradient_descent(data, learning_rate, min_step_size, max_num_steps):
    num_steps = 0
    
    # Definición de la loss function
    loss_function, intercept, slope, observed_x, observed_y = sym.symbols('loss_function intercept slope observed_x observed_y')
    loss_function = (observed_y-(intercept+slope*observed_x))**2

    # Derivada de la loss function con respecto a intercept
    der_intercept = sym.symbols('der_intercept')
    der_intercept = sym.diff(loss_function, intercept)

    # Derivada de la loss function con respecto a slope
    der_slope = sym.symbols('der_slope')
    der_slope = sym.diff(loss_function, slope)

    # Asignación de valores aleatorios a intercept y slope
    intercept_value, slope_value = np.random.rand(2)

    # Repetir mientras el tamaño de los pasos sea mayor al mínimo 
    # y el número de pasos menor al máximo
    while True:
        # Reiniciar el valor de la variable de la sumatoria
        sum_slope_intercept = 0
        sum_slope_slope = 0

        # Evaluar el valor de intercept y slope para cada punto
        for x, y in data:
            sum_slope_intercept += der_intercept.subs([(intercept, intercept_value), (slope, slope_value), (observed_x, x), (observed_y, y)])
            sum_slope_slope += der_slope.subs([(intercept, intercept_value), (slope, slope_value), (observed_x, x), (observed_y, y)])

        # Calcular los nuevos tamaños de los pasos
        step_size_intercept = sum_slope_intercept * learning_rate
        step_size_slope = sum_slope_slope * learning_rate

        # Calcular los nuevos valores de intercept y de slope
        intercept_value = intercept_value - step_size_intercept
        slope_value = slope_value - step_size_slope

        # Se aumenta en uno el número de pasos
        num_steps += 1
        
        # Condición para terminar los cálculos
        if abs(step_size_intercept) <= min_step_size and abs(step_size_slope) <= min_step_size or num_steps >= max_num_steps:
            return intercept_value, slope_value, num_steps

In [3]:
# Creación del dataset
data = np.array([[0.5, 1.4], [2.3, 1.9], [2.9, 3.2]])

# Creación de las variables de aprendizaje
learning_rate = 0.01
min_step_size = 0.0001
max_num_steps = 1000
        
# Impresión del resultado
intercept, slope, num_steps = gradient_descent(data, learning_rate, min_step_size, max_num_steps)
regression_equation, x = sym.symbols('regression_equation x')
regression_equation = slope*x + intercept
print("Ecuación de regresión calculada después de ", num_steps, " pasos:")
print(str(regression_equation))

Ecuación de regresión calculada después de  294  pasos:
0.644699333774921*x + 0.940095392378976
