# Gradient Descent para dos Parámetros

En este ejercicio vamos a implementar Gradient Descent para regresión linear. Aunque en este ejercicio sólo vamos a ir ajustando dos parámetros para encontrar la mejor línea (modelo) que represente la información.

Vamos a utilizar la información de un archivo csv (comma separated values). En la siguiente celda importamos la información, y las separamos en trainX y trainY. En trainX, tenemos los features. En este caso sólo tenemos uno (asumamos que es el tamaño de la casa). En trainY tenemos el valor que querremos predecir, o sea el costo de la casa.

En la siguiente celda graficamos estos puntos utilizando matplotlib en un scatter plot.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import csv

# Leemos la info de un archivo csv
with open('data.csv', 'r') as f:
  r = csv.reader(f)
  points = list(r)

# Separamos la información en trainX y trainY
# En trainX tenemos nuestros features. 
# En este ejemplo sólo tenemos un feature, metros cuadrados
# En trainY tenemos la variable que queremos predecir, en este caso
# el valor de la casa en miles de dólares.
trainX = []
trainY = []
for point in points:
    trainX.append(float(point[0])) 
    trainY.append(float(point[1]))
plt.scatter(trainX, trainY)

Ahora implementaremos el algoritmo de Gradient Descent.

Para comenzar, vamos a hacer una función que recibiendo el tamaño de la casa (x) y dos parámetros (theta1 y theta2), pueda calcular el precio. Esto utiliza una ecuación de una línea recta en 2 dimensiones (y = mx + b), pero recuerda que podemos tener muchos parámetros (y = a + bx + cx^2 + dx^3 + ex^4 + ... + fx^n)

In [None]:
#TODO: Implementa la función h(x) = w*x + b Función que predice costo de casa
def predict(size, weight, bias):
    """
    Función que predice el costo de una casa con una línea.
    
    Utiliza la función h(x) = x * w + b
    
    size: El tamaño de la casa en metros cuadrados
    weight: El peso asignado al tamaño de la casa
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    """
    return ...

En la siguiente celda deberás implementar la función de pérdida de Mean Squared Error.
![MSE](https://github.com/TheHackerLlama/CursoDeepLearning/raw/42e5f3b542b78ae619101b1264e77b15c09364e3/Semana2/mse.png)

Recuerda utilizar la función predict (h) para hacer más sencillo el algoritmo. 

In [None]:
#TODO: Implementa la función de pérdida y sus derivadas
def loss_function(sizes, costs, weight, bias):
    """
    Función que calcula el error de una propuesta de regresión lineal
    
    Utiliza la función h(x) = x * w + b
    
    sizes: Los tamaños de las casas en metros cuadrados.
    costs: Los costos verdaderos de las casas en cientos de miles de dólares.
    weight: El peso asignado al tamaño de la casa.
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    """
    totalError = 0
    m = len(sizes)
    
    # Calcula el error con diferencia de cuadrados
    for i in range(0, m):
        # ¿Cuál es el valor de entrada y cuál es el valor verdadero?
        x = ...
        y = ...
        
        # ¿Qué valor predicen tus datos? Utiliza la función predict
        predicted = ...
        
        # Revisa la función para calcular el error
        totalError += ...
        
    # Revisa la fórmula de MSE (Mean Squared Error)
    return ...

In [None]:
def loss_function_deriv_weight(size, cost, weight, bias, n):
    """
    Función que calcula la derivada parcial según el peso de MSE
    
    Utiliza la función h'(x) = (-1/n) * (y - (mx + b))
    
    size: El tamaño de una casa en metros cuadrados.
    cost: El costo real de la casa.
    weight: El peso asignado al tamaño de esa casa.
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    n: El tamaño del dataset.
    """
    return ...

def loss_function_deriv_bias(size, cost, weight, bias, n):
    """
    Función que calcula la derivada parcial según el bias de MSE
    
    Utiliza la función h'(x) = -1/n * (y - (mx + b))
    
    size: El tamaño de una casa en metros cuadrados.
    cost: El costo real de la casa.
    weight: El peso asignado al tamaño de esa casa.
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    n: El tamaño del dataset.
    """
    return ...

In [None]:
def step_gradient(sizes, costs, weight, bias, learning_rate):
    """
    Función que propone un nuevo bias y peso que reduce la función de error.
    
    sizes: Los tamaños de la casa.
    cost: Los costos reales de la casa.
    weight: Los pesos de la casa.
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    learning_rate: Qué tan rápido va a aprender
    """
    
    # El valor acumulado de la derivada en diferentes puntos. Inicialmente es 0.
    weight_deriv = 0
    bias_deriv = 0
    
    # El tamaño del dataset
    m = float(len(sizes))
    
    # Para cada casa
    for i in range(len(sizes)):
        # ¿Cuál es su valor en X y en Y?
        x = ...
        y = ...
        
        # Calcula las derivadas parciales del loss function
        bias_deriv += ...
        weight_deriv += ...
    
    # Da un paso en la dirección que minimice el error
    weight = weight - (weight_deriv * learning_rate)
    bias = bias - (learning_rate * bias_deriv)

    return weight, bias

In [None]:
error = []
def train(sizes, costs, initial_weight, initial_bias, learning_rate, epoch):
    """
    Función que utiliza Gradient Descent para minimizar error.
    
    sizes: Los tamaños de la casa.
    cost: Los costos reales de la casa.
    intial_weight: El peso inicial del modelo.
    initial_bias: El bias inicial del modelo.
    learning_rate: Qué tan rápido va a aprender.
    epoch: Número de iteraciones sobre dataset.
    """
    weight = initial_weight
    bias = initial_bias
   
    # Itera varias veces sobre el dataset para minimizar el error
    for i in range(epoch):
        # Llama a step_gradient con sus argumentos correctos.
        weight, bias = step_gradient(sizes, costs, weight, bias, learning_rate)
        
        if i%10 == 0:
            print("Loss: ", str(loss_function(sizes, costs, weight, bias)), "b: " , bias, "w: ", weight)
            error.append(loss_function(sizes, costs, weight, bias))
    return weight, bias

In [None]:
learning_rate = 0.0001
weight = 0.0
bias = 0.0
epochs = 100

weight, bias = train(trainX, trainY, bias, weight, learning_rate, epochs)
print(bias, weight)

In [None]:
new_value = 35
predicted = predict(new_value, weight, bias)
plt.scatter(trainX, trainY)
plt.scatter(new_value, predicted)

In [None]:
def plot(weight, bias):
    x = []
    y = []
    for i in range(30, 70):
        predicted = predict(i, weight, bias)
        x.append(i)
        y.append(predicted)
    plt.scatter(trainX, trainY)
    plt.scatter(x, y)
    
plot(weight, bias)

In [None]:
plt.scatter(range(10), error)

In [None]:
sm_error = error[2:]
plt.scatter(range(8), sm_error)

# Gradient Descent para muchos parámetros (Reto)

Esta sección es un reto. En esta parte, cargamos un dataset que tiene dos features. Es también un problema de regresión linear, pero, en este caso, es de muchos features. No copies directamente el código de arriba. El de arriba tenía el objetivo de ilustrar el algoritmo. Recuerda usar operaciones de matrices.

Ejemplo:
La hipótesis antes la calculamos con m*x + b.
Ahora que tenemos muchos valores en x, podemos hacer theta' * transpuesta de X.

Revisa la presentación 3 para revisar el algoritmo

In [None]:
with open('data2.csv', 'r') as f:
  r = csv.reader(f)
  points = list(r)
points = np.array(points).astype(np.float)
points[:10]

In [None]:
# Separamos X
x = points[:, 0:2]
x

In [None]:
# Separamos Y
y = points[:, 2]
y

In [None]:
# Agregamos columna de 1s a la matriz X
intercept_term = np.ones(len(x))
x = points[:, 0:2]

# Agregamos la columna con los 0s
X = np.c_[intercept_term, x]
X[:10]

In [None]:
# TODO: Implementa una función train_multi que reciba una matriz X, 
# un vector y, una matriz theta, un learning_rate y el número de iteraciones.
# Crea funciones adicionales si es necesario. Recuerda utilizar operaciones de matrices para tu ventaja.
# Por ejemplo, la hipótesis la puedes calcular usando np.dot y np.transpose.
def train_multi(X, y, theta, learning_rate, num_iters):
    ...

In [None]:
learning_rate = 0.02;
num_iters = 400;
theta = np.zeros((3,1), dtype=float);

theta = train_multi(X, y, theta, learning_rate, num_iters);

## SOLUCIONES

In [None]:
#TODO: Implementa la función h(x) = w*x + b Función que predice costo de casa
def predict(size, weight, bias):
    """
    Función que predice el costo de una casa con una línea.
    
    Utiliza la función h(x) = x * w + b
    
    size: El tamaño de la casa en metros cuadrados
    weight: El peso asignado al tamaño de la casa
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    """
    return size * weight + bias

In [None]:
#TODO: Implementa la función de pérdida y sus derivadas
def loss_function(sizes, costs, weight, bias):
    """
    Función que calcula el error de una propuesta de regresión lineal
    
    Utiliza la función h(x) = x * w + b
    
    sizes: Los tamaños de las casas en metros cuadrados.
    costs: Los costos verdaderos de las casas en cientos de miles de dólares.
    weight: El peso asignado al tamaño de la casa.
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    """
    totalError = 0
    m = len(sizes)
    
    # Calcula el error con diferencia de cuadrados
    for i in range(0, m):
        # ¿Cuál es el valor de entrada y cuál es el valor verdadero?
        x = sizes[i] 
        y = costs[i] 
        
        # ¿Qué valor predicen tus datos? Utiliza la función predict
        predicted = predict(x, weight, bias) 
        
        # Revisa la función para calcular el error
        totalError += (y - predicted) ** 2
        
    # Revisa la fórmula de MSE (Mean Squared Error)
    return totalError / (2 * float(m))

In [None]:
def loss_function_deriv_weight(size, cost, weight, bias, n):
    """
    Función que calcula la derivada parcial según el peso de MSE
    
    Utiliza la función h'(x) = (-1/n) * (y - (mx + b))
    
    size: El tamaño de una casa en metros cuadrados.
    cost: El costo real de la casa.
    weight: El peso asignado al tamaño de esa casa.
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    n: El tamaño del dataset.
    """
    return -(1/n) * size * (cost - predict(size, weight, bias))

def loss_function_deriv_bias(size, cost, weight, bias, n):
    """
    Función que calcula la derivada parcial según el bias de MSE
    
    Utiliza la función h'(x) = -1/n * (y - (mx + b))
    
    size: El tamaño de una casa en metros cuadrados.
    cost: El costo real de la casa.
    weight: El peso asignado al tamaño de esa casa.
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    n: El tamaño del dataset.
    """
    return -(1/n) * (cost - predict(size, weight, bias))

In [None]:
def step_gradient(sizes, costs, weight, bias, learning_rate):
    """
    Función que propone un nuevo bias y peso que reduce la función de error.
    
    sizes: Los tamaños de la casa.
    cost: Los costos reales de la casa.
    weight: Los pesos de la casa.
    bias: Para la regresión lineal, el valor predecido cuando el tamaño es 0.
    learning_rate: Qué tan rápido va a aprender
    """
    
    # El valor acumulado de la derivada en diferentes puntos. Inicialmente es 0.
    weight_deriv = 0
    bias_deriv = 0
    
    # El tamaño del dataset
    m = float(len(sizes))
    
    # Para cada casa
    for i in range(len(sizes)):
        # ¿Cuál es su valor en X y en Y?
        x = sizes[i]
        y = costs[i]
        
        # Calcula las derivadas parciales del loss function
        bias_deriv += loss_function_deriv_bias(x, y, weight, bias, m)
        weight_deriv += loss_function_deriv_weight(x, y, weight, bias, m)
    
    # Da un paso en la dirección que minimice el error
    weight = weight - (weight_deriv * learning_rate)
    bias = bias - (learning_rate * bias_deriv)

    return weight, bias

Tips para el reto

- Predicción: Calcula la hipótesis utilizando la transpuesta de X y usando np.dot con theta (o viceversa).

- Derivada error (1): Resta la hipótesis menos la y real. Como ambos son matrices, sólo haz h - y

- Derivada error (2): Recuerda multiplicar eso por X.

- Derivada error (3): Multiplica eso por (1/m) y por alpha.

- Derivada error (4): Resta theta - ese valor.

- Itera sobre este proceso el número de iteraciones que es enviado como parámetro