# Ejercicio: Función de costo


## Objetivos
En este ejercicio:
- Implementarás y explorarás la función de costo (`cost`) para regresión lineal con una variable.


## Herramientas
En este ejercicio utilizaremos:
- NumPy, una biblioteca popular para computación científica
- Matplotlib, una biblioteca popular para graficar datos
- Rutinas de graficado local en el archivo lab_utils_uni.py en el directorio local

In [None]:
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
from ejerc_utils_corhuila import plt_intuition, plt_stationary, plt_update_onclick, soup_bowl
plt.style.use('./deeplearning.mplstyle')

## Enunciado del problema

Te gustaría tener un modelo que pueda predecir los precios de las casas dado el tamaño de la casa.  
Utilicemos los mismos dos puntos de datos que en el ejercicio anterior: una casa de 1000 pies cuadrados se vendió por $300,000 y una casa de 2000 pies cuadrados se vendió por $500,000.


| Tamaño (1000 metros²)     | Precio (1000s de dólares) |
| ---------------------- | ------------------------ |
| 1                      | 300                      |
| 2                      | 500                      |


In [None]:
x_train = np.array([1.0, 2.0])           #(tamaño en 1000 metros cuadrados)
y_train = np.array([300.0, 500.0])           #(precio en 1000s de dólares)

## Cálculo de la función de costo
El término 'costo' en este ejercicio puede ser un poco confuso ya que los datos son el costo/precio de la vivienda. Aquí, el costo es una medida de qué tan bien nuestro modelo predice el precio objetivo de la casa. El término 'precio' se usa para los datos de la vivienda.

La ecuación para el costo con una variable es:
  $$J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 \tag{1}$$ 
 
donde
  $$f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{2}$$
  
- $f_{w,b}(x^{(i)})$ es nuestra predicción para el ejemplo $i$ usando los parámetros $w,b$.
- $(f_{w,b}(x^{(i)}) -y^{(i)})^2$ es la diferencia al cuadrado entre el valor objetivo y la predicción.
- Estas diferencias se suman sobre todos los $m$ ejemplos y se dividen por `2m` para producir el costo, $J(w,b)$.
>Nota: en la teoría, los rangos de sumatoria suelen ir de 1 a m, mientras que en el código van de 0 a m-1.


El siguiente código calcula el costo recorriendo cada ejemplo. En cada iteración:
- `f_wb`, una predicción es calculada
- Se calcula y eleva al cuadrado la diferencia entre el valor objetivo y la predicción.
- Esto se suma al costo total.

In [None]:
def compute_cost(x, y, w, b): 
    """
    Calcula la función de costo para regresión lineal.
    
    Argumentos:
      x (ndarray (m,)): Datos, m ejemplos 
      y (ndarray (m,)): valor objetivo
      w,b (scalar)    : parámetros del modelo  
    
    Retorna
        total_cost (float): El costo de usar w,b como los parámetros para la regresión lineal
               para encajar los datos en x and y
    """
    # número de ejemplos de entrenamiento
    m = x.shape[0] 
    
    cost_sum = 0 
    for i in range(m): 
        f_wb = w * x[i] + b   
        cost = (f_wb - y[i]) ** 2  
        cost_sum = cost_sum + cost  
    total_cost = (1 / (2 * m)) * cost_sum  

    return total_cost

## Intuición de la función de Costo

Tu objetivo es encontrar un modelo $f_{w,b}(x) = wx + b$, con parámetros $w,b$, que prediga con precisión los valores de las casas dado un valor de entrada $x$. El costo es una medida de qué tan preciso es el modelo en los datos de entrenamiento.

La ecuación de costo (1) anterior muestra que si se pueden seleccionar $w$ y $b$ de modo que las predicciones $f_{w,b}(x)$ coincidan con los datos objetivo $y$, el término $(f_{w,b}(x^{(i)}) - y^{(i)})^2 $ será cero y el costo se minimizará. ¡En este sencillo ejemplo de dos datos, puedes lograrlo!

En el ejercicio anterior, determinaste que $b=100$ proporcionaba una solución óptima, así que fijemos $b$ en 100 y enfoquémonos en $w$.

<br/>
A continuación, utiliza el control deslizante para seleccionar el valor de $w$ que minimiza el costo. Puede tardar unos segundos en actualizarse la gráfica.

In [None]:
plt_intuition(x_train,y_train)

La gráfica contiene algunos puntos que vale la pena mencionar:
- El costo se minimiza cuando $w = 200$, lo cual coincide con los resultados del ejercicio anterior.
- Debido a que la diferencia entre el objetivo y la predicción se eleva al cuadrado en la ecuación de costo, el costo aumenta rápidamente cuando $w$ es demasiado grande o demasiado pequeño.
- Usar los valores de `w` y `b` seleccionados al minimizar el costo da como resultado una línea que ajusta perfectamente los datos.

## Visualización de la función de costo - 3D

Puedes ver cómo varía el costo con respecto a *ambos* `w` y `b` graficando en 3D o usando un gráfico de contorno.  
Vale la pena mencionar que algunas de las gráficas en este curso pueden ser bastante complejas. Las rutinas de graficación están provistas y, aunque puede ser instructivo leer el código para familiarizarse con los métodos, no es necesario para completar el curso exitosamente. Las rutinas están en lab_utils_uni.py en el directorio local.

### Conjunto de datos más grande
Es instructivo ver un escenario con algunos puntos de datos adicionales. Este conjunto de datos incluye puntos que no caen sobre la misma línea. ¿Qué significa esto para la ecuación de costo? ¿Podemos encontrar valores de $w$ y $b$ que den un costo de 0?

In [None]:
x_train = np.array([1.0, 1.7, 2.0, 2.5, 3.0, 3.2])
y_train = np.array([250, 300, 480,  430,   630, 730,])

En el gráfico de contorno, haz clic en un punto para seleccionar `w` y `b` y así lograr el menor costo posible. Usa las líneas de contorno para guiar tus selecciones. Nota: puede tardar unos segundos en actualizarse la gráfica.

In [None]:
plt.close('all') 
fig, ax, dyn_items = plt_stationary(x_train, y_train)
updater = plt_update_onclick(fig, ax, x_train, y_train, dyn_items)

Arriba, observa las líneas punteadas en la gráfica de la izquierda. Estas representan la porción del costo que aporta cada ejemplo en tu conjunto de entrenamiento. En este caso, valores de aproximadamente $w=209$ y $b=2.4$ proporcionan un costo bajo. Nota que, debido a que nuestros ejemplos de entrenamiento no están alineados, el costo mínimo no es cero.

### Superficie convexa de la función de costo
El hecho de que la función de costo eleve al cuadrado la pérdida asegura que la 'superficie de error' sea convexa, como un tazón de sopa. Siempre tendrá un mínimo que se puede alcanzar siguiendo el gradiente en todas las dimensiones. En la gráfica anterior, debido a que las dimensiones $w$ y $b$ tienen escalas diferentes, esto no es fácil de reconocer. La siguiente gráfica, donde $w$ y $b$ son simétricos, se mostró en la clase:

In [None]:
soup_bowl()

# ¡Felicidades!
Has aprendido lo siguiente:
 - La ecuación de costo proporciona una medida de qué tan bien tus predicciones se ajustan a tus datos de entrenamiento.
 - Minimizar el costo puede proporcionar valores óptimos de $w$ y $b$.