# Optional Lab: Linear Regression using Scikit-Learn

Existe un kit de herramientas de aprendizaje automático de código abierto y de uso comercial llamado [scikit-learn](https://scikit-learn.org/stable/index.html). Este kit de herramientas contiene implementaciones de muchos de los algoritmos con los que se trabajará en este curso.

## Objetivos
En este laboratorio usted:
- Utilizar scikit-learn para implementar la regresión lineal utilizando una solución de forma cerrada basada en la ecuación normal


## Herramientas
Utilizará funciones de scikit-learn así como matplotlib y NumPy.


<details><summary><font size=\"2\" color=\"green\"<b>Texto original</b></font></summary>

There is an open-source, commercially usable machine learning toolkit called [scikit-learn](https://scikit-learn.org/stable/index.html). This toolkit contains implementations of many of the algorithms that you will work with in this course.

## Goals
In this lab you will:
- Utilize  scikit-learn to implement linear regression using a close form solution based on the normal equation


## Tools
You will utilize functions from scikit-learn as well as matplotlib and NumPy. 

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from lab_utils_multi import load_house_data
plt.style.use('./deeplearning.mplstyle')
np.set_printoptions(precision=2)

# Regresión lineal, solución de forma cerrada
Scikit-learn tiene el [modelo de regresión lineal](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression) que implementa una regresión lineal de forma cerrada.

Utilicemos los datos de los primeros laboratorios: una casa de 1.000 pies cuadrados vendida por 300.000 dólares y una casa de 2.000 pies cuadrados vendida por 500.000 dólares.

| Tamaño (1000 $pies^{2}$)  | Precio (1000 de dolares) |
| ----------------| ------------------------ |
| 1               | 300                      |
| 2               | 500                      |

<details><summary><font size=\"2\" color=\"green\"<b>Texto original</b></font></summary>

<a name="toc_40291_2"></a>
# Linear Regression, closed-form solution
Scikit-learn has the [linear regression model](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression) which implements a closed-form linear regression.

Let's use the data from the early labs - a house with 1000 square feet sold for \\$300,000 and a house with 2000 square feet sold for \\$500,000.

| Size (1000 sqft)     | Price (1000s of dollars) |
| ----------------| ------------------------ |
| 1               | 300                      |
| 2               | 500                      |


### Load the data set

In [2]:
X_train = np.array([1.0, 2.0])   #features
y_train = np.array([300, 500])   #target value

### Crear y ajustar el modelo
El código siguiente realiza la regresión utilizando scikit-learn. 
El primer paso crea un objeto de regresión.  
El segundo paso utiliza uno de los métodos asociados al objeto, `fit`. Esto realiza la regresión, ajustando los parámetros a los datos de entrada. El kit de herramientas espera una matriz X bidimensional.


<details><summary><font size=\"2\" color=\"green\"<b>Texto original</b></font></summary>

### Create and fit the model
The code below performs regression using scikit-learn. 
The first step creates a regression object.  
The second step utilizes one of the methods associated with the object, `fit`. This performs regression, fitting the parameters to the input data. The toolkit expects a two-dimensional X matrix.

In [3]:
linear_model = LinearRegression()
#X must be a 2-D Matrix
linear_model.fit(X_train.reshape(-1, 1), y_train) 

LinearRegression()

### Ver Parámetros 
Los parámetros $\mathbf{w}$ y $\mathbf{b}$ se denominan "coeficientes" e "intercepción" en scikit-learn.

<details><summary><font size=\"2\" color=\"green\"<b>Texto original</b></font></summary>

### View Parameters 
The $\mathbf{w}$ and $\mathbf{b}$ parameters are referred to as 'coefficients' and 'intercept' in scikit-learn.

In [5]:
b = linear_model.intercept_
w = linear_model.coef_
print(f"w = {w:}, b = {b:0.2f}")
print(f"'manual' prediction: f_wb = wx+b : {1200*w + b}")

w = [200.], b = 100.00
'manual' prediction: f_wb = wx+b : [240100.]


### Hacer predicciones

Llamar a la función `predict` genera predicciones.

In [4]:
y_pred = linear_model.predict(X_train.reshape(-1, 1))

print("Prediction on training set:", y_pred)

X_test = np.array([[1200]])
print(f"Prediction for 1200 sqft house: ${linear_model.predict(X_test)[0]:0.2f}")

Prediction on training set: [300. 500.]
Prediction for 1200 sqft house: $240100.00


## Segundo ejemplo
El segundo ejemplo es de un laboratorio anterior con múltiples características. Los valores finales de los parámetros y las predicciones son muy parecidos a los resultados de la "carrera larga" no normalizada de ese laboratorio. Esa corrida no normalizada tomó horas para producir resultados, mientras que esto es casi instantáneo. La solución de forma cerrada funciona bien en conjuntos de datos más pequeños como éstos, pero puede ser exigente desde el punto de vista computacional en conjuntos de datos más grandes. 
>La solución de forma cerrada no requiere normalización.

<details><summary><font size=\"2\" color=\"green\"<b>Texto original</b></font></summary>

## Second Example
The second example is from an earlier lab with multiple features. The final parameter values and predictions are very close to the results from the un-normalized 'long-run' from that lab. That un-normalized run took hours to produce results, while this is nearly instantaneous. The closed-form solution work well on smaller data sets such as these but can be computationally demanding on larger data sets. 
>The closed-form solution does not require normalization.

In [6]:
# load the dataset
X_train, y_train = load_house_data()
X_features = ['size(sqft)','bedrooms','floors','age']

In [7]:
linear_model = LinearRegression()
linear_model.fit(X_train, y_train) 

LinearRegression()

In [8]:
b = linear_model.intercept_
w = linear_model.coef_
print(f"w = {w:}, b = {b:0.2f}")

w = [  0.27 -32.62 -67.25  -1.47], b = 220.42


In [9]:
print(f"Prediction on training set:\n {linear_model.predict(X_train)[:4]}" )
print(f"prediction using w,b:\n {(X_train @ w + b)[:4]}")
print(f"Target values \n {y_train[:4]}")

x_house = np.array([1200, 3,1, 40]).reshape(-1,4)
x_house_predict = linear_model.predict(x_house)[0]
print(f" predicted price of a house with 1200 sqft, 3 bedrooms, 1 floor, 40 years old = ${x_house_predict*1000:0.2f}")

Prediction on training set:
 [295.18 485.98 389.52 492.15]
prediction using w,b:
 [295.18 485.98 389.52 492.15]
Target values 
 [300.  509.8 394.  540. ]
 predicted price of a house with 1200 sqft, 3 bedrooms, 1 floor, 40 years old = $318709.09


## Congratulations!
In this lab you:
- utilized an open-source machine learning toolkit, scikit-learn
- implemented linear regression using a close-form solution from that toolkit