<a target="_blank" href="https://colab.research.google.com/github/wakusoftware/curso-ml-espanol/blob/master/C1%20-%20Aprendizaje%20Supervisado/W2/C1_W2_Lab05_DG_SKLearn.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

## Setup para Colab
Si estás corriendo este Notebook en Google Colab corre la celda de abajo, de lo contrario ignórala.

In [None]:
!git clone https://github.com/wakusoftware/curso-ml-espanol.git

%cd curso-ml-espanol/C1 - Aprendizaje Supervisado/W2/

!cp lab_utils_common.py /content/

!cp lab_utils_multi.py /content/

!cp deeplearning.mplstyle /content/

!cp -r data /content/

!cp -r images /content/

%cd /content/

!rm -rf curso-ml-espanol/

# Laboratorio: Regresión Lineal utilizando Scikit-Learn

Existe un kit de herramientas de aprendizaje automático de código abierto y utilizable comercialmente llamado [scikit-learn](https://scikit-learn.org/stable/index.html). Este kit contiene implementaciones de muchos de los algoritmos con los que trabajarás en este curso.

## Objetivos
En este laboratorio:
- Utilizarás scikit-learn para implementar la regresión lineal usando el Descenso de Gradiente

## Herramientas
Utilizarás funciones de scikit-learn, así como matplotlib y NumPy.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler
from lab_utils_multi import  load_house_data
from lab_utils_common import dlc
np.set_printoptions(precision=2)
plt.style.use('./deeplearning.mplstyle')

# Descenso de Gradiente
Scikit-learn tiene un modelo de regresión por descenso de gradiente [sklearn.linear_model.SGDRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#examples-using-sklearn-linear-model-sgdregressor). Al igual que tu implementación anterior de descenso de gradiente, este modelo funciona mejor con entradas normalizadas. [sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler) realizará la normalización z-score como en un laboratorio anterior. Aquí se le llama 'puntuación estándar'.

### Carga el data set

In [None]:
X_train, y_train = load_house_data()
X_features = ['tamaño(pies cuadrados)', 'habitaciones', 'pisos', 'edad']

### Escalar/normalizar los datos de entrenamiento

In [None]:
scaler = StandardScaler()
X_norm = scaler.fit_transform(X_train)
print(f"Rango de pico a pico por columna en X 'crudo': {np.ptp(X_train, axis=0)}")
print(f"Rango de pico a pico por columna en X normalizado: {np.ptp(X_norm, axis=0)}")

### Crear y ajustar el modelo de regresión

In [None]:
sgdr = SGDRegressor(max_iter=1000)
sgdr.fit(X_norm, y_train)
print(sgdr)
print(f"número de iteraciones completadas: {sgdr.n_iter_}, número de actualizaciones de peso: {sgdr.t_}")

### Ver parámetros
Nota, los parámetros están asociados con los datos de entrada *normalizados*. Los parámetros ajustados son muy similares a los encontrados en el laboratorio anterior con estos datos.

In [None]:
b_norm = sgdr.intercept_
w_norm = sgdr.coef_
print(f"parámetros del modelo:                   w: {w_norm}, b:{b_norm}")
print("parámetros del modelo del laboratorio anterior: w: [110.56 -21.27 -32.71 -37.97], b: 363.16")

### Hacer predicciones
Predice los objetivos de los datos de entrenamiento. Utiliza tanto la rutina `predict` como el cálculo usando $w$ y $b$.

In [None]:
# hacer una predicción usando sgdr.predict()
y_pred_sgd = sgdr.predict(X_norm)
# hacer una predicción usando w, b.
y_pred = np.dot(X_norm, w_norm) + b_norm  
print(f"coincidencia de predicción usando np.dot() y sgdr.predict: {(y_pred == y_pred_sgd).all()}")

print(f"Predicción en el conjunto de entrenamiento:\n{y_pred[:4]}")
print(f"Valores objetivo \n{y_train[:4]}")

### Graficar Resultados
Vamos a graficar las predicciones frente a los valores objetivo.

In [None]:
# graficar predicciones y objetivos versus características originales
fig, ax = plt.subplots(1, 4, figsize=(12, 3), sharey=True)
for i in range(len(ax)):
    ax[i].scatter(X_train[:, i], y_train, label='objetivo')
    ax[i].set_xlabel(X_features[i])
    ax[i].scatter(X_train[:, i], y_pred, color='naranja', label='predicción')
ax[0].set_ylabel("Precio"); ax[0].legend();
fig.suptitle("objetivo versus predicción usando el modelo normalizado z-score")
plt.show()

## ¡Felicidades!
En este laboratorio:
- utilizaste un kit de herramientas de aprendizaje automático de código abierto, scikit-learn
- implementaste regresión lineal utilizando descenso de gradiente y normalización de características de ese kit