# Ejercicio: Regresión Lineal usando Scikit-Learn

Existe una herramienta de código abierto y de uso comercial llamada [scikit-learn](https://scikit-learn.org/stable/index.html). Este toolkit contiene implementaciones de muchos de los algoritmos que trabajarás en este curso.

## Objetivos
En este ejercicio usted:
- Utilizará scikit-learn para implementar regresión lineal usando Gradiente de Descenso

## Herramientas
Utilizará funciones de scikit-learn así como matplotlib y NumPy.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler
from ejerc_utils_multi import  load_house_data
from ejerc_utils_common import dlc
np.set_printoptions(precision=2)
plt.style.use('./deeplearning.mplstyle')

# Gradiente Descendente
Scikit-learn tiene un modelo de regresión por gradiente descenso [sklearn.linear_model.SGDRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#examples-using-sklearn-linear-model-sgdregressor). Al igual que su implementación previa de gradiente descenso, este modelo funciona mejor con entradas normalizadas. [sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler) realizará la normalización z-score como en un ejercicio anterior. Aquí se le llama 'puntuación estándar'.

### Cargar el conjunto de datos

In [None]:
X_train, y_train = load_house_data()
X_features = ['size(sqft)','bedrooms','floors','age']

### Escalar/normalizar los datos de entrenamiento

In [None]:
scaler = StandardScaler()
X_norm = scaler.fit_transform(X_train)
print(f"Rango máximo a mínimo por columna en X cruda       :{np.ptp(X_train,axis=0)}")   
print(f"Rango máximo a mínimo por columna en X normalizada :{np.ptp(X_norm,axis=0)}")

### Crear y ajustar el modelo de regresión

In [None]:
sgdr = SGDRegressor(max_iter=1000)
sgdr.fit(X_norm, y_train)
print(sgdr)
print(f"número de iteraciones completadas: {sgdr.n_iter_}, número de actualizaciones de pesos: {sgdr.t_}")

### Ver parámetros
Nota: los parámetros están asociados con los datos de entrada *normalizados*. Los parámetros ajustados son muy similares a los encontrados en el ejercicio anterior con estos datos.

In [None]:
b_norm = sgdr.intercept_
w_norm = sgdr.coef_
print(f"parámetros del modelo:                   w: {w_norm}, b:{b_norm}")
print( "parámetros del modelo del ejercicio anterior: w: [110.56 -21.27 -32.71 -37.97], b: 363.16")

### Realizar predicciones
Prediga los valores objetivo de los datos de entrenamiento. Use tanto la rutina `predict` como el cálculo usando $w$ y $b$.

In [None]:
# hacer una predicción usando sgdr.predict()
y_pred_sgd = sgdr.predict(X_norm)
# hacer una predicción usando w,b. 
y_pred = np.dot(X_norm, w_norm) + b_norm  
print(f"la predicción usando np.dot() y sgdr.predict coincide: {(y_pred == y_pred_sgd).all()}")

print(f"Predicción en el conjunto de entrenamiento:\n{y_pred[:4]}" )
print(f"Valores objetivo \n{y_train[:4]}")

### Graficar Resultados
Vamos a graficar las predicciones versus los valores objetivo.

In [None]:
# graficar predicciones y valores objetivo vs X entradas (características) originales    
fig,ax=plt.subplots(1,4,figsize=(12,3),sharey=True)
for i in range(len(ax)):
    ax[i].scatter(X_train[:,i],y_train, label = 'objetivo')
    ax[i].set_xlabel(X_features[i])
    ax[i].scatter(X_train[:,i],y_pred,color=dlc["dlorange"], label = 'predicción')
ax[0].set_ylabel("Precio"); ax[0].legend();
fig.suptitle("objetivo versus predicción usando modelo normalizado z-score")
plt.show()

## ¡Felicitaciones!
En este ejercicio usted:
- utilizó una herramienta de aprendizaje automático de código abierto, scikit-learn
- implementó regresión lineal usando gradiente descendente y normalización de X entradas (características) con esa herramienta