### Procedimiento básico de uso permanente

In [None]:
# Creamos X e y
X = df[['feature_cols1', 'feature_cols2', 'feature_cols3']] # o todos sin la Y
y = df['target']

# Importar paquete, instanciar el estimador y fitear el modelo
from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X, y)

### Paquetes más comunes

In [None]:
%matplotlib inline
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

### Modo simple

In [None]:
#Evaluar y visualizar correlación de las features para seleccionarlas
df.corr()
sns.heatmap(df.corr());

# Seleccionar modelo
from sklearn.linear_model import LinearRegression

# Elegir hiperparámetros
model = LinearRegression(fit_intercept=True)

# Preparar los datos en una matriz de features
# Crear X e y
X = df['cols'] #2 dimensiones
y = df['target'] #1 dimensión

# Split entrenamiento / testeo para CV
from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, random_state=1)
#Ajustar el modelo a los datos
model.fit(Xtrain, ytrain)
print (model.coef_)
print (model.intercept_)

# Predecir
# A Mano
model.intercept_ + model.coef_*test
#Con el método del objeto
import numpy as np
test_sklearn = np.array(test).reshape(-1,1)
model.predict(test_sklearn)
#Con método predict
ypred = model.predict(Xtest)

#Evaluar
from sklearn import metrics
print ('MAE:', metrics.mean_absolute_error(ytest, ypred))
print ('MSE:', metrics.mean_squared_error(ytest, ypred))
print ('RMSE:', np.sqrt(metrics.mean_squared_error(ytest, ypred)))
print ('R2:', metrics.r2_score(ytest, ypred))

### Regresión polinómica y pipeline

In [None]:
#Importar y funciones
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline

def PolynomialRegression(degree=2, **kwargs):
    return make_pipeline(PolynomialFeatures(degree),
                         LinearRegression(**kwargs))

#Aplicar y visualizar
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set()  # plot formatting

X_test = np.linspace(-0.1, 1.1, 500).reshape(-1,1)

plt.scatter(X.ravel(), y, color='black')
axis = plt.axis()
for degree in [1, 3, 5]:
    y_test = PolynomialRegression(degree).fit(X, y).predict(X_test)
    plt.plot(X_test.ravel(), y_test, label='degree={0}'.format(degree))
plt.xlim(-0.1, 1.0)
plt.ylim(-2, 12)
plt.legend(loc='best');

#Chequear las variantes usando Validation Curve
from sklearn.model_selection import validation_curve
degree = np.arange(0, 21)
train_score, val_score = validation_curve(PolynomialRegression(), X, y, 'polynomialfeatures__degree'
                                          , degree, cv=7)

plt.plot(degree, np.mean(train_score, axis=1), color='blue', label='training score')
plt.plot(degree, np.mean(val_score, axis=1), color='red', label='validation score')
plt.legend(loc='best')
plt.ylim(0, 1)
plt.xlabel('degree')
plt.ylabel('score');

### Scykit más detallado

In [None]:
# Generamos las matrices y el target

X = df[["column1"."column2","columnS"]]
y = df["col"]

# Importamos, Instanciamos, Fiteamos, etc..

lm = linear_model.LinearRegression()
model = lm.fit(X, y)
predictions = lm.predict(X)

print ('Intercepto=', ' ', model.intercept_)
print ('RM=', ' ', model.coef_)
print ('R2_train=', ' ', model.score(X, y))

# Generamos una función que resume los coeficientes, el intercepto y el R2
# "model" = objeto con el modelo
# "X" = matrix de variables independientes

def sum_mod(model, X):
    a = pd.DataFrame(model.coef_ , X.columns.values)
    a = a.append(pd.DataFrame([model.intercept_, model.score(X, y)], index=['Intecept','R2']))
    return(a)

# Graficamos la variable X contra la variable Y
plt.scatter(X, y, s=30, c='r', marker='+', zorder=10)
plt.xlabel("RM")
plt.ylabel("Valores reales MEDV")
plt.show()

# Graficamos el modelo
plt.plot(y,y, '-.',c='grey')
plt.scatter(predictions, y, s=30, c='r', marker='+', zorder=10)
plt.xlabel("Predicciones de MEDV usando RM")
plt.ylabel("Valores reales MEDV")
plt.show()

# error medio cuadrático
print ("EMC:", mean_squared_error(y, predictions)) 
sum_mod(model, X)
#comparar ems
print ("Improve: ", mean_squared_error(y, predictions) < prevMSE)

### Statsmodels


In [None]:

import statsmodels.api as sm

X = df[["RM"]]
y = targets[["MEDV"]]

# Notar la diferencia en el orden de X e y en este caso
model = sm.OLS(y, X).fit()
predictions = model.predict(X)

# Graficamos los resultados
plt.plot(y,y, '-.', c='grey')
plt.scatter(predictions, y, s=30, c='r', marker='+', zorder=10)
plt.xlabel("Predicciones usando RM")
plt.ylabel("Valores reales MEDV")
plt.show()

# Imprimimos el MSE y un resumen del modelo
print ("EMC:", mean_squared_error(y, predictions))
print (model.summary())

### Métricas

In [None]:
from sklearn import metrics
import numpy as np
print ('MAE:', metrics.mean_absolute_error(true, pred))
print ('MSE:', metrics.mean_squared_error(true, pred))
print ('RMSE:', np.sqrt(metrics.mean_squared_error(true, pred)))
print ('R2:', metrics.r2_score(true, pred))

Comparando estas métricas:

- ** MAE **  es el error promedio.
- ** MSE **  "penaliza" errores grandes.
- ** RMSE **  es interpretable, tiene las mismas unidades  que la "y".
- ** $R^2$ ** es la proporción de la varianza total de $Y$ explicada por el modelo.

Todas estas son ** funciones de pérdida **, queremos minimizarlas.

### Comparando modelos

In [None]:
from sklearn.model_selection import train_test_split

# Definimos una función que acepta una lista de features y devuelve la prueba RMSE

def train_test_rmse(feature_cols):
    X = df[feature_cols]
    y = df.target
    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)
    linreg = LinearRegression()
    linreg.fit(X_train, y_train)
    y_pred = linreg.predict(X_test)
    return np.sqrt(metrics.mean_squared_error(y_test, y_pred))

# comparamos diferentes ensambles de features
print (train_test_rmse(['feature_1', 'feature_2']))
print (train_test_rmse(['feature_1', 'feature_2','feature_3']))