## 6. Regresión

[Playlist de Ciencia de Datos en castellano](https://www.youtube.com/watch?v=iOJbOfPHXLg&list=PLLBUgWXdTBDg1Qgmwt4jKtVn9BWh5-zgy)
[![Ciencia de Datos en Python](https://img1.wsimg.com/isteam/ip/aab852a2-7b1f-49c0-92af-9206f2ec6a75/7-0001.png/:/rs=w:1160,h:653)](https://www.youtube.com/watch?v=iOJbOfPHXLg&list=PLLBUgWXdTBDg1Qgmwt4jKtVn9BWh5-zgy "Python Data Science")

Regresión es el proceso de obtener los parámetros de un modelo para ajustar una predicción `y` a valores medidos `z`. Tenemos variables independientes `x` como entradas del modelo para generar predicciones `y`. Para aprendizaje automático (machine learning), el objetivo es minimizar una función de pérdida ajustando los parámetros del modelo. Una función de pérdida común es la suma de los errores cuadrados entre los valores predichos `y` y valores medidos `z`.

    x = Variable independiente o de entrada
    y = Variable dependiente o de salida
    z = Variable medida u observada (análoga con variable de salida)

![temperature](https://apmonitor.com/che263/uploads/Begin_Python/temperature.png)

El objetivo es minimizar una función de pérdida, como una suma de errores cuadrados entre los valores medidos y predichos:

$Loss = \sum_{i=1}^{n}\left(y_i-z_i\right)^2$

donde `n` es el número de observaciones. La regresión requiere datos etiquetados (valores de salida) para el entrenamiento. Por otra parte, la clasificación puede ser supervisada (con `z` medidas, con etiquetas) o sin supervisión (con `z` medidas, sin etiquetas). Ejecuta el siguiente código y obtén 30 puntos de datos con variables de entrada `x` y variables de salida o medidas `z`.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
n = 31
x = np.linspace(0,3,n)
z = np.array([1.89,-0.12,-0.32,2.11,-0.25,1.01,0.17,2.75,2.01,5.5,\
     0.87,3.31,2.29,2.73,3.67,3.92,4.29,5.27,3.85,4.26,\
     5.75,5.82,6.36,9.13,7.61,9.52,9.53,12.49,12.29,13.7,14.12])
data = pd.DataFrame(np.vstack((x,z)).T,columns=['x','z'])
plt.plot(x,z,'ro',label='Measured')
plt.xlabel('x'); plt.ylabel('z'); plt.legend()
plt.show()

![idea](https://apmonitor.com/che263/uploads/Begin_Python/idea.png)

### Regresión Lineal

Hay muchas maneras de formular un modelo, como lineal, polinomial y no lineal. Un modelo lineal común es una línea con pendiente `a` y la intersección `b`.

    y = a x + b
    
Un método simple para regresión lineal es utilizando `numpy` para ajustar `p=np.polyfit(x,y,1)` y evaluar el modelo `np.polyval(p,x)`. Ejecuta el siguiente código para determinar la pendiente y la intersección que minimizan la suma de los errores cuadrados (mínimos cuadrados) entre los valores predichos `y` con los medidos `z`.

In [None]:
p1 = np.polyfit(x,z,1)

print('Slope, Intercept:' + str(p1))

plt.plot(x,z,'ro',label='Measured (z)')
plt.plot(x,np.polyval(p1,x),'b-',label='Predicted (y)')
plt.legend(); plt.show()

El valore $R^2$ se puede calcular con los valores medidos (verdaderos) y los valores del modelo (predichos) para cualquier modelo de regresión, no solo modelos lineales.

```python
from sklearn.metrics import r2_score
meas  = [3.0, 2.0, 1.9, 7.1]
model = [2.5, 1.8, 2.0, 8.0]
r2_score(meas, model)
```

Otra libería es `statsmodels` la cual realiza el análisis estándar de mínimos cuadrados ordinarios (MCO) con un buen informe resumido. La entrada `x` se aumenta con columnas `np.ones(n)` para obtener también la intersección

```python
xc = np.vstack((x,np.ones(n))).T
```

y esto también se lo logra con `xc=sm.add_constant(x)`.

In [None]:
import statsmodels.api as sm
xc = sm.add_constant(x)
model = sm.OLS(z,xc).fit()
predictions = model.predict(xc)
model.summary()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad de Regresión Lineal

Crea un modelo lineal con los siguientes datos:

```python
xr = [0.0,1.0,2.0,3.5,5.0]
yr = [0.7,0.55,0.34,0.3,0.2]
```

Calcular el valor $R^2$ y mostrar los datos y el ajuste lineal en una gráfica.

![debug](https://apmonitor.com/che263/uploads/Begin_Python/debug.png)

### Regresión Polinomial

Un modelo polinomial también puede ser cuadrático:

    y = a x^2 + b x + c
    
Un modelo cuadrático es realmente un modelo lineal con dos entradas `x` y `z = x^2`.

    y = a z + b x + c
    
Esto también se denomina regresión lineal múltiple cuando hay más de una entrada `y = f(x,z)` donde `f` es una función de entradas `x` y `z`.

In [None]:
p2 = np.polyfit(x,z,2)
print(p2)
plt.plot(x,z,'ro',label='Measured (z)')
plt.plot(x,np.polyval(p2,x),'b-',label='Predicted (y)')
plt.legend(); plt.show()

Hay más información sobre los coeficientes para el ajuste cuadrático si utilizas `statsmodels`.

In [None]:
import statsmodels.api as sm
xc = np.vstack((x**2,x,np.ones(n))).T
model = sm.OLS(z,xc).fit()
predictions = model.predict(xc)
model.summary()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad de Regresión Polinomial

Crear un modelo polinomial con los datos:

```python
xr = [0.0,1.0,2.0,3.5,5.0]
yr = [1.7,1.45,1.05,0.4,0.2]
```

Indica el modelo polinomial en una gráfica.

![list](https://apmonitor.com/che263/uploads/Begin_Python/list.png)

### Regresión No Lineal

Para regresión no lineal podemos utilizar una herramienta diferente como `curve_fit` que requiere la función `f` que retorna una predicción. También requiere los datos `x` y `z`. Los parámetros desconocidos `a` y `b` son ajustados para que la variable de salida coincida con la medida u observación `z`.

In [None]:
from scipy.optimize import curve_fit
def f(x,a,b):
    return a * np.exp(b*x)
p, pcov = curve_fit(f,x,z)
print('p = '+str(p))
plt.plot(x,z,'ro')
plt.plot(x,f(x,*p),'b-')
plt.show()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad de Regresión No Lineal

Crea un modelo no lineal con los datos:

$y = a \ln\left( b \, x \right)$

```python
xr = [0.1,1.0,2.0,3.5,5.0]
yr = [0.2,0.4,1.05,1.45,1.7]
```

Muestra el modelo no lineal en una gráfica.

![exercise](https://apmonitor.com/che263/uploads/Begin_Python/exercise.png)

### Aprendizaje Automático o Machine Learning

El aprendizaje automático corresponde a algoritmos de computador y modelos estadísticos que se basan en patrones e inferencias. Estos algoritmos realizan una tarea específica sin instrucciones explícitas. Los modelos de regresión con aprendizaje automático pueden ser tan simples como una regresión lineal o tan complejos como el aprendizaje profundo (deep learning). Este tutorial indica varios métodos de regresión con `scikit-learn`.

#### Generar Datos

Para hacer que la gráfica sea interactiva, agregua el comando: 

```python
%matplotlib notebook
```

In [None]:
%matplotlib inline
from mpl_toolkits.mplot3d import Axes3D

import math
def f(x,y):
    return 2*math.cos(x)*y + x*math.cos(y) - 3*x*y

n = 500
x = (np.random.rand(n)-0.5)*2.0
y = (np.random.rand(n)-0.5)*2.0
z = np.empty_like(x)
for i in range(n):
    z[i] = f(x[i],y[i])
data = pd.DataFrame(np.vstack((x,y,z)).T,columns=['x','y','z'])

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x,y,z,c=z,cmap='plasma')
plt.show()

#### Escalamiento de Datos o Normalización

Los datos se pueden escalar con un "Standard Scalar" o simplemente se dejan sin escalar porque los valores (`x`, `y`, `z`) ya están cerca de los rangos aceptables. Si se desea escalar, se lo puede hacer con algunas líneas de código adicionales y cambios en los gráficos.

```python
from sklearn.preprocessing import StandardScaler
s = StandardScaler()
ds = s.fit_transform(data)
ds = pd.DataFrame(ds,columns=data.columns)
```

Los datos se dividen en conjuntos de entrenamiento y prueba con `train_test_split`.

In [None]:
# sin escalado de datos
ds = data

# división de datos entre conjuntos de entrenamiento y prueba
from sklearn.model_selection import train_test_split
train,test = train_test_split(ds, test_size=0.2, shuffle=True)

#### Función para graficar

Ejecuta el siguiente código para que cada uno de los modelos de regresión se entrenen y se muestren en un gráfico de superficie y de dispersión 3D.

In [None]:
def fit(method):
    # crear puntos para trazar la superficie
    xp = np.arange(-1, 1, 0.1)
    yp = np.arange(-1, 1, 0.1)
    XP, YP = np.meshgrid(xp, yp)

    model = method.fit(train[['x','y']],train['z'])
    zp = method.predict(np.vstack((XP.flatten(),YP.flatten())).T)
    ZP = zp.reshape(np.size(XP,0),np.size(XP,1))

    r2 = method.score(test[['x','y']],test['z'])
    print('R^2: ' + str(r2))

    fig = plt.figure()
    ax = fig.add_subplot(111, projection='3d')
    ax.scatter(ds['x'],ds['y'],ds['z'],c=z,cmap='plasma',label='data')
    ax.plot_surface(XP, YP, ZP, cmap='coolwarm',alpha=0.7,
                    linewidth=0, antialiased=False)
    plt.show()
    return

#### Regresión Lineal con `sklearn`

El regresor más simple es un modelo lineal. Este modelo no funciona muy bien con los datos no lineales, pero predice la pendiente de los datos.

In [None]:
from sklearn import linear_model
lm = linear_model.LinearRegression()
fit(lm)

#### K-Nearest Neighbors

In [None]:
from sklearn.neighbors import KNeighborsRegressor
knn = KNeighborsRegressor(n_neighbors=2)
fit(knn)

#### Vectores de Soporte Regresión o Support Vector Regressor

In [None]:
from sklearn import svm
s = svm.SVR(gamma='scale')
fit(s)

#### Perceptrón Multicapa (Red Neuronal)

In [None]:
from sklearn.neural_network import MLPRegressor
nn = MLPRegressor(hidden_layer_sizes=(3), 
                  activation='tanh', solver='lbfgs')
fit(nn)

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad de Modelos de Regresión

Encuentra otro [regresor en scikit-learn](https://scikit-learn.org/stable/supervised_learning.html) como *Decision Tree Regressor* o *Passive Agressive Regressor*. Entrena y prueba el regresor con la función `fit()` de este Jupyter Notebook como se indica a continuación:

*Decision Tree Regressor*

```python
from sklearn import tree
dt = tree.DecisionTreeRegressor()
fit(dt)
```

*Passive Aggressive Regressor*

```python
from sklearn.linear_model import PassiveAggressiveRegressor
par = PassiveAggressiveRegressor(max_iter=2000,tol=1e-3)
fit(par)
```

Cambia las opciones del regresor si puede mejorar el valor $R^2$ de tal forma que `PassiveAggressiveRegressor` tenga `max_iter=2000`.

![gekko](https://apmonitor.com/che263/uploads/Begin_Python/gekko.png)

### Aprendizaje profundo

El aprendizaje profundo (Deep Learning) es una regresión con una red neuronal de múltiples capas. La regresión con aprendizaje profundo tiene paquetes especializados como [Tensorflow](https://www.tensorflow.org) diseñado para datos a gran escala, o [Gekko](https://gekko.readthedocs.io/en/latest/) diseñado para estructuras de modelos configurables. A continuación se muestra un ejemplo utilizando Gekko, para más información mira el [tutorial de Deep Learning usando Gekko en inglés](https://apmonitor.com/do/index.php/Main/DeepLearning).  Este mismo ejemplo con Keras (Tensorflow) también se muestra en el enlace.

In [None]:
from gekko import brain

x = np.linspace(0.0,2*np.pi)
y = np.sin(x)

b = brain.Brain(remote=False)
b.input_layer(1)
b.layer(linear=2)
b.layer(tanh=2)
b.layer(linear=2)
b.output_layer(1)
b.learn(x,y,disp=False)      

xp = np.linspace(-2*np.pi,4*np.pi,100)
yp = b.think(xp)  

plt.figure()
plt.plot(x,y,'bo',label='medila (etiqueta)')
plt.plot(xp,yp[0],'r-',label='modelo')
plt.legend(); plt.show()

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Actividad con el TCLab

### Guardar Datos de Temperatura

![connections](https://apmonitor.com/che263/uploads/Begin_Python/connections.png)

Pon el calentador 1 en 80% con `lab.Q1(80)` y el calentador 2 a 60% con `lab.Q1(60)`. Registra las temperaturas (`lab.T1` y `lab.T2`) cada 0.5 segundos (utiliza `time.sleep(0.5)`) durante 30 segundos. Almacene los valores de tiempo, temperatura 1 y temperatura 2 en `numpy` arrays. Utiliza __time.time()__ para obtener la hora actual en segundos.

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Regresión Lineal

Crea un modelo lineal para `T2` con regresión. Reporta el valor $R^2$. Agrega la línea de regresión como una línea de color negro a un gráfico con la medida `T2` como círculos azules. Agregue etiquetas apropiadas a la gráfica.

![expert](https://apmonitor.com/che263/uploads/Begin_Python/expert.png)

### Regresión no Lineal

Cree una regresión no lineal para `T1`. Ajusta los datos $T_1$ con:

1. un modelo no lineal de la forma $T_1 = a + b \exp{(c \, t)}$ donde `a`, `b`, y `c` son parámetros de ajuste.
2. un modelo no lineal que utiliza un regresor en `scikit-learn`, `keras (tensorflow)`, o `gekko`

Reporta el valor $R^2$ para cada uno.