# Regresión Lineal

En estadśitica, la regresión lineales un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente $Y$, las variables independeintes $X_i$ y un termino aleatorio $C$. __[REF](https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal)__

\begin{align}
Y_t = a_0 + a_1 X_1 + a_2 X_2 + ... + a_n X_n + C
\end{align}

En la imágen siguiente podemos visualizar un ejemplo de esto. Se tienen $N$ cantidad de puntos en un plano cartesiano y se desea obtener una función que de manera optima pase por dichos puntos. En este caso, una linea basta para hacer el trabajo.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/1200px-Linear_regression.svg.png" width="800">

# Ejemplo

Dados los siguientes puntos, determinar la arquitectura que permita obtener el comportamiento mostrado

| X | Y  |
|---|----|
| 0 | 0  |
| 2 | 4  |
| 4 | 8  |
| 6 | 12 |
| . | .  |
| . | .  |
| . | .  |

En este caso, a simple vista se aprecia que la función que muestra este comportamiento es $f(x) = 2x$. Derivado de esto, podemos plantearnos usar unicamente una neurona con una entrada, una salida, y sin función de activación. Lo cual queda expresado como:

\begin{align}
Y_{pred} = WX + b
\end{align}

Notese que $W \approx 2$ y $b \approx 0$.

In [1]:
# Importamos las librerias necesarias
import numpy as np
from tqdm import tqdm
import tensorflow as tf
import matplotlib.pyplot as plt
%matplotlib inline

# Importamos algunas funciones auxiliares
from regresion_lineal import Data, print_all_tensors,obtener_wb

  from ._conv import register_converters as _register_converters


## Datos de entrenamiento

A continuación se darán los datos de entrenamiento y prueba. 

La clase Data es una clase auxiliar que nos permite obtener sub conjunto de entrenamiento para cada iteración.

In [2]:
# Datos de entrenamiento
X = np.array([0,2,4,6,8,10]).T # Valores de entrada
Y = 2*X # Valores esperados

# Datos de prueba
Xt = np.array([1,3,5,7,9]).T # Valores de entrada
Yt = 2*Xt # Valores esperados

# Definicion de las bases de datos 
train = Data(x=X,y=Y)
test = Data(x=Xt,y=Yt)

print('X:  {}'.format(X.T))
print('Y:  {}'.format(Y.T))
print('Xt: {}'.format(Xt.T))
print('Yt: {}'.format(Yt.T))

X:  [ 0  2  4  6  8 10]
Y:  [ 0  4  8 12 16 20]
Xt: [1 3 5 7 9]
Yt: [ 2  6 10 14 18]


In [3]:
# Si se desea obtener un sub conjunto de tamaño bs
# se utiliza el siguiente metodo.
print(train.next_batch(bs=1))

(array([[0]]), array([[0]]))


# Mediante Grafos Computacionales

Primeramente definimos las entradas a nuestro grafo.

In [4]:
# Definimos las entradas de informacion al grafo
inp_x = tf.placeholder(tf.float32,shape=[None,1],name='inp_x')
gt_y = tf.placeholder(tf.float32,shape=[None,1],name='gt_y')

print('inp_x: {}'.format(inp_x))
print('gt_y: {}'.format(gt_y))

inp_x: Tensor("inp_x:0", shape=(?, 1), dtype=float32)
gt_y: Tensor("gt_y:0", shape=(?, 1), dtype=float32)


Ahora, se establece la arquitectura de nuestro red.

In [5]:
# Definimos la arquitectura
layer1 = tf.layers.dense(inputs=inp_x,units=1,name='layer1') # Neurona con una salida (units=1)
y_pred = tf.identity(layer1) # Copia de la capa layer1
print(y_pred)

Tensor("Identity:0", shape=(?, 1), dtype=float32)


Estamos interesados en saber la calidad de las predicciones de nuestra arquitectura, por ello definimos la función de perdida que tendrá.

\begin{align}
loss_i = (Y_i - Ŷ_i)^2
\end{align}

Y el costo que tendrá es el valor promedio de cada función de perdida.

\begin{align}
cost = \frac{1}{n} \sum_{i=0}^{n} loss_i
\end{align}

In [6]:
loss = tf.pow(gt_y - y_pred,2.,name='loss')
cost = tf.reduce_mean(loss,name='cost')

print('loss: {}'.format(loss))
print('cost: {}'.format(cost))

loss: Tensor("loss:0", shape=(?, 1), dtype=float32)
cost: Tensor("cost:0", shape=(), dtype=float32)


Para poder entrenar a la red, debemos definir que método será utilizado. Seleccionamos el método de Adam, indicamos que la taza de aprendizaje sea de 0.0001 y que la función a minimizar es "cost".

In [7]:
optimizer = tf.train.AdamOptimizer(learning_rate=1e-4).minimize(cost)

Creamos la sesión donde correrá todo nuestro grafo.

In [8]:
sess = tf.Session()

Inicializamos aleatoriamente los pesos.

In [9]:
sess.run(tf.global_variables_initializer())

Se crea una función auxiliar que permitirá predecir los valores $Ŷ$ dados $X$.

In [10]:
def predict(x):
    # Predice los valores de y correspondientes a x.
    # Args:
    #    x (np.array): Valores X a los que se desea predecir Y.
    #        Su forma debe de ser [None,1]
    # Returns
    #    pred (np.array): Regresa los valores Y predichos.
    #        Su forma es de [None,1]
    fd = {inp_x:x}
    pred = sess.run(y_pred,feed_dict=fd)
    return(pred)

Se crea una función auxiliar para entrenar a la red. 

In [11]:
def train_nn(iters,train_set,bs=1):
    # Entrena a la red neuronal
    # Args:
    #    iters (int): Numero de iteraciones
    #    train_set (Data): Base de datos con la que se entrenara
    #    bs (int): Tamaño del sub set con el que se entrenara cada iteracion
    pbar = tqdm(range(iters))
    for i in pbar:
        next_bs = train_set.next_batch(bs)
        
        fd = {inp_x:next_bs[0],gt_y:next_bs[1]}
        cst,_ = sess.run([cost,optimizer],feed_dict=fd)
        pbar.set_description('Cost: {:.4f}'.format(float(cst)))

Obtenemos un subset ejemplos de la base de datos de prueba para visualizar las predicciones que tiene antes y despues de ser entrenada.

In [12]:
test_data = test.next_batch(5)

Predecimos los valores de $Ŷ$ dado $X$.

In [13]:
pred = predict(test_data[0])
print('GTx: {}\nGTy: {}\nPRy: {}'.format(test_data[0].T,test_data[1].T,pred.T))

GTx: [[1 3 5 7 9]]
GTy: [[ 2  6 10 14 18]]
PRy: [[ -1.6547637  -4.964291   -8.273819  -11.583345  -14.892874 ]]


Entrenamos durante 500 iteraciones usando la base de datos "train".

In [14]:
train_nn(iters=500,train_set=train,bs=3)

Cost: 869.3782: 100%|██████████| 500/500 [00:03<00:00, 148.42it/s]


Volvemos a predecir $Ŷ$ dado $X$ para ver la evolución de los resultados.

In [15]:
pred = predict(test_data[0])
print('GTx: {}\nGTy: {}\nPRy: {}'.format(test_data[0].T,test_data[1].T,pred.T))

GTx: [[1 3 5 7 9]]
GTy: [[ 2  6 10 14 18]]
PRy: [[ -1.5735002  -4.8059464  -8.038392  -11.270838  -14.503284 ]]


Imprimimos los valores de $W$ y $b$.

In [16]:
w,b = obtener_wb(sess=sess)

print('W: {}'.format(w))
print('b: {}'.format(b))

W: [[-1.616223]]
b: [0.04272277]


In [18]:
sess.close()

# Mediante Eager Execution

In [4]:
tf.enable_eager_execution()

In [5]:
elayer1 = tf.keras.layers.Dense(1)

In [8]:
def epredict(inputs):
    pred = elayer1(inputs)
    return(pred)

In [6]:
def eloss(inputs,y):
    y_pred = epredict(inputs)
    loss = tf.pow(y-y_pred,2.)
    return(loss)

In [None]:
def grad(inputs,y):
    tf.GradientTape() as tape:
        loss = eloss(inputs,y)
    return(loss)