<img src="res/itm_logo.jpg" width="300px">

## Inteligencia Artificial - IAI84
### Instituto Tecnológico Metropolitano
#### Pedro Atencio Ortiz - 2020


En este notebook se abordan los temas:

- Regresión lineal.
- Descenso del gradiente.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
x = np.array([[0.4],[1.5]])
y = 2.8

w = np.array([[3.2],[1.6]])
b = -1.4

#descenso del gradiente


Un modelo lineal se define como: <font size="5">$Y = WX+b$</font>

In [None]:
np.random.seed(2) #aseguramos que el resultado del random es el mismo en cada ejecucion

m = 100
X = 2 * np.random.rand(m,1)

W = np.random.randint(3,8)+np.random.rand()
b = np.random.randint(3,8)+np.random.rand()

Y = W * X + b  #regresor lineal

Y = Y + np.random.randn(m,1) #ruido

In [None]:
print(b)

In [None]:
plt.scatter(X, Y, color='red')
plt.xlabel("x", fontsize=15)
plt.ylabel("y", fontsize=15)
plt.show()

La regresión lineal consiste en hallar los valores de $W$ y $b$ tales que definan una recta que se acerque lo mejor posible a los valores originales de $Y$ dados los $X$ de entrada.

En este punto, podemos adivinar dichos valores?

In [None]:
W = 0.43599490214200376
b = 0

Y_pred = W * X + b

plt.scatter(X, Y, color='red')
plt.plot(X, Y_pred)

plt.xlabel("x", fontsize=15)
plt.ylabel("y", fontsize=15)
plt.show()

La regresión lineal permite encontrar un valor $a$ y un valor $b$ tal que la linea que define la siguiente ecuación, minimiza la distancia de todos los datos respecto a la misma.

<center><font size=5>$y = aX+b$</font></center>

La solución exacta o ecuación normal de la regresión lineal es la siguiente:

<center><font size=5>$X = [1, X]$</font></center>
<center><font size=5>$\theta = [b, a] = (X^T \cdot X)^{-1} \cdot X^T \cdot Y $</font></center>

Es decir, encontrando $r$ encontramos los valores de $a$ y $b$ que resuelven el problema de ajuste lineal.

In [None]:
X_b = np.c_[np.ones((m,1)), X] #X with bias
theta = np.dot(np.dot(np.linalg.inv(np.dot(np.transpose(X_b), X_b)), np.transpose(X_b)), Y)

In [None]:
print(theta)

In [None]:
#Ejemplo de prediccion para dos datos del conjunto

x = np.array([[0], [2]])
y_solution = theta[1]*x + theta[0]

print(y_solution)

In [None]:
plt.scatter(X, Y, color='red')
plt.plot(x, y_solution)

plt.xlabel("x", fontsize=15)
plt.ylabel("y", fontsize=15)
plt.show()

<hr>
<h2> Implementemos el ejemplo anterior mediante descenso del gradiente </h2>

El algoritmo del descenso del gradiente se basa en minimizar una función de error $g(x)$ utilizando las derivadas de los parámetros del modelo respecto a dicha función. Sea $\theta$ un conjunto de parámetros, $X$ un conjunto de elementos de entrada y $Y$ un conjunto de elementos de salida:

Algoritmo del gradiente con tasa de apredizaje:

<br>

<font size=2>

$
\\
repeat(n\_{epochs})\{
\\
    \hspace{10mm}dW = 0
    \\
    \hspace{10mm}db = 0
    \\
    \hspace{10mm}e = 0
    \\
    \hspace{10mm} for(i:1 \rightarrow m)\{
    \\
    \hspace{20mm} Y_{pred} = Wx^{[i]}+b
    \\
    \hspace{20mm} e = e + \frac{1}{2}(Y^{[i]} - Y_{pred}^{[i]})^2
    \\
    \hspace{20mm} dZ = (y_{pred}^{[i]} - y^{[i]})
    \\
    \hspace{20mm} dW = dW + dZ*x^{[i]}
    \\
    \hspace{20mm} db = db + dZ
    \\
    \hspace{10mm}\}
    \\
    \hspace{10mm}dW = \frac{dW}{m}
    \\
    \hspace{10mm}db = \frac{db}{m}
    \\
    \hspace{10mm}e = \frac{e}{m}
    \\
    \hspace{10mm} W = W - \alpha dW
    \\
    \hspace{10mm} b = b - \alpha db
\\
\}
$
</font>

In [None]:
X_new = X.T
Y_new = Y.T

print(X.shape)

# Implementación per-data

In [None]:
np.random.seed(2)

W = np.random.random()
b = 0

print(W, b)

In [None]:
alpha = 0.05 #learning rate
epochs = 1000

cost_list = []

m = X_new.shape[1] #numero de datos en el dataset

for epoca in range(epochs): #numero de veces que se repite el descenso del gradiente
    dW = 0
    db = 0
    
    e = 0
    
    for i in range(m):
        Y_pred = W * X_new[0,i] + b

        dz = Y_pred - Y_new[0,i]
        dW += dz * X_new[0, i] 
        db += dz
        
        e += (Y_pred - Y_new[0, i])**2
        
    #promedio de las derivadas
    dW = dW / m
    db = db / m
    
    #promedio del error
    e = e / (2*m)
    
    #actualizacion
    W = W - alpha * dW
    b = b - alpha * db
    
    if(epoca % 100 == 0): #imprimir cada 100 epocas
        
        print("Total error: ", e)
        cost_list.append(e)

plt.plot(cost_list)
plt.show()

In [None]:
print(W, b)

In [None]:
y_solution = W * X + b #prediccion

plt.scatter(X, Y, color='red')
plt.plot(X, y_solution)
plt.show()

# Implementación Vectorizada

Para ilustrar el concepto de vectorización, exploremos el siguiente ejemplo mediante dos implementaciones y midamos el tiempo de cómputo.

__Problema__: Calcular la sumatoria de la multiplicatoria de dos arreglos de gran tamaño e implementar utilizando ciclos, y mediante vectorización. 

In [None]:
from time import time

In [None]:
#Creamos dos arreglos de diez mil valores aleatorios
np.random.seed(2)
A = np.random.random(10000)
B = np.random.random(10000)

In [None]:
#Forma 1: utilizando ciclos

tic = time()

suma = 0

for i in range(10000):
    suma = suma + A[i]*B[i]

print("Suma: %.4f"%suma)

toc = time()

print("Elapsed time in miliseconds:",(toc-tic)*1000)

In [None]:
#Forma 2: utilizando vectorizacion

tic = time()

suma = np.sum(A*B)

print("Suma: %.4f"%suma)

toc = time()

print("Elapsed time in miliseconds: ",(toc-tic)*1000)

<hr>

Ahora implementemos el descenso del gradiente utilizando vectorización, según el siguiente algoritmo.

<hr>
Algoritmo vectorizado:

<br>

$
\\
repeat(n\_{epochs})\{
\\
\hspace{10mm} Y_{pred}^{[i]} = W^{T}X+b
\\
\hspace{10mm} e = \frac{1}{2m}\sum{(Y - Y_{pred})^2}
\\
\hspace{10mm} dZ = (Y_{pred} - Y)
\\
\hspace{10mm} dW = \frac{X.dZ^{T}}{m}
\\
\hspace{10mm} db = \frac{dZ}{m}
\\
\hspace{10mm} W = W - \alpha dW
\\
\hspace{10mm} b = b - \alpha db
\\
\}
$



In [None]:
#Funcion de error: error medio cuadrado
def mse(a, y):
    m = y.shape[1]
    return np.sum((a - y)**2) / (2*m)

In [None]:
np.random.seed(2)

W = np.random.random([1, X.shape[1]])
b = np.array([[0]])

print(W, b)

In [None]:
X_new = X.T
Y_new = Y.T

print(X.shape)

In [None]:
alpha = 0.05
epochs = 1000

cost_list = []

for epoca in range(epochs):
    Y_pred = W.T.dot(X_new) + b
    
    dz = Y_pred - Y_new
    dW = np.dot(X_new, dz.T) / m 
    db = np.sum(dz) / m
    
    W = W - alpha * dW
    b = b - alpha * db
    
    if(epoca % 100 == 0):
        e = mse(Y_pred, Y_new)
        print("Total error: ", e)
        cost_list.append(e)

plt.plot(cost_list)
plt.show()

In [None]:
print(W,b)

In [None]:
y_solution = W.T.dot(X_new) + b

plt.scatter(X, Y, color='red')
plt.plot(X, y_solution.T)
plt.show()