## Statistical Learning I
## Erick J. Pineda Amézquita
## 17012140


**Descripción de este ejercicio:**     

Desarrollar el proceso de regresión lineal y escoger el mejor modelo aplicando **TensorFlow** con **GradientDescent**, también graficar el comportamiento del error o la curva de aprendizaje en función del tiempo por medio de **TensorBoard**.  
Utilizar el archivo de datos *"proyecto_training_data.npy"* para predecir el precio de casas, el cual consta de seis variables:
 * SalePrice	
 * OverallQual	
 * FirstFloor	
 * TotRmsAbvGrd	
 * YearBuilt	
 * LotFrontage


*Observaciones:*  
Para este ejercicio se utilizará la variable "SalePrice" para el valor a predecir "y".
El modelo es de una sola variable, por lo que se utilizará "OverallQual" como variable independiente.

**Recordar los siguientes conceptos:**  

Regresión Lineal:  
![Regresión Lineal](img/funcionLineal.JPG)  





Función de costo:   
![Función de costo](img/funcionCosto.JPG)   




Algoritmo GradientDescent
![GradientDescent](img/AlgoritmoGradientDescent.JPG)   


Algoritmo GradientDescent con resultado de derivadas parciales para el modelo de regresión lineal θj\*Xj + θi\*Xi  

![GradientDescent](img/gdParametros.JPG)   


### Analisis exploratorio
Importar librerías y carga de datos

In [2]:
import numpy as np
import pandas as pd

import tensorflow as tf 
import matplotlib.pyplot as plt 

Extracción de los datos y separación a partir del archivo .npy



In [144]:
origenDeDatos = np.load('dataset/proyecto_training_data.npy')

### Separación de los datos en 80% y 20%
numDatosEntrenamiento=int(0.8*origenDeDatos.shape[0])
print("Cantidad de datos para ENTRENAMIENTO:   ", numDatosEntrenamiento)

numDatosValidacion=int(0.2*origenDeDatos.shape[0])
print("Cantidad de datos para VALIDACION:      ", numDatosValidacion)

Cantidad de datos para ENTRENAMIENTO:    1168
Cantidad de datos para VALIDACION:       292


Creación de Data Frames

In [5]:
dfEntrenamiento = pd.DataFrame(origenDeDatos[:numDatosEntrenamiento])
dfEntrenamiento.columns = ["SalePrice", "Overall", "Floor", "Rooms", "Year", "Front"]

dfValidacion = pd.DataFrame(origenDeDatos[numDatosEntrenamiento:])
dfValidacion.columns = ["SalePrice", "Overall", "Floor", "Rooms", "Year", "Front"]

print("Data Frame de Entrenamiento:   ",dfEntrenamiento.shape)
print("Data Frame de Validacion:      ",dfValidacion.shape)


Data Frame de Entrenamiento:    (1168, 6)
Data Frame de Validacion:       (292, 6)


Ejemplo de 10 filas para conocer cómo viene la información

In [6]:
dfEntrenamiento.head(10)

Unnamed: 0,SalePrice,Overall,Floor,Rooms,Year,Front
0,208500.0,7.0,856.0,8.0,2003.0,65.0
1,181500.0,6.0,1262.0,6.0,1976.0,80.0
2,223500.0,7.0,920.0,6.0,2001.0,68.0
3,140000.0,7.0,961.0,7.0,1915.0,60.0
4,250000.0,8.0,1145.0,9.0,2000.0,84.0
5,143000.0,5.0,796.0,5.0,1993.0,85.0
6,307000.0,8.0,1694.0,7.0,2004.0,75.0
7,200000.0,7.0,1107.0,7.0,1973.0,
8,129900.0,7.0,1022.0,8.0,1931.0,51.0
9,118000.0,5.0,1077.0,5.0,1939.0,50.0


Conociendo los valores estadísticos:

In [7]:
dfEntrenamiento.describe()

Unnamed: 0,SalePrice,Overall,Floor,Rooms,Year,Front
count,1168.0,1168.0,1168.0,1168.0,1168.0,962.0
mean,180590.277397,6.101027,1156.32363,6.485445,1971.451199,69.946985
std,78815.697902,1.378025,373.780374,1.609141,29.951707,23.478161
min,34900.0,1.0,334.0,2.0,1875.0,21.0
25%,129900.0,5.0,882.0,5.0,1954.0,59.0
50%,162950.0,6.0,1086.0,6.0,1973.0,70.0
75%,214000.0,7.0,1390.25,7.0,2000.0,80.0
max,755000.0,10.0,3228.0,14.0,2010.0,313.0


Analizando correlación:

In [153]:
dfEntrenamiento.corr()

Unnamed: 0,SalePrice,Overall,Floor,Rooms,Year,Front
SalePrice,1.0,0.79399,0.616289,0.564707,0.534171,0.363292
Overall,0.79399,1.0,0.469411,0.444293,0.567313,0.24242
Floor,0.616289,0.469411,1.0,0.409318,0.292074,0.417388
Rooms,0.564707,0.444293,0.409318,1.0,0.122911,0.341005
Year,0.534171,0.567313,0.292074,0.122911,1.0,0.121474
Front,0.363292,0.24242,0.417388,0.341005,0.121474,1.0


<span style="color:blue">Selección de feature **OverallQ**</span>

Según la tabla anterior, la variable que tiene mayor correlación con el precio es *Overall* o *"Calidad de acabados"*. Por esa razón se utilizará dicha variable para realizar nuestro modelo con TensorFlow y GradientDescent

## Aplicando producto matricial para la función de regresión lineal
Para realizar la operación de producto entre matrices, se requiere agregar una columna de 1's con el fin de que se realice en una sola instrucción lo siguiente:  

**y=m\*x+b\*1**  

Recordando que el producto es fila por columna, por lo tanto la cantidad de elementos debe coincidir.  

Producto matricial:
![title](img/productoMatriciaAnimacion.gif)



Orden de operación:  
![title](img/matrix-multiplication2.png)

Ejemplo:
![title](img/productoMatriciaEjemplo.gif)

\* No confundir con el producto Hadamar, donde los valores de la matriz se multiplican i con i y j con j.



In [31]:
acabadosConUnos=pd.DataFrame({
                            "Precio":dfEntrenamiento["SalePrice"],
                            "Unos":np.ones_like(dfEntrenamiento["SalePrice"]),
                            })


acabadosConUnos.head(5)



Unnamed: 0,Precio,Unos
0,208500.0,1.0
1,181500.0,1.0
2,223500.0,1.0
3,140000.0,1.0
4,250000.0,1.0


## TensorFlow: Asignación de variables

In [154]:
precioVenta = tf.constant(dfEntrenamiento["SalePrice"], tf.float32)
precioVenta = tf.reshape(precioVenta,[1168,1])
acabados = tf.constant(acabadosConUnos, tf.float32)
parametrosMB = tf.Variable(tf.random.normal([2,1]))

#parametrosMB = tf.Variable([[5.0],[2]],tf.float32)  ## como vector (2 filas 1 columna)


print("Dimensiones Variable precioVenta: ",precioVenta.shape)
print("Dimensiones Variable acabados: ", acabados.shape)
print("Dimensiones Variable parámetros: ", parametrosMB.shape)
print()
print("Tipo Variable precioVenta: ",type(precioVenta))
print("Tipo Variable acabados: :",type(acabados))
print("Tipo Variable parámetros: :",type(parametrosMB))

Dimensiones Variable precioVenta:  (1168, 1)
Dimensiones Variable acabados:  (1168, 2)
Dimensiones Variable parámetros:  (2, 1)

Tipo Variable precioVenta:  <class 'tensorflow.python.framework.ops.EagerTensor'>
Tipo Variable acabados: : <class 'tensorflow.python.framework.ops.EagerTensor'>
Tipo Variable parámetros: : <class 'tensorflow.python.ops.resource_variable_ops.ResourceVariable'>


#### Función de regresión lineal
Funcion para el cálculo de una línea que servirá para realizar regresión lineal

In [137]:
def regresionLineal(variables,parametros):
    return tf.matmul(variables,parametros)

Obteniendo valores de la variable dependiente Y en función de X, en una sola instrucción:

In [210]:
yhat=regresionLineal(acabados,parametrosMB)
yhat

<tf.Tensor: shape=(1168, 1), dtype=float32, numpy=
array([[-152379.44],
       [-132646.9 ],
       [-163341.95],
       ...,
       [-170409.12],
       [-179310.69],
       [-126434.83]], dtype=float32)>

#### Función de costo
Según la formula descrita en la parte inicial de este documento:

In [202]:
def funcionCosto(yreal,yprediccion,tamanioM):
    return tf.reduce_sum(tf.pow(yreal-yprediccion,2) / (2 * tamanioM))

Prueba de la función costo con los parámetros aleatorios iniciales:

In [203]:
funcionCosto(yreal=precioVenta,yprediccion=yhat,tamanioM=numDatosEntrenamiento)

<tf.Tensor: shape=(), dtype=float32, numpy=275868160.0>

Asignando nuevos valores a los parámetros m y b por medio de las fórmulas de GradienDescent (derivadas parciales para cada parámetro):  

In [188]:
def vectorGradiente(lr,cantidaElementos, vectorParametrosMB):
#m=parametrosMB[0]-(lr/numDatosEntrenamiento)*tf.reduce_sum(tf.multiply(yhat-precioVenta,acabados))
#b=parametrosMB[1]-(lr/numDatosEntrenamiento)*tf.reduce_sum(yhat-precioVenta)

    m=vectorParametrosMB[0]-tf.multiply(tf.divide(lr,cantidaElementos),
                              tf.reduce_sum(tf.multiply(yhat-precioVenta,acabados)))

    b=vectorParametrosMB[1]-tf.multiply(tf.divide(lr,cantidaElementos),
                              tf.reduce_sum(yhat-precioVenta))
    
    return (m,b)


In [198]:
lr=0.01

v=vectorGradiente(lr=lr,cantidaElementos=numDatosEntrenamiento,vectorParametrosMB=parametrosMB)

print("m: ",v[0])
print("b: ",v[1])


m:  tf.Tensor([-46279900.], shape=(1,), dtype=float32)
b:  tf.Tensor([-215.78777], shape=(1,), dtype=float32)


In [199]:
lr=0.01

z=vectorGradiente(lr=lr,cantidaElementos=numDatosEntrenamiento,vectorParametrosMB=v)

print("m: ",z[0])
print("b: ",z[1])

m:  tf.Tensor([-92559800.], shape=(1,), dtype=float32)
b:  tf.Tensor([-431.08478], shape=(1,), dtype=float32)


In [196]:
yhat2=regresionLineal(acabados,v)
yhat2

<tf.Tensor: shape=(1168, 1), dtype=float32, numpy=
array([[-9.6493592e+12],
       [-8.3998021e+12],
       [-1.0343557e+13],
       ...,
       [-1.0791084e+13],
       [-1.1354774e+13],
       [-8.0064225e+12]], dtype=float32)>

In [200]:
yhat3=regresionLineal(acabados,z)
yhat3

<tf.Tensor: shape=(1168, 1), dtype=float32, numpy=
array([[-1.9298718e+13],
       [-1.6799604e+13],
       [-2.0687115e+13],
       ...,
       [-2.1582169e+13],
       [-2.2709547e+13],
       [-1.6012845e+13]], dtype=float32)>

In [204]:
funcionCosto(yreal=precioVenta,yprediccion=yhat2,tamanioM=numDatosEntrenamiento)

<tf.Tensor: shape=(), dtype=float32, numpy=4.157231e+25>

In [205]:
funcionCosto(yreal=precioVenta,yprediccion=yhat,tamanioM=numDatosEntrenamiento)

<tf.Tensor: shape=(), dtype=float32, numpy=1.6628924e+26>

In [None]:
def calcularGradiente(x0):
    # Define x as a variable with an initial value of x0
    x = tf.Variable(x0)
    with tf.GradientTape() as tape:
        tape.watch(x)
        # Se define y
        y = tf.multiply(x, x)
        # Gradiente de Y respecto de x
        return tape.gradient(y, x).numpy()

# Compute and print gradients at x = -1, 1, and 0
print(calcularGradiente(-1.0))
print(calcularGradiente(1.0))
print(calcularGradiente(0.0))