# Ejercicio 4.1.5 Bike Sharing Daily, Regression, Gradient Descent, Overfitting

El modelo de regresión es un procedimiento estadístico que permite al investigador estimar la relación linel que relacion dos o más variables.

- El algoritmo de programacion para implementar el modelo de regresión lineal es el siguiente: 

    1. Cargar el dataset, normalizar y dividir los datos en datos de entrenamiento y datos de prueba, añadir la columna de unos para w0.
    2. Inicializar W, y calcular el gradiente de W
    3. Mientras el gradiente sea más grande que epsilon, calcular:
        - El gradiente para el valor actual de W
        - Actualizar el valor para el siguiente W
        - Cacular el costo y almacenarlo en una variable
    4. Obtener la función de costo o error para el último valor de W
    5. Predecir la salida con los datos de prueba y obtener el valor del error. 

- Para comprobar el Overfitting realizar el algoritmo de GD con 9 tamaños de datos de prueba: 0.1, 0.2,..., 0.9, y graficar el costo.

- ¿Con qué tamaño de prueba (test_size) tendremos overfitting y con cuál underfiting?
- Finalmente utilizar el test size que se eligió y hacer regresión polinomial de grado 1 al 5 y graficar el comportamiento del costo.

## 1. Cargar el dataset, normalizar y dividir los datos en datos de entrenamiento y datos de prueba, añadir la columna de unos para w0.

Para este caso utilizaremos los datos del ejercicio de las Bicis, el dataset de horas. 

In [None]:
#Import libraries
import math
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from numpy.linalg import norm
from numpy.random import rand
import math

In [None]:
#1. Load the dataset and convert to numpy arrays

def loadCsv(filename):
    data = pd.read_csv(filename)
    dataset = np.array(data)
    m, n = np.shape(dataset)
    x = dataset[:, 0:n-1]
    y = dataset[:, -1]
    y = np.reshape(y ,(m,1))
    
    return x, y

#Testing
filename = 'bike-day.csv'
x, y = loadCsv(filename)
print('X size:',np.shape(x), 'Y size:',  np.shape(y))

In [None]:
#Normalizar el dataset

def normalize(x):
    x_norm = (x - np.mean(x, axis=0)) / (np.ndarray.std(x, axis=0)) 
    return x_norm

X_norm = normalize(x)

print(np.shape(X_norm))
print(X_norm)

In [None]:
#Split datasets into training and testing
def splitDataset(x, y,test_size):
    xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = test_size, random_state = 1)
    return xTrain, xTest, yTrain, yTest

#Testing
test_size = 0.33
xTrain, xTest, yTrain, yTest = splitDataset(X_norm, y,test_size)

print('Split X', len(x), 'rows into train with', len(xTrain), 'and test with', len(xTest))
print('Split Y', len(y), 'rows into train with', len(yTrain), 'and test with', len(yTest))

In [None]:
#Adding column 1 to the X matrix

def addOnes(X):
    X1=np.array(X)
    m , n = np.shape(X1)
    ones = np.ones((m, 1))
    X1 = np.concatenate((ones, X1), axis=1)
    return X1

xTr = addOnes(xTrain)
xTe = addOnes(xTest)
print(np.shape(xTr))
print(np.shape(xTe))

## 2. Inicializar W, y calcular el gradiente de W


El gradiente es: $$ \nabla J(W) = \frac{\partial J(W) }{\partial W} = \frac{\partial}{\partial W} (Y - XW)^2 = -2X(Y-XW)$$

In [None]:
#Initialize W using random values
m, n = np.shape(xTr)
print(m,n)
initw = np.random.rand(1, n)
print(initw)

In [None]:
#Calculating Gradient

def gradient(X, Y, W):
    residual = Y - np.dot(X,W.T)
    grad = -2 * np.dot(X.T, residual)
    return grad

#Testing gradient function

Gradiente = gradient(xTr, yTrain, initw)
print(Gradiente)
    

## 3. Iteración del Gradiente Descendente 

    Mientras la norma del gradiente sea más grande que epsilon, calcular:
    
       - El gradiente para el valor actual de W
       - Actualizar el valor siguiente de W
       - Almacenar el valor del error o del costo para ese W


Primero definiremos la función que evalua el error utilizando MSE: $$MSE(w) = \frac{1}{N} \sum_{i=1}^{N} (y_i - x_i w)^2$$

In [None]:
#Cost Function

def mse(Y, Yt):
    residual = Y - Yt
    cost = np.dot(residual.T,residual) / len(Y)
    return cost


In [None]:
#Gradient Descent with epsilon using the number of iterations

def GD(X, Y, W, alpha, epsilon, iterations):
    grad = gradient(X, Y, W)
    gradNorm = np.linalg.norm(grad)
    Yt = np.dot(X,W.T)
    cost = mse(Y,Yt)
    it = 0
    J = [] #Lista donde guardaremos el valor del error (MSE) en cada iteración
    
    while gradNorm > epsilon and it < iterations:
        
        #calcular gradiente
        grad = gradient(X, Y, W)
        gradNorm = np.linalg.norm(grad)
        
        #Actualizar W
        W = W - alpha * grad.T
        
        #Incrementar contador de iteraciones
        it += 1
        
        #Calcular la predicción y el error (MSE)
        Yt = np.dot(X, W.T)
        cost  = mse(Y,Yt)

        #Guardar el vector del error
        J.append(float(cost))
        
    return W, it, J

#Testing GD(X, Y, W, alpha, epsilon, iterations)

w, iterations, J = GD(xTr, yTrain, initw, 0.00001, 0.01, 1000)

print('W', w)
print('Iterations', iterations)
print('Error final ', J[-1])
plt.plot(J)

## 4. Medir el MSE del algoritmo



In [None]:
yt = np.dot(xTr, w.T)
costo = mse(yTrain,yt)

print(np.shape(yTrain), np.shape(yt))
print('Error (Costo) final: ', costo)

## 5. Predecir los datos de prueba y calcular su error

In [None]:
yt = np.dot(xTe, w.T)
costo = mse(yTest,yt)

print(np.shape(yTrain), np.shape(yt))
print(costo)

## 6. Overfitting y Underfitting

In [None]:
#Crear un array que contenga los de tamaños de testing de 0 a 0.9, con un incremento de 0.1


print(testsize)

In [None]:
#1. Por cada elemento del array de tamaños hacer una prueba del Gradiente Descendiente 
#2. Almacenar los últimos valores de los costos (errores) del Training y del Testing en listas diferentes
#3. Graficar los costos almacenados con respecto al vector testsize

#Inicialización de parámetros:

#Learning rate o índice de aprendizaje
alpha = 

#Precisión (qué tan cercano a cero debe estar el error)
epsilon = 

#Número máximo de iteraciones (es útil para que el algoritmo no se cicle)
itera = 

#Incialización de listas para guardar los valores finales de los costos
costosTraining=[]
costosTest=[]

#Cargar el archivo de nuevo y obtener matrices X y Y
filename = 
x, y = 
print('X size:',np.shape(x), 'Y size:',  np.shape(y))

#Para cada tamaño de testing hacer el gradiente descendente
for tsize in testsize:
    
    #split X y Y
    xTrain, xTest, yTrain, yTest = 
    
    #Acomodar dimensiones de yTrain y YTest
    yTrain = 
    yTest = 
    
    #Añadir Unos a xTrain y xTest 
    xTr = 
    xTe = 
    
    #Initizalize w de manera aleatoria
    m , n = 
    initw = 
    
    #Obtener W a través del Gradiente Descendente
    print("Test size: ",tsize)
    
    w, iterations, J = 
    
    #Calcular el error (costo) de Train y Test
    costoTrain = 
    costoTest = 
    print('Costo train: ', costoTrain)
    print('Costo test: ', costoTest)
    
    #Guardar costos en las listas
    
    
#Convertir a arrays las listas de los costos
costosTraining = 
costosTest = 

#Acomodar sus dimensiones para poder graficar
costosTraining = 
costosTest = 

#Graficar los costos con respecto a testsize


## 7. Add Polynomial features

- Para observar el Underfitting y el Overfitting de estos datos hacer un modelo para cada grado polinomial hasta grado 5.  

    - Prueba 1: $ X = [x]$
    - Prueba 2: $ X = [x \quad x^2]$
    - Prueba 3: $ X = [x \quad x^2 \quad x^3]$
    - Prueba 4: $ X = [x \quad x^2 \quad x^3 \quad x^4]$
    - Prueba 5: $ X = [x \quad x^2 \quad x^3 \quad x^4 \quad x^5]$

- De cada prueba obtener sus W's correspondientes y su error MSE (Costo)

- Graficar el MSE de cada prueba con respecto al grado utilizado



In [None]:
#Incializar parámetros
alpha = 
epsilon = 
itera = 
seed = #Semilla para funciones aleatorias

#Incializar listas para guardar los costos finales
costosTraining = []
costosTest = []

#Tamaño del testing size, observar celda anterior
tsize =

#Cargar de nuevo el archivo y obtener X y Y
filename = 
x, y = 
print('X size:',np.shape(x), 'Y size:',  np.shape(y))

#Variable para formar matrices polinomiales
xtemp = x

#Grados que voy a evaluar de 1 a 5
poly = 

#Para cada grado polinomial realizar el gradiente descendente, obtener W's y calcular el MSE (error o costo)
for grade in poly:
    print("Grade: ",grade) 
    
    # Construir Matriz polinomial de grado "grade"
    
        
    # Añadir unos a la matriz polinomial
    x_1s = 
    
    # Split dataset en Training and Testing
    xTrain, xTest, yTrain, yTest = train_test_split(x_1s, y, test_size = tsize , random_state = seed)
    yTrain = yTrain.reshape(-1,1);
    yTest = yTest.reshape(-1,1);
    
    # Incializar W de forma aleatoria
    
    print('W: ',w.shape)

    # Obtener W y el error MSE (J) a través del GD
    w, it, J = GD(xTrain, yTrain, w, alpha, epsilon, itera)
    
    #Imprimir la iteración it
    
    #Calcular errores MSE de Training y Testing
    costoTrain = 
    costoTest =     
    
    print('Training cost:', costoTrain)
    print('Testing cost:', costoTest)
    
    #Guardar los valores en las listas
    costosTraining.append(costoTrain)
    costosTest.append(costoTest)
    
#Convertir a arrays las listas
costosTraining = np.array(costosTraining)
costosTest = np.array(costosTest)

#Adecuar dimensiones
costosTraining = costosTraining.reshape(len(costosTraining), 1)
costosTest = costosTest.reshape(len(costosTest), 1)

#Graficar los errores con respecto al grado
plt.plot(poly, costosTraining, 'b')
plt.plot(poly, costosTest, 'r')

## Conclusiones

Escribir conclusiones y observaciones del ejercicio.