## 2 - Regressão Linear com Múltiplas Variáveis

### 2.1 Normalização de características

> A implementação da função `normalizar_caracteristica` deve funcionar com conjuntos de dados de variados tamanhos (i.e., com qualquer quantidade de características e/ou exemplos)

A afirmação é verdadeira pois a função recebe uma matriz de features X e faz os cálculos da média, desvio padrão e da normalização em si para a matriz inteira, e não feature a feature. A implementação ser dessa maneira é necessária para que possa ser generalizada para qualquer número *n* de features que uma regressão linear multivariável possa ter. O mesmo se aplica para a quantidade de registros da matriz.

In [74]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def normalizar_caracteristicas(X, y):
    mean_X = np.mean(X, axis=0)
    std_X = np.std(X, axis=0)
    X_norm = (X - mean_X) / std_X
    
    mean_y = np.mean(y, axis=0)
    std_y = np.std(y, axis=0)
    y_norm = (y - mean_y) / std_y
    
    # Armazenando os valores utilizados para a normalização para referência futura
    norm_values = {"mean_X": mean_X,
                   "std_X": std_X,
                   "mean_y": mean_y,
                   "std_y": std_y}
    
    return X_norm, y_norm, mean_X, std_X, mean_y, std_y, norm_values

dataset = pd.read_csv('ex1data2.txt', header=None)

x = dataset.iloc[:, 0:-1].values
y = dataset.iloc[:, -1:].values

x_norm, y_norm, mean_x, std_x, mean_y, std_y, norm_values_dict = normalizar_caracteristicas(x, y)
print("x_norm: " + "\n" + str(x_norm) + "\n",
      "y_norm: " + "\n" + str(y_norm) + "\n",
      "mean_x: " + str(mean_x) + "\n",
      "std_x: " + str(std_x) + "\n",
      "mean_y: " + str(mean_y) + "\n",
      "std_y: " + str(std_y))


x_norm: 
[[ 1.31415422e-01 -2.26093368e-01]
 [-5.09640698e-01 -2.26093368e-01]
 [ 5.07908699e-01 -2.26093368e-01]
 [-7.43677059e-01 -1.55439190e+00]
 [ 1.27107075e+00  1.10220517e+00]
 [-1.99450507e-02  1.10220517e+00]
 [-5.93588523e-01 -2.26093368e-01]
 [-7.29685755e-01 -2.26093368e-01]
 [-7.89466782e-01 -2.26093368e-01]
 [-6.44465993e-01 -2.26093368e-01]
 [-7.71822042e-02  1.10220517e+00]
 [-8.65999486e-04 -2.26093368e-01]
 [-1.40779041e-01 -2.26093368e-01]
 [ 3.15099326e+00  2.43050370e+00]
 [-9.31923697e-01 -2.26093368e-01]
 [ 3.80715024e-01  1.10220517e+00]
 [-8.65782986e-01 -1.55439190e+00]
 [-9.72625673e-01 -2.26093368e-01]
 [ 7.73743478e-01  1.10220517e+00]
 [ 1.31050078e+00  1.10220517e+00]
 [-2.97227261e-01 -2.26093368e-01]
 [-1.43322915e-01 -1.55439190e+00]
 [-5.04552951e-01 -2.26093368e-01]
 [-4.91995958e-02  1.10220517e+00]
 [ 2.40309445e+00 -2.26093368e-01]
 [-1.14560907e+00 -2.26093368e-01]
 [-6.90255715e-01 -2.26093368e-01]
 [ 6.68172729e-01 -2.26093368e-01]
 [ 2.535213

### 2.2 Gradiente descendente

In [75]:
def custo_reglin_multi(X, y, theta):
    
    # Quantidade de exemplos
    m = len(y)

    # Computa a função de custo J
    J = (np.sum((X.dot(theta) - y)**2))/ (2 * m)

    return J


def gd_reglin_multi(X, y, alpha, epochs, theta):
    
    m = len(y)

    cost = np.zeros(epochs)

    for i in range(epochs):
        h = X.dot(theta)
        loss = h - y
        gradient = X.T.dot(loss) / m
        theta = theta - (alpha * gradient)
        cost[i] = custo_reglin_multi(X, y, theta=theta)

    return cost[-1], theta


x_norm_ones = np.c_[np.ones((x_norm.shape[0],1)), x]

print(custo_reglin_multi(x_norm_ones, y_norm, theta = np.array([0,0,0], ndmin=2).T))
custo, theta = gd_reglin_multi(x_norm_ones, y_norm, 0.01, 20, theta = np.array([0,0,0], ndmin=2).T)
print(custo)

0.5
1.89553293438609e+185


> Repare que o código fornecido (1) dá suporte a qualquer número de características e (2) está vetorizado. Explique em seu relatório de que forma esse código implementa essas duas funcionalidades

O suporte a múltiplas características se dá através da passagem das features para as funções de custo e gradiente como uma matriz, e não como features separadas. À matriz de features X é acrescentado um X0 = 1 que nos permite "generalizar" a fórmula do gradiente descendente para todas as features sem que o resultado seja alterado.
A vetorização acontece ao passarmos para as funções o vetor de hipóteses transpoto e multiplicá-lo pela nossa matriz de features.
