# Regressão logística: Função de custo e formação

## O que vamos fazer?
- Criar um dataset sintético para regressão logística manualmente e com Scikit-learn. 
- Implementar a função de ativação logística sigmoide.
- Implementar a função de custo regularizado para a regressão logística. 
- Implementar a formação do modelo por gradient descent.
- Comprovar a formação representando a evolução da função custo.

In [1]:
import time
import random
import numpy as np
from matplotlib import pyplot as plt

## Criação de um dataset sintético para regressão logística

Vamos criar novamente um dataset sintéticos, mas desta vez para regressão logística.

Vamos descobrir como fazê-lo com os 2 métodos que utilizámos anteriormente: manualmente e com Scikit-learn, usando a função  [sklearn_datasets.make_classification](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html).

In [None]:
# TODO: Gerar um dataset sintético, com o termo de bias e erro de forma manual
m = 100
n = 2

# Gerar um array 2D m x n com valores números aleatórios entre -1 e 1.
# Inserir o termo de bias como primeira coluna de 1s

X = [...]

# Gerar um array de theta de n + 1 valores aleatórios
Theta_verd = [...]

# Calcular Y em função de X e Theta_verd
# Adicionar um termo de erro modificável
# Transformar Y para valores de 1. e 0. (float) quando Y >= 0,0
error = 0.15

Y = [...]
Y = [...]
Y = [...]

# Comprovar os valores e dimensões dos vetores
print('Theta a estimar') 
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print()

In [None]:
# TODO: Gerar um dataset sintéticos, com o termo de bias e erro com Scikit-learn

# Utilizar os mesmos valores de m, n e erro do dataset anterior
X_sklearn = [...]
Y_sklearn = [...]

# Comprovar os valores e dimensões dos vetores
print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print()

Uma vez que com o método Scikit-learn não podemos recuperar os coeficientes utilizados, vamos usar o método manual.

## Implementar a função sigmoide

Vamos implementar a função de ativação sigmoide. Vamos usar esta função para implementar a nossa hipótese, que transforma as previsões do modelo em valores de 0 e 1.

Função sigmoide:

$g(z) = \frac{1}{1 + e^{-z}} \\
Y = h_\theta(x) = g(\Theta \times X) = \frac{1}{1 + e^{-\Theta^Tx}}$

In [None]:
# TODO: Implementar a função de ativação sigmóide.

def sigmoid(theta, x):
    """ Devolver o valor do sigmoide para essa theta y x
        Argumentos posicionais:
        theta -- array 1D de Numpy com a fila ou coluna de coeficientes das características 
        x -- array 1D de Numpy com as características de um exemplo
        Devolver:
        sigmoide -- float com o valor do sigmoide para esses parâmetros
    """
    
    return [...]

## Implementar a função de custo regularizada

Vamos implementar a função de custo regularizada. Esta função será semelhante à que implementámos para a regressão linear num exercício anterior

Função de custo regularizada

$J(\Theta) = - [\frac{1}{m} \sum\limits_{i=0}^{m} (y^i log(h_\theta(x^i)) + (1 - y^i) log(1 - h_\theta(x^i))] \\
+ \frac{\lambda}{2m} \sum_{j=1}^{n} \Theta_j^2$

In [None]:
# TODO: Implementar a função de custo regularizado para a regressão logística

def regularized_logistic_cost_function(x, y, theta, lambda_=0.):
    """ Computar a função de custo para o dataset e coeficientes considerados
    
    Argumentos posicionais:
    i -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, 1 e valores 0 ou 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) 
    lambda_ -- fator de regularização, por defeito 0.
    
    Devolver:
    j -- float com o custo para esse array theta 
    """
    m = [...]
    
    # Recordar de comprovar as dimensões da multiplicação da matriz para a fazer corretamente.
    j = [...]
    
    # Regularizar para todos os Theta exceto o termo bias (o primeiro valor)
    j += [...]
    
    return j

Como em exercícios anteriores, comprovar a sua implementação calculando a função de custo para cada exemplo do dataset.

Com o Y correto e a *lambda* a 0, a função de custo também deve ser 0. À medida que o *theta* se afasta ou a *lambda* aumenta, o custo deve ser superior:

In [None]:
# TODO: Comprovar a sua implementação no dataset

theta = Theta_verd # Modificar e comprovar vários valores de theta 

j = regularized_logistic_cost_function(X, Y, theta, lambda_=0.) 

print('Custo do modelo:')
print(j)
print('Theta comprovado e Theta real:') 
print(theta)
print(Theta_verd)

## Implementar a formação por gradient descent

Vamos agora otimizar esta função de custos, para formar o nosso modelo através de gradient descent 
regularizado. 

No exercício seguinte vamos usar a regularização para efetuar a validação cruzada.

Atualizações dos coeficientes *theta*:

$\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum\limits_{i=0}^{m} (h_\theta (x^i) - y^i) x_0^i \\
\theta_j := \theta_j - \alpha [\frac{1}{m} \sum\limits_{i=0}^{m} (h_\theta (x^i) - y^i) x_0^i + \frac{\lambda}{m} \theta_j]; \\
j \in [1, n]$

In [None]:
# TODO: Implementar a função que forma o modelo por gradient descent regularizado

def regularized_logistic_gradient_descent(x, y, theta, alpha=1e-1, lambda_=0., e=1e-3, iter_=1e3): """ 
    Formar o modelo otimizando a sua função de custo por gradient descent
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila)
    
    Argumentos numerados (keyword):
    alpha -- float, ratio de formação
    lambda -- float com o parâmetro de regularização
    e -- float, diferença mínima entre iterações para declarar que a formação finalmente convergiu 
    iter_ -- int/float, número de iterações
    
    Devolver:
    j_hist -- list/array com a evolução da função de custo durante a formação 
    theta -- array Numpy com o valor do theta na última iteração
    """
    iter_ = int(iter_) # Se declarou iter_ em notação científica (1e3) ou float (1000.), converta-o
    
    # Inicializar j_hist como uma list ou um array Numpy. Recordar que não sabemos que tamanho terá eventualmente
    j_hist = [...]
    
    m, n = [...] # Obter m e n a partir das dimensões de X
    
    for k in [...]: # Iterar sobre o número máximo de iterações
        theta_iter = [...] # Declarar um theta para cada iteração, pois precisamos de a atualizar.
        
        for j in [...]: # Iterar sobre o número de características
            # Atualizar theta_iter para cada característica, de acordo com a derivada da função de custo
            # Incluir a relação de formação alfa
            # Cuidado com as multiplicações de matriz, a sua ordem e dimensões
            
            if j > 0:
                pass # Regularizar tudo coeficiente exceto o do parâmetro bias (primeiro valor)
            
            theta_iter[j] = theta[j] - [...] 
            
        theta = theta_iter
        
        cost = regularized_logistic_cost_function([...]) # Calcular o custo para a atual iteração theta
        
        j_hist[...] # Adicionar o custo da iteração atual ao histórico de custos.
        
        # Verificar se a diferença entre o custo da iteração atual e o custo da última iteração em valor absoluto 
        é inferior à diferença mínima para declarar a convergência, e
        # absoluto são inferiores que a diferença mínima para declarar a convergência, e
        if k > 0 and [...]:
            print('Convergir na iteração n.º: ', k)
            
            break
    else:
        print('N.º máx. de iterações alcançado')
        
    return j_hist, theta

### Formar um modelo de regressão logística não regularizado

Para comprovar a implementação da sua função, utilize-o para formar um modelo de regressão logística no dataset sintéticos sem regularização (*lambda* = 0).

Comprovar se o modelo converge corretamente para *Theta_verd*:

In [None]:
# TODO: Comprovar a sua implementação através da formação de um modelo no dataset sintético anteriormente criado.

# Criar um theta inicial com um determinado valor.
theta_ini = [...]

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1 
lambda_ = 0. 
e = 1e-3 
iter_ = 1e3

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = regularized_logistic_gradient_descent([...]) 

print('Tempo de formação (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores da função de custo') 
print(j_hist[...])
print('\Custo final:') 
print(j_hist[...]) 
print('\nTheta final:') 
print(theta_final)

print('Valores verdadeiros de Theta e diferença com valores formados:') 
print(Theta_verd)
print(theta_final - Theta_verd)

### Representar a evolução da função de custo 

Para comprovar a evolução da formação do seu modelo, representar graficamente o histórico da função custo:

In [None]:
# TOOD: Representar graficamente a função de custo vs. o número de iterações
plt.figure()

plt.title('Função de custo') 
plt.xlabel('nº iterações') 
plt.ylabel('custo')

plt.plot([...]) # Completar

plt.grid() 
plt.show()