# Regressão logística: Função de custo e formação

## O que vamos fazer?
- Criar um dataset sintético para regressão logística manualmente e com Scikit-learn. 
- Implementar a função de ativação logística sigmoide.
- Implementar a função de custo regularizado para a regressão logística. 
- Implementar a formação do modelo por gradient descent.
- Comprovar a formação representando a evolução da função custo.

In [3]:
import time
import random
import numpy as np
from matplotlib import pyplot as plt
from sklearn.datasets import make_classification


## Criação de um dataset sintético para regressão logística

Vamos criar novamente um dataset sintéticos, mas desta vez para regressão logística.

Vamos descobrir como fazê-lo com os 2 métodos que utilizámos anteriormente: manualmente e com Scikit-learn, usando a função  [sklearn_datasets.make_classification](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html).

In [4]:
# TODO: Gerar um dataset sintético, com o termo de bias e erro de forma manual
m = 100
n = 2

# Gerar um array 2D m x n com valores números aleatórios entre -1 e 1.
# Inserir o termo de bias como primeira coluna de 1s

X = np.random.rand(m, n) * 2 - 1
X = np.insert(X, 0, 1.0, axis=1)  

# Gerar um array de theta de n + 1 valores aleatórios
Theta_verd = np.random.rand(n+1) * 10

# Calcular Y em função de X e Theta_verd
# Adicionar um termo de erro modificável
# Transformar Y para valores de 1. e 0. (float) quando Y >= 0,0
error = 0.15
termino_error = np.random.uniform(-1, 1, size=len(X)) * error

Y = np.matmul(X, Theta_verd)
Y = Y + termino_error
Y = (Y >= 0).astype(float)  # classe 1 se Y >= 0, senão 0
# Comprovar os valores e dimensões dos vetores
print('Theta a estimar') 
print("Dimensão:", Theta_verd.shape)
print(Theta_verd)

print()

print('Primeiras 5 linhas de X e Y:') 
print("X: ", X[:5])
print()
print("Y: ", Y[:5])

print()

print('Dimensões de X e Y:') 
print("X: ", X.shape)
print("Y: ", Y.shape)

Theta a estimar
Dimensão: (3,)
[1.51294845 4.99522456 2.06491143]

Primeiras 5 linhas de X e Y:
X:  [[ 1.          0.73308866 -0.30609581]
 [ 1.         -0.3402037   0.96215158]
 [ 1.         -0.76665703  0.5905477 ]
 [ 1.         -0.29391683  0.85534818]
 [ 1.         -0.29409367  0.34714683]]

Y:  [1. 1. 0. 1. 1.]

Dimensões de X e Y:
X:  (100, 3)
Y:  (100,)


In [3]:
# TODO: Gerar um dataset sintéticos, com o termo de bias e erro com Scikit-learn

# Utilizar os mesmos valores de m, n e erro do dataset anterior
X_sklearn, Y_sklearn = make_classification(
    n_samples=m,
    n_features=n,
    n_informative=n,    # todas as features são informativas
    n_redundant=0,       # sem features redundantes
    n_classes=2,
    flip_y=error,        
    class_sep=1.0,       # separação entre classes
    random_state=42
)

# Comprovar os valores e dimensões dos vetores
print('Primeiras 5 linhas de X_sklearn e Y_sklearn:') 
print("X_sklearn: ", X[:5])
print()
print("Y_sklearn: ", Y[:5])

print()

print('Dimensões de X_sklearn e Y_sklearn:') 
print("X_sklearn: ", X.shape)
print("Y_sklearn: ", Y.shape)

Primeiras 5 linhas de X_sklearn e Y_sklearn:
X_sklearn:  [[ 1.         -0.81632788 -0.50396685]
 [ 1.         -0.70770938 -0.31709018]
 [ 1.          0.82661658  0.18912822]
 [ 1.         -0.12025905  0.60882099]
 [ 1.         -0.79767625 -0.64670389]]

Y_sklearn:  [0. 0. 1. 1. 0.]

Dimensões de X_sklearn e Y_sklearn:
X_sklearn:  (100, 3)
Y_sklearn:  (100,)


Uma vez que com o método Scikit-learn não podemos recuperar os coeficientes utilizados, vamos usar o método manual.

## Implementar a função sigmoide

Vamos implementar a função de ativação sigmoide. Vamos usar esta função para implementar a nossa hipótese, que transforma as previsões do modelo em valores de 0 e 1.

Função sigmoide:

$g(z) = \frac{1}{1 + e^{-z}} \\
Y = h_\theta(x) = g(\Theta \times X) = \frac{1}{1 + e^{-\Theta^Tx}}$

In [6]:
# TODO: Implementar a função de ativação sigmóide.

def sigmoid(theta, x):
    """ Devolver o valor do sigmoide para essa theta y x
        Argumentos posicionais:
        theta -- array 1D de Numpy com a fila ou coluna de coeficientes das características 
        x -- array 1D de Numpy com as características de um exemplo
        Devolver:
        sigmoide -- float com o valor do sigmoide para esses parâmetros
    """

    z = x @ theta  # Calcular o produto escalar entre theta e x
    y = 1 / (1 + np.exp(-z))  # Aplicar a função sigmoide
    return y

## Implementar a função de custo regularizada

Vamos implementar a função de custo regularizada. Esta função será semelhante à que implementámos para a regressão linear num exercício anterior

Função de custo regularizada

$J(\Theta) = - [\frac{1}{m} \sum\limits_{i=0}^{m} (y^i log(h_\theta(x^i)) + (1 - y^i) log(1 - h_\theta(x^i))] \\
+ \frac{\lambda}{2m} \sum_{j=1}^{n} \Theta_j^2$

In [34]:
# TODO: Implementar a função de custo regularizado para a regressão logística

def regularized_logistic_cost_function(x, y, theta, lambda_=0.):
    """ Computar a função de custo para o dataset e coeficientes considerados
    
    Argumentos posicionais:
    i -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, 1 e valores 0 ou 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) 
    lambda_ -- fator de regularização, por defeito 0.
    
    Devolver:
    j -- float com o custo para esse array theta 
    """
    m = len(y)  # Número de exemplos
    epsilon = 1e-8 # Adiciona um pequeno valor epsilon para proteger o log
    
    # Calcular g(z) usando a função sigmoide
    g = sigmoid(theta, x)  # Transpor x para multiplicação correta
    
    # Calcular a função de custo sem regularização
    j = -((1/(m)) * (np.sum(y * np.log(g + epsilon))) + (1 - y) @ np.log(1 - g + epsilon))
    
    # Adicionar o termo de regularização (excluindo o primeiro coeficiente)
    j += (lambda_ / (2 * m)) * np.sum(theta ** 2) #np.sum(theta[1:] ** 2)
    
    return j

Como em exercícios anteriores, comprovar a sua implementação calculando a função de custo para cada exemplo do dataset.

Com o Y correto e a *lambda* a 0, a função de custo também deve ser 0. À medida que o *theta* se afasta ou a *lambda* aumenta, o custo deve ser superior:

In [39]:
# TODO: Comprovar a sua implementação no dataset

# Modificar e comprovar vários valores de theta 
#theta = Theta_verd
theta_test = np.array([8.06328481, 24.13429334,  8.33181343])
j_verd = regularized_logistic_cost_function(X, Y, Theta_verd, lambda_=0.5) 
j_test = regularized_logistic_cost_function(X, Y, theta_test, lambda_=0.5) 

print('Custo do modelo com Theta_verd:')
print(j_verd)
print()
print('Custo do modelo com theta_test:')
print(j_test)
print()
print('Theta comprovado e Theta real:') 
print(theta)
print(Theta_verd)

Custo do modelo com Theta_verd:
6.47364211707124

Custo do modelo com theta_test:
2.9809327727825865

Theta comprovado e Theta real:
[ 8.06328481 24.13429334  8.33181343]
[1.51294845 4.99522456 2.06491143]


## Implementar a formação por gradient descent

Vamos agora otimizar esta função de custos, para formar o nosso modelo através de gradient descent 
regularizado. 

No exercício seguinte vamos usar a regularização para efetuar a validação cruzada.

Atualizações dos coeficientes *theta*:

$\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum\limits_{i=0}^{m} (h_\theta (x^i) - y^i) x_0^i \\
\theta_j := \theta_j - \alpha [\frac{1}{m} \sum\limits_{i=0}^{m} (h_\theta (x^i) - y^i) x_0^i + \frac{\lambda}{m} \theta_j]; \\
j \in [1, n]$

In [35]:
# TODO: Implementar a função que forma o modelo por gradient descent regularizado

def regularized_logistic_gradient_descent(x, y, theta, alpha=1e-1, lambda_=0., e=0.001, iter_=0.001): 
    """ 
    Formar o modelo otimizando a sua função de custo por gradient descent
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila)
    
    Argumentos numerados (keyword):
    alpha -- float, ratio de formação
    lambda -- float com o parâmetro de regularização
    e -- float, diferença mínima entre iterações para declarar que a formação finalmente convergiu 
    iter_ -- int/float, número de iterações
    
    Devolver:
    j_hist -- list/array com a evolução da função de custo durante a formação 
    theta -- array Numpy com o valor do theta na última iteração
    """
    iter = int(iter_)  # Converter iter_ para inteiro se necessário
    j_hist = []  # Inicializar histórico de custos
    
    m, n = x.shape  # Obter m e n a partir das dimensões de X
    
    for k in range(iter):  # Iterar sobre o número máximo de iterações
        h = sigmoid(theta, x)  # Calcular a hipótese h_theta(x)
        error = h - y  # Calcular o erro
        
        # Atualizar theta
        theta_iter = np.copy(theta)  # Copiar theta para atualização
        for j in range(n):  # Iterar sobre o número de características
            if j == 0:
                # Não regularizar o termo de bias
                theta_iter[j] = theta[j] - (alpha / m) * np.dot(error, x[:, j])
            else:
                # Regularizar todos os outros coeficientes
                theta_iter[j] = theta[j] - (alpha / m) * (np.dot(error, x[:, j]) + (lambda_ * theta[j]))
        
        theta = theta_iter  # Atualizar theta para a próxima iteração
        
        # Calcular o custo para a iteração atual
        cost = regularized_logistic_cost_function(x, y, theta, lambda_)
        j_hist.append(cost)  # Adicionar o custo ao histórico
        
        # Verificar a convergência
        if k > 0 and abs(j_hist[-1] - j_hist[-2]) < e:
            print('Convergir na iteração n.º: ', k)
            break
    else:
        print('N.º máx. de iterações alcançado')
    
    return j_hist, theta

### Formar um modelo de regressão logística não regularizado

Para comprovar a implementação da sua função, utilize-o para formar um modelo de regressão logística no dataset sintéticos sem regularização (*lambda* = 0).

Comprovar se o modelo converge corretamente para *Theta_verd*:

In [36]:
# TODO: Comprovar a sua implementação através da formação de um modelo no dataset sintético anteriormente criado.

# Criar um theta inicial com um determinado valor.
theta_ini = np.array([16.0, 20.0, 9.0])

print('Theta inicial:') 
print(theta_ini)

alpha = 0.5
lambda_ = 0.001 
e = 1e-4
iter_ = 1e4

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = regularized_logistic_gradient_descent(X, Y, theta_ini, alpha, lambda_, e, iter_) 

print('Tempo de formação (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores da função de custo') 
print(j_hist[-10:])
print('\nCusto final:') 
print(j_hist[-1]) 
print('\nTheta final:') 
print(theta_final)

print('Valores verdadeiros de Theta e diferença com valores formados:') 
print(Theta_verd)
print(theta_final - Theta_verd)

Theta inicial:
[16. 20.  9.]
Hiper-parâmetros usados:
Alpha: 0.5 Error máx.: 0.0001 Nº iter 10000.0
Convergir na iteração n.º:  1055
Tempo de formação (s): 0.08667397499084473

Últimos 10 valores da função de custo
[1.193173295441158, 1.193072008883093, 1.1929708920633089, 1.1928699445662727, 1.19276916597843, 1.192668555888181, 1.1925681138858673, 1.1924678395637516, 1.192367732516007, 1.1922677923387033]

Custo final:
1.1922677923387033

Theta final:
[ 8.06328481 24.13429334  8.33181343]
Valores verdadeiros de Theta e diferença com valores formados:
[1.51294845 4.99522456 2.06491143]
[ 6.55033636 19.13906878  6.266902  ]


### Representar a evolução da função de custo 

Para comprovar a evolução da formação do seu modelo, representar graficamente o histórico da função custo:

In [None]:
# TOOD: Representar graficamente a função de custo vs. o número de iterações
plt.figure()

plt.title('Função de custo') 
plt.xlabel('nº iterações') 
plt.ylabel('custo')

plt.plot([...]) # Completar

plt.grid() 
plt.show()