# Regressão logística: Função de custo e formação

## O que vamos fazer?
- Criar um dataset sintético para regressão logística manualmente e com Scikit-learn. 
- Implementar a função de ativação logística sigmoide.
- Implementar a função de custo regularizado para a regressão logística. 
- Implementar a formação do modelo por gradient descent.
- Comprovar a formação representando a evolução da função custo.

In [2]:
import time
import random
import numpy as np
from matplotlib import pyplot as plt
from sklearn.datasets import make_classification


## Criação de um dataset sintético para regressão logística

Vamos criar novamente um dataset sintéticos, mas desta vez para regressão logística.

Vamos descobrir como fazê-lo com os 2 métodos que utilizámos anteriormente: manualmente e com Scikit-learn, usando a função  [sklearn_datasets.make_classification](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html).

In [98]:
# TODO: Gerar um dataset sintético, com o termo de bias e erro de forma manual
m = 100
n = 2

# Gerar um array 2D m x n com valores números aleatórios entre -1 e 1.
# Inserir o termo de bias como primeira coluna de 1s

X = np.random.rand(m, n) * 2 - 1
X = np.insert(X, 0, 1.0, axis=1)  

# Gerar um array de theta de n + 1 valores aleatórios
Theta_verd = np.random.rand(n+1) * 10

# Calcular Y em função de X e Theta_verd
# Adicionar um termo de erro modificável
# Transformar Y para valores de 1. e 0. (float) quando Y >= 0,0
error = 0.15
termino_error = np.random.uniform(-1, 1, size=len(X)) * error

Y = np.matmul(X, Theta_verd)
Y = Y + termino_error
Y = (Y >= 0).astype(float)  # classe 1 se Y >= 0, senão 0
# Comprovar os valores e dimensões dos vetores
print('Theta a estimar') 
print("Dimensão:", Theta_verd.shape)
print(Theta_verd)

print()

print('Primeiras 5 linhas de X e Y:') 
print("X: ", X[:5])
print()
print("Y: ", Y[:5])

print()

print('Dimensões de X e Y:') 
print("X: ", X.shape)
print("Y: ", Y.shape)

Theta a estimar
Dimensão: (3,)
[7.33609677 2.25545573 1.12675069]

Primeiras 5 linhas de X e Y:
X:  [[ 1.          0.81642541 -0.59387298]
 [ 1.          0.35690632 -0.40007418]
 [ 1.          0.23337156 -0.60960638]
 [ 1.          0.96603028  0.34756497]
 [ 1.          0.19297659 -0.34331895]]

Y:  [1. 1. 1. 1. 1.]

Dimensões de X e Y:
X:  (100, 3)
Y:  (100,)


In [47]:
# TODO: Gerar um dataset sintéticos, com o termo de bias e erro com Scikit-learn

# Utilizar os mesmos valores de m, n e erro do dataset anterior
X_sklearn, Y_sklearn = make_classification(
    n_samples=m,
    n_features=n,
    n_informative=n,    # todas as features são informativas
    n_redundant=0,       # sem features redundantes
    n_classes=2,
    flip_y=error,        # introduz erro nas classes (ex: 15% de ruído)
    class_sep=1.0,       # separação entre classes
    random_state=42
)

# Comprovar os valores e dimensões dos vetores
print('Primeiras 5 linhas de X_sklearn e Y_sklearn:') 
print("X_sklearn: ", X[:5])
print()
print("Y_sklearn: ", Y[:5])

print()

print('Dimensões de X_sklearn e Y_sklearn:') 
print("X_sklearn: ", X.shape)
print("Y_sklearn: ", Y.shape)

Primeiras 5 linhas de X_sklearn e Y_sklearn:
X_sklearn:  [[ 1.          0.67006512  0.38236029]
 [ 1.          0.73473423 -0.98412619]
 [ 1.          0.00289049 -0.83589334]
 [ 1.         -0.91218636 -0.11885557]
 [ 1.          0.24695537 -0.75105906]]

Y_sklearn:  [1. 1. 1. 1. 1.]

Dimensões de X_sklearn e Y_sklearn:
X_sklearn:  (100, 3)
Y_sklearn:  (100,)


Uma vez que com o método Scikit-learn não podemos recuperar os coeficientes utilizados, vamos usar o método manual.

## Implementar a função sigmoide

Vamos implementar a função de ativação sigmoide. Vamos usar esta função para implementar a nossa hipótese, que transforma as previsões do modelo em valores de 0 e 1.

Função sigmoide:

$g(z) = \frac{1}{1 + e^{-z}} \\
Y = h_\theta(x) = g(\Theta \times X) = \frac{1}{1 + e^{-\Theta^Tx}}$

In [69]:
# TODO: Implementar a função de ativação sigmóide.

def sigmoid(theta, x):
    """ Devolver o valor do sigmoide para essa theta y x
        Argumentos posicionais:
        theta -- array 1D de Numpy com a fila ou coluna de coeficientes das características 
        x -- array 1D de Numpy com as características de um exemplo
        Devolver:
        sigmoide -- float com o valor do sigmoide para esses parâmetros
    """

    z = x @ theta  # Calcular o produto escalar entre theta e x
    y = 1 / (1 + np.exp(-z))  # Aplicar a função sigmoide
    return y


In [84]:
sigmoid([9.37670897, 12.57506796, 16.25229096], X)

array([9.99997798e-01, 1.65703326e-01, 9.99990138e-01, 1.00000000e+00,
       2.21552317e-04, 9.42351656e-01, 2.68222350e-02, 9.69080692e-01,
       9.58172822e-01, 9.99999920e-01, 7.11023710e-01, 1.00000000e+00,
       9.99916832e-01, 9.99997795e-01, 9.99999725e-01, 9.99316918e-01,
       9.99999541e-01, 1.00000000e+00, 9.97352976e-01, 9.99999994e-01,
       1.15549342e-01, 5.97411388e-03, 1.06178393e-03, 2.76681222e-03,
       9.97112925e-01, 9.99999931e-01, 9.99999881e-01, 9.99883385e-01,
       2.12734142e-03, 9.99999687e-01, 3.66448721e-03, 1.00000000e+00,
       9.69252042e-01, 9.99999999e-01, 9.99999876e-01, 9.96129103e-01,
       9.99997532e-01, 9.95002478e-01, 9.93545638e-01, 9.97539482e-01,
       9.99999938e-01, 1.00000000e+00, 9.99368750e-01, 9.99988183e-01,
       9.99989318e-01, 9.99989286e-01, 9.99999997e-01, 9.99879091e-01,
       9.99999941e-01, 9.99998472e-01, 9.99997493e-01, 9.99999994e-01,
       9.99994728e-01, 9.99999696e-01, 9.99873015e-01, 4.93343339e-01,
      

## Implementar a função de custo regularizada

Vamos implementar a função de custo regularizada. Esta função será semelhante à que implementámos para a regressão linear num exercício anterior

Função de custo regularizada

$J(\Theta) = - [\frac{1}{m} \sum\limits_{i=0}^{m} (y^i log(h_\theta(x^i)) + (1 - y^i) log(1 - h_\theta(x^i))] \\
+ \frac{\lambda}{2m} \sum_{j=1}^{n} \Theta_j^2$

In [104]:
# TODO: Implementar a função de custo regularizado para a regressão logística

def regularized_logistic_cost_function(x, y, theta, lambda_=0.):
    """ Computar a função de custo para o dataset e coeficientes considerados
    
    Argumentos posicionais:
    i -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, 1 e valores 0 ou 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) 
    lambda_ -- fator de regularização, por defeito 0.
    
    Devolver:
    j -- float com o custo para esse array theta 
    """
    m = len(y)  # Número de exemplos
    epsilon = 1e-8 # Adiciona um pequeno valor epsilon para proteger o log
    
    # Calcular a hipótese h_theta(x) usando a função sigmoide
    h = sigmoid(theta, x)  # Transpor x para multiplicação correta
    
    # Calcular a função de custo sem regularização
    j = (-1/m) * np.sum(y * np.log(h + epsilon) + (1 - y) * np.log(1 - h + epsilon))
    
    # Adicionar o termo de regularização (excluindo o primeiro coeficiente)
    j += (lambda_ / (2 * m)) * np.sum(theta[1:] ** 2)
    
    return j

In [63]:
'''def regularized_logistic_cost_function(x, y, theta, lambda_=0.):
    m = x.shape[0]
    print(m)
    h = sigmoid(theta, x.T)
    #h = 1 / (1 + np.exp(-x @ theta))
    cost = (-1/m) * np.sum(y * np.log(h) + (1 - y) * np.log(1 - h))
    reg = (lambda_/(2*m)) * np.sum(theta[1:]**2)
    return cost + reg'''

Como em exercícios anteriores, comprovar a sua implementação calculando a função de custo para cada exemplo do dataset.

Com o Y correto e a *lambda* a 0, a função de custo também deve ser 0. À medida que o *theta* se afasta ou a *lambda* aumenta, o custo deve ser superior:

In [105]:
# TODO: Comprovar a sua implementação no dataset

# Modificar e comprovar vários valores de theta 
theta = Theta_verd
theta = np.array([9.37670897, 12.57506796, 16.25229096])
j = regularized_logistic_cost_function(X, Y, Theta_verd, lambda_=0.) 

print('Custo do modelo:')
print(j)
print('Theta comprovado e Theta real:') 
print(theta)
print(Theta_verd)

Custo do modelo:
0.001630612091949507
Theta comprovado e Theta real:
[ 9.37670897 12.57506796 16.25229096]
[7.33609677 2.25545573 1.12675069]


## Implementar a formação por gradient descent

Vamos agora otimizar esta função de custos, para formar o nosso modelo através de gradient descent 
regularizado. 

No exercício seguinte vamos usar a regularização para efetuar a validação cruzada.

Atualizações dos coeficientes *theta*:

$\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum\limits_{i=0}^{m} (h_\theta (x^i) - y^i) x_0^i \\
\theta_j := \theta_j - \alpha [\frac{1}{m} \sum\limits_{i=0}^{m} (h_\theta (x^i) - y^i) x_0^i + \frac{\lambda}{m} \theta_j]; \\
j \in [1, n]$

In [80]:
# TODO: Implementar a função que forma o modelo por gradient descent regularizado

def regularized_logistic_gradient_descent(x, y, theta, alpha=1e-1, lambda_=0., e=0.001, iter_=0.001): 
    """ 
    Formar o modelo otimizando a sua função de custo por gradient descent
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila)
    
    Argumentos numerados (keyword):
    alpha -- float, ratio de formação
    lambda -- float com o parâmetro de regularização
    e -- float, diferença mínima entre iterações para declarar que a formação finalmente convergiu 
    iter_ -- int/float, número de iterações
    
    Devolver:
    j_hist -- list/array com a evolução da função de custo durante a formação 
    theta -- array Numpy com o valor do theta na última iteração
    """
    iter = int(iter_)  # Converter iter_ para inteiro se necessário
    j_hist = []  # Inicializar histórico de custos
    
    m, n = x.shape  # Obter m e n a partir das dimensões de X
    
    for k in range(iter):  # Iterar sobre o número máximo de iterações
        h = sigmoid(theta, x)  # Calcular a hipótese h_theta(x)
        error = h - y  # Calcular o erro
        
        # Atualizar theta
        theta_iter = np.copy(theta)  # Copiar theta para atualização
        for j in range(n):  # Iterar sobre o número de características
            if j == 0:
                # Não regularizar o termo de bias
                theta_iter[j] = theta[j] - (alpha / m) * np.dot(error, x[:, j])
            else:
                # Regularizar todos os outros coeficientes
                theta_iter[j] = theta[j] - (alpha / m) * (np.dot(error, x[:, j]) + (lambda_ * theta[j]))
        
        theta = theta_iter  # Atualizar theta para a próxima iteração
        
        # Calcular o custo para a iteração atual
        cost = regularized_logistic_cost_function(x, y, theta, lambda_)
        j_hist.append(cost)  # Adicionar o custo ao histórico
        
        # Verificar a convergência
        if k > 0 and abs(j_hist[-1] - j_hist[-2]) < e:
            print('Convergir na iteração n.º: ', k)
            break
    else:
        print('N.º máx. de iterações alcançado')
    
    return j_hist, theta

### Formar um modelo de regressão logística não regularizado

Para comprovar a implementação da sua função, utilize-o para formar um modelo de regressão logística no dataset sintéticos sem regularização (*lambda* = 0).

Comprovar se o modelo converge corretamente para *Theta_verd*:

In [106]:
# TODO: Comprovar a sua implementação através da formação de um modelo no dataset sintético anteriormente criado.

# Criar um theta inicial com um determinado valor.
theta_ini = np.array([16.0, 20.0, 9.0])

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1
lambda_ = 0.001 
e = 1e-2
iter_ = 1e3

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = regularized_logistic_gradient_descent(X, Y, theta_ini, alpha, lambda_, e, iter_) 

print('Tempo de formação (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores da função de custo') 
print(j_hist)
print('\nCusto final:') 
print(j_hist[-1]) 
print('\nTheta final:') 
print(theta_final)

print('Valores verdadeiros de Theta e diferença com valores formados:') 
print(Theta_verd)
print(theta_final - Theta_verd)

Theta inicial:
[16. 20.  9.]
Hiper-parâmetros usados:
Alpha: 0.1 Error máx.: 0.01 Nº iter 1000.0
Convergir na iteração n.º:  1
Tempo de formação (s): 0.003830432891845703

Últimos 10 valores da função de custo
[0.5983833972268331, 0.5958758607731554]

Custo final:
0.5958758607731554

Theta final:
[16.02280998 19.98143377  8.98814716]
Valores verdadeiros de Theta e diferença com valores formados:
[7.33609677 2.25545573 1.12675069]
[ 8.68671321 17.72597804  7.86139647]


### Representar a evolução da função de custo 

Para comprovar a evolução da formação do seu modelo, representar graficamente o histórico da função custo:

In [None]:
# TOOD: Representar graficamente a função de custo vs. o número de iterações
plt.figure()

plt.title('Função de custo') 
plt.xlabel('nº iterações') 
plt.ylabel('custo')

plt.plot([...]) # Completar

plt.grid() 
plt.show()