# Regressão logística: Classificação multiclasse

Uma vez implementada a formação completa de um modelo de regressão logística ou classificação binária (2 classes), vamos repetir o mesmo exemplo, mas para multiclasse

## O que vamos fazer?

- Criar um dataset sintético para regressão logística multiclasse.
- Pré-processar os dados.
- Formar o modelo sobre o subset de formação e comprovar a sua adequação.
- Encontrar o parâmetro de regularização *lambda* ótimo por CV.
- Fazer previsões sobre novos exemplos.

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Criar um dataset sintético para regressão logística multiclasse

Vamos criar um dataset sintético de 3 classes para esta implementação completa.

Para o fazer, criar um dataset sintético para regressão logística com termo de bias e erro manualmente (para ter *Theta_verd* disponível) com um modelo de código ligeiramente diferente do que usou no último exercício:

### Implementar a função de ativação sigmoide

Copiar a sua função de exercícios anteriores:

In [None]:
# TODO: Implementar a função sigmoid

Para a classificação multiclasse vamos calcular o *Y* de uma forma diferente: Y terá umas dimensões 2D de (classes x m), para representar todas as classes possíveis. Esta codificação de, por exemplo, [0, 0, 1] é chamada **one-hot encoding**.
- Para cada exemplo e classe, calcular o sigmoide com *theta_verd* e *X..
- Transformar os valores de *Y* para que sejam 0 e 1 no valor máx. do sigmoide.
- Por último, transforma em 1 o valor da classe com em valor máx. do sigmoide e em 0 os valores do resto de classes.

Para introduzir um termo de erro, recorrer todos os valores de *Y* e, com % de erro aleatório, modificar a classe desse exemplo a uma classe aleatória.

Nota: tenha cuidado, como para simplificar a implementação não mudamos a classe de tal % de exemplos para outra diferente, mas escolhemos um ao acaso, isso não significa que teremos tal % de exemplos incorretos, mas que teremos classes de 1/n.º, pois será nossa probabilidade de escolher novamente o mesmo valor de *Y* para tal exemplo

In [None]:
# TODO: Gerar um dataset sintéticos, com o termo de bias e erro de forma manual
# Já que vamos formar tantos modelos, gerar um dataset “pequeno” para que se formem rápido
# Se necessitar, pode fazer mais pequeno ainda, ou se quiser mais precisão e um objetivo mais real, ampliá-lo
m = 1000
n = 2
classes = 3

Gerar um array 2D m x n com valores números aleatórios entre -1 e 1.
# Inserir o termo de bias como primeira coluna de 1s
X = [...]

# Gerar um array de theta 2D de classes x n + 1 valores aleatórios
Theta_verd = [...]

# E terá umas dimensões 2D de (classes x m)
# Calcular com Y com o sigmoide e transformar os seus valores em 0 ou 1
for c in range(classes): 
    Y[...] = sigmoid([...])
    
for j in range(m): 
    Y[...] = [...]
    
Para introduzir um termo de erro, recorrer todos os valores de Y e, com % de erro aleatório, modificar a
# a classe escolhida desse exemplo por uma classe aleatória
error = 0.15

for j in range(m):
    # Se um n.º à sorte é menor ou igual que erro
    if [...]:
        # Atribuir uma classe escolhida aleatoriamente
        Y[...] = [...]
        
# Confirmar os valores e dimensões dos vetores
print('Theta a estimar') 
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print()

## Pré-processar os dados

Tal como fizemos para a regressão linear, vamos pré-processar os dados completamente, seguindo os 3 passos habituais:

- Reordená-los aleatoriamente. 
- Normalizá-los.
- Dividi-los em subconjuntos de formação, CV e testes.

### Reordenar o dataset aleatoriamente

Reorganizar os dados no dataset *X* e *Y*:

In [None]:
# TODO: Reordenar aleatoriamente o dataset

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Reordenamos X e Y:')
# Se preferir, pode usar a função de conveniência sklearn.utils.shuffle.
# Usar um estado inicial aleatório de 42, de modo a manter a reprodutibilidade.
X, Y = [...]

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print()

### Normalizar o dataset

Implementar a função de normalização e normalizar o dataset de exemplos *X*

In [None]:
# TODO: Normalizar o dataset com uma sua função de normalização.

def normalize(x, mu, std):
    """ Normalizar um dataset com exemplos X
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os exemplos, sem termo de bias
    mu -- vetor 1D de Numpy com a média de cada característica/coluna
    std -- vetor 1D de Numpy com o desvio típico de cada característica/coluna
    
    Devolver:
    X norm -- array 2D de Numpy com os exemplos, com as suas características normalizadas 
    """
    return [...]

# Encontrar a média e o desvio padrão das características de X (colunas), exceto a primeira (bias)
mu = [...]
std = [...]

print('X original:') 
print(X) 
print(X.shape)

print('Média e desvio típico das características:') print(mu)
print(mu.shape) 
print(std) 
print(std.shape)

print('X normalizada:') 
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std) # Normalizar apenas a coluna 1 e as colunas seguintes, não a 0.
print(X_norm) 
print(X_norm.shape)

*Nota*: Se tiver modificado a sua função de normalização para calcular e devolver os valores de *mu* e *std*, pode modificar esta célula para incluir o seu código personalizado

### Dividir os dataset e subset de formação, CV e testes

Dividir o dataset *X* e *Y* em 3 subsets com o ratio habitual, 60%/20%/20%.

Se o seu n.º de exemplos for muito superior ou inferior, pode sempre modificar este ratio para outro, tal como 50/25/25 ou 80/10/10.

In [None]:
# TODO: Dividir o dataset X e Y nos 3 subset, de acordo com os ratios indicados.

ratios = [60,20,20]
print('Ratios:\n', ratios, ratios[0] + ratios[1] + ratios[2])

r = [0,0]
# Dica: a função round() e o atributo x.shape podem ser-lhe úteis
r[0] = [...]
r[1] = [...]
print('Índices de corte:\n', r)

# Dica: a função np.array_split() pode ser-lhe útil
X_train, X_cv, X_test = [...]
# Cuidado com as novas dimensões do Y!
Y_train, Y_cv, Y_test = [...]

print('Tamanhos dos subsets:') 
print(X_train.shape) 
print(Y_train.shape) 
print(X_cv.shape) print(Y_cv.shape) 
print(X_test.shape) 
print(Y_test.shape)

## Formar um modelo inicial em cada classe

Para a classificação multiclasse, devemos formar um modelo diferente para cada classe. Portanto, se tivermos 3 classes, devemos formar 3 modelos diferentes.

Cada modelo apenas irá considerar os valores da variável alvo relativamente à sua classe, classificar os exemplos como pertencentes à sua classe ou não (pertencentes ao resto).

Para o fazer, apenas lhe iremos fornecer os valores de Y para essa classe ou coluna. P. ex.., Y = [[0, 0, 1], [0, 1, 0], [1, 0, 0]]
- Y para o modelo 1: [0, 0, 1]
- Y para o modelo 2: [0, 1, 0]
- Y para o modelo 3: [1, 0, 0]

Tal como fizemos em exercícios anteriores, vamos formar modelos iniciais para verificar se a nossa implementação está correta:
- Formar um modelo inicial sem regularização para cada classe.
- Representar o histórico do seu custo para comprovar a sua evolução para cada modelo.
- Se necessário, modificar quaisquer parâmetros e reformular os modelos. Irá usar esses parâmetros nos pontos seguintes.

Copiar as células dos exercícios anteriores onde implementou a função de regularização de custos e gradient descent para regressão logística, e a célula onde formou o modelo:

In [None]:
# TODO: Copiar as células com as funções de custo e gradient descent regularizadas para classificação

In [None]:
# TODO: Formar os seus modelos no subset de formação sem regularizar.

# Criar um theta inicial com um determinado valor.
theta_ini = [...]

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1 
lambda_ = 0. 
e = 1e-3 
iter_ = 1e3

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

# Inicializar variáveis para armazenar o resultado de cada modelo com as dimensões apropriadas.
# Cuidado: os modelos podem precisar de várias iterações até convergir de forma bastante díspar
# Dar um tamanho ao j_train para armazenar até ao número máximo de iterações
j_train_ini = [...] 
theta_train = [...]

t = time.time()
for c in [...]: # Iterar sobre o número de classes
    print('\nModelo para a classe nº:', c)
    
    theta_train = [...] # Cópia profunda do theta_ini para que não seja modificado
    
    t_model = time.time()
    j_train_ini[...], theta_train[...] = regularized_logistic_gradient_descent([...]) 
    
    print('Tempo de formação para o modelo (s):', time.time() - t_model)
    
print('Tempo de formação total (s):', time.time() - t)

print('\nCusto final do modelo para cada classe:') 
print()

print('\nTheta final do modelo para cada classe:')
print()

In [None]:
# TODO: Representar a evolução da função de custo vs. o número de iterações para cada modelo

plt.figure(1)

plt.title('Função de custo em cada classe')

for c in range(classes): 
    plt.subplot(clases, 1, c + 1) 
    plt.xlabel('Iteraciçõess')
    plt.ylabel('Custo em classe {}'.format(c)) 
    plt.plot(j_train_ini[...])
    
plt.show()

### Comprovar a adequação dos modelos

Verificar a precisão dos seus modelos e modificar os parâmetros para os formar de novo, se necessário.

Recordar que se o seu dataset for “demasiado preciso” pode voltar à célula original e introduzir um termo de erro superior.

Devido à complexidade de uma classificação multiclasse, não lhe iremos pedir para comprovar se os modelos podem estar a sofrer de desvio ou sobreajuste.

## Encontrar o hiper-parâmetro *lambda* ótimo por CV

Como fizemos em exercícios anteriores, iremos otimizar o nosso parâmetro de regularização através de validação cruzada para cada uma das classes e modelos.

Para tal, para cada classe, iremos formar um modelo diferente para cada valor *lambda* a ser considerado no subset de formação, e avaliar o seu erro ou custo final no subset de CV.

Mais uma vez, vamos representar graficamente o erro de cada modelo contra o valor *lambda* utilizado e implementar o código que irá escolher automaticamente o modelo mais ótimo para cada classe.

Recordar de formar todos os seus modelos por igual.

Por conseguinte, deve agora modificar o código na célula anterior para não formar um modelo, como antes, mas para formar um modelo para cada uma das classes, para cada um dos valores *lambda* a ser considerado:

In [None]:
# TODO: Formar um modelo para cada valor lambda diferente em X_train e avaliá-lo em X_cv
# Os valores de lambda que considerámos anteriormente eram:
# lambdas = [0., 1e-3, 3e-3, 1e-2, 3e-2, 1e-1, 3e-1, 1e0, 3e0, 1e1]
# Se preferir, modificar o número de valores lambda para não formar tantos modelos e demorar tanto tempo.
lambdas = [0., 1e-3, 3e-3, 1e-2, 3e-2, 1e-1, 3e-1, 1e0, 3e0, 1e1]

# Completar o código para formar um modelo diferente para cada classe e valor de lambda no X_train
# Armazenar os thetas e erros/custos finais
# Posteriormente, avaliar o seu custo total no subset da CV

# Armazenar esta informação nas seguintes arrays
# Ter cuidado com as suas dimensões necessárias
j_train = [...]
j_cv = [...]
theta_cv = [...]

In [None]:
# TODO: Representar graficamente o erro final para cada valor de lambda com um gráfico por classe

plt.figure(3)

# Completar com o seu código
for c in range(classes): 
    plt.subplot(classes, 1, c + 1)
    
    plt.title('Classe:', c) 
    plt.xlabel('Lambda') 
    plt.ylabel('Custo final') 
    plt.plot(j_train[...])
    plt.plot(j_cv[...]) 
    
plt.show()

### Escolher o melhor modelo para cada classe

Copiar o código dos exercícios anteriores e modificá-lo para escolher o modelo mais preciso no subset de CV para cada classe:

In [None]:
# TODO: Escolher os modelos e os valores ótimos e o valor lambda, com o menor erro no subset do CV

# Iterar sobre todas as combinações de theta e lambda e escolher o custo mais baixo no subset do CV

j_final = [...] 
theta_final = [...] 
lambda_final = [...]

## Avaliar os modelos sobre o subset de teste
Finalmente, vamos avaliar o modelo de cada classe sobre um subset de dados que não utilizámos para formação ou para a escolha de quaisquer hiper-parametros.

Para tal, vamos calcular o erro ou custo total no subset de teste e comprovar graficamente os resíduos no mesmo:

Recordar de usar apenas as colunas *Y* que cada modelo “veria”, pois classifica os exemplos de acordo com o facto de pertencerem ou não à sua classe.

In [None]:
# TODO: Calcular o erro do modelo no subset de teste usando a função de custo com as
# thetas e lambdas correspondentes

j_test = [...]

In [None]:
# TODO: Calcular as previsões do modelo no subset de teste, calcular os resíduos e representá-los

# Recordar de usar a função sigmoide para transformar as previsões.
Y_test_pred = [...] 

resíduos = [...] 

plt.figure(4)

# Completar com o seu código

plt.show()

*Bónus*: como no exercício anterior, para além dos resíduos, *porque não representar também graficamente todas as previsões no subset de teste para comprovar em quantas o nosso modelo acerta?*

## Fazer previsões sobre novos exemplos

Com o nosso modelo formado, otimizado e avaliado, tudo o que resta é pô-lo a funcionar, fazendo previsões com novos exemplos.

Para isso, vamos:

- Gerar um novo exemplo seguindo o mesmo padrão que o dataset original.
- Normalizar as suas características antes de poder fazer previsões a seu respeito.
- Gerar uma previsão para este novo exemplo para cada uma das classes, ou seja, para cada um dos 3 modelos. 
- Escolher a classe final como a classe com o valor Y mais elevado após o sigmoide, uma vez que em alguns casos vários modelos podem querer classificar o exemplo na sua classe associada ao mesmo tempo.

In [None]:
# TODO: Gerar um novo exemplo seguindo o padrão original, com termo de bias e erro aleatório.

X_pred = [...]

# Para comparação, antes de normalizar os dados, utilizar o Theta_verd para ver qual seria a verdadeira classe associada.
Y_verd = [...]

# Normalizar as suas características (exceto o termo de bias) com as médias e desvios típicos originais
X_pred = [...]

# Gerar uma previsão para tal exemplo para cada modelo utilizando o sigmoide.
Y_pred = [...]

# Escolher a classe final como a de maior valor após o sigmoide e transformá-la para um vetor de 0s e 1s.
Y_pred = [...]

# Comparar a classe real associada a esse novo exemplo e a classe prevista
print(‘A classe real do novo exemplo e a classe prevista.’)
print(Y_verd)
print(Y_pred)