# Regressão logística: Regularização e previsões

Uma vez implementada a função de regularização de custos e gradient descent, iremos formar um modelo completo de regressão logística, comprovando-o por validação cruzada, avaliando-o num subset de teste e, finalmente, fazendo previsões sobre o mesmo.

Neste exercício, vamos continuar a implementar uma classificação entre 2 classes únicas. No exercício seguinte, vamos resolver o problema de uma classificação multiclasse.

## O que vamos fazer?
- Criar um dataset sintético para regressão logística. 
- Pré-processar os dados.
- Formar o modelo sobre o subset de formação e comprovar a sua adequação. 
- Encontrar o parâmetro de regularização *lambda* ótimo por CV
- Fazer previsões sobre novos exemplos

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Criar um dataset sintético para regressão logística

Vamos criar um dataset sintético de 2 classes únicas (0 e 1) para testar esta implementação de um modelo de classificação binária, totalmente formado, passo a passo.

Para isso, criar um dataset sintéticos para regressão logística com bias e termo de erro manualmente (para ter *Theta_verd* disponível) com um modelo de código que utilizou no último exercício:

In [None]:
# TODO: Gerar um dataset sintéticos, com o termo de bias e erro de forma manual
m = 1000
n = 2

Gerar um array 2D m x n com valores números aleatórios entre -1 e 1.
# Inserir o termo de bias como primeira coluna de 1s
X = [...]

# Gerar um array de theta de n + 1 valores aleatórios
Theta_verd = [...]

# Calcular Y em função de X e Theta_verd
Adicionar um termo de erro modificável
# Transformar Y para valores de 1. e 0. (float) quando Y >= 0.5
error = 0.20

Y = [...]
Y = [...]
Y = [...]

# Verificar os valores e dimensões dos vetores
print('Theta a estimar') 
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print()

*Nota importante*: O termo de erro num dataset de classificação sintética funciona de forma diferente do que na regressão linear. Em regressão, modificaríamos simplesmente o valor de *Y* por uma margem.

No entanto, na classificação, quando introduzimos esse erro, é antes de transformarmos esse valor numérico de *Y* para um valor de 0 ou 1. Portanto, se o termo de erro não fizer com que o valor numérico suba ou desça abaixo de 0,5, a classe associada a esse exemplo não irá mudar.

Portanto, se achar que o seu dataset é “demasiado preciso” para poder comprovar a sua implementação da classificação regularizada, pode voltar a este ponto, aumentar o termo de erro e executar novamente o resto das células.

## Implementar a função de ativação sigmóide

Copiar a sua célula com a função sigmoide:

In [None]:
# TODO: Implementar a função sigmoide

## Pré-processar os dados

Tal como fizemos para a regressão linear, vamos pré-processar os dados completamente, seguindo os 3 passos habituais:

- Reordená-los aleatoriamente. 
- Normalizá-los.
- Dividi-los em subconjuntos de formação, CV e testes.

### Reordenar o dataset aleatoriamente

Reorganizar os dados no dataset *X* e *Y*:

In [None]:
# TODO: Reordenar aleatoriamente o dataset

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Reordenamos X e Y:')
# Se preferir, pode usar a função de conveniência sklearn.utils.shuffle
# Utilizar um estado inicial aleatório de 42, de modo a manter a reprodutibilidade
X, Y = [...]

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print()

### Normalizar o dataset

Implementar a função de normalização e normalizar o dataset de exemplos *X*:

In [None]:
# TODO: Normalizar o dataset com uma função de normalização.

def normalize(x, mu, std):
    """ Normalizar um dataset com exemplos X
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os exemplos, sem termo de bias
    mu -- vetor 1D de Numpy com a média de cada característica/coluna
    std -- vetor 1D de Numpy com o desvio típico de cada característica/coluna
    
    Devolver:
    X norm -- array 2D de Numpy com os exemplos, com as suas características normalizadas 
    """
    return [...]
# Encontrar a média e o desvio padrão das características de X (colunas), exceto a primeira (parcialidade).
mu = [...]
std = [...]

print('X original:') 
print(X) 
print(X.shape)

print('Média e desvio típico das características:') 
print(mu)
print(mu.shape) 
print(std) 
print(std.shape)

print('X normalizada:') 
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std) # Normalizar apenas a coluna 1 e as colunas seguintes, não a coluna 0.
print(X_norm) 
print(X_norm.shape)

*Nota*: Se tiver modificado a sua função de *normalização* para calcular e devolver os valores de *mu* e *std*, pode modificar esta célula para incluir o seu código personalizado.

### Dividir os dataset em subset de formação, CV e testes

Dividir o dataset *X* e *Y* em 3 subsets com o ratio habitual, 60%/20%/20%.

Se o seu número de exemplos for muito superior ou inferior, pode sempre modificar este ratio para outro, tal como 50/25/25 ou 80/10/10.

In [None]:
# TODO: Dividir o dataset X e Y nos 3 subsets, de acordo com os ratios indicados.


ratios = [60,20,20]
print('Ratios:\n', ratios, ratios[0] + ratios[1] + ratios[2])

r = [0,0]
# Dica: a função round() e o atributo x.shape podem-lhe ser úteis
r[0] = [...]
r[1] = [...]
print('Índices de corte:\n', r)

# Dica: a função np.array_split() pode ser útil para si
X_train, X_cv, X_test = [...] 
Y_train, Y_cv, Y_test = [...]

print('Tamanhos dos subsets:') 
print(X_train.shape) 
print(Y_train.shape) 
print(X_cv.shape) 
print(Y_cv.shape) 
print(X_test.shape) 
print(Y_test.shape)

## Formar um modelo inicial sobre o subset de formação.

Tal como fizemos em exercícios anteriores, iremos formar um modelo inicial para verificar se a nossa implementação e o dataset funcionam corretamente, e seremos capazes de forma um modelo por CV sem qualquer problema.

Para isso, seguir os mesmos passos que seguiu para a regressão linear:
- Formar um modelo inicial sem regularização.
- Representar o histórico do seu custo para comprovar a sua evolução.
- Se necessário, modificar quaisquer parâmetros e reformular os modelos. Irá usar estes parâmetros nos pontos seguintes.

Copiar as células dos exercícios anteriores onde implementou a função de regularização de custos e gradient descent para regressão logística, e a célula onde formou o modelo:

In [None]:
# TODO: Copiar células com funções de custo e gradient descent para classificação regularizada

In [None]:
# TODO: Copiar a célula onde formamos o modelo
# Formar o seu modelo no subset de formação sem regularizar.

In [None]:
# TODO: Representar a evolução da função de custo vs. o número de iterações

plt.figure(1)

### Comprovar a adequação do modelo

Verificar a precisão dos seus modelos e modificar os parâmetros para os formar de novo, se necessário.

Recordar que se o seu dataset for “demasiado preciso” pode voltar à célula original e introduzir um termo de erro superior.

### Comprovar se há desvio ou sobreajuste

Como fizemos na regressão linear, formar 2 modelos em condições iguais, um sobre os primeiros dados do subset de formação e outro sobre o subset de CV (com o mesmo número de exemplos em ambos os casos):

In [None]:
# TODO: Estabelecer um theta_ini e hiper-parâmetros comuns para ambos os modelos, a fim de os formar em igualdade de
# condiciçções

theta_ini = [...]

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1 
lambda_ = 0. 
e = 1e-3 
iter_ = 1e3

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

In [None]:
# TODO: Formar um modelo sem regularização nos primeiros n valores do X_train, onde n é o número de
# exemplos disponíveis em X_cv
# Usar j_hist_train e theta_train como nomes de variáveis para os distinguir do outro modelo.

*Nota*:  Verificar se o *theta_ini* não foi modificado, ou modificar o seu código para que ambos os modelos utilizem o mesmo *theta_ini*.

In [None]:
# TODO: Da mesma forma, formar um modelo sem regularização em X_cv com os mesmos parâmetros.
# Recordar de usar j_hist_cv e theta_cv como nomes de variável.

Agora representar ambas as evoluções no mesmo gráfico, com cores diferentes

In [None]:
# TODO: Representar num gráfico de linhas ambas as evoluções para comparação.

plt.figure(2)

plt.title() 
plt.xlabel() 
plt.ylabel()

# Usar cores diferentes para ambas as séries, e indicar uma legenda para os distinguir
plt.plot() 
plt.plot()

plt.show()

Recordar que com um dataset sintético aleatórios é difícil que um ou outro seja o caso, mas nesta forma poderíamos apreciar tais problemas da seguinte forma:

- Se o custo final em ambos os subset for elevado, pode haver um problema de desvio ou *bias*.

- Se o custo final em ambos os subset for muito diferente um do outro, pode haver um problema de sobreajuste ou *variação*.

## Encontrar o hiper-parâmetro lambda ótimo por CV

Como fizemos em exercícios anteriores, vamos otimizar o nosso parâmetro de regularização através de validação cruzada.

Para isso, iremos formar um modelo diferente para cada valor *lambda* a ser considerado no subset de formação, e avaliar o seu erro ou custo final no subset de CV.

Vamos representar graficamente o erro de cada modelo contra o valor *lambda* utilizado e implementar o código que irá escolher automaticamente o modelo ótimo.

Recordar formar todos os seus modelos por igual:

In [None]:
# TODO: Formar um modelo para cada valor lambda diferente em X_train e avaliá-lo em X_cv

lambdas = [0., 1e-3, 3e-3, 1e-2, 3e-2, 1e-1, 3e-1, 1e0, 3e0, 1e1]

# Completar o código para formar um modelo diferente para cada valor de lambda no X_train
# Armazenar o theta e erro/custo final
# Posteriormente, avaliar o seu custo total no subset da CV

# Armazenar essa informação nos seguintes arrays, do mesmo tamanho que os lambdas
j_train = [...]
j_cv = [...]
theta_cv = [...]

In [None]:
# TODO: Representar graficamente o erro final para cada valor de lambda

plt.figure(3)

# Completar com o seu código

### Escolher o melhor modelo

Copiar o código dos exercícios anteriores, modificando-o se necessário para escolher o modelo com maior precisão no subset de CV:

In [None]:
# TODO: Escolher o modelo ótimo e o valor lambda, com o menor erro no subset do CV

# Iterar sobre todas as combinações de theta e lambda e escolher o custo mais baixo no subset do CV

j_final = [...] 
theta_final = [...] 
lambda_final = [...]

## Avaliar o modelo sobre o subset de teste

Finalmente, vamos avaliar o modelo sobre um subset de dados que não utilizámos para formação ou para a escolha de quaisquer hiper-parâmetros.

Para isso, vamos calcular o erro ou custo total no subset de teste e comprovar graficamente os resíduos no mesmo:

In [None]:
# TODO: Calcular o erro do modelo no subset de teste usando a função de custo com a correspondente
# theta e lambda

j_test = [...]

In [None]:
#  TODO: Calcular as previsões do modelo no subset de teste, calcular os resíduos e representá-los

# Recordar de usar a função sigmoide para transformar as previsões.
Y_test_pred = [...] 

resíduos = [...]

plt.figure(4)

# Completar com o seu código

plt.show()

*Bonus*: Para além dos resíduos, *porque não representar também graficamente todas as previsões no subset de teste para comprovar quantos deles o nosso modelo acerta*?

## Fazer previsões sobre novos exemplos

Com o nosso modelo formado, otimizado e avaliado, tudo o que resta é pô-lo a funcionar, fazendo previsões com novos exemplos.

Para isso, vamos:
- Gerar um novo exemplo seguindo o mesmo padrão que o dataset original. 
- Normalizar as suas características antes de poder fazer previsões a seu respeito. 
- Gerar uma previsão para esse novo exemplo.

In [None]:
# TODO: Gerar um novo exemplo seguindo o padrão original, com termo de bias e erro aleatório.

X_pred = [...]

# Normalizar as suas características (exceto o termo de bias) com as médias e desvios típicos originais
X_pred = [...]

# Gerar uma previsão para esse exemplo
Y_pred = [...]