# Regressão Logistica (1)
O primeiro exemplo que veremos de regressão logística está relacionado a um caso de classificação binária univariada. Este é o tipo mais direto de problema de classificação e segue os quatro passos básicos dos problemas de regressão:
1. Importar pacotes, funções e classes.
2. Obter dados e, se necessário, transformá-los.
3. Criar um modelo de classificação e treiná-lo (ou ajustá-lo) com os dados existentes.
4. Avaliar o modelo para ver se seu desempenho é satisfatório.

Um modelo bem ajustados pode ser usado para fazer previsões adicionais relacionadas a dados novos ou dados não vistos.

## Função sigmoide
Antes de começarmos, propriamente, a discutir os conceitos de regressão logísitca, vamos analisar o comportamento da função sigmoide. Essa função mapeia valores para o intervalo $(0, 1)$ e é definida como:
$$f(x)=\frac{1}{1+\exp(−x)}$$​

Aqui está uma implementação em Python usando a biblioteca NumPy:

In [None]:
import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

Exemplo de uso (teste com diferentes valores!):

In [None]:
valor = 0.5
resultado = sigmoid(valor)
print(f"Resultado da função sigmoide para {valor}: {resultado:.6f}")

Vamos, também, fazer um gráfico para ilustrar o comportamento dessa função! Para isso, vamos criar um array de valores de $x$ e aplicar a função `sigmoid` sobre esses valores:

In [None]:
# Criar um array de valores x
x = np.linspace(-5, 5, 100)

# Calcular a função sigmoide para os valores de x
y = sigmoid(x)

In [None]:
import matplotlib.pyplot as plt

# Plotar o gráfico
plt.plot(x, y)
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Função sigmoide')
plt.grid(True)
plt.show()

Agora, podemos seguir com nosso estudo de regressão logística!

## Importando pacotes, funções e classes
Primeiramente, precisamos importar o `Matplotlib` para visualização e o `NumPy` para operações de arrays (já fizemos isso, mas vamos repedir aqui, para tornar essa parte independente da anterior).

Também precisaremos de `LogisticRegression`, `classification_report()` e `confusion_matrix()` do `scikit-learn`:

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

## Obtendo dados
Para este exemplo, vamos apenas criar matrizes para os valores de entrada ($X$) e saída ($y$):

In [None]:
X = np.arange(10).reshape(-1, 1)
y = np.array([0, 0, 0, 0, 1, 1, 1, 1, 1, 1])

A entrada e a saída devem ser matrizes NumPy (ou seja, instâncias da classe `numpy.ndarray`) ou objetos semelhantes. A função `numpy.arange()` cria uma matriz de valores consecutivos e igualmente espaçados dentro de um determinado intervalo. A matriz `X` deve ser bidimensional, sendo uma coluna para cada entrada, e o número de linhas deve ser igual ao número de observações. Para tornar `X` bidimensional, aplicamos `.reshape()` com os seguintes argumentos:
- `-1` para obter quantas linhas forem necessárias
- `1` para obter uma coluna

Vamos ver, agora, como estão `X` e `y`:

In [None]:
X

A matriz `X` tem duas dimensões: uma coluna para uma única entrada e dez linhas, cada uma correspondendo a uma observação.

In [None]:
y

O vetor `y` é unidimensional com dez itens (novamente, cada item corresponde a uma observação). Ele contém apenas zeros e uns, pois este é um problema de classificação binária.

## Criando e treinando o modelo
Depois de preparar a entrada e a saída, podemos criar e definir nosso modelo de classificação. Vamos representá-lo com uma instância da classe `LogisticRegression`:

In [None]:
model = LogisticRegression(solver='liblinear', random_state=0)

A instrução acima cria uma instância de `LogisticRegression` e vincula suas referências ao modelo de variável. Essa classe possui diversos parâmetros opcionais que definem o comportamento do modelo e a abordagem de classificação. A seguir, vamos descrever esse parâmetros:
- **penalty** é uma string (`l2` por padrão) que decide se há regularização e qual abordagem usar. Outras opções são `l1`, `elasticnet` e `None`.
- **dual** é um booleano (`False` por padrão) que decide se deve usar a formulação primal (quando `False`) ou dual (quando `True`).
- **tol** é um número de ponto flutuante (`0.0001` por padrão) que define a tolerância para interromper o procedimento.
- **C** é um número de ponto flutuante positivo (`1.0` por padrão) que define a força relativa da regularização. Valores menores indicam regularização mais forte.
- **fit_intercept** é um booleano (`True` por padrão) que decide se calcula a interceptação $b_0$ (quando `True`) ou considera esse valor igual a zero (quando `False`).
- **intercept_scaling** é um número de ponto flutuante (`1.0` por padrão) que define a escala da interceptação $b_0$.
- **class_weight** é um dicionário, `balanced` ou `None` (padrão) que define os pesos relacionados a cada classe. Quando `None`, todas as classes
tem o peso um.
- *random_state* é um número inteiro, uma instância de `numpy.RandomState` ou `None` (padrão) que define qual gerador de números pseudo-aleatórios usar.
- `solver` é uma string (`liblinear` por padrão) que decide qual solucionador usar para ajustar o modelo. Outras opções são `newton-cg`, `lbfgs`, `sag` e `saga`.
- **max_iter** é um número inteiro (`100` por padrão) que define o número máximo de iterações pelo solucionador durante o ajuste do modelo.
- **multi_class** é uma string (`ovr` por padrão) que decide a abordagem a ser usada para lidar com múltiplas classes. Outras opções são
`multinomial` e `auto`.
- **verbose** é um número inteiro não negativo (`0` por padrão) que define a verbosidade para os solucionadores `liblinear` e `lbfgs`.
- **warm_start** é um booleano (`False` por padrão) que decide se deve reutilizar a solução obtida anteriormente.
- **n_jobs** é um número inteiro ou `None` (padrão) que define o número de processos paralelos a serem usados. `None` geralmente significa usar um núcleo, enquanto `-1` significa usar todos os núcleos disponíveis.
- **l1_ratio** é um número de ponto flutuante entre zero e um (ou `None`, por padrão). Define a importância relativa da parte *L1* na regularização da rede elástica.

Com os parâmetros definidos aqui, a criação do modelo ficou da seguinte maneira:

```
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True, intercept_scaling=1, l1_ratio=None, max_iter=100,
    multi_class='warn', n_jobs=None, penalty='l2', random_state=0, solver='liblinear', tol=0.0001, verbose=0, warm_start=False)
```

Devemos combinar cuidadosamente o solucionador e o método de regularização por vários motivos. Por exemplo, o solucionador `liblinear` não funciona sem regularização. Os damis (`newton-cg`, `sag`, `saga` e `lbfgs`) não suportam regularização *L1*. Finalmente, `saga` é o único solucionador que suporta regularização de rede elástica.


Depois que o modelo for criado, precisaremos ajustá-lo (ou treiná-lo). O ajuste do modelo é o processo de determinação dos coeficientes $b_0,b_1,\ldots,b_r$ que correspondem ao melhor valor da função de custo. Nós ajustamos o modelo com o método `.fit()`:

In [None]:
model.fit(X, y)

É importante observar que podemos usar o fato de que .fit() retorna a instância do modelo e encadeia as duas últimas instruções, como feito na seguinte linha:
```
model = LogisticRegression(solver='liblinear', random_state=0).fit(X, y)
```

Neste ponto, temos o modelo de classificação definido.

Podemos, assim, obter rapidamente os atributos de nosso modelo. Por exemplo, o atributo `.classes_` representa a matriz de valores distintos que `y` assume:

In [None]:
model.classes_

Este é o exemplo de classificação binária; portanto `y` pode ser `0` ou `1`, conforme indicado acima.

Também podemos obter o valor da inclinação $b_1$ e da interceptação $b_0$ da função linear $f$, assim:

In [None]:
model.intercept_

In [None]:
model.coef_

Devemos observar que $b_0$ é dado dentro de uma matriz unidimensional, enquanto $b_1$ está dentro de uma matriz bidimensional. Usamos os atributos `.intercept_` e `.coef_` para obter esses resultados.

## Avaliando o modelo
Depois que um modelo foi definido, podemos verificar seu desempenho com o método `.predict_proba()`, que retorna a matriz de probabilidades de que a saída prevista seja igual a `0` ou `1`:

In [None]:
model.predict_proba(X)

Na matriz acima, cada linha corresponde a uma única observação. A primeira coluna é a probabilidade da saída prevista ser zero, ou seja, $1-p(x)$. A segunda coluna é a probabilidade de a saída ser um, ou $p(x)$.

Finalmente, podemos obter as previsões reais, com base na matriz de probabilidade e nos valores de $p(x)$ usando o método `.predict()`:

In [None]:
model.predict(X)

Esta função retorna os valores de saída previstos como uma matriz unidimensional. Comparando com a matriz `X` original, vemos um erro de prvisão no quarto elemento (o valor original dele era `0`). Ou seja, de 10 observações, 9 foram corretamente preditas.

Isso signfica que a precisão do nosso modelo é igual a $9/10=0.9$, que podemos verificar com `.score()`:

In [None]:
model.score(X,y)

O método `.score()` pega a entrada e a saída como argumentos e retorna a proporção entre o número de previsões corretas e o número de observações.

Pode, no entanto, obter mais informações sobre a precisão do modelo com uma matriz de confusão. No caso da classificação binária, a matriz de confusão mostra os seguintes números:
- **Verdadeiros negativos** na posição superior esquerda
- **Falsos negativos** na posição inferior esquerda
- **Falsos positivos** na posição superior direita
- **Verdadeiros positivos** na posição inferior direita

Para criar a matriz de confusão, usamos a função `confusion_matrix()`, fornecendo as saídas reais e previstas como argumentos:

In [None]:
confusion_matrix(y, model.predict(X))

A matriz obtida mostra o seguinte:
- Três previsões negativas verdadeiras: As três primeiras observações são zeros previstas corretamente.
- Sem previsões falsas negativas: estas são as previstas erroneamente como zeros.
- Uma previsão de falso positivo: A quarta observação é um zero que foi erroneamente previsto como um.
- Seis previsões positivas verdadeiras: As últimas seis observações são previstas corretamente.

Muitas vezes é útil visualizar a matriz de confusão. Podemos fazer isso com `.imshow()` do Matplotlib, que aceita a matriz de confusão como argumento. O código a seguir cria um mapa de calor (*heatmap*) que representa a matriz de confusão:

In [None]:
cm = confusion_matrix(y, model.predict(X))
fig, ax = plt.subplots(figsize=(8, 8))
ax.imshow(cm)
ax.grid(False)
ax.xaxis.set(ticks=(0, 1), ticklabels=('Predicted 0s', 'Predicted 1s'))
ax.yaxis.set(ticks=(0, 1), ticklabels=('Actual 0s', 'Actual 1s'))
ax.set_ylim(1.5, -0.5)
for i in range(2):
  for j in range(2):
    ax.text(j, i, cm[i, j], ha='center', va='center', color='red')
plt.show()

Nesta figura, cores diferentes representam números diferentes e cores semelhantes representam números semelhantes. Mapas de calor são uma maneira mais agradável e conveniente de representar uma matriz.

Também podemos obter um relatório mais abrangente sobre a classificação com a função `classification_report()`:

In [None]:
print(classification_report(y, model.predict(X)))

Esta função também aceita as saídas reais e previstas como argumentos. Além disso, retorna um relatório sobre a classificação como um dicionário se fornecermos `output_dict=True` como argumento (caso contrário, fornece uma única string).

É importante observar que é melhor avaliar o modelo com os dados que **não foram** usados para treinamento. Assim, evitamos vieses e podemos detectar *overfitting*. Nesse exemplo, mas simples, fizemos a análise com todo conjunto de dados.

## Melhorando o modelo
Podemos experimentar outros parâmetros para melhorar o modelo. Por exemplo, vamos trabalhar com a força de regularização `C=10.0`, em vez do valor padrão de `C=1.0`:

In [None]:
model = LogisticRegression(solver='liblinear', C=10.0, random_state=0)
model.fit(X, y)

Agora temos outro modelo com parâmetros diferentes. Consequentemente, obteremos uma matriz de probabilidade diferente e um conjunto diferente de coeficientes e previsões:

In [None]:
model.intercept_

In [None]:
model.coef_

In [None]:
model.predict_proba(x)

In [None]:
model.predict(X)

Observe que os valores absolutos da interceptação $b_0$ e do coeficiente $b_1$ são maiores. Isso acontece porque o valor maior de `C` significa regularização mais fraca ou penalização mais fraca relacionada a valores altos de $b_0$ e $b_1$.

Valores diferentes de $b_0$ e $b_1$ implicam uma mudança no logit $f(x)$, valores diferentes das probabilidades $p(x)$, uma forma diferente da linha de regressão e, possivelmente, mudanças em outros resultados previstos e desempenho de classificação. O valor limite de $x$ para o qual $p(x)=0.5$ e $f(x)=0$ é maior agora (está acima de $3$). Nesse caso, todas as previsões foram verdadeiras, conforme mostrado pela precisão, matriz de confusão e relatório de classificação:

In [None]:
model.score(X, y)

In [None]:
confusion_matrix(y, model.predict(X))

In [None]:
print(classification_report(y, model.predict(X)))

A pontuação (ou precisão) de 1 e os zeros nos campos inferior esquerdo e superior direito da matriz de confusão indicam que os resultados reais e previstos são os mesmos. Faça o mapa de calor desses resultados, para visualizar melhor!

# Exercício
Refaça os exemplos vistos nesta aula utilizando os seguintes dados:
```
X = np.arange(10).reshape(-1, 1)
y = np.array([0, 1, 0, 0, 1, 1, 1, 1, 1, 1])
```
Note que, agora, nosso vetor $y$ não é *linearmente separável*, ou seja, seus valores não estão divididos em dois "blocos" facilmente separáveis.