# Regressão Logística

Regressão logística é uma técnica de classificação que pertence ao grupo dos classificadores lineares* e de alguma forma parecida com regressão linear. É uma técnica rápida e simples de entender, além de conveniente para interpretar os resultados. Apesar de ser, essencialmente, um método para classificação binária, pode ser usado para classificação multi-classes.

\* classificação baseada em uma combinação linear entre as variáveis de entrada, também chamado de _logit_.

ex: $f(X) = \alpha + b_1x_1 + b_2x_2 +\dots + b_nx_n$.

## Função Sigmoid

O objetivo da Regressão Logística é encontrar a função $p($**x**$)$ tal que as saídas estimadas $p(x_i)$ fiquem o mais próximo possível do valor real de $y_i$ para cada amostra $i = 1, 2, \dots, n$. Como, em um primeiro momento, vamos lidar exclusivamente de classificação binária, essas saídas devem ser apenas $0$ ou $1$. Sendo assim, é conveniente utilizar a função Sigmoid (caso especial da função logística).

<img src="assets/log-reg-1.webp" alt="drawing" width="400"/>


## Juntando a combinação linear com a função Sigmoid

A Regressão logística determina os melhores valores para o bias $\alpha$ e os pesos $b_1, b_2, \dots, b_n$, tal que a função $p($**x**$)$ se aproxime da classe real da amostra. O processo de encontrar os melhores valores para esses parâmetros é chamado de treinamento (ou _fitting_ ).

Nesse caso, **x** que a função Sigmoid ($p$) recebe é a saída da combinação linear $f(X) = \alpha + b_1x_1 + b_2x_2 +\dots + b_nx_n$.

## Como encontrar os melhores valores para o bias e os pesos?

Os melhores pesos são geralmente encontrados maximizando a função de verosimilhança logarítmica (_log-likelihood_ ) O método é chamado de maximização da verossimilhança (_maximum likelihood estimation_ - MLE) e é representado pela seguinte equação.

\begin{equation}
MLE = \sum_{i=1}^n(y_i log(p(x_i)) + (1 − y_i) log(1 − p(x_i))).
\end{equation}
<img src="assets/log-reg-4.webp" alt="drawing" width="400"/>

Os melhores parâmetros para maximizar essa equação podem ser encontrados usando técnicas matemáticas, essa parte será executada pelo scikit-learn.

## Implementação

### Exemplo 1 - Classificação binária com uma única variável de entrada

In [2]:
# Passo n° 1: Importando as bibliotecas necessárias
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

In [5]:
# Passo n° 2: Gerando dados para classificação

# Gerando os dados de entrada. Serão geradas 10 amostras com valores de 0 a 9
# note que os modelos do scikit-learn esperam um array composto com um array de características
# por amostra de entrada (mesmo que seja apenas 1 característica). Por isso fazemos um reshape.
x = np.arange(10).reshape(-1, 1) 

# gerando as classes para cada amostra
y = np.array([0, 0, 0, 0, 1, 1, 1, 1, 1, 1])
print('x = {}'.format(x))
print('y = {}'.format(y))

x = [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]
y = [0 0 0 0 1 1 1 1 1 1]


In [15]:
# Passo n° 3: Criando e treinando um modelo

# Criando ou estanciando o modelo:
#   solver é o algoritmo utilizado para otimizar os parâmetros.
#     liblinear é a melhor opção para datasets pequenos e binários.
#   random_state = 0, ou qualquer número, garante que a inicialização aleatória vai ser sempre igual, 
#     independente de quantas vezes rodar o algoritmo
model = LogisticRegression(solver='liblinear', random_state=0)

# O modelo possui diversos hiperparâmetros que podem ser ajustados, como penalidade (padrão L2), número 
#   de iterações, etc. Sugiro que deem uma olhada na documentação:
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

# Treinando o modelo
model.fit(x, y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=0, solver='liblinear', tol=0.0001, verbose=0,
                   warm_start=False)

In [16]:
# Podemos extrair algumas informações do modelo, como por exemplo:

# as classes presentes no conjunto de dados
print('classes = {}'.format(model.classes_))

# o valor do bias
print('bias = {}'.format(model.intercept_))

# os pesos
print('pesos = {}'.format(model.coef_))

classes = [0 1]
bias = [-1.04608067]
pesos = [[0.51491375]]


In [18]:
# Passo n° 4: Avaliando o modelo

# uma das formas de avaliar o modelo, é através a probabilidade  que ele dá à cada amostra
#   de pertencer a cada classe
probabilidades = model.predict_proba(x)

# uma outra forma mais comum é através da classe que o modelo estimou
classe_estimada = model.predict(x)

print('probabilidades = {}\n'.format(probabilidades))
print('classe_estimada = {}'.format(classe_estimada))

probabilidades = [[0.74002157 0.25997843]
 [0.62975524 0.37024476]
 [0.5040632  0.4959368 ]
 [0.37785549 0.62214451]
 [0.26628093 0.73371907]
 [0.17821501 0.82178499]
 [0.11472079 0.88527921]
 [0.07186982 0.92813018]
 [0.04422513 0.95577487]
 [0.02690569 0.97309431]]

classe_estimada = [0 0 0 1 1 1 1 1 1 1]


Podemos visualizar essa classificação na figura a seguir: