# Regressão Logística - Classificação Binária

<div style="text-align: justify">Dado um problema de classificação binária, em que se busca dizer se uma instância pertence à classe $C_{1}$ ou $C_{2}$ a partir de seus atributos $x_{1},x_{2},\dots,x_{m}$, a regressão logística busca encontrar uma função linear para classificar as entradas através da função sigmodal, a partir da minimização de uma função de custo. 

Partindo da probabilidade em favor de um determinado evento $\frac{p}{1-p}$, define-se a função logit como sendo $logit(p) = \log\frac{p}{1-p}$, a qual, aplicada ao caso da classificação binária, pode ser expressa como uma função linear dos atributos de uma instância: $$logit(p(y=C_{1}|\mathbf{x}))=w_{0}+w_{1}x_{1}+\dots+w_{m}x_{m}=w_{0}+\sum_{i=0}^{m}w_{i}x_{i}=w_{0}+\mathbf{w}^{T}\mathbf{x}.$$

Portanto, para encontrar a probabilidade de uma instância pertencer a uma classe $C_{1}$, tem-se a inversa da função logit, chamada de função sigmoidal, definida como $$\phi(z)=\frac{1}{1+e^{-z}},\,z=w_{0}+w_{1}x_{1}+\dots+w_{m}x_{m}=w_{0}+\mathbf{w}^{T}\mathbf{x}$$.</div>

In [1]:
import numpy as np

def sigmoid(z):
    return float(1) / (float(1) + np.exp(-z))

<div style="text-align: justify">A função sigmoid, no caso da regressão logística, é uma função de ativação, isto é, ela recebe uma função linear dos atributos e entrega a probabilidade da instância pertencer a uma classe, ou seja, recebe um número real entre $-\infty$ e $\infty$ e retorna um valor entre 0 e 1.</div>

## Algoritmo

<div style="text-align: justify">O algoritmo da regressão logística para a classificação binária é iniciado gerando pesos nulos $w_{i}$ para cada exemplo $x_{i}$, $i=0,1,\dots,m$. Em seguida, calcula-se a função de ativação sigmoidal $\phi(z)$, em que z = $\mathbf{w}^{T}\mathbf{x}$. A diferença entre a classe esperada $y$ e a saída da função de ativação $y^{(i)}-\phi(z^{(i)})$ é chamada de erro e é utilizada para a atualização dos pesos. 
    
A atualização dos pesos parte da suposição de que os exemplos individuais do conjunto de treinamento são independentes e objetiva-se minizar a função de custo através do algoritmo do Gradiente Descendente $$J(\mathbf{w})=-\sum_{i}y^{(i)}\log(\phi(z^{(i)}))+(1-y^{(i)})\log(1-\phi(z^{(i)})).$$ </div>

In [2]:
def CostFuncion(phi, y):
    return np.sum(-y * np.log(phi) - (1 - y) * np.log(1 - phi))

<div style="text-align: justify">As derivações matemáticas deste algoritmo resultam na seguinte atualização de pesos: $$\mathbf{w} := \mathbf{w}+\Delta\mathbf{w},\, \Delta\mathbf{w}=\eta\nabla J(\mathbf{w})$$ $$\Delta w_{j}=-\eta \frac{\partial J}{\partial w_{j}}=\eta \sum_{i=1}^{m}(y^{(i)}-\phi(z^{(i)}))x_{j}^{(i)}.$$ 
    
Vetorialmente, é o mesmo que dizer que a atualização de pesos $\Delta\mathbf{w}$ é produto escalar de $\mathbf{X}_{N\times M}$ - um array $N$ exemplos e $M$ atributos - pelo vetor de erros $y^{(i)}-\phi(z^{(i)})$. O produto escalar entre um array $N\times M$ e um vetor resulta em um vetor cujos elementos são o produto escalar de cada linha de $\mathbf{X}$ e o vetor de erros.</div>

## Regularização

<div style="text-align: justify">Para lidar com a complexidade do modelo é comum adicionar um fator para penalizar os pesos. Esse fator é chamado regularizador e um dos mais comuns é o regularizador L2 $$\frac{\lambda}{2}||\mathbf{w}||^{2}=\frac{\lambda}{2}\sum_{j=1}^{m}w_{j}^{2},$$ em que que $\lambda$ é o parâmetro de regularização. Para a regressão logística, a função de custo é regularizada adicionando o termo de regularização $$J(\mathbf{w})=\sum_{i}\left[-y^{(i)}\log\left(\phi\left(z^{(i)}\right)\right)-(1-y^{(i)})\log\left(1-\phi\left(z^{(i)}\right)\right)\right]+\frac{\lambda}{2}\sum_{j=1}^{m}w_{j}^{2}.$$

A atualização de pesos simultânea passa a ser $$\mathbf{w} := \mathbf{w}+\Delta\mathbf{w},\, \Delta\mathbf{w}=-\eta\left(\nabla J(\mathbf{w})+\lambda\mathbf{w}\right),$$ enquando a atualização de um único peso é $$\Delta w_{j}=-\eta\left(\frac{\partial J}{\partial w_{j}}+\lambda w_{j}\right)$$ $$=\eta \sum_{i=1}^{m}\left(y^{(i)}-\phi\left(z^{(i)}\right)\right)x_{j}^{(i)}-\eta\lambda w_{j}.$$
    
</div>

## Implementação

In [68]:
class LogisticRegression:
    
    def __init__(self, lr=0.1, n_epochs=1000):
        self.lr = lr
        self.n_epochs = n_epochs
        
    def sigmoid(self, z):
        return float(1) / (float(1) + np.exp(np.clip(-z, -250, 250)))
    
    def CostFunction(self, phi, y):
        return np.dot(-y, np.log(phi + 1e-10)) - (np.dot((1 - y),np.log(1 - phi + 1e-10)))
    
    def fit(self, X, y):
        
        self.w = np.zeros(X.shape[1] + 1) #inicialização dos pesos
        self.cost_list = []
        
        for epoch in range(self.n_epochs):
        
            z = np.dot(X, self.w[1:]) + self.w[0]
            phi = self.sigmoid(z)
            
            self.w[1:] += self.lr * np.dot(X.T, (y - phi))
            self.w[0] += self.lr * (y - phi).sum()
            
            cost = self.CostFunction(phi, y)
            self.cost_list.append(cost)
            
            if epoch % (self.n_epochs/10) == 0:
                print('Loss: %d' % (cost))
                
    def predict(self, X, threshold=0.5):
        return np.where(self.sigmoid(np.dot(X, self.w[1:]) + self.w[0]) 
                        >= threshold, 1, 0)
        

In [69]:
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data[:, :2]
y = (iris.target != 0) * 1

In [70]:
model = LogisticRegression(lr=0.1, n_epochs=300000)
%time model.fit(X, y)

Loss: 103
Loss: 0
Loss: 0
Loss: 0
Loss: 0
Loss: 0
Loss: 0
Loss: 0
Loss: 0
Loss: 0
Wall time: 33.9 s


In [71]:
preds = model.predict(X)

In [72]:
(preds == y).mean()

1.0

In [73]:
model.cost_list

[103.97207705399178,
 1151.292546487023,
 2302.585092989046,
 1151.292546487023,
 1151.292546487023,
 1149.052652055796,
 1151.292546487023,
 1151.292546487023,
 295.86235527194117,
 2302.585092989046,
 1151.292546487023,
 1151.292546487023,
 2302.5850926370304,
 1151.292546487023,
 1151.292546487023,
 705.7070729482945,
 1151.292546487023,
 952.3795105171383,
 2302.585092989046,
 1151.292546487023,
 1151.292546487023,
 2195.587411724155,
 1151.292546487023,
 1151.292546487023,
 499.8175240274937,
 1151.292546487023,
 1757.5826015663115,
 1151.292546487023,
 1149.3998919229302,
 1894.1819139349948,
 1151.292546487023,
 1109.4748376151836,
 1883.8367902986133,
 1151.292546487023,
 962.1031383229548,
 1640.647757866082,
 1151.292546487023,
 591.7056992235671,
 600.0362117388742,
 956.0322271484215,
 1041.214184297739,
 1151.292546487023,
 23.03299568398485,
 23.399165657880932,
 24.0000798211642,
 23.89400374000248,
 23.886707320572572,
 23.882460425447846,
 23.87814099865629,
 23.873790

In [74]:
model.w

array([-119.3027783 ,   46.73023639,  -41.78374097])