# Introdução

A Regressão Linear é muito útil, porém não funciona para problemas de classificação. Um problema de classificação é quando se deseja classificar um objeto em uma de várias categorias através de uma ou mais características que se sabe sobre o objeto. 

Um exemplo simples deste tipo de problema é quando se deseja prever se uma pessoa é ou não obesa apenas sabendo seu peso. O gráfico abaixo contém as ocorrências de 80 pessoas que possuem um determinado peso e podem ou não ser obesas.

INSERT grafico1

Perceba que quando se aplica uma regressão linear nessa base para algumas pessoas é prevista uma probabilidade de ser obesa maior do que 1, o que é impossível.

INSERT grafico2

Para se evitar isto, existe a regressão logística, que produz um resultado muito mais adequado:

INSERT grafico3

# Como funciona
A regressão logística é versão da regressão linear adequada a problemas de classificação. Para se adequar à este tipo de problema ao invés de prever quanto algo vai ser em uma escala contínua, a regressão logística prevê a probabilidade de algo se encaixar em uma categoria. Esta probabilidade, como qualquer outra, varia entre 0 e 1. para se manter dentro do contradomínio, a regressão logística usa a função Sigmóide:

$ y = \frac{1}{1+e^{-f(x)}} $

A função Sigmóide tem o seu formato definido pela função $f(x)$, ou seja, para adequar a função logística do jeito desejado é necessário alterar a função $f(x)$. Uma função $f(x)$ simples utilizada na regressão logística é a seguinte função linear:

$f(x) = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n$,

onde cada $x_i$ é uma característica sendo observada e cada $w_i$ é um peso atribuido à característica $x_i$. Também são definidos $X_{n\times 1} = [1, x_1, ..., x_n]$ e $W_{n\times 1} = [w_0, w_1, ..., w_n]$. Assim sendo, tem-se que $f(x) = W^TX$

Para já acostumar o leitor, vamos escrever a função Sigmóide da forma como ela será usada mais à frente:

$ p(X) = \frac{1}{1+e^{- W^T X}} $

Dessa forma, o objetivo se torna encontrar a matriz $W$ que gera os resultados mais próximos do esperado. Para isto se faz necessária uma forma de analisar o resultado da matriz atual. O resultado da matriz é algo do tipo:

INSERT grafico4

Fica claro que há casos onde $p(X)$ (valor previsto) é igual ao $y$ (valor real). Uma das formas de calcular o acerto é através da fórmula de  INSERT (Máxima Verosemelhança?) NOME. Ela funciona da seguinte forma:


1 Separa os objetos em objetos com $y=1$ e objetos com $y=0$. O $X$ de cada determinado objeto será aqui chamado apenas de $X$
2 Para objetos com $y=1$, busca-se $W$ tal que $p(X)$ fique o mais próximo possível de 1
3 Para objetos com $y=0$, busca-se $W$ tal que $p(X)$ fique o mais próximo possível de 0
3* Em outras palavras, para objetos com $y=0$ busca-se $W$ tal que $1-p(X)$ fique o mais próximo possível de 1
4 Ao se acumular as probabilidades, temos o produtório de ambos objetos com $y=1$ ou $y=0$ deve ser igual a 1 da seguinte forma:

$ \prod p(x) $ para $y=1$ e $ \prod (1-p(x)) $ para $y=0$

5 É possível juntar os dois produtórios, aplicando um expoente $y$ ou $y-1$ à cada um. O papel deste expoente é garantir que quando cada produtório somente tenha impacto quando for aplicável:

$ L(W) = \prod p(x)^{y}(1-p(x))^{(1-y)} $

note que $y=1 \implies (1-p(x))^{(1-y)}=1$ e $y=0 \implies p(x)^y=1$

Esta é função permite avaliar quão boa é a matriz $W$. Portanto, ao se maximizar esta função se otimiza a regressão logística! 

6 É possível trabalhar esta função aplicando $\log{}$, que então transforma o produtório em somatório:

$ \log{L(W)} = \log({\prod p(X)^{y}(1-p(X))^{(1-y)}}) $

$ l(W) = \sum y\log{p(X)}+(1-y)\log({1-p(X)}) $

7 Para continuar, é necessário expandir $p(X)$:

$ l(W) = \sum y\log{\frac{1}{1+e^{- W^T X}}}+(1-y)\log({1-\frac{1}{1+e^{- W^T X}}}) = \sum y\log{\frac{1}{1+e^{- W^T X}}}+(1-y)\log({\frac{e^{- W^T X}}{1+e^{- W^T X}}})$

8 Efetua-se a multiplicação $(1-y)\log({\frac{e^{- W^T X}}{1+e^{- W^T X}}})$:

$ \sum y\log{\frac{1}{1+e^{- W^T X}}}-y\log({\frac{e^{- W^T X}}{1+e^{- W^T X}}}) + \log({\frac{e^{- W^T X}}{1+e^{- W^T X}}}) $

9 Agrupa-se onde há coeficiente $y$:

$ \sum y[\log{\frac{1}{1+e^{- W^T X}}}-\log({\frac{e^{- W^T X}}{1+e^{- W^T X}}})] + \log({\frac{e^{- W^T X}}{1+e^{- W^T X}}}) $ 

10 Utiliza-se a propriedade da subtração de dois logarítmos:

$ \sum y\log({\frac{1}{1+e^{- W^T X}}} * {\frac{1+e^{- W^T X}}{e^{- W^T X}}}) + \log({\frac{e^{- W^T X}}{1+e^{- W^T X}}}) = \sum y\log({\frac{1}{e^{- W^T X}}}) + \log({\frac{e^{- W^T X}}{1+e^{- W^T X}}})$ 

11 Altera-se as funções dentro dos logarítmos mantendo a igualdade:

$ \sum y\log({\frac{1}{e^{W^T X}}^{-1}}) + \log({\frac{e^{- W^T X}}{1+e^{- W^T X} \prod \frac{e^{W^T X}}{e^{W^T X}} }})  = \sum y\log({e^{W^T X}}) + \log({\frac{1}{1+e^{W^T X}}}) $

12 Finalizando:

$ l(W) = \sum yW^T X - \log({1+e^{W^T X}}) $ 

Assim, busca-se encontrar $W$ que maximiza $l(W)$

## Algoritmo

Idealmente seria possível encontrar o máximo de $l(W)$ de maneira "simples", porém a função em questão não é algébrica e sim transcendental. Isto ocorre por causa da função $\log{}$, e significa que não é possível calcular seu máximo de maneira exata e "instantânea". Contudo existem métodos de aproximação, e o método aqui mostrado será o Método de Newton Raphson.

O Método de Newton Raphson atua começando com uma variável independente arbitrária e então encontrando um novo valor para esta variável independente através da divisão do valor da função sendo analisada pela sua derivada:

$  x_{n+1} = x_n- \frac{\partial f(x_n)}{\partial f(x_n)}$

In [2]:
import pandas as pd
import numpy as np
import plotly.express as px

In [165]:
class RegressaoLogistica:
    def __init__(self, df_arq, y_observado, n_rep=20, t_apr=0.01):
        self.carregar_dataframe(df_arq)
        self.y_observado = y_observado
        self.n_rep = n_rep
        self.t_apr = t_apr
        self.df["y_previsto"] = 0
        self.set_colunas_x(y_observado)
        self.criar_W()
        self.erros = []
        
        
    def carregar_dataframe(self, df_arq):
        self.df = pd.read_csv(df_arq)

    def set_colunas_x(self, y_observado):
        self.colunas_x = [ self.df.columns.get_loc(c) for c in self.df.columns if c not in (y_observado, "y_previsto")]

    def sigmoide(self, x):
        return 1/(1+np.e**(-x))

    def criar_W(self):
        self.W = np.full((len(self.colunas_x),1), 1)

    def soma_ponderada(self, x_i, W):
        return np.dot(x_i, W)

    def probabilidade(self, x_i, W):
        return self.sigmoide(self.soma_ponderada(x_i, W))

    def funcao_erro(self, W, x_i, y_i):
        tamanho = x_i.shape[0]
        custo_total = -(1/tamanho)*np.sum(
            y_i*np.log(self.probabilidade(x_i,W)) + (1-y_i)*np.log(1-self.probabilidade(x_i,W))
            )
        return custo_total

    def gradiente(self, x_i):
        tamanho = x_i.shape[0]
        gradiente = (1/tamanho)*np.dot(x_i.T, self.probabilidade(x_i,self.W)-self.df[self.y_observado][0])
        return gradiente

    def geracao(self):
        grad = 0
        for i in self.df.index:
            x_i = self.df.iloc[i, self.colunas_x]
            self.df.at[i, "y_esperado"] = self.probabilidade( x_i, self.W )
            grad += self.gradiente(x_i)
        self.W -= grad
        self.erros.append(self.funcao_erro)
    
    def main_loop(self):
        for _ in range(self.n_rep):
            self.geracao()
        print(self.erros)
        
    
    
    
    
    

        


In [166]:
RL = RegressaoLogistica("diabetes.csv", "Outcome")

In [167]:
RL.main_loop()

ValueError: shapes (8,) and (1,) not aligned: 8 (dim 0) != 1 (dim 0)

In [110]:
W = np.random.rand(4,1)
X = np.random.rand(4,1)


In [115]:
d = (np.dot(W.T,X)-sigmoide(np.dot(W.T,X)))*X

In [116]:
d

array([[0.20281812],
       [0.05881949],
       [0.07727356],
       [0.11916773]])