# REGRESSÃO LOGÍSTICA

A regressão logística é nomeada para a função utilizada no núcleo do método, a função logística. Na regressão linear, o resultado (variável dependente) é contínuo. Pode ter qualquer um de um número infinito de valores possíveis. Na regressão logística, o resultado (variável dependente) tem apenas um número limitado de valores possíveis. A regressão logística é usada quando a variável de resposta é de natureza categórica.

A função logística, também chamada de função sigmoide, é uma curva em forma de S que pode levar qualquer número de valor real e mapeá-lo em um valor entre 0 e 1, mas nunca exatamente nesses limites.

<img src="https://camo.githubusercontent.com/0346e37d418dbb3fcd064c3374ea88e9ec7c8026/68747470733a2f2f696d6167652e736c696465736861726563646e2e636f6d2f696863636c6f67697374696372656772657373696f6e2d3133303732383036313733332d70687061707030322f39352f6c6f6769737469632d72656772657373696f6e2d696e2d63617365636f6e74726f6c2d73747564792d31342d3633382e6a70673f63623d31333734393932333635"/>

A previsão de probabilidade deve ser transformada em valores binários (0 ou 1) para efetivamente fazer uma previsão de probabilidade. A regressão logística é um método linear, mas as previsões são transformadas usando a função logística. 

O impacto disso é que não podemos mais entender as previsões como uma combinação linear das entradas como podemos com a regressão linear.

Aguarde, como é calculada a função de limite? Bem, queremos maximizar a probabilidade de um ponto de dados aleatório ser classificado corretamente. Chamamos essa estimativa de máxima probabilidade.

A estimativa de máxima verossimilhança é uma abordagem geral para estimar parâmetros em modelos estatísticos, maximizando a função de verossimilhança. O MLE aplicado a redes profundas recebe um nome especial "Backpropagation".

In [1]:
%matplotlib inline

#matrix math
import numpy as np
#data manipulation
import pandas as pd
#matrix data structure
from patsy import dmatrices
#for error logging
import warnings

# Parametrização / Configuração de dados

In [2]:
#Mostra a probabilidade entre 0 e 1, usado para ajudar a definir nossa curva de regressão logística
def sigmoid(x):
    '''Sigmoid function of x.'''
    return 1/(1+np.exp(-x))

Faz com que os números aleatórios sejam previsíveis
Os números aleatórios (pseudo-) funcionam começando com um número (a semente), multiplicando-o por um grande número, em seguida, tomando o módulo desse produto.

O número resultante é então usado como a semente para gerar o próximo número "aleatório".

Quando você define a SEED (toda vez), faz a mesma coisa toda vez, dando-lhe os mesmos números. 

Bom para reproduzir resultados para depuração

In [3]:
np.random.seed(0)

## Passo 1 - Definir parâmetros do modelo (hiperparâmetros) 

In [6]:
# Configurações do algoritmo
# ============================
# O limite mínimo para a diferença entre a saída prevista e a saída real
# Isso diz ao nosso modelo quando parar de aprender, quando nossa capacidade de previsão é boa o suficiente
tol = 1e-8 # tolerância de convergência

In [8]:
# Regularização L2 
lam = None 

# máximo de iterações permitidas
max_iter = 20 

In [9]:
## Configurações de criação de dados

# Covariância mede como duas variáveis se movem juntas.
# ===========================================================================
# Meta se os dois se movem na mesma direção (uma covariância positiva)
# Ou em direções opostas (uma covariância negativa).

# Covariância entre x e z
r = 0.95 

# Número de observações (tamanho do conjunto de dados a gerar)
n = 1000 

# Variação de ruído - como se espalham os dados?
sigma = 1 

In [18]:
## Configurações do modelo

# Coeficientes beta reais
beta_x, beta_z, beta_v = -4, .9, 1 

# Variações de entradas
var_x, var_z, var_v = 1, 1, 4 

## A especificação do modelo que deseja ajustar
formula = 'y ~ x + z + v + np.exp (x) + I (v ** 2 + z)'

## Passo 2 - Gerar e organizar nossos dados

A distribuição multivariada normal, multinormal ou gaussiana é uma generalização do normal unidimensional distribuição para dimensões superiores. Essa distribuição é especificada pela sua matriz média e covariante.

So geramos valores valores de entrada - (x, v, z) usando distribuições normais

A distribuição de probabilidade é uma função que nos proporciona as probabilidades de todos postos possíveis de um processo estocástico.


In [20]:

# manter x e z intimamente relacionados (altura e peso)
x, z = np.random.multivariate_normal([0,0], [[var_x,r],[r,var_z]], n).T
#pressão sanguínea
v = np.random.normal (0, var_v, n) ** 3

# Crie um banco de dados de pandas (objeto facilmente analisável para manipulação)
A = pd.DataFrame ({'x': x, 'z': z, 'v': v})

#Computar as probabilidades de log para nossas 3 variáveis **independentes
#Usando a função sigmoid
A['log_odds'] = sigmoid (A[['x','z','v']].dot([beta_x, beta_z, beta_v]) + sigma * np.random.normal(0,1, n ))

# Computa a amostra de probabilidade da distribuição binomial
# Uma variável aleatória binomial é o número de sucessos x em n testes repetidos de uma experiência binomial.
# A distribuição de probabilidade de uma variável aleatória binomial é chamada de distribuição binomial.
A['y'] = [np.random.binomial(1, p) for p in A.log_odds]

# Crie um quadro de dados que abrange nossos dados de entrada, fórmula do modelo e saídas
y, X = dmatrices (formula, A, return_type = 'dataframe')

#imprime-o
X.head(10)



Unnamed: 0,Intercept,x,z,v,np.exp(x),I(v ** 2 + z)
0,1.0,-1.611418,-1.566192,15.613483,0.199604,242.214667
1,1.0,-0.080909,0.085959,42.720111,0.922278,1825.093814
2,1.0,0.297531,0.14211,3.530885,1.346531,12.609259
3,1.0,1.412771,1.734809,-57.235945,4.107323,3277.688187
4,1.0,0.204214,-0.302335,-0.074792,1.226561,-0.296741
5,1.0,1.515413,2.07566,-74.19059,4.551301,5506.319245
6,1.0,-1.122694,-1.001452,-115.449743,0.325402,13327.641761
7,1.0,1.49041,1.406678,203.717128,4.438913,41502.075078
8,1.0,1.076719,0.961474,18.996406,2.935033,361.824934
9,1.0,0.328823,0.099469,0.001091,1.389332,0.09947


# Configuração do Algoritmo

Começamos com uma função rápida para capturar erros de matriz singulares que usaremos para decorar nossos passos de Newton.


In [21]:
#like dividing by zero (Wtff omgggggg universe collapses)
def catch_singularity(f):
    '''Silences LinAlg Errors and throws a warning instead.'''
    
    def silencer(*args, **kwargs):
        try:
            return f(*args, **kwargs)
        except np.linalg.LinAlgError:
            warnings.warn('Algorithm terminated - singular Hessian!')
            return args[0]
    return silencer

Abaixo, implementamos um único passo do método de Newton e calculamos  usando np.linalg.lstsq (A, b) para resolver a equação. Observe que isso não exige que nós calculemos o inverso real do Hessian.

In [22]:
@catch_singularity
def newton_step(curr, X, lam=None):
    '''One naive step of Newton's Method'''
    
    ## computar objetos necessários
    # Crie matriz de probabilidade, mínimo 2 dimensões, transponha (flip it)
    p = np.array(sigmoid(X.dot(curr[:,0])), ndmin=2).T
    # Crie matriz de peso a partir dele
    W = np.diag((p*(1-p))[:,0])
    # Derivar o hessian
    hessian = X.T.dot(W).dot(X)
    # Derivar o gradiente
    grad = X.T.dot(y-p)
    ## Passo de regularização (evitando a sobreposição)
    if lam:
        # Retornar a solução de mínimos quadrados para uma equação de matriz linear
        step, *_ = np.linalg.lstsq(hessian + lam*np.eye(curr.shape[0]), grad)
    else:
        step, *_ = np.linalg.lstsq(hessian, grad)
        
    ## update 
    beta = curr + step
    
    return beta

## Configuração de Convergência

Primeiro implementamos a convergência de coeficientes

In [25]:
def check_coefs_convergence(beta_old, beta_new, tol, iters):
    '''Verifica se os coeficientes convergiram na norma l-infinito.
     Retorna True se eles convergiram, Falso caso contrário.'''
    # Calcular a variação dos coeficientes
    coef_change = np.abs(beta_old - beta_new)
    
    # Se a mudança não atingiu o limiar e temos mais iterações para ir, continue treinando
    return not (np.any(coef_change>tol) & (iters < max_iter))

## Newton com convergência de coeficiente

In [26]:
## condições iniciais
# Coeficientes iniciais (valores de peso), 2 cópias, vamos atualizar um
beta_old, beta = np.ones((len(X.columns),1)), np.zeros((len(X.columns),1))

# Várias iterações que fizemos até agora
iter_count = 0
# Alcançamos a convergência?
coefs_converged = False

# Se não alcançarmos a convergência ... (etapa de treinamento)
while not coefs_converged:
    
    # Definir os coeficientes antigos para a nossa atual
    beta_old = beta
    # Realize um único passo da otimização do newton em nossos dados, configure nossos valores beta atualizados
    beta = newton_step(beta, X, lam=lam)
    # Incrementar o número de iterações
    iter_count += 1
    
    # Verifique a convergência entre nossos valores beta antigos e novos
    coefs_converged = check_coefs_convergence(beta_old, beta, tol, iter_count)
    
print('Interações : {}'.format(iter_count))
print('Beta : {}'.format(beta))

Iterations : 19
Beta : [[  2.51105854e+31]
 [  4.72267452e+30]
 [ -4.19417010e+30]
 [  8.90225261e+30]
 [ -2.72506647e+31]
 [  6.38056846e+30]]


