# Regresión logística utilizando el método de Newton, J. Raphson

In [1]:
from IPython.display import display, Math, Latex

Regresion logística:

In [4]:
display(Math(r'y = \sigma(w\cdot x+b)'))

<IPython.core.display.Math object>

Ya que aplicar el error MSE es dificil de optimizar cuando es aplicado a clasificación probabilistica

Basandose en el libro: *The Elements of Statistical Learning*, *Second Edition*, **pag. 119**

In [7]:
display(Math(r'\ln(\frac{P_i}{1 - P_i}) = β_{0} + β_{i}^{T}\cdot X'))

<IPython.core.display.Math object>

 ## Estimador de máxima verosimilitud


In [74]:
print('Estimador de máxima verosimilitud, MLE:')
display(Math(r'L(\beta)=\prod_{i=1}^n P_i^{y_i}(1-Pi)^{1 - y_i}'))

Estimador de máxima verosimilitud, MLE:


<IPython.core.display.Math object>

In [13]:
print('Sea la regresión logística:')
display(Math(r'\ln(\frac{P_i}{1 - P_i}) = β_{0} + \sum_{j=1}^{k}β_{j}^{T} X_{ij}'))
print('Siendo k, el número de "Features"')

Sea la regresión logística:


<IPython.core.display.Math object>

Siendo k, el número de "Features"


In [21]:
print('De la ecuación anterior:')
display(Math(r'P_i = \frac{1}{1 + e^{-(\beta_0 + β\cdot x_i)}}'))
print('Además:')
display(Math('y = 1  \leftrightarrow P(x) \geq 0 \leftrightarrow β_0 + β\cdot X \geq 0'))
display(Math('y = 0  \leftrightarrow P(x) < 0 \leftrightarrow β_0 + β\cdot X < 0'))

De la ecuación anterior:


<IPython.core.display.Math object>

Además:


<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [26]:
display(Math(r'Sea: l = \ln{L(\beta)}'))
print('Aplicando propiedades del logaritmo:')
display(Math(r'l = \sum{(1 - P_i)} + y_i\cdot (\ln{P_i} - \ln{(1 - P_i)})'))
display(Math(r'l = \sum{(1 - P_i)} + y_i\cdot (\ln\frac{{P_i}}{{(1 - P_i)}})'))

<IPython.core.display.Math object>

Aplicando propiedades del logaritmo:


<IPython.core.display.Math object>

<IPython.core.display.Math object>

El segundo término aparece líneas más arriba, mientras que el primero se puede hallar despejando la misma ecuación

In [31]:
display(Math(r'l = \sum_{i=1}^n{-\ln{(1 + e^{β_0 + β\cdot X})}} + y_i (β_0 + \sum_{j=1}^kβ_j\cdot X_{ij})'))

<IPython.core.display.Math object>

In [38]:
display("Para calcular la máxima verosimilitud se debe hallar las derivadas respecto a los coeficientes:")
display(Math(r'\frac{\partial{l}}{\partial{\beta_0}} = \frac{\partial{l}}{\partial{\beta_j}} = 0'))

'Para calcular la máxima verosimilitud se debe hallar las derivadas respecto a los coeficientes:'

<IPython.core.display.Math object>

In [44]:
display(Math(r'\frac{\partial{l}}{\partial{\beta_0}} = \sum_{i=1}^n 1\cdot (y_i - P_i)'))
display(Math(r'\frac{\partial{l}}{\partial{\beta_j}} = \sum_{i=1}^nX_{ij}(y_i - P_i)'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

Agrupando las 2 encuaciónes anteriores en una sola

In [45]:
display(Math(r'\frac{\partial{l}}{\partial{\beta_j}} = \sum_{i=1}^nX_{ij}(y_i - P_i)'))

<IPython.core.display.Math object>

Esto puede resumirse como:

In [46]:
display(Math(r'\frac{\partial{l}}{\partial{\beta_j}} = X_j\cdot (y_i - P_i)'))

<IPython.core.display.Math object>

Y dado que se cumple para todos los j

In [47]:
display(Math(r'\frac{\partial{l}}{\partial{\beta}} = X\cdot (y_i - P_i)'))

<IPython.core.display.Math object>

Cálculo de la segunda derivada:

In [64]:
display(Math(r'\frac{\partial^2 l}{\partial β^2} = \sum_{i=1}^nX_{ij}P_i(1-P_i)X_{ij}'))

<IPython.core.display.Math object>

In [56]:
display(Math(r'\frac{\partial^2 l}{\partial x^2} = X\cdot W\cdot X^T'))
display(Math(r'W(β) = diag(P_i(1-P_i))^n_{i=1}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

### Método de Newton - Raphson
Dado que la ecuación D(l)/D(B) = 0, se puede utilizar un método iterativo, este es M. Newton Raphson

In [274]:
display(Math(r"x_{n+1} = x_{n} - \frac{f(x_n)}{f'(x_n)}"))
print('Metodo para calcular cuando f(x) = 0')
display(Math(r'f(β) = \frac{\partial{l}}{\partial{β}}'))
display(Math(r"f'(β) = -X\cdot W(β)\cdot X^T"))

<IPython.core.display.Math object>

Metodo para calcular cuando f(x) = 0


<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [273]:
print('Finalmente:')
display(Math(r"β_{n+1} = β_{n} + (X^T\cdot W(β)\cdot X)^{-1}(X^T\cdot (y - P))"))

Finalmente:


<IPython.core.display.Math object>

# Implementación de regresión logística

In [75]:
print('Obtener: Estimador de máxima verosimilitud, MLE:')
display(Math(r'L(\beta)=\prod_{i=1}^n P_i^{y_i}(1-Pi)^{1 - y_i}'))

Obtener: Estimador de máxima verosimilitud, MLE:


<IPython.core.display.Math object>

# Cálculo de probabilidades

In [76]:
display(Math(r'P_i = \frac{1}{1 + e^{-(\beta_0 + β\cdot x_i)}}'))

<IPython.core.display.Math object>

In [269]:
# Cálculo de probabilidad de todos los puntos, esto es: P(y | x_1), ....
def logistic_prob(X, beta):
    import numpy as np
    rows = np.shape(X)[0] # Numero de filas
    cols = np.shape(X)[1] # Número de columnas
    pi = list(range(1, rows + 1))
    exponent = list(range(1, rows +1 ))
    # Obtener las probabilidades:
    for i in range(rows):
        exponent[i] = 0
        # Obtener los exponentes, esto es por columnas:
        for j in range(cols):
            ex = X[i][j]*beta[j]
            exponent[i] = exponent[i] + ex
        # End for exps
        with np.errstate(divide='ignore', invalid='ignore'):
            pi[i] = 1/(1 + np.exp(-exponent[i]))
    return pi

# Cálculo de la matriz diagonal W
Para aplicar el método de Newton raphson, se necesita del calculo de la segunda derivada de la función **l(B)**

In [116]:
display(Math(r'\frac{\partial^2 l}{\partial x^2} = X^T\cdot W\cdot X'))
display(Math(r'W(β) = diag(P_i(1-P_i))^n_{i=1}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [268]:
# Obtener la matriz diagonal, con las probabilidades Pi(1-Pi)
def getW(P):
    import numpy as np
    n = len(P)
    W = np.zeros(n*n).reshape(n,n)
    for i in range(n):
        W[i,i] = P[i]*(1-P[i])
        W[i,i].astype(float)
    return W

# Aplicar el método de Newton Raphson

In [272]:
display(Math(r"x_{n+1} = x_{n} - \frac{f(x_n)}{f'(x_n)}"))
display(Math(r"β_{n+1} = β_{n} + (X^T\cdot W(β)\cdot X)^{-1}(X^T\cdot (y - P))"))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [275]:
def logistic_regression(X, Y, limit):
    import numpy as np
    from numpy.linalg import inv
    rows = np.shape(X)[0]
    # Definición de la entrada bias, siempre es 1
    bias = np.ones(rows).reshape(rows, 1)
    # Añadir el bias a la entrada X
    __X = np.append(X, bias, axis = 1)
    cols = np.shape(__X)[1]
    # Inicializando beta como una matriz columna de ceros
    beta = np.zeros(cols).reshape(cols, 1)
    # Primero se obtienen las probabilidades:
    ## range(1, t) itera desde 1 hasta t-1
    delta_beta = np.array(range(1, cols + 1)).reshape(cols, 1)
    # Definir un error inicial
    in_error = 1000
    while( in_error > limit):
        # Obtener la matriz Pi
        Pi = []
        Pi = logistic_prob(__X, beta)
        # Obtener la matriz W:
        W = getW(Pi)
        
        den = inv(np.matmul(np.matmul(np.transpose(np.array(__X)),np.array(W)), np.array(__X)))
        inter = np.array(Y- np.transpose(np.array(Pi))).transpose()
        num = np.matmul(np.transpose(np.array(__X)),(inter))
        delta_beta = np.matmul(den, num)
        #print('DB:>',delta_beta)
        beta = beta + delta_beta
        #print("Beta", beta)
        in_error = np.sum(delta_beta*delta_beta)
        print("Error:",in_error)
    print('beta>', beta)
    return beta

# Comprobación:

In [185]:
import numpy as np
x = np.array(range(10)).reshape(10,1)

In [134]:
x

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [135]:
y = [0, 0, 0, 0, 1, 0, 1, 0 ,1, 1]

In [294]:
bias = np.ones(10).reshape(10,1)
__x = np.append(x, bias, axis = 1)

In [277]:
a = logistic_regression(x, y, 0.01)

Error: 5.777190082644626
Error: 0.9940407075349076
Error: 0.10600674406802137
Error: 0.0007928351246008452
beta> [[ 0.66217766]
 [-3.6953843 ]]


In [303]:
0.6621*3 - 3.69

-1.7037

In [304]:
 0.66217766*4-3.69

-1.04128936

# Comparar con el paquete Stats  de python

In [295]:
import statsmodels.api as sm
logmodel_STATS = sm.Logit(y, __x)

In [296]:
result = logmodel_STATS.fit()

Optimization terminated successfully.
         Current function value: 0.431012
         Iterations 6


In [298]:
print(result.summary2())

                        Results: Logit
Model:              Logit            Pseudo R-squared: 0.360   
Dependent Variable: y                AIC:              12.6202 
Date:               2018-10-23 04:56 BIC:              13.2254 
No. Observations:   10               Log-Likelihood:   -4.3101 
Df Model:           1                LL-Null:          -6.7301 
Df Residuals:       8                LLR p-value:      0.027807
Converged:          1.0000           Scale:            1.0000  
No. Iterations:     6.0000                                     
-----------------------------------------------------------------
          Coef.    Std.Err.      z      P>|z|     [0.025   0.975]
-----------------------------------------------------------------
x1        0.6622     0.4001    1.6551   0.0979   -0.1220   1.4464
const    -3.6956     2.2889   -1.6145   0.1064   -8.1818   0.7906



# Ejemplo con Scikit-learn

In [299]:
from sklearn import linear_model
logmodel_SCKT = linear_model.LogisticRegression()
logmodel_SCKT.fit(__x, y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [300]:
logmodel_SCKT.score(__x,y)

0.7

In [301]:
1-y.mean()

0.6

In [302]:
logmodel_SCKT.coef_

array([[ 0.29204035, -0.72217924]])

In [4]:
import numpy as np
a = np.array([[1, 2], [1, 4]])

In [5]:
a

array([[1, 2],
       [1, 4]])

In [6]:
np.shape(a)

(2, 2)

In [8]:
np.append(a, a, axis=1)

array([[1, 2, 1, 2],
       [1, 4, 1, 4]])

In [9]:
for i in range(0, 10):
    print(i)

0
1
2
3
4
5
6
7
8
9
