### Matemáticas tras la regresión logística
#### Tablas de contingencia

In [1]:
# Incluímos las librerías a emplear
import pandas as pd

In [3]:
# Importamos el DataFrame
df = pd.read_csv(r"D:\Curso-Jupyter-Notebook\MachineLearning\datasets\Gender Purchase.csv")
df.head() # Pre-visualización de la data

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [5]:
df.shape # Cantidad de datos

(511, 2)

In [7]:
# Generamos una tabla de contingencia para nuestro DataFrame
contingency_table = pd.crosstab(df["Gender"], df["Purchase"])
contingency_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [8]:
# Suma por columnas
contingency_table.sum(axis = 0)

Purchase
No     231
Yes    280
dtype: int64

In [9]:
# Suma por filas
contingency_table.sum(axis = 1)

Gender
Female    265
Male      246
dtype: int64

In [10]:
# Hallamos la proporción de los datos
contingency_table.astype("float").div(contingency_table.sum(axis = 1), axis = 0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


#### Probabilidad condicional

In [11]:
from IPython.display import display, Math, Latex

In [16]:
# Probabilidad de que un cliente compre un producto sabiendo que es hombre
display(Math(r'P(Purchase|Male) = \frac{Numero\ total\ de\ compras\ hechas\ por\ hombres}{Número\ total\ de\ hombres\ del\ grupo} = \frac{Purchase\cap Male}{Male}'))
print("Resultado: " + str(121/246))

<IPython.core.display.Math object>

Resultado: 0.491869918699187


In [19]:
# Probabilidad de que un cliente no compre un producto sabiendo que es hombre
display(Math(r'P(No\ Purchase|Male) = 1 - P(Purchase|Male)'))
print("Resultado: " + str(125/246))

<IPython.core.display.Math object>

Resultado: 0.508130081300813


In [17]:
# Probabilidad de que un cliente que a comprado un producto sea mujer
display(Math(r'P(Female|Purchase) = \frac{Numero\ total\ de\ compras\ hechas\ por\ mujeres}{Número\ total\ de\ compras} = \frac{Female\cap Purchase}{Purchase}'))
print("Resultado: " + str(159/280))

<IPython.core.display.Math object>

Resultado: 0.5678571428571428


In [20]:
# Probabilidad de que un cliente que a comprado un producto no sea mujer
display(Math(r'P(Male|Purchase)'))
print("Resultado: " + str(121/280))

<IPython.core.display.Math object>

Resultado: 0.43214285714285716


#### Ratio de probabilidades
Hallamos el cociente entre los casos de éxito sobre los de fracaso para cada grupo del suceso estudiado

In [23]:
display(Math(r'P_m =\ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es\ hombre'))
display(Math(r'P_f =\ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es\ mujer'))
display(Math(r'odds\in[0,+\infty]'))
display(Math(r'odds_{purchase, male} = \frac{P_m}{1-P_m} = \frac{N_{p, m}}{N_{\bar p, m}}'))
display(Math(r'odds_{purchase, female} = \frac{P_f}{1-P_f} = \frac{N_{p, f}}{N_{\bar p, f}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [24]:
Pm = 121/246 # Probabilidad de hacer compra sabiendo que es hombre
Pf = 159/265 # Probabilidad de hacer compra sabiedno que es mujer
odds_m = Pm/(1-Pm) # Ratio de hombres
odds_f = Pf/(1-Pf) # Ratio de mujeres

In [25]:
odds_m # Ratio de hombres

0.9680000000000002

In [26]:
odds_f # Ratio de mujeres

1.4999999999999998

In [27]:
# Compras realizadas por hombres / Compras realizadas por mujeres
display(Math(r'odds_{ratio} = \frac{odds_{purchase, male}}{odds_{purchase, female}}'))

<IPython.core.display.Math object>

In [28]:
odds_r = odds_m/odds_f
odds_r # Las mujeres son más propensas al éxito

0.6453333333333335

In [29]:
1/odds_r # Se verifica el resultado

1.5495867768595037

#### Regresión lógistica desde la regresión lineal

In [31]:
display(Math(r'y =\alpha + \beta \cdot x'))     # Modelo de regresión lineal
display(Math(r'(x, y)\in[-\infty, +\infty]^2')) # Límites de x & y

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [40]:
# Característica de los parámetros en un modelo de regresión lógistica
display(Math(r'Y\in\{0, 1\}')) # Y es 0 o 1
display(Math(r'P\in[0, 1]'))   # P: probabilidad a estimar
display(Math(r'X\in[-\infty, +\infty]^2')) # Límites de valores de X

# P: probabilidad condicionada de éxito o fracaso frente a la presencia de X
display(Math(r'P =\alpha + \beta \cdot X'))

# Comentarios:
# Si deseamos obtener un  Y igual únicamente a 0 o 1, empleando el modelo de
# regresión lineal, no será posible debido al rango de valores.

# Solución:
# Adaptar un modelo lineal igualado a probabilidades
# Realizamos el cociente de probabilidades
# Aplicamos logaritmo neperiano

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [34]:
# Como la regresión lineal va de -inf a +inf, hallamos el siguiente 
# cociente para obtener un valor que pertenece a ese rango
display(Math(r'\frac{P}{1-P} = \alpha + \beta\cdot X\in [0, +\infty]'))

<IPython.core.display.Math object>

In [35]:
# Mejoramos el modelo planteado
display(Math(r'ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

In [36]:
# Obtenemos el siguiente rango de probabilidades
display(Math(r'\begin{cases}\frac{P}{1-P}\in[0,1]\Rightarrow ln(\frac{P}{1-P})\in[-\infty,0]\\ \frac{P}{1-P}\in[1,+\infty]\Rightarrow ln(\frac{P}{1-P})\in[0, \infty]\end{cases}'))

<IPython.core.display.Math object>

In [37]:
# Despejamos la expresión anterior para hallar el valor P
display(Math(r' ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))
display(Math(r' \frac{P}{1-P} = e^{\alpha + \beta\cdot X}'))
display(Math(r' P = \frac{e^{\alpha+\beta\cdot X}}{1+e^{\alpha+\beta\cdot X}}'))
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\beta\cdot X)}}'))

# Comentarios:
# a + bx -> muy negativo -> P tiende a 0
# a + bx = 0 -> P = 0.5
# a + bx -> muy positivo -> P tiende a 1

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

#### Regresión logística múltiple

In [38]:
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\sum_{i=1}^n\beta_i\cdot x_i)}}'))

<IPython.core.display.Math object>

In [44]:
# Definimos la expresión en vectores
display(Math(r' \vec{\beta} = (\beta_1,\beta_2,\cdots,\beta_n)'))
display(Math(r' \vec{X} = (x_1,x_2,\cdots,x_n)'))
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\vec{\beta}\cdot \vec{X})}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

### Método de la máxima verosimilitud para la regresión logística

1. Definimos la función de entorno L(b)

In [50]:
display(Math(r'L(\beta)=\sum_{i=1}^n P_i^{y_i}(1-Pi)^{y_i}'))

<IPython.core.display.Math object>

In [42]:
def likelihood(y, pi):
    import numpy as np
    # Sumatorio
    total_sum = 1
    sum_in = list(range(1, len(y)+1))
    
    # Bucle del producto
    for i in range(len(y)):
        sum_in[i] = np.where(y[i] == 1, pi[i], 1-pi[i])
        total_sum = total_sum*sum_in[i]
    return total_sum

2. Calculamos las probabilidades para cada observación

In [43]:
display(Math(r'P_i = P(x_i) = \frac{1}{1+e^{-\sum_{j=0}^k\beta_j\cdot x_{ij}}}'))

<IPython.core.display.Math object>

In [53]:
def logitprobs(X, beta):
    import numpy as np
    
    # Número de filas y columnas
    n_rows = np.shape(X)[0]
    n_cols = np.shape(X)[1]
    
    # Creación de cada vector
    pi = list(range(1, n_rows+1))
    expon = list(range(1, n_rows+1))
    
    for i in range(n_rows):
        expon[i] = 0 # Suma inicial 0
        
        # Tantas sumas como número de columnas
        for j in range(n_cols):
            ex = X[i][j]*beta[j]   # Exponente
            expon[i] = ex+expon[i] # Sumatoria
            
        # Por si obtenemos algún error en los cálculos
        with np.errstate(divide = "ignore", invalid = "ignore"):
            pi[i] = 1/(1+np.exp(-expon[i])) # Expresión buscada
            
    return pi

3. Matriz diagonal W

In [46]:
display(Math(r'W = diag(P_i \cdot (1-P_i))_{i=1}^n'))

<IPython.core.display.Math object>

In [47]:
def findW(pi):
    import numpy as np
    
    n = len(pi) # Matriz de zeros
    W = np.zeros(n*n).reshape(n, n) # Redimencionamos el vector
    
    # Bucle de operación
    for i in range(n):
        print(i)
        W[i, i] = pi[i]*(1-pi[i])
        W[i, i].astype(float)
    return W

4. Solución de la función logística

In [51]:
display(Math(r"\beta_{n+1} = \beta_n -\frac{f(\beta_n)}{f'(\beta_n)}"))
display(Math(r"f(\beta) = X(Y-P)"))
display(Math(r"f'(\beta) = XWX^T"))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [54]:
# Invocamos el método de Newton-Raphson

# Variable de entrada, Vector de predicciones, número máximo de iteraciones
def logistics(X, Y, limit):
    import numpy as np
    from numpy import linalg # Permite hacer la inversa de una matriz
    
    nrow = np.shape(X)[0]                # Número de filas
    bias = np.ones(nrow).reshape(nrow, 1)
    X_new = np.append(X, bias, axis = 1) # Agregamos la columna bias
    ncol = np.shape(X_new)[1]            # Número de columnas
    
    # Cálculo de betas mediante Newton-Raphson
    beta = np.zeros(ncol).reshape(ncol, 1)
    root_dif = np.array(range(1, ncol+1)).reshape(ncol, 1)
    iter_i = 10000 # Número de iteraciones
    
    while(iter_i>limit):
        print("Iter:i"+str(iter_i) + ", limit:" + str(limit))
        
        pi = logitprobs(X_new, beta) # Hallamos las probabilidades a partir de X y beta
        print("Pi:"+str(pi))
        
        W = findW(pi) # Matriz W
        print("W:"+str(W))
        
        # Implementamos el método de Newton Raphson
        num = (np.transpose(np.matrix(X_new))*np.matrix(Y - np.transpose(pi)).transpose())
        den = (np.matrix(np.transpose(X_new))*np.matrix(W)*np.matrix(X_new))
        root_dif = np.array(linalg.inv(den)*num)
        beta = beta + root_dif
        print("Beta: "+str(beta))
        
        iter_i = np.sum(root_dif*root_dif)
        ll = likelihood(Y, pi)
        
    return beta

#### Comprobación experimental

In [55]:
# Incluímos las librerías a emplear
import numpy as np

In [56]:
# Creamos un vector columna de prueba
X = np.array(range(10)).reshape(10, 1)
X

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [57]:
Y = [0, 0, 0, 0, 1, 0, 1, 0, 1, 1] # Definimos nuestro clasificador Y
bias = np.ones(10).reshape(10, 1)  # Añadimos un bias a nuestro modelo
X_new = np.append(X, bias, axis = 1) # Añadimos bias a X
X_new

array([[0., 1.],
       [1., 1.],
       [2., 1.],
       [3., 1.],
       [4., 1.],
       [5., 1.],
       [6., 1.],
       [7., 1.],
       [8., 1.],
       [9., 1.]])

In [67]:
# Función logística
a = logistics(X, Y, 0.00001)

# Empezamos con los parámetros originales
# Vector de probabilidades
# Matriz W
# Valor de las Betas

Iter:i10000, limit:1e-05
Pi:[array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5])]
0
1
2
3
4
5
6
7
8
9
W:[[0.25 0.   0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.25 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.25 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.25 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.   0.25 0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.25 0.   0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.25 0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.25 0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.   0.25 0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.   0.   0.25]]
Beta: [[ 0.43636364]
 [-2.36363636]]
Iter:i5.777190082644626, limit:1e-05
Pi:[array([0.08598797]), array([0.12705276]), array([0.18378532]), array([0.2583532]), array([0.35019508]), array([0.45467026]), array([0.56329497]), array([0.66616913]), array([0.75533524]), array([0.826

In [61]:
ll = likelihood(Y, logitprobs(X, a))
ll # Array de información de la suma total

array([1.32688187e-06])

In [None]:
# Modelo obtenido
Y = 0.66220827 * X - 3.69557172

### Paquete stasmodel

In [62]:
# Incluímos las librerías a emplear
import statsmodels.api as sm
import pandas as pd
from pandas import Timestamp

In [64]:
Y = (Y - np.min(Y))/np.ptp(Y)
logit_model = sm.Logit(Y, X_new) # Declaramos el modelo logístico

In [65]:
result = logit_model.fit() # Creamos nuestro modelo logístico

Optimization terminated successfully.
         Current function value: 0.431012
         Iterations 6


In [66]:
print(result.summary2()) # Análisis de resultados

                        Results: Logit
Model:              Logit            Pseudo R-squared: 0.360   
Dependent Variable: y                AIC:              12.6202 
Date:               2022-01-03 04:22 BIC:              13.2254 
No. Observations:   10               Log-Likelihood:   -4.3101 
Df Model:           1                LL-Null:          -6.7301 
Df Residuals:       8                LLR p-value:      0.027807
Converged:          1.0000           Scale:            1.0000  
No. Iterations:     6.0000                                     
-----------------------------------------------------------------
          Coef.    Std.Err.      z      P>|z|     [0.025   0.975]
-----------------------------------------------------------------
x1        0.6622     0.4001    1.6551   0.0979   -0.1220   1.4464
const    -3.6956     2.2889   -1.6145   0.1064   -8.1818   0.7906

