# Las matemáticas tras la regresión logística

**Explicación R. Logística ->** https://www.notion.so/Regresi-n-log-stica-ecfa67a9b1db4381af4cfe57b1a66d49

**Índice:**

0. Preparación previa
1. Las tablas de **contingencia**
2. La probabilidad **condicional**
3. Método de la **Máxima Verosimilitud**

# 0. Preparación previa

In [99]:
import pandas as pd
import numpy as np
from IPython.display import display, Math, Latex #Para incrustar fórmulas matemáticas

In [68]:
mainpath = "/Users/irene/Documents/GitHub/python-ml-course/datasets"  #Ruta ficheros
filename = "gender-purchase/Gender Purchase.csv" #Fichero a abrir
fullpath = mainpath + "/" + filename #Ruta completa

df = pd.read_csv(fullpath)
df.head(3)

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No


In [69]:
df.shape #Tamaño dataset

(511, 2)

# 1. Las tablas de contingencia

In [70]:
contingency_table = pd.crosstab(df["Gender"], df["Purchase"]) #Contabiliza el reparto de muestras
contingency_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [71]:
total_x = contingency_table.sum(axis = 0) #Total del eje x
total_y = contingency_table.sum(axis = 1) #Total del eje y 

total_x, total_y

(Purchase
 No     231
 Yes    280
 dtype: int64,
 Gender
 Female    265
 Male      246
 dtype: int64)

In [72]:
#Calculamos la proporción sobre el total
contingency_table.astype("float").div(total_y, axis = 0) #Cada valor entre el total de Género (eje y)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


# 2. La probabilidad condicional

Diferentes formas de plantearla:

**EJ 1.** ¿Cuál es la P de que un cliente **compre** un producto sabiendo que es un **hombre**?

* **Hecho certero:** es un hombre
* **A averiguar:** si compra

**EJ 2.** ¿Cuál es la P de que sabiendo que un cliente **compra** un producto sea **mujer**?

* **Hecho certero:** compra
* **Duda:** si es mujer

## 2.1. Fórmula matemática de la P condicionada:

In [73]:
display(Math(r'P(Duda|Certeza) = \frac{Casos\ favorables}{Casos\ posibles\ (certeza)}'))
display(Math(r'P(Caso\ contrario) = (1- Probabilidad\ Anterior)'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [74]:
#P condicionada de EJ1:

display(Math(r'P(Purchase|Male) = \frac{Nº\ total\ de\ compras\ hechas\ por\ hombres}{Nº\ total\ de\ hombres\ del\ grupo} = \frac{Purchase\cap Male}{Male}'))

print("Hombres que compran / Total hombres = " + str(121/246))

<IPython.core.display.Math object>

Hombres que compran / Total hombres = 0.491869918699187


In [75]:
#Lo contrario

display(Math(r'P(No\ Purchase|Male) = 1-P(Purchase|Male)'))

print("Hombres que NO compran = " + str(1-(121/246)))

<IPython.core.display.Math object>

Hombres que NO compran = 0.5081300813008129


In [76]:
#P condicionada de EJ1:

display(Math(r'P(Female|Purchase) = \frac{Nº\ total\ de\ compras\ hechas\ por\ mujeres}{Nº\ total\ de\ compras} = \frac{Female\cap Purchase}{Purchase}'))

print("Mujeres que compran / Total compras = " + str(159/280))

<IPython.core.display.Math object>

Mujeres que compran / Total compras = 0.5678571428571428


In [77]:
#Lo contrario

display(Math(r'P(Male|Purchase)'))

print("Hombres que compran = " + str(1-(159/280)))

<IPython.core.display.Math object>

Hombres que compran = 0.43214285714285716


## 2.2. Ratio de probabilidades


odds (Ratio de P) = [Casos de éxito] / [Casos de fracaso] para cada grupo

* **odds > 1** -> el éxito es más probable que el fracaso. A mayor ratio (+ infinito), más P de éxito en nuestro suceso.
* **odds = 1** -> éxito y fracaso son equiprobables (p=0.5)
* **odds < 1** -> el fracaso es más probable que el éxito. A menor ratio (0), menor P de éxito del suceso.


Si dividimos 2 odds para comparar cuál tiene más P de éxito (compra):
odds_r = odds_m/odds_f

* **odds > 1** -> el numerador es más P para un suceso
* **odds = 1** -> numerador y denominador son equiprobables (p=0.5)
* **odds < 1** -> el denominador es más P para un suceso

In [80]:
display(Math(r'P_m = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es \ un \ hombre'))

display(Math(r'P_f = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es \ una\ mujer'))

display(Math(r'odds\in[0,+\infty]'))

print("Ratio P = P de que compre siendo un hombre / P de que no compre siendo hombre:")

display(Math(r'odds_{purchase,male} = \frac{P_m}{1-P_m} = \frac{N_{p,m}}{N_{\bar p, m}}'))

display(Math(r'odds_{purchase,female} = \frac{P_F}{1-P_F} = \frac{N_{p,f}}{N_{\bar p, f}}'))


<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

Ratio P = P de que compre siendo un hombre / P de que no compre siendo hombre:


<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [86]:
Npm = 121/246 #Compran siendo hombre / Total hombres 
Nnm = 125/246 #No compran siendo hombre / Total hombres 
Npf = 159/265 #Compran siendo mujer / Total mujeres 
Nnf = 106/265 #No compran siendo mujer / Total mujeres

odds_m = Npm / Nnm
odds_f = Npf / Nnf

odds_m, odds_f

#Ratio mujeres = + alto -> son más propensas a comprar que los hombres.

(0.968, 1.4999999999999998)

In [87]:
#Cuál de los dos tiene más P de éxito:

display(Math(r'odds_{ratio} = \frac{odds_{purchase,male}}{odds_{purchase,female}}'))

<IPython.core.display.Math object>

In [88]:
odds_r = odds_m/odds_f
odds_r #odds_r  < 1 -> el numerador es más probable

0.6453333333333334

# 3. Método de la Máxima Verosimilitud - manual

Existen funciones que hacen esto automáticamente. Lo desarrollamos desde 0 para entender qué hay dentro de esas funciones.

## Paso 1. Definimos la función de entorno L(b)

In [89]:
display(Math(r'L(\beta)=\sum_{i=1}^n P_i^{y_i}(1-Pi)^{y_i}'))

<IPython.core.display.Math object>

In [90]:
def likelihood(y, pi): #Y es la columna de 0,1
    import numpy as np
    total_sumatorio = 1
    sumatorio_in = list(range(1, len(y)+1))
    for i in range(len(y)):
        sumatorio_in[i] = np.where(y[i]==1, pi[i], 1-pi[i]) #En caso contrario (y=0) nos quedaremos con 1-pi
        total_sumatorio = total_sumatorio * sumatorio_in[i]
    return total_sumatorio

## Paso 2. Calcular las probabilidades Pi para cada observación

In [91]:
print("Pi es la simplificación de P(Xi), que es la Probabilidad para Xi:")
display(Math(r'P_i = P(x_i) = \frac{1}{1+e^{-\sum_{j=0}^k\beta_j\cdot x_{ij}}} '))

Pi es la simplificación de P(Xi), que es la Probabilidad para Xi:


<IPython.core.display.Math object>

In [92]:
#k era el num de columnas
#X mayúscula es el conjunto de puntos (Filas y columnas)
#B vector de todas las betas

def logitprobs(X,beta):
    import numpy as np
    n_rows = np.shape(X)[0]
    n_cols = np.shape(X)[1]
    pi=list(range(1,n_rows+1)) #Creamos un vector con el mismo nº de filas que el dataset
    expon=list(range(1,n_rows+1))
    for i in range(n_rows):
        expon[i] = 0
        for j in range(n_cols):
            ex=X[i][j] * beta[j]
            expon[i] = ex + expon[i]
        with np.errstate(divide="ignore", invalid="ignore"): #En caso de hacer una división imposible, la ignora
            pi[i]=1/(1+np.exp(-expon[i])) #exp es la e
    return pi

## Paso 3. Calcular la matriz diagonal W

In [93]:
display(Math(r'W= diag(P_i \cdot (1-P_i))_{i=1}^n'))

<IPython.core.display.Math object>

In [94]:
def findW(pi):
    import numpy as np
    n = len(pi) #n es la longitud de pi
    W = np.zeros(n*n).reshape(n,n) #Creamos una matriz de 0's con tamaño nxn 
    for i in range(n): #Sustituimos los valores de la diagonal
        print(i)
        W[i,i]=pi[i]*(1-pi[i])
        W[i,i].astype(float) #Lo pasamos a float
    return W

## Paso 4. Obtener la solución de la función logística

Invocamos al método de Newton-Rhapson

In [95]:
display(Math(r"\beta_{n+1} = \beta_n -\frac{f(\beta_n)}{f'(\beta_n)}"))
display(Math(r"f(\beta) = X(Y-P)"))
display(Math(r"f'(\beta) = XWX^T")) #T es la inversa de la matriz X

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [96]:
def logistics(X, Y, limit): #limit = máx de iteraciones que queremos hacer
    import numpy as np
    from numpy import linalg #para hacer la matriz inversa
    nrow = np.shape(X)[0] #Calculamos las filas
    bias = np.ones(nrow).reshape(nrow,1) #Matriz con todo 1's, sólo una columna, n filas.
    X_new = np.append(X, bias, axis = 1) #Añadimos a una matriz la columna de 1's que sirve para cálculos adicionales
    ncol = np.shape(X_new)[1] #Calculamos las columnas
    beta = np.zeros(ncol).reshape(ncol,1) #Creamos una columna de 0's
    root_dif = np.array(range(1,ncol+1)).reshape(ncol,1) #Guardamos las diferencias de las raíces
    iter_i = 10000 #Nº de iteraciones
    while(iter_i>limit): #Mientras que el num de iteración sea superior al límite
        print("Iter:i"+str(iter_i) + ", limit:" + str(limit))
        pi = logitprobs(X_new, beta)
        print("Pi:"+str(pi))
        W = findW(pi)
        print("W:"+str(W)) #Aquí ya tenemos el vector X, la Y, la P y la W, ahora calculamos:
        #Hacemos tantos transpose pq los vectores vienen en filas, los necesitamos en columnas para poder multiplicar
        #Todos tienen que ser el mismo tipo de dato
        num = (np.transpose(np.matrix(X_new))*np.matrix(Y - np.transpose(pi)).transpose()) #Numerador, producto matricial
        den = (np.matrix(np.transpose(X_new))*np.matrix(W)*np.matrix(X_new)) #Denominador
        root_dif = np.array(linalg.inv(den)*num) #Hacemos la inversa del denominador
        beta = beta + root_dif
        print("Beta: "+str(beta))
        iter_i = np.sum(root_dif*root_dif) #Seguimos iterando hasta que haya algo de cambio
        ll = likelihood(Y, pi)
    return beta

## X. Comprobación experimental

Creamos un vector, para saber la forma que tienen los datos

In [100]:
X = np.array(range(10)).reshape(10,1) #Rango 10, enformato 10 filas, 1 columna
Y = [0,0,0,0,1,0,1,0,1,1] #Creamos a mano el vector de Y's
X

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [101]:
bias = np.ones(10).reshape(10,1) #Creamos otra columan de 1's
X_new = np.append(X,bias,axis=1) #Se la apendizamos a X
X_new

array([[0., 1.],
       [1., 1.],
       [2., 1.],
       [3., 1.],
       [4., 1.],
       [5., 1.],
       [6., 1.],
       [7., 1.],
       [8., 1.],
       [9., 1.]])

In [102]:
a = logistics(X,Y,0.00001) #Llamamos a la función

#Al final está la respuesta
Y = 0.66220827 * X -3.69557172

Iter:i10000, limit:1e-05
Pi:[array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5]), array([0.5])]
0
1
2
3
4
5
6
7
8
9
W:[[0.25 0.   0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.25 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.25 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.25 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.   0.25 0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.25 0.   0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.25 0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.25 0.   0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.   0.25 0.  ]
 [0.   0.   0.   0.   0.   0.   0.   0.   0.   0.25]]
Beta: [[ 0.43636364]
 [-2.36363636]]
Iter:i5.777190082644626, limit:1e-05
Pi:[array([0.08598797]), array([0.12705276]), array([0.18378532]), array([0.2583532]), array([0.35019508]), array([0.45467026]), array([0.56329497]), array([0.66616913]), array([0.75533524]), array([0.826