# Regresión Logística

## 1. Introducción teórica a la regresión logística

### 1.1. Ecuaciones

La regresión logística es un método supervisado de clasificación que está basado en la regresión lineal. El objetivo de este método es obtener a partir de un predictor que puede tomar cualquier rango de valores, una predicción de tipo dicotómica (clasificación), para ello es necesario tranformar la ecuación de la regresión para que en vez de obtener un resultado cuantitativo continuo, nos de una variable binaria.

> *Indicar que aunque es un método de clasificación con un resultado binario, la regresión logística lo que en verdad nos dice es la probabilidad de pertenecer a un grupo u otro, y en base a esa probabilidad podremos establecer un umbral (threshold) que defina a que clase pertenece cada observación.*

Aunque en primera instancia se puede pensar que para realizar este ejercicio se podría utilizar una regresión lineal en la que los resultados estuvieran dicotomizados entre 0 y 1, al modelizar esta recta de regresión, la cual por su naturaleza tiene un dominio $f(x) \in [-\infty, +\infty]$, podríamos encontrar valores o probabilidades negativas o por encima de uno en los valores extremos, lo cual matemáticamente sería incorrecto si estamos tratando de obtener una probabilidad.

Para resolver este problema, se le hace una serie de tranformaciones a la ecuación de regresión lineal para que su dominio siempre pertenezaca al intervalo $f(x) \in [0, 1]$. Esta tranformación relaciona el concepto de probabilidad de ocurrencia de un suceso, con la ecuación de la recta.

La probabilidad de que ocurra un suceso se define como la razón entre los sucesos favorables y los sucesos totales:

\begin{align}
P(y = suceso\ favorable \ |\ x) = \frac{sucesos\ favorables}{sucesos\ totales}\qquad P \in [0, 1]
\end{align}

La razón de probabilidad (odds ratio) de un suceso favorable se define como el ratio entre la probabilidad del suceso favorable y la probabilidad del suceso desfavorable (1-P):

\begin{align}
odds = \frac{P}{1-P}\qquad odds \in [0, +\infty]
\end{align}

Dado que en este momento nos encontramos trabajando en el rango $[0, +\infty]$, aplicamos a la expresión anterior la función *logit*, que consiste en aplicar el logaritmo natural de la razón de probabilidad. Dado que el logaritmo neperiano de 0 tiene al valor infinito negativo, ya tendríamos el rango buscado:

\begin{align}
ln(odds) = ln\Bigl(\frac{P}{1-P}\Bigr)\qquad ln(odds) \in [-\infty, +\infty]
\end{align}

Una vez tenemos ambas expresiones en el mismo rango $[-\infty, +\infty]$, podemos relacionar el log of odds con la ecuación de la regresión lineal:

\begin{align}
ln\Bigl(\frac{P}{1-P}\Bigr) = \beta_0 + \beta_1 x \ \Rightarrow \ P = \hat{y} = \frac{1}{1+e^{-(\beta_0 + \beta_1 x)}}
\end{align}

Tenemos por lo tanto una predicción que sigue la forma de una función denominada logística o sigmoide. Para esta función, cuando los valores de $x$ son muy grandes, el término $e^{-(\beta_0 + \beta_1 x)}$ tiende a 0, por lo que la probabilidad o predicción tenderá a 1; y en caso de que el denominador sea pequeño, la función tenderá a 0.

En el caso de trabajar con una regresión logística múltiple el proceso sería muy parecido, solo que los términos $X$ y $\beta$ serán vectores.

\begin{align}
P = \hat{y} = \frac{1}{1+e^{-(\beta_0 + \sum \beta_p x_{np})}} = \frac{1}{1+e^{-(X \beta)}}
\end{align}

### 1.2. Coeficientes

Una vez se ha definido la ecuación predictora del modelo, es necesario estimar los coeficines $\alpha$ y $\beta$. Estos parámetros se pueden obtener mediante el método de la máxima verosimiliutd (ML - Maximum Likelihood) o por el algoritmo del gradiente descendente. En este notebook se explicará el primero de ellos.

El objetivo del método de la máxima verosimilitud, es obtener unos valores estimados de $\hat{\alpha}$ y $\hat{\beta}$ que introducidos en el modelo de predicción $\hat{y}$ nos den un valor lo más cercano a 1 para aquellos valores del dataset que vienen con valor 1,  y un valor cercano a 0 para aquellos registros del dataset con la variable dependiente igual a 0. Esto anterior se puede formalizar usando una ecuación matemática denominada función de verosimilitud (likelihood function):

\begin{align}
L(\alpha, \beta) = \prod P(x_i)^{y_i}(1-P(x_i))^{1-y_i}
\end{align}

Tomando logaritmos en la expresión anterior para simplificarla y sustituyendo $P(x_i)$:

\begin{align}
l = ln(L(\alpha, \beta)) = \sum_{i=1}^{n} -ln(1+e^{X\beta}) + y_i(\beta_0 + \sum_{j=p}^{n} \beta_j X_{ij})
\end{align}

Para buscar los estimadores de máxima verosimilutd se deriva la expresión y se iguala a cero. Para unir las dos expresiones siguientes en una única, se igual el coeficiente $\alpha$ a uno nuevo denominado $\beta_0$, y se añade un término nuevo $x_{i0}$ = 1:

\begin{align}
\frac{\partial l}{\partial \alpha} = \sum(y_i - P(x_i)) = 0 \ ;\quad
\frac{\partial l}{\partial \beta_j} = \sum (y_i - P(x_i))x_{ij} = 0\quad \rightarrow \quad
\frac{\partial l}{\partial \beta} = \sum (y_i - P(x_i))x_{ij} = X· (y_i - P(x_i)) = 0
\end{align}

Como el resultado de las derivadas pueden ser una serie de ecuaciones que no tengan una solución sencilla, se puede recurrir al método de Newton-Raphson. Este algoritmo permite encontrar aproximaciones de los ceros o raíces de una función real y también puede ser usado para encontrar el máximo o mínimo de una función, encontrando los ceros de su primera derivada.

\begin{align}
\beta_{n+1} = \beta_n - \varDelta \beta \quad \rightarrow \quad
\varDelta \beta = \frac{f(\beta)}{f'(\beta)} = \frac{\frac{\partial l}{\partial \beta}}{\frac{\partial^2 l}{\partial \beta^2}} = 
(XWX^T)·(X(y-P_i)) \quad \rightarrow \quad W(\beta) = diag(P(x_i)(1-P(x_i)))
\end{align}

## 1.3. Evaluación del modelo

## 2. Regresión logística - statsmodel

statsmodels es una librería de Python que proporciona clases y funciones para la estimación de muchos modelos estadísticos diferentes, así como para realizar pruebas estadísticas y exploración de datos estadísticos.

Este paquete permite obtener datos estadísticos y las bondades de ajuste de una regresión logística y también permite analizar que variables tienen más peso en el ajuste del modelo.

In [14]:
## Importamos librerias
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.api as sm

Para este ejercicio vamos a utilizar un dataset con información bancaria, el cual ha sido limpiado y dumificado previamente para utilizar en este notebook.

In [2]:
## Cargamos el fichero de trabajo
mainpath = "C:/Users/gmachin/Desktop/Developer/apuntes-notebooks/datasets"
filename = "/bank/bank.csv"
fullpath = mainpath + filename

df_bank = pd.read_csv(fullpath)

df_bank.head(3)

Unnamed: 0,age,duration,campaign,pdays,previous,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,...,month_oct,month_sep,day_of_week_fri,day_of_week_mon,day_of_week_thu,day_of_week_tue,day_of_week_wed,poutcome_failure,poutcome_nonexistent,poutcome_success
0,30,487,2,999,0,-1.8,92.893,-46.2,1.313,5099.1,...,0,0,1,0,0,0,0,0,1,0
1,39,346,4,999,0,1.1,93.994,-36.4,4.855,5191.0,...,0,0,1,0,0,0,0,0,1,0
2,25,227,1,999,0,1.4,94.465,-41.8,4.962,5228.1,...,0,0,0,0,0,0,1,0,1,0


Una vez tenemos el dataset cargado, definimos las variables predictoras $X$, y la variable dependiente o a predecir $y$.

In [3]:
## Los predictores serán todas las columnas de la tabla menos la columna 'y'
X = df_bank.drop(['y'], axis = 1)

## En este dataset ya viene la columna a predecir nombrada con la letra 'y'
y = df_bank[['y']]

**Elección de predictores:**

El próximo paso es decidir de entre las 58 variables predictoras que contiene este dataset, cuales tendrán más peso en el modelo. Para ello se emplea la funcion `.RFE` (Recursive Feature Elimination) de la librería `scikit-learn`.

La eliminación de características recursivas (RFE) se basa en la idea de construir repetidamente un modelo y elegir las características con mejor o peor desempeño, dejando a un lado la característica y luego repitiendo el proceso con el resto de las características. Este proceso se aplica hasta que se agoten todas las características del conjunto de datos. El objetivo de RFE es seleccionar características considerando recursivamente conjuntos de características cada vez más pequeños.

In [None]:
from sklearn import datasets                             
from sklearn.feature_selection import RFE                 ## Importamos la función RFE
from sklearn.linear_model import LogisticRegression       ## Importamos modelo de regresión logística

## Indicamos número de variables predictoras (libre albedrío)
n = 12

## Creamos un objeto de regresión logística
lr = LogisticRegression()

## Creamos un objeto rfe e indicamos como parámetros que es una regresión logística, y el número de predictores
rfe = RFE(lr, n)

## Alimentamos el modelo rfe con los valores de X y de y
rfe = rfe.fit(X, y.values.ravel())

Mediante la función `.support_` del objeto `rfe` creado, se puede obtener que predictores son los mejores para realizar la regresión logística:

In [5]:
print(rfe.support_)

[False False False False  True False False False  True False False False
  True False False False  True False False False False False False False
 False False False False False False False False False False False False
 False False False False False False  True  True  True  True  True False
  True False False False False False False  True False  True]


También se puede obtener el ranking de los mejores predictores mediante la función `.ranking_`:

In [6]:
print(rfe.ranking_)

[34 40 18 42  1 14 27 25  1 38 22  3  1 35  2 36  1  5 30 33 12 45 19 39
 31 47 26 13 46 21 32  8 20  6 10 15  9 23 16  4 43 24  1  1  1  1  1 17
  1 44 37 28 41 29 11  1  7  1]


Para ver definitivamente que columnas se van a utilizar, podemos juntar las 3 listas anteriores: nombre de las columnas, resultado de la función `.support_` y resultado de la función `.ranking_`. Aquellas que tengan el valor True y el número 1 serán las incluídas en el modelo como predictores.

In [36]:
df_bank_vars = df_bank.columns.values.tolist()
z = zip(df_bank_vars, rfe.support_, rfe.ranking_)

list(z)

[('age', False, 34),
 ('duration', False, 40),
 ('campaign', False, 18),
 ('pdays', False, 42),
 ('previous', True, 1),
 ('emp.var.rate', False, 14),
 ('cons.price.idx', False, 27),
 ('cons.conf.idx', False, 25),
 ('euribor3m', True, 1),
 ('nr.employed', False, 38),
 ('y', False, 22),
 ('job_admin.', False, 3),
 ('job_blue-collar', True, 1),
 ('job_entrepreneur', False, 35),
 ('job_housemaid', False, 2),
 ('job_management', False, 36),
 ('job_retired', True, 1),
 ('job_self-employed', False, 5),
 ('job_services', False, 30),
 ('job_student', False, 33),
 ('job_technician', False, 12),
 ('job_unemployed', False, 45),
 ('job_unknown', False, 19),
 ('marital_divorced', False, 39),
 ('marital_married', False, 31),
 ('marital_single', False, 47),
 ('marital_unknown', False, 26),
 ('education_Basic', False, 13),
 ('education_High School', False, 46),
 ('education_Illiterate', False, 21),
 ('education_Professional Course', False, 32),
 ('education_University Degree', False, 8),
 ('education_U

In [17]:
## Creamos una lista con todas las columnas con valor True del modelo RFE
cols = ["previous", "euribor3m", "job_blue-collar", "job_retired", "month_aug", "month_dec", 
        "month_jul", "month_jun", "month_mar", "month_nov", "day_of_week_wed", "poutcome_nonexistent"]

X = df_bank[cols]
y = df_bank[["y"]]

**Modelo de regresión logística múltiple:**

Mediante la función `sm.Logit(y, X).fit()` de `statsmodel`, se puede obtener el modelo de regresión logística de una variable dependiente $y$ frente a las variables independientes $X$.

In [20]:
logit_model = sm.Logit(y, X).fit()

Optimization terminated successfully.
         Current function value: 0.291770
         Iterations 7


**Cálculo de los coeficientes:**

Una vez se ha creado el modelo, se puede obtener el valor de cada parámetro $\beta$ así como sus valores estadísticos. 

In [28]:
logit_model.params

previous               -0.122862
euribor3m              -0.604899
job_blue-collar        -0.503233
job_retired             0.223547
month_aug               0.604806
month_dec               1.135775
month_jul               1.032700
month_jun               1.077547
month_mar               1.644831
month_nov               0.382789
day_of_week_wed        -0.064885
poutcome_nonexistent   -0.775330
dtype: float64

**Análisis de la precisión del modelo:**



In [35]:
logit_model.summary()

0,1,2,3
Dep. Variable:,y,No. Observations:,4119.0
Model:,Logit,Df Residuals:,4107.0
Method:,MLE,Df Model:,11.0
Date:,"Tue, 19 May 2020",Pseudo R-squ.:,0.1554
Time:,19:57:13,Log-Likelihood:,-1201.8
converged:,True,LL-Null:,-1422.9
Covariance Type:,nonrobust,LLR p-value:,6.448999999999999e-88

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
previous,-0.1229,0.070,-1.755,0.079,-0.260,0.014
euribor3m,-0.6049,0.038,-15.788,0.000,-0.680,-0.530
job_blue-collar,-0.5032,0.152,-3.314,0.001,-0.801,-0.206
job_retired,0.2235,0.219,1.021,0.307,-0.206,0.653
month_aug,0.6048,0.176,3.437,0.001,0.260,0.950
month_dec,1.1358,0.449,2.528,0.011,0.255,2.016
month_jul,1.0327,0.191,5.407,0.000,0.658,1.407
month_jun,1.0775,0.175,6.149,0.000,0.734,1.421
month_mar,1.6448,0.314,5.241,0.000,1.030,2.260


## 3. Regresión logística - scikit-learn

In [None]:
from sklearn import linear_model

**Modelo de regresión lineal múltiple:**

In [None]:
## Crear un objeto de regresión lineal, lo llamamos lm:
logit_model = linear_model.LogisticRegression()

## Entrenamiento del modelo mediante el dataset:
logit_model.fit(X, y)

**Cálculo de los coeficientes:**

In [None]:
lm.coef_

**Análisis de la precisión del modelo:**

Podemos obtener el indicador de determinación $R^2$ mediante la función `lm.score(inputs, outputs)`:

In [None]:
logit_model.score(X, y)

Una vez se ha dado por bueno el modelo de predicción obtenido, también se pueden obtener las variables dependientes $\hat{y}_i$ a partir de las variables independientes $x_i$ mediante la función `lm.predict(df[['column_1', 'column_2', ...]])`:

In [None]:
# Relizar predicciones
y_pred = lm.predict(data_ads[['TV', 'Radio']])