# Regresión logística 
* La regresión logística nos ayuda a clasificar nuestros registros en dos o más categorías: 
    * Predecir si un cliente aleatorio que entra en la tienda va a comprar un producto en particular basándonos en sus ingresos, género, historial de compras, historial de publicidad. 
    * Predecir si un equipo de fútbol va a ganar o perder un partido sabiendo el rival, los detalles del equipo, el tiempo que va a hacer, la alineación, el estadio, las horas de entreno. 


# Lineal vs Logística
* Variables predictoras: ambas son numéricas contínuas y categóricas. 
* Predicciones: en la lineal (numéricas contínuas) y en la logística (categóricas). 
* Relación: en la lineal (lineal) y en la logística (lineal con una transformación). 

# Las matemáticas detrás de la regresión logística. 
## Las tablas de contingencia

In [1]:
import pandas as pd 

In [3]:
df = pd.read_csv("../datasets/gender-purchase/Gender Purchase.csv")
df.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [4]:
df.shape

(511, 2)

In [6]:
contingency_table = pd.crosstab(df["Gender"], df["Purchase"])
contingency_table
#106 mujeres no compraron, 159 sí compraron 
#125 hombres no compraron, 121 sí compraron 

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [10]:
contingency_table.sum(axis=1)
#suma por filas

Gender
Female    265
Male      246
dtype: int64

In [11]:
contingency_table.sum(axis=0)
#suma por columnas 

Purchase
No     231
Yes    280
dtype: int64

In [13]:
#se pueden calcular las proporciones (%)
contingency_table.astype("float").div(contingency_table.sum(axis=1), axis=0)
#dividir cada una de las filas por la suma total 

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


In [14]:
#aquí están las probabilidades de que compren o no compren


## La probabilidad condicional 

In [15]:
from IPython.display import display, Math, Latex 

* ¿Cuál es la probabilidad de que un cliente compre un producto si es un hombre?
* ¿Cuál es la probabilidad de que sabiendo que un cliente compra el producto sea mujer? 

In [20]:
display(Math(r'P(Purchase|Male)=\frac{Número\ total \ de\ compras\ hechas\ por\ hombres}{Número\ total\ de\ hombres\ del\ grupo}= \frac{Purchase\cap Male}{Male}'))

<IPython.core.display.Math object>

In [22]:
#compre un producto si es hombre
121/246 

0.491869918699187

In [23]:
display(Math(r'P(Female|Purchase)=\frac{Número\ total \ de\ compras\ hechas\ por\ mujeres}{Número\ total\ de\ compras}= \frac{Female\cap Purchase}{Purchase}'))

<IPython.core.display.Math object>

In [25]:
#si alguien compra que sea mujer
159/280

0.5678571428571428

## Cociente o Ratio de probabilidades
Cociente entre los casos de éxito sobre los de fracaso en el suceso estudiado y para cada grupo. 

In [37]:
display(Math(r'P_m= \ probabilidad \ de \ hacer \ compra \ sabiendo \ que \ es \ un \ hombre'))
display(Math(r'P_f= \ probabilidad \ de \ hacer \ compra \ sabiendo \ que \ es \ una \ mujer'))
display(Math(r'odds_{purchase,male}=\frac{P_m}{1-P_m}=\frac{N_{p,m}}{N_{\bar p, m}}'))
display(Math(r'odds_{purchase,female}=\frac{P_f}{1-P_f}=\frac{N_{p,f}}{N_{\bar p, f}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [34]:
pm= 121/246
pf=159/265
odds_m =pm/(1-pm) #121/125 
odds_f = pf/(1-pf) #159/106 


In [35]:
odds_m

0.9680000000000002

In [36]:
odds_f

1.4999999999999998

* Si el ratio es superior a 1, es más probable el éxito que el fracaso. 
* Si el ratio es exactamente igual a 1, éxito y fracaso son equiprobables (p=0.5)
* Si el ratio es menor que 1, el fracaso es más probable que el éxito, cuanto menor es el ratio, menor es la probabilidad de éxito del suceso. 

In [41]:
display(Math(r'odds_{ratio}=\frac{odds_{purchase,male}}{odds_{purchase,female}}'))

<IPython.core.display.Math object>

In [42]:
odds_r = odds_m/odds_f
odds_r
#el de abajo gana el de arriba por lo tanto las mujeres compran más 
#el de mujer es más pro

0.6453333333333335

# La regresión logística desde la regresión lineal 

In [45]:
display(Math(r' y=\alpha + \beta \cdot x'))
display(Math(r' (x,y)\in[-\infty, +\infty]^2'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [49]:
display(Math(r'y\in\{0,1\}'))
display(Math(r'P\in[0,1]'))
display(Math(r' X\in[-\infty, +\infty]'))
display(Math(r' y=\alpha + \beta \cdot x'))


<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

P es la probabilidad condicionada de éxito o fracaso condicionada a la presencia de la variable X 

In [50]:
display(Math(r' \frac{P}{1-P}=\alpha + \beta \cdot x'))

<IPython.core.display.Math object>

In [51]:
display(Math(r' ln{\frac{P}{1-P}}=\alpha + \beta \cdot x'))

<IPython.core.display.Math object>

In [53]:
display(Math(r' P=\frac{1}{1+e^{-(\alpha+\beta\cdot X)}}'))

<IPython.core.display.Math object>

* Si a+bX es muy pequeño (negativo), entonces P tiende a 1
* Si a+bx=0, P=0.5
* Si a+bx es muy grande (positivo), entonces P tiene a 1

# Regresión logística múltiple 

In [55]:
display(Math(r' P=\frac{1}{1+e^{-(\alpha+\sum_{i=1}^n\beta\cdot x_i)}}'))

<IPython.core.display.Math object>

In [59]:
display(Math(r' \vec{\beta}= (\beta_1, \beta_2, c\dots, \beta_n) '))
display(Math(r' \vec{X}= (x_1, x_2, c\dots, x_n) '))
display(Math(r' P=\frac{1}{1+e^{-(\alpha+\vec{\beta_i}\cdot \vec{X})}} '))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>