# Matemáticas en la regresión logística

## Las tablas de contingencia

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("../datasets/gender-purchase/Gender Purchase.csv")
df.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [4]:
contingency_table = pd.crosstab(df["Gender"], df["Purchase"])
contingency_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


### Sumar hombres y mujeres en total (Suma horizontal)

In [5]:
contingency_table.sum(axis = 1)

Gender
Female    265
Male      246
dtype: int64

### Sumar Sies o Noes en total (Suma vertical)

In [6]:
contingency_table.sum(axis = 0)

Purchase
No     231
Yes    280
dtype: int64

### Probabilidades de Si/No en mujeres y hombres

In [7]:
round(contingency_table.astype("float").div(contingency_table.sum(axis=1), axis = 0),2)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.51,0.49


## Probabilidad condicional

* ¿Cuál es la probabilidad de que un cliente compre un producto sabiendo que es un hombre?
* ¿Cuál es la probabilidad de que sabiendo que un cliente compra un producto sea mujer?

In [8]:
from IPython.display import display, Math, Latex

In [9]:
display(Math(r'P(Purchase|Male) = \frac{Numero\ total\ de\ compras\ hechas\ por\ hombres}{Numero\ total\ de\ hombres\ del\ grupo} = \frac{Purchase\cap Male}{Male}'))
round(121/246,2)

<IPython.core.display.Math object>

0.49

In [10]:
display(Math(r'P(No\ Purchase|Male) = 1-P(Purchase|Male)'))
round(125/246,2)

<IPython.core.display.Math object>

0.51

In [11]:
display(Math(r'P(Female|Purchase) = \frac{Numero\ total\ de\ compras\ hechas\ por\ mujeres}{Numero\ total\ de\ compras} = \frac{Female\cap Purchase}{Purchase}'))
round(159/280,2)

<IPython.core.display.Math object>

0.57

In [12]:
display(Math(r'P(Male|Purchase)'))
round(121/280,2)

<IPython.core.display.Math object>

0.43

In [13]:
display(Math(r'P(Purchase|Male)'))
print(round(121/246,2))
display(Math(r'P(NO\ Purchase|Male)'))
print(round(125/246,2))
display(Math(r'P(Purchase|Female)'))
print(round(159/265,2))
display(Math(r'P(NO\ Purchase|Female)'))
print(round(106/265,2))

<IPython.core.display.Math object>

0.49


<IPython.core.display.Math object>

0.51


<IPython.core.display.Math object>

0.6


<IPython.core.display.Math object>

0.4


### Ratio de probabilidades
Cociente entre los casos de éxito sobre los de fracaso en el suceso estudiado y para cada grupo

In [14]:
display(Math(r'P_m = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es \ un \ hombre'))
display(Math(r'P_f = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es \ una\ mujer'))
display(Math(r'odds\in[0,+\infty]'))
display(Math(r'odds_{purchase,male} = \frac{P_m}{1-P_m} = \frac{N_{p,m}}{N_{\bar p, m}}'))
display(Math(r'odds_{purchase,female} = \frac{P_F}{1-P_F} = \frac{N_{p,f}}{N_{\bar p, f}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [15]:
pm = 121/246
pf = 159/265
odds_m = round(pm/(1-pm),2)# 121/125
odds_f = round(pf/(1-pf),2)# 159/106

In [16]:
odds_m, odds_f

(0.97, 1.5)

* Si el ratio es superior a 1, es más probable el éxito que el fracas. Cuanto mayor es el ratio, más probabilidad de éxito en nuestro suceso.
* Si el ratio es exactamente igual a 1, éxito y fracaso son equiprobables (p=0.5)
* Si el ratio es menor que 1, el fracaso es más probable que el éxito. Cuanto menor es el ratio, menor es la probabilidad de éxito del suceso.

In [17]:
display(Math(r'odds_{ratio} = \frac{odds_{purchase,male}}{odds_{purchase,female}}'))

<IPython.core.display.Math object>

In [18]:
odds_r = odds_m/odds_f

In [19]:
odds_r

0.6466666666666666

In [20]:
1/odds_r# odds_f/odds_m

1.5463917525773196

### La regresión logística desde la regresión lineal

In [21]:
display(Math(r'y = \alpha + \beta \cdot x'))
display(Math(r'(x,y)\in[-\infty, +\infty]^2'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [22]:
display(Math(r'Y\in\{0,1\}??'))
display(Math(r'P\in [0,1]'))
display(Math(r'X\in [-\infty,\infty]'))

display(Math(r'P = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

P es la probabilidad condicionada de éxito o de fracaso condicionada a la presencia de la variable X

In [23]:
display(Math(r'\frac{P}{1-P} = \alpha + \beta\cdot X\in [0,+\infty]'))

<IPython.core.display.Math object>

In [24]:
display(Math(r' ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

In [25]:
display(Math(r'\begin{cases}\frac{P}{1-P}\in[0,1]\Rightarrow ln(\frac{P}{1-P})\in[-\infty,0]\\ \frac{P}{1-P}\in[1,+\infty]\Rightarrow ln(\frac{P}{1-P})\in[0, \infty]\end{cases}'))

<IPython.core.display.Math object>

In [26]:
display(Math(r' ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))
display(Math(r' \frac{P}{1-P} = e^{\alpha + \beta\cdot X}'))
display(Math(r' P = \frac{e^{\alpha+\beta\cdot X}}{1+e^{\alpha+\beta\cdot X}}'))
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\beta\cdot X)}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

* Si a+bX es muy pequeño (negativo), entonces P tiende a 0
* Si a+bX = 0, P = 0.5
* Si a+bX es muy grande (positivo), entonces P tiende a 1

### Regresión logística múltiple

In [28]:
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\sum_{i=1}^n\beta_i\cdot x_i)}}'))

<IPython.core.display.Math object>

In [29]:
display(Math(r' \vec{\beta} = (\beta_1,\beta_2,\cdots,\beta_n)'))
display(Math(r' \vec{X} = (x_1,x_2,\cdots,x_n)'))
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\vec{\beta_i}\cdot \vec{X})}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>