# Las matemáticas tras la regresión logística

## Las tablas de contingencia

In [46]:
import pandas as pd

In [47]:
df = pd.read_csv('../datasets/gender-purchase/Gender Purchase.csv')
df.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [48]:
df.shape

(511, 2)

Una tabla de contingencia es básicamente una representación de las frecuencias de las observaciones que caen dentro de las diversas categorías para dos o más variables.

In [49]:
# crosstab() sirve para crurzar filas y columnas y obtener información de ellas
contingence_table = pd.crosstab(df['Gender'], df['Purchase'])
contingence_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [50]:
contingence_table.sum(axis=1)

Gender
Female    265
Male      246
dtype: int64

In [51]:
contingence_table.sum(axis=0)

Purchase
No     231
Yes    280
dtype: int64

In [52]:
contingence_table.astype('float').div(contingence_table.sum(axis=1), axis=0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


## La probabilidad condicional

La probabilidad condicional define la probabilidad de que un cierto suceso sea verdad o no sabiendo ciertas restricciones relacionadas con el evento que ya sabemos que están o no pasando.

In [53]:
from IPython.display import display, Math, Latex

¿Cuál es la probabilidad de que un cliente compre un producto sabiendo que es hombre?


In [54]:
display(Math(r'P(Purchase|Male) = \frac{Número\ total\ de\ compras\ hechas\ por\ hombres}{Número\ total\ de\ hombres\ del\ grupo} = \frac{Purchase\cap Male }{Male}'))
121/246

<IPython.core.display.Math object>

0.491869918699187

In [55]:
display(Math(r'P(No\ Purchase|Male) = 1-P(Purchase|Male)'))
125/246

<IPython.core.display.Math object>

0.508130081300813

¿Cuál es la probabilidad de que sabiendo que un cliente compra un producto es mujer?

In [56]:
display(Math(r'P(Female|Purchase) = \frac{Número\ total\ de\ compras\ hechas\ por\ mujeres}{Número\ total\ de\ compras} = \frac{Female\cap Purchase}{Purchase}'))
159/280

<IPython.core.display.Math object>

0.5678571428571428

In [57]:
display(Math(r'P(Male|Purchase)'))
121/280

<IPython.core.display.Math object>

0.43214285714285716

In [58]:
display(Math(r'P(Male|Purchase)'))
print(121/246)
display(Math(r'P(NO\ Purchase|Male)'))
print(125/246)
display(Math(r'P(Purchase|Female)'))
print(159/265)
display(Math(r'P(NO\ Purchase|Female)'))
print(106/265)

<IPython.core.display.Math object>

0.491869918699187


<IPython.core.display.Math object>

0.508130081300813


<IPython.core.display.Math object>

0.6


<IPython.core.display.Math object>

0.4


## Ratio de Probabilidades
El cociente entre los casos de éxito sobre los de fracaso en el suceso estudiado y para cada grupo.

In [69]:
display(Math(r'P_m = \ probabilidad\ de\ compra\ hecha\ por\ hombres'))
display(Math(r'P_f = \ probabilidad\ de\ compra\ hecha\ por\ mujeres'))
display(Math(r'odds\in[{0, +\infty}]'))
display(Math(r'odds_{purchase, male} = \frac{P_m}{1-P_m} = \frac{N_{p, m}}{N_{\bar p, m}}'))
display(Math(r'odds_{purchase, female} = \frac{P_f}{1-P_f}= \frac{N_{p, f}}{N_{\bar p, f}}'))


<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [63]:
pm = 121/246
pf = 159/265
# Ratio de los hombres
odds_m = pm/(1-pm) # 121/125
# Ratio de las mujeres
odds_f = pf/(1-pf) # 159/106

In [61]:
odds_m

0.9680000000000002

In [62]:
odds_f

1.4999999999999998

* Si el ratio es superior a 1, es más probable el éxito que el fracaso. Cuanto mayor es el ratio, más probabilidad de éxito en nuestro suceso
* Si el ratio es exactamente igual a 1, éxito y fracaso son equiprobables (p = 0.5)
* Si el ratio es menor que 1, el fracaso es más probable que el éxito. Cuanto menor es el ratio, menor es la probabilidad de éxito del suceso

Un modo de determinar cuál de los dos grupos es más probable de éxito:

In [70]:
display(Math(r'odds_{ratio} = \frac{odds_{purchase, male}}{odds_{purchase, female}}'))

<IPython.core.display.Math object>

In [72]:
odds_r = odds_m / odds_f
odds_r

0.6453333333333335

In [74]:
1 / odds_r # odds_f / odds_m 

1.5495867768595037

## De la regresión lineal a la logística