# Las matemáticas tras la regresión logística
## Las tablas de contingencia

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv("../datasets/gender-purchase/Gender Purchase.csv")
df.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [4]:
df.shape

(511, 2)

Una **tabla de contingencia** es básicamente una representación de las frecuencias d elas observaciones que caen dentro de las diversas categorías para 2 o más variables. Viene en formato matricial. Conjunto de filas y columnas diciéndonos con qué frecuencia ocurre un determinado suceso en la diferente combinación de categorías para dos o más variables.

In [5]:
# Vamos a crear una tabla de contingencia para este dataset
contingency_table = pd.crosstab(df["Gender"], df["Purchase"])
contingency_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [6]:
# para saber número de elementos de cada categoría, axis = 1 para eje horizontal
contingency_table.sum(axis = 1) 

Gender
Female    265
Male      246
dtype: int64

In [7]:
# axis = 0, eje vertical (purchase en este caso)
contingency_table.sum(axis=0)

Purchase
No     231
Yes    280
dtype: int64

In [8]:
# calcular proporciones o porcentajes
contingency_table.astype("float").div(contingency_table.sum(axis=1), axis = 0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


## La probabilidad condicional

In [13]:
from IPython.display import display, Math, Latex

* ¿Cuál es la probabilidad de que un cliente compre un producto sabiendo que es un hombre?

In [18]:
display(Math(r'P(Purchase|Male) = \frac{Numero\ total\ de\ compras\ hechas\ por\ hombres\
}{Numero\ total\ de\ hombres\ del\ grupo} = \frac{Purchase\cap Male}{Male}'))

<IPython.core.display.Math object>

In [19]:
121/246

0.491869918699187

In [27]:
display(Math(r'P(No\ Purchase|Male = 1-P(Purchase|Male))'))
125/246

<IPython.core.display.Math object>

0.508130081300813

* ¿Cuál es la probabilidad de que sabiendo que un cliente compra un producto sea mujer?

In [23]:
display(Math(r'P(Female|Purchase) = \frac{Numero\ total\ de\ compras\ hechas\ por\ mujeres}{Numero\ total\ de\ compras} = \frac{Female\cap Purchase}{Female}'))

<IPython.core.display.Math object>

In [24]:
159/280

0.5678571428571428

In [28]:
display(Math(r'P(Male|Purchase)'))
121/280

<IPython.core.display.Math object>

0.43214285714285716

In [31]:
display(Math(r'P(Purchase|Male)'))
print(121/246)
display(Math(r'P(NO Purchase|Male)'))
print(125/246)
display(Math(r'P(Purchase|Female)'))
print(159/265)
display(Math(r'P(NO Purchase|Female)'))
print(106/265)

<IPython.core.display.Math object>

0.491869918699187


<IPython.core.display.Math object>

0.508130081300813


<IPython.core.display.Math object>

0.6


<IPython.core.display.Math object>

0.4


## Ratio de probabilidades

Cociente entre los casos de éxito sobre los de fracaso en el suceso estudiado y para cada grupo.

In [42]:
display(Math(r'P_m = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es\ un\ hombre'))
display(Math(r'P_f = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es\ una\ mujer'))
display(Math(r'odds\in[0, +\infty]'))
display(Math(r'odds_{purchase, male} = \frac{P_m}{1-P_m} = \frac{N_{p,m}}{N_{\bar p, m}}'))
display(Math(r'odds_{purchase, female} = \frac{P_f}{1-P_f} = \frac{N_{p,f}}{N_{\bar p, f}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [37]:
pm = 121/246
pf = 159/265
odds_m = pm/(1-pm) # 121/125
odds_f = pf/(1-pf) # 159/106

In [38]:
odds_m, odds_f

(0.9680000000000002, 1.4999999999999998)

* Si el ratio es superior a uno, es más probable el éxito que el fracaso. Cuanto mayor es el ratio, más probabilidad de éxito en nuestro suceso.
* si el ratio es exactamente igual a 1, éxito y fracaso son equiprobables (p=0.5)
* Si el ratio es menor que 1, el fracaso es más probable que el éxito. Cuanto menor es el ratio, menor es la probabilidad de éxito del suceso.

In [43]:
display(Math(r'odds_{ratio} = \frac{odds_{purchase, male}}{odds_{purchase, female}}'))

<IPython.core.display.Math object>

In [46]:
odds_r = odds_f/odds_m
odds_r

1.5495867768595035

## La regresión logística desde la regresión lineal

Regresión lineal:

In [47]:
display(Math(r'y = \alpha + \beta \cdot x'))
display(Math(r'(x,y)\in[-\infty, +\infty]^2'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [54]:
display(Math(r'y\in\{0,1\}'))
display(Math(r'P\in[0,1]'))
display(Math(r'X\in[-\infty, +\infty]'))
display(Math(r'P = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

P es la probabilidad condicionada de éxito o fracaso condicionada a la presencia de la variable X.

In [55]:
display(Math(r'\frac{P}{1-P} = \alpha + \beta\cdot X \in[0, +\infty]'))

<IPython.core.display.Math object>

In [56]:
display(Math(r'ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

In [58]:
display(Math(r'\begin{cases}\frac{P}{1-P}\in[0,1]\Rightarrow ln(\frac{P}{1-P})\in[-\infty, 0]\\ \frac{P}{1-P}\in[1,+\infty]\Rightarrow ln(\frac{P}{1-P})\in[0, \infty]\end{cases}'))

<IPython.core.display.Math object>

In [62]:
display(Math(r'ln(\frac{P}{1-P}) = \alpha + \beta \cdot X'))
display(Math(r'\frac{P}{1-P} = e^{\alpha + \beta \cdot X}'))
display(Math(r' P = \frac{e^{\alpha + \beta \cdot X}}{1+e^{\alpha + \beta \cdot X}}'))
display(Math(r' P = \frac{1}{1+e^{-(\alpha + \beta \cdot X)}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

* Si a+bX es muy pequeño(se supone negativo), entonces P tiende a 0
* Si a+bX es 0, entonces la probabilidad es exactamente 0.5
* Si a+bX es muy grande ( se entiende positivo), entonces P tiende a 1

## Regresión logística múltiple

In [63]:
display(Math(r' P = \frac{1}{1+e^{-(\alpha + \sum_{i=1}^n\beta \cdot x_i)}}'))

<IPython.core.display.Math object>

In [70]:
display(Math(r' \vec\beta = (\beta_1,\beta_2,\cdots,\beta_n)'))
display(Math(r' \vec X = (x_1,x_2,\cdots,x_n)'))
display(Math(r' P = \frac{1}{1+e^{-(\alpha + \vec{\beta_i} \cdot X)}} '))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>