# Las Matemáticas tras la Regresión Logistica

## Las Tablas de Contingencia

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../../ReposCurso/python-ml-course/datasets/gender-purchase/Gender Purchase.csv")
df.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [4]:
# Para ver cuantos registros hay
df.shape

(511, 2)

In [7]:
# Crearemos una tabla de contingencia en donde cruzamos los datos de las columnas Gender y Purchase
contingency_table = pd.crosstab(df["Gender"], df["Purchase"])
contingency_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [9]:
# Como ejemplo, podemos sumar la cantidad de hombres y mujeres que entraron en la tienda (suma horizontal axis = 1)
contingency_table.sum(axis = 1)

Gender
Female    265
Male      246
dtype: int64

In [10]:
# Para sumar cuantas personas NO compraron el producto y cuanta SI, hacemos una suma vertical (axis = 0)
contingency_table.sum(axis = 0)

Purchase
No     231
Yes    280
dtype: int64

In [14]:
# Calcularemos la proporción de hombres y mujeres que compraron y no compraron (primero trasformar a float).
# Se interpreta como que cada valor vertical (axis = 0), se divide por la suma de cada fila (axis = 1)
contingency_table.astype("float").div(contingency_table.sum(axis = 1), axis = 0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


## La Probabilidad Condicional

In [30]:
from IPython.display import display, Math, Latex  # Latex para escribir formulas matemáticas en el notebook

* 1.- Cuál es la probabilidad de que un cliente compre un producto sabiendo que es un hombre?
* 2.- Cuál es la probabilidad de que un cliente que compró un producto, sea mujer?

In [40]:
# Usando el lenguaje Latex, escribimos la fórmula que describe la pregunta 1.
display(Math(r'P(Purchase|Male) = \frac{Total\ Compras\ Hechas\ por\ Hombres}{Total\ de\ Hombres} = \frac{Purchase \cap Male}{Male}'))
# La respuesta:
121/246

<IPython.core.display.Math object>

0.491869918699187

In [38]:
# Escribimos en Latex la pregunta 2.
display(Math(r'P(Female|Purchase) = \frac{Total\ Compras\ Hechas\ por\ Mujeres}{Total\ de\ Compras} = \frac{Female \cap Purchase}{Purchase}'))
# La respuesta:
159/(159 + 121)

<IPython.core.display.Math object>

## Ratio de Probabilidades
Cociente entre los casos de éxito para cada grupo (ser hombre o mujer) entre la probabilidad de fracaso en el suceso estudiado.

In [55]:
display(Math(r'P_m = \ Probabilidad\ de\ Compra\ Sabiendo\ que\ es\ un\ Hombre'))
display(Math(r'P_f = \ Probabilidad\ de\ Compra\ Sabiendo\ que\ es\ una\ Mujer'))
display(Math(r'odds \in[0, +\infty]'))
display(Math(r'odds_{purchase, male} = \frac{P_m}{1 - P_m} = \frac{N_{p,m}}{N_{\bar p,m}}'))   
display(Math(r'odds_{purchase, female} = \frac{P_f}{1 - P_f} = \frac{N_{p,f}}{N_{\bar p,f}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [50]:
pm = 121/246
pf = 159/265
odds_m = pm/(1-pm) #125/125
odds_f = pf/(1-pf) #159/106

In [48]:
odds_m

0.9680000000000002

In [49]:
odds_f

1.4999999999999998

* Si el ratio es > 1, hay más probabilidades de éxito.
* Si el ratio es < 1, hay más probabilidades de fracaso.
* Si el ratio = 1, hay igual probabilidades de éxito que de fracaso (p = 0.5).

In [57]:
display(Math(r'odds_{ratio} = \frac{odds_{purchase,male}}{odds_{purchase,female}}'))

<IPython.core.display.Math object>

In [59]:
odds_r = odds_m / odds_f
odds_r

0.6453333333333335

Al ser < 1, el denominador es mayor al númerador, por lo tanto indica que mujeres son más propensas a realizar una compra.

## La Regresión Logística desde la Regresión Lineal

In [64]:
# Ecuacuón de la regresión lineal donde X e Y pueden tomar cualquier valor.
display(Math(r'y = \alpha + \beta \cdot x'))
display(Math(r'[x,y]\in [-\infty, +\infty]^2'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [97]:
# En la regresión logística, Y tiene que ser discreta, o sea tomar valores 0 o 1
display(Math(r'Y\in\{0,1\}'))
# Buscaremos la probabilidad de que un suceso ocurra, con P que responda 0 o 1
display(Math(r'P\in [0,1]'))
# X puede ser cualquier valor entre -inf y +inf
display(Math(r'X\in [-\infty, \infty]')) 
# Por lo tanto podríamos tratar de predecir la regresión logistica, adoptando un modelo lineal
display(Math(r'P = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

P es la probabilidad condicionada de éxito o de fracaso condicionada a la presencia de la variable X

In [98]:
display(Math(r'\frac{P}{1-P} = \alpha + \beta\cdot X\in [0, +\infty]'))

<IPython.core.display.Math object>

In [101]:
# P/(1-P) está entre 0 e infinito: Aplicamos logaritmo natural/neperiano, resultándonos la siguiente Ecuación.
display(Math(r'ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

In [102]:
display(Math(r'\begin{cases}\frac{P}{1-P}\in[0,1]\Rightarrow ln(\frac{P}{1-P}\in[-\infty,0] )\\ \frac{P}{1-P}\in[1,+\infty]\Rightarrow ln(\frac{P}{1-P}\in[0,\infty] )\end{cases}'))

<IPython.core.display.Math object>

In [124]:
# Para quitar el logaritmo de nuestra ecuación, aplicamos e
display(Math(r'1)\ \ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))
display(Math(r'2)\ \frac{P}{1-P} = e^{\alpha + \beta\cdot X}'))
display(Math(r'3)\ P = \frac{e^{\alpha + \beta \cdot X}}{1+e^{\alpha + \beta \cdot X}}'))
# Finalmente la ecuación queda:
display(Math(r'4)\ P = \frac{1}{1+e^{-(\alpha + \beta \cdot X)}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

* Si a + bX es muy pequeño (negativo), entonces P tiende a 1.
* Si a + bX = 0, P = 0.5
* Si a + bX es muy grande (positivo), entonces P tiende a 1.

### Regresión Logística Múltiple

In [127]:
display(Math(r'P = \frac{1}{1+e^{-(\alpha + \sum_{i=1}^n \beta_i \cdot x_i)}}'))

<IPython.core.display.Math object>

In [140]:
# Otra manera de obtener la P para regresión Logística Múltiple usando vectores.
display(Math(r' \vec \beta = (\beta_1, \beta_2,\cdots, \beta_n)'))
display(Math(r' \vec X = (x_1, x_2,\cdots, x_n)'))
display(Math(r'P = \frac{1}{1+e^{-(\alpha+\vec\beta_1\cdot \vec X)}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>