# Las Matemáticas tras la regresión logística
## Las tablas de contingencia

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../datasets/gender-purchase/Gender Purchase.csv")
df.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [3]:
df.shape

(511, 2)

In [4]:
contingency_tables = pd.crosstab(df['Gender'], df['Purchase'])
contingency_tables

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [6]:
contingency_tables.sum(axis = 1)

Gender
Female    265
Male      246
dtype: int64

In [7]:
contingency_tables.sum(axis = 0)

Purchase
No     231
Yes    280
dtype: int64

In [8]:
contingency_tables.astype('float').div(contingency_tables.sum(axis = 1), axis = 0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


## Probabilidad condicional

- ¿Cuál es la probabilidad de que un cliente compre un producto si es un hombre?
- ¿Cuál es la probabilidad de que sabiendo que un cliente compra un producto sea mujer?

In [2]:
from IPython.display import display, Math, Latex

In [5]:
display(Math(r'P(Purchase|Male) = \frac{Numero\ total\ de\ compras\ hechas\ por\ hombres}{Numero\ total\ de\ hombres\ del\ grupo} = \frac{Purchase\cap Male}{Male}'))

<IPython.core.display.Math object>

$$P(Purchase|Male) = \frac{Numero\ total\ de\ compras\ hechas\ por\ hombres}{Numero\ total\ de\ hombres\ del\ grupo} = \frac{Purchase\cap Male}{Male}$$

In [6]:
121/246

0.491869918699187

$$P(Female|Purchase) = \frac{Numero\ total\ de\ compras\ hechas\ por\ mujeres}{Numero\ total\ de\ compras} = \frac{Female\cap Purchase}{Purchase}$$

In [7]:
159/280

0.5678571428571428

$$P(Male|Purchase)$$


In [8]:
1-159/280

0.43214285714285716

In [10]:
display(Math(r'P(Purchase|Male)'))
print(121/246)
display(Math(r'P(No\ Purchase|Male)'))
print(125/246)
display(Math(r'P(Purchase|Female)'))
print(159/265)
display(Math(r'P(No\ Purchase|Female)'))
print(106/265)

<IPython.core.display.Math object>

0.491869918699187


<IPython.core.display.Math object>

0.508130081300813


<IPython.core.display.Math object>

0.6


<IPython.core.display.Math object>

0.4


### Ratio de probabilidades
Cociente entre los casos de éxito sobre los de fracaso en el suceso estudiado y para cada grupo

In [14]:
display(Math(r'P_m = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es\ un\ hombre'))
display(Math(r'P_f = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es\ una\ mujer'))
display(Math(r'odds_{purchase,male} = \frac {P_m}{1-P_m}'))
display(Math(r'odds_{purchase,female} = \frac {P_f}{1-P_f}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [15]:
pm = 121/246
pf = 159/265
odds_m = pm/(1-pm)
odds_f = pf/(1-pf)

In [16]:
odds_m

0.9680000000000002

In [17]:
odds_f

1.4999999999999998

* SI EL RATIO ES SUPERIOR 1, ES MÁS PROBABLE EL EXITO QUE EL FRACASO
* SI EL RATIO ES IGUAL A 1, EXITO Y FRACASO SON EQUIPROBABLES
* SI EL RATIO ES MENOR A 1 EL FRACASO ES MÁS PROBABLE QUE EL EXITO, CUANTO MENOR EL RATIO, MENOR LA PROBABILIDAD DE EXITO

In [18]:
display(Math(r'odds_{ratio} = \frac{odds_{purchase, male}}{odds_{purchase, female}}'))

<IPython.core.display.Math object>

In [19]:
odds_r = odds_m/odds_f

In [20]:
odds_r

0.6453333333333335

## La regresion logística desde la regresión lineal
En la regresión lineal
$$ y = \alpha + \beta \cdot x $$
$$ (x,y)\in [-\infty, +\infty] $$

Mientras que en la logistica
$$ y\in\{0,1\} $$
$$ P\in [0,1] $$
$$ X\in [-\infty, +\infty] $$
$$ P = \alpha + \beta\cdot X $$
$P$ es la probabiblidad condicionada de exito o de fracaso condicionada a la presencia de la variable X

Si linealizamos no podriamos solucionar la clasificacion

$$ \frac{P}{1-P} = \alpha + \beta \cdot X $$

Si modelamos con la función logaritmo natural

$$ \ln{\frac{P}{1-P}} = \alpha + \beta \cdot X $$
$$ \begin{cases} \frac{P}{1-P}\in [0,1] \rightarrow \ln{\frac{P}{1-P}}\in [-\infty,0]\\ 
\frac{P}{1-P}\in [1,+\infty] \rightarrow \ln{\frac{P}{1-P}}\in [0,+\infty]
\end{cases}$$

Despejamos:
$$ \ln{\frac{P}{1-P}} = \alpha + \beta \cdot X$$
$$ \frac{P}{1-P} = e^{\alpha + \beta \cdot X} $$
$$ P = \frac{e^{\alpha + \beta \cdot X}}{1 + e^{\alpha + \beta \cdot X}} $$
$$ P = \frac{1}{1+e^{-(\alpha + \beta \cdot X)}} $$

## Regresión logística multiple

$$ P =  \frac{1}{1 + e^{-(\alpha + \sum_{i=1}^n \beta_i \cdot x_i)}} $$

De forma vectorial:

$$ \vec{\beta} = (\beta_{1},\beta_{2},\cdots,\beta_{n}) $$
$$ \vec{X} = (x_{1},x_{2},\cdots,x_{n}) $$
$$ P = \frac{1}{1 + e^{-(\alpha + \vec{\beta} \cdot \vec{X})}} $$