In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../datasets/gender-purchase/Gender Purchase.csv")
df.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [3]:
contingency_table = pd.crosstab(df["Gender"], df["Purchase"])
contingency_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [4]:
contingency_table.sum(axis=1)

Gender
Female    265
Male      246
dtype: int64

In [5]:
contingency_table.sum(axis=0)

Purchase
No     231
Yes    280
dtype: int64

In [6]:
contingency_table.astype("float").div(contingency_table.sum(axis=1), axis=0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


# La probabilidad condicional

1. ¿Cuál es la pbb de que un cliente compré un producto si es un hombre?

$$ P(Purchase | Male) = \frac{Num\ total\ de\ compras\ hechas\ por\ hombres}{Num\ total\ de\ hombres\ del\ grupo} = \frac{Purchase \cap Male}{Male} $$

In [7]:
121 / (121+125)

0.491869918699187

2. ¿Cuál es la pbb de que un cliente compré un producto si es una mujer?
$$ P(Purchase | Female) = \frac{Num\ total\ de\ compras\ hechas\ por\ mujeres}{Num\ total\ de\ mujeres\ del\ grupo} = \frac{Purchase \cap Female}{Female} $$

In [8]:
159 / (159 + 106)

0.6

# Ratio de probabilidades

* Cociente entre los casos de éxito sobre los casos de fracasos en el suceso estudiado, y para cada grupo

$$ Odds = \frac{\pi}{1 - \pi} $$

- Si el ratio es $>1$ es más pbb el éxito que el fracaso.
- Si el ratio es $=1$ éxito y fracaso son equiprobables $ p = 0.5 $.
- Si el ratio es $<1$, fracaso es más probable que éxito.


In [9]:
# Pbb de hacer una compra siendo mujer
p_f = 159 / (159 + 106)
# pbb de hacer una compra siendo hombre
p_m = 121 / (121+125)

In [12]:
# Odds female
odds_f = p_f/(1-p_f)
print("Odds female: ", odds_f)
# Odds Male
odds_m = p_m/(1-p_m)
print("Odds male: ", odds_m)

Odds female:  1.4999999999999998
Odds male:  0.9680000000000002


$$ Odds_{ratio} = \frac{odds_{purchase, male}}{odds_{purchase, female}} $$

In [13]:
odds_r = odds_m / odds_f
print(odds_r)

0.6453333333333335


* Hombre son un 48% menos probable que las mujeres en realizar la compra del producto.

In [14]:
1/odds_r

1.5495867768595037

# La regresión logística desde la regresión lineal

$$ y = \alpha + \beta \cdot x $$

- Yo quiero modelar una probabilidad que toma valores entre 0 y 1, mientras $ y \in [-\infty, \infty] $, entonces, la manera de solucionar esto es modelar el logaritmo neperiano de los odds de la probabilidad.
- Recordemos que los $ \frac{\pi}{1 - \pi} \in [0, \infty]$, y si a esto aplicamos logaritmo, entonces, $ \ln(\frac{\pi}{1-\pi}) \in [-\infty, \infty] $ 

$$ \ln(\frac{\pi}{1-\pi}) = \alpha + \beta \cdot x $$



$$ \begin{cases} \frac{\pi}{1-\pi} \in [0,1] \rightarrow \ln(\frac{\pi}{1-\pi}) \in [-\infty, 0] \\ \frac{\pi}{1-\pi} \in [1,\infty] \rightarrow \ln(\frac{\pi}{1-\pi}) \in [0,\infty] \end{cases} $$

- Entonces, nosotros usaremos (podemos hacer los mínimos cuadrados perfectamente):
$$ \ln(\frac{\pi}{1-\pi}) = \alpha + \beta \cdot x $$

- Obtengamos las probabilidades:
$$ \frac{\pi}{1-\pi} = e^{\alpha + \beta \cdot x} $$
$$ \pi = \frac{e^{\alpha + \beta \cdot x}}{1+e^{\alpha + \beta \cdot x}} $$
- Versión descafeinada (dividir arriba y abajo por $e^{\alpha + \beta \cdot x}$):
$$ \pi = \frac{1}{1+e^{-(\alpha + \beta \cdot x)}} $$

Finalmente, 
* Si $\alpha + \beta \cdot x$ es muy pequeño (negativo), entonces, $\pi \sim 0$
* Si $\alpha + \beta \cdot x$ es muy grande (positivo), entonces, $\pi \sim 1$
* Si $\alpha + \beta \cdot x = 0$, entonces, $\pi = 0.5$

## Regresión logística múltiple

$$ \pi = \frac{1}{1+e^{-(\alpha + \sum \beta_i \cdot x_i)}} $$