# Las matemáticas tras la regresión logística
## Las tablas de contingencia

In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

In [2]:
df = pd.read_csv("../../../Machine Learning/python-ml-course-master/datasets/gender-purchase/Gender Purchase.csv")

In [4]:
df.shape

(511, 2)

In [5]:
contingency_table = pd.crosstab(df["Gender"], df["Purchase"])
contingency_table 

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [6]:
contingency_table.sum(axis=1)

Gender
Female    265
Male      246
dtype: int64

In [7]:
contingency_table.sum(axis=0)

Purchase
No     231
Yes    280
dtype: int64

In [8]:
contingency_table.astype("float").div(contingency_table.sum(axis=1), axis=0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


## La probabilidad condicional

In [14]:
from IPython.display import display, Math, Latex

* ¿Cuál es la probabilidad de que un cliente compre un producto sabiendo que es un hombre?
* ¿Cuál es la probabilidad de que sabiendo que un cliente compra un producto, que este sea mujer?

$ P(Purchase|Male) = \frac{Numero\ total\ de\ compras\ hechas\ por\ hombres}{Numero\ total\ de\ hombres\ del\ grupo} $

In [19]:
121/246

0.491869918699187

$ P(No Purchase|Male) = 1 - P(Purchase|Male) $

In [23]:
1-0.491869918699187

0.5081300813008129

$ P(Female|Purchase) = \frac{Numero\ total\ de\ compras\ hechas\ por\ mujeres}{Numero\ total\ de\ compras\ del\ grupo} = \frac{Female \cap Purchase}{Purchase}$

In [21]:
159/280

0.5678571428571428

$ P(No Female|Purchale) = 1 - P(Male|Purchase) $

In [25]:
121/280

0.43214285714285716

In [26]:
0.5678571428571428 + 0.43214285714285716

1.0

Las probabilidades más importantes entonces son:
* P(Purchase|Male) 121/246
* P(No purchase|Male) 125/246
* P(Purchase|Female) 159/265
* P(No purchase|Female) 106/265

### Ratio de probabilidades
Cociente entre los casos de éxito sobre los de fracaso en el suceso estudiado y para cada grupo.

El ratio puede ir desde 0 hasta más infinito:

$ odds\in[0, +\infty] $ 

* ${P_m} $ Es la probabilidad de hacer compra sabiendo que es un hombre.

$ odds_{purchase,male} = \frac{P_m}{1-P_m} = \frac{P_m}{N_\bar pm} = \frac{121}{126} $ 

* ${P_f} $ Es la probabilidad de hacer compra sabiendo que es una mujer. 

$ odds_{purchase,male} = \frac{P_f}{1-P_f} = \frac{P_f}{N_\bar pf} = \frac{159}{106} $



In [27]:
pm = 121 /246
pf= 159/265
odds_m = pm / (1-pm) # 121/126
odds_f = pf / (1-pf) # 159/106
odds_m, odds_f 

(0.9680000000000002, 1.4999999999999998)

* Si el ratio es superior a uno es más probable el éxito que el fracaso. Cuanto mayor, más probabilidad de éxito del suceso.
* Si el ratio es exactamente igual a 1, éxito y fracaso son equiprobables (p=0.5)
* Si el ratio es menor que uno el fracaso es más probable que el éxito. Cuanto menor, menos probabilidad de éxito del suceso.

$ odds_{ratio,global} = \frac{odds_{purchase,male}} {odds_{purchase,female}} $

In [30]:
odds_r = odds_m/odds_f
odds_r

1.5495867768595035

## La regresión logística desde la regresión lineal
* $ y = \alpha + \beta \cdot x $ 

* $ (x,y) \in[-\infty, +\infty]^2 $ 

Si ya nos movemos a las regresiones logísticas, la y ya no puede ser contínua, sinó que es discreta o binaria.

* $ y \in(0, 1)?? $ 
* $ X \in[-\infty, +\infty] $ 
* $ P \in[0, 1] $ -> Probabilidades que vaya desde 0 a 1
* $ P = \alpha + \beta \cdot X $ 

P es la probabilidad condicionada de éxito o fracaso condicionada a la presencia de la variable X el problema que surje es que P tiene que ir desde 0 a 1, por lo que se debe ajustar el modelo.

* $ P = \frac{P}{1-P} = \frac{\alpha + \beta \cdot X}{1 - \alpha - \beta \cdot X} \in[0, +\infty]  $ 

En este modelo, los rangos van desde 0 a infinito, por lo que todavía le falta trabajo al modelo. Para esto se hace uso del logaritmo neperiano. Se hace esto porque P, que es alpha + beta por X tiene un rango de menos infinito a más infinito, y es por ende que si aplicamos una transformación, se debe mantener el rango.

* $ P = \alpha - \beta \cdot X = ln(\frac{P}{1-P}) \in[-\infty, +\infty]  $ 

De esta manera:

$ \begin{cases}\frac{P}{1-P}\in[0,1]\Rightarrow ln(\frac{P}{1-P}) \in[-\infty, 0]\\\frac{P}{1-P}\in[1,+\infty]\Rightarrow ln(\frac{P}{1-P}) \in[0, +\infty]\end{cases} $ 

Si procedemos a despejar matemáticamente.
 
* $ ln(\frac{P}{1-P})={\alpha + \beta \cdot X} $


* $ \frac{P}{1-P}=e^{\alpha + \beta \cdot X} $


* $ P=\frac{e^{\alpha + \beta \cdot X}}{1+e^{\alpha + \beta \cdot X}} $


* $ P=\frac{1}{1+e^{-(\alpha + \beta \cdot X)}} $


* Si a + bx es muy pequeño (negativo), entonces P tiende a 0
* Si a + bx = 0, entonces P=0.5
* Si a + bx es muy grande (positivo), entonces P tiende a 1


## Regresión logística múltiple

* $ P=\frac{1}{1+e^{-(\alpha + \sum_{i=1}^n\beta_i \cdot X_i)}} $