# Matemáticas tras la regresión logística

### Las tablas de contingencia

In [14]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt

In [15]:
datasets_dir = r'..\..\python-ml-course-master\datasets'

In [16]:
filepath = datasets_dir + os.sep + r"gender-purchase/Gender Purchase.csv"
data = pd.read_csv(filepath)
data.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [17]:
data.shape

(511, 2)

In [18]:
# Para enfrentar distintas variables dentro de una tabla.
contingency_table = pd.crosstab(data["Gender"], data["Purchase"])
contingency_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [19]:
contingency_table.sum(axis=1)

Gender
Female    265
Male      246
dtype: int64

In [20]:
contingency_table.astype("float").div(contingency_table.sum(axis=1), axis=0) * 100

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,40.0,60.0
Male,50.813008,49.186992


### Probabilidad condicionada 

* ¿Cual es la probabilidad de que un cliente compre un producto sabiendo que es un hombre?
* ¿Cual es la probabilidad de que un cliente compre un producto sabiendo que es una mujer?

In [21]:
from IPython.display import display, Math, Latex

In [22]:
display(Math(r'P(Purchase|Male) = \frac{Numero\ total\ de\ compras\ hechas\ por\ hombres}{Numero\ total\ de\ hombres\ del\ grupo} = \frac{Purchase\cap Male}{Male}'))
121/246

<IPython.core.display.Math object>

0.491869918699187

In [23]:
display(Math(r'P(No\ Purchase|Male) = 1-P(Purchase|Male)'))
125/246

<IPython.core.display.Math object>

0.508130081300813

In [24]:
display(Math(r'P(Female|Purchase) = \frac{Numero\ total\ de\ compras\ hechas\ por\ mujeres}{Numero\ total\ de\ compras} = \frac{Female\cap Purchase}{Purchase}'))
159/280

<IPython.core.display.Math object>

0.5678571428571428

In [25]:
display(Math(r'P(Male|Purchase)'))
121/280

<IPython.core.display.Math object>

0.43214285714285716

In [26]:
display(Math(r'P(Purchase|Male)'))
display(Math(r'NO\ P(Purchase|Male)'))
display(Math(r'P(Purchase|Female)'))
display(Math(r'NO\ P(Purchase|Female)'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

### Ratio de probabilidades

Cociente entre el caso de exito sobre los de fracaso en el suceso estudiado y para cada grupo.

In [27]:
display(Math(r'P_m = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es \ un \ hombre'))

display(Math(r'P_f = \ probabilidad\ de\ hacer\ compra\ sabiendo\ que\ es \ una\ mujer'))

display(Math(r'odds\in[0,+\infty]'))

display(Math(r'odds_{purchase,male} = \frac{P_m}{1-P_m} = \frac{N_{p,m}}{N_{\bar p, m}}'))

display(Math(r'odds_{purchase,female} = \frac{P_F}{1-P_F} = \frac{N_{p,f}}{N_{\bar p, f}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [6]:
# Probabilidad de hacer compra sabiendo que es un hombre
pm = 121/246
# Probabilidad de hacer compra sabiendo que es un hombre
pf = 159/265
odds_m = pm/(1-pm)
odds_f = pf/(1-pf)

Cualquier cociente de probabilidades se va a encontrar siempre entre 0 e infinito.
* Si el ratio es superior a uno es más probable el exito que el fracaso
* Si el ratio es 1 el exito y el fracaso son equiprobables
* Si es menor que 1, el fracaso es más probable que el éxito. Cuanto menor sea, menor será la probabilidad de éxito.

In [9]:
odds_ratio = odds_m / odds_f
odds_ratio

0.6453333333333335

Es mas probable que compre una mujer que un hombre

### La regresión logística desde la regresión lineal

In [28]:
display(Math(r'y = \alpha + \beta \cdot x'))
display(Math(r'(x,y)\in[-\infty, +\infty]^2'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [30]:
display(Math(r'Y\in\{0,1\}??'))
display(Math(r'P\in [0,1]'))
display(Math(r'X\in [-\infty,\infty]'))

display(Math(r'P = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

P es la probabilidad condicionada de éxito o de fracaso condicionada a la presencia de la variable X

In [31]:
display(Math(r'\frac{P}{1-P} = \alpha + \beta\cdot X\in [0,+\infty]'))

<IPython.core.display.Math object>

In [32]:
display(Math(r' ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))

<IPython.core.display.Math object>

In [33]:
display(Math(r'\begin{cases}\frac{P}{1-P}\in[0,1]\Rightarrow ln(\frac{P}{1-P})\in[-\infty,0]\\ \frac{P}{1-P}\in[1,+\infty]\Rightarrow ln(\frac{P}{1-P})\in[0, \infty]\end{cases}'))

<IPython.core.display.Math object>

In [34]:
display(Math(r' ln(\frac{P}{1-P}) = \alpha + \beta\cdot X'))
display(Math(r' \frac{P}{1-P} = e^{\alpha + \beta\cdot X}'))
display(Math(r' P = \frac{e^{\alpha+\beta\cdot X}}{1+e^{\alpha+\beta\cdot X}}'))
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\beta\cdot X)}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

* Si a+bX es muy pequeño (negativo), entonces P tiende a 0
* Si a+bX = 0, P = 0.5
* Si a+bX es muy grande (positivo), entonces P tiende a 1

### Regresión logística múltiple

In [35]:
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\sum_{i=1}^n\beta_i\cdot x_i)}}'))

<IPython.core.display.Math object>

In [36]:
display(Math(r' \vec{\beta} = (\beta_1,\beta_2,\cdots,\beta_n)'))
display(Math(r' \vec{X} = (x_1,x_2,\cdots,x_n)'))
display(Math(r' P = \frac{1}{1+e^{-(\alpha+\vec{\beta_i}\cdot \vec{X})}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>