# Las tablas tras la regresión logística
## Las tablas de contingencia
Son representaciones de las frecuencias que hay en diversas categorías para 2 o más variables. Suelen venir en formato matricial

In [1]:
# Video 100

In [2]:
import pandas as pd

In [6]:
data = pd.read_csv('../datasets/gender-purchase/Gender Purchase.csv')
data.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [7]:
data.shape

(511, 2)

En este caso hay 4 combinaciones debido a las 2 categorías de hombre y mujer:
* Mujer compra
* Mujer no compra
* Hombre compra
* Hombre no compra

Para crear estas tablas de contingencia, se usa el método de pandas de crosstab(), se cruzan filas y columnas para obtener info de ellas y después realizar operaciones aritméticas:

In [8]:
# Tiene como parámetros las 2 variables
contingence_table = pd.crosstab(data['Gender'], data['Purchase'])
contingence_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [16]:
# Suma en horizontal
contingence_table.sum(axis = 1)

Gender
Female    265
Male      246
dtype: int64

In [17]:
# Suma en vertical
contingence_table.sum(axis = 0)

Purchase
No     231
Yes    280
dtype: int64

In [19]:
# Se dividen las filas entre la suma total de cada categoría para obtener las proporciones
# Primero se convierte a float y después se divide c/valor usando div()
# div(divisor, axis = horizontal o vertical) is used to find the floating division of the dataframe and other element-wise

contingence_table.astype('float').div(contingence_table.sum(axis = 1), axis = 0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


# Probabilidad condicional
* ¿Cuál es la probabilidad de que un cliente compre un producto sabiendo que es hombre?
* ¿Cuál es la probabilidad de que la persona que compra un producto sea mujer?

In [52]:
# Video 101

In [25]:
from IPython.display import Math, display, Latex

In [43]:
display(Math(r'P(Purchase\ |\ Male) = \frac{Total\ de\ compras\ hechas\ por\ hombres}{Total\ de\ hombres\ del\ grupo} = \frac{Purchase \cap Male}{Male}'))
121/246

<IPython.core.display.Math object>

0.491869918699187

In [44]:
display(Math(r'P(No\ Purchase\ |\ Male) = 1\ -\ P(Purchase\ |\ Male) '))
125/246

<IPython.core.display.Math object>

0.508130081300813

In [46]:
display(Math(r'P(Female\ |\ Purchase) = \frac{Total\ de\ compras\ hechas\ por\ mujeres}{Total\ de\ compras} = \frac{Female \cap Purchase}{Purchase}'))
159/280

<IPython.core.display.Math object>

0.5678571428571428

In [51]:
display(Math(r'P(Purchase\ |\ Female)'))
print(159/265)
display(Math(r'P(NO\ Purchase\ |\ Female)'))
print(106/265)
display(Math(r'P(Purchase\ |\ Male)'))
print(121/246)
display(Math(r'P(NO Purchase\ |\ Male)'))
print(125/246)

<IPython.core.display.Math object>

0.6


<IPython.core.display.Math object>

0.4


<IPython.core.display.Math object>

0.491869918699187


<IPython.core.display.Math object>

0.508130081300813


# Ratio de probabilidades
Cociente entre la probabilidad de éxito sobre la de fracaso en cada grupo del caso estudiado

In [53]:
# Video 102

In [67]:
display(Math(r'P_m = Probabilidad\ de\ comprar\ sabiendo\ que\ es\ hombre'))
display(Math(r'P_f = Probabilidad\ de\ comprar\ sabiendo\ que\ es\ mujer'))

display(Math(r'odds\in[0,+\infty]'))
display(Math(r'odds_{purchase,\ male} = \frac{P_m}{1-P_m} = \frac{N_{p,\ m}}{N_{\bar p,\ m}}'))
display(Math(r'odds_{purchase,\ female} = \frac{P_m}{1-P_f} = \frac{N_{p,\ f}}{N_{\bar p,\ f}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [68]:
pm = 121/246
pf = 159/265
odds_m = pm / (1-pm)
odds_f = pf / (1-pf)

* Si el cociente es mayor a 1, hay más probabilidad de éxito.
* Si es menor a 1, hay mayor probabilidad de fracaso.
* Si el ratio es igual a 1, el fracaso y éxito son equiprobables.

In [59]:
odds_m, odds_f

(0.9680000000000002, 1.4999999999999998)

In [69]:
display(Math(r'odds_{ratio} = \frac{odds_{purchase,\ male}}{odds_{purchase,\ female}}'))

<IPython.core.display.Math object>

In [70]:
odds_r = odds_m / odds_f
odds_r

0.6453333333333335

# La regresión logística desde la regresión lineal

In [72]:
# Video 103

In [87]:
display(Math(r'En\ regresión\ lineal:'))
display(Math(r'y=\alpha + \beta\cdot x'))
display(Math(r'(x,y)\in[-\infty,+\infty]^2'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [89]:
display(Math(r'En\ regresión\ logística:'))
display(Math(r'y\in\{0,1\}??'))
display(Math(r'P\in[0,1]'))
display(Math(r'x\in[-\infty,+\infty]'))
display(Math(r'P = \alpha + \beta\cdot x'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

P es la probabilidad condicionada de éxito o fracaso condicionada a la presencia de la variable X

In [90]:
display(Math(r'\frac{P}{1-P} = \alpha + \beta\cdot x \in [0,+\infty]'))

<IPython.core.display.Math object>

In [91]:
display(Math(r'ln(\frac{P}{1-P}) = \alpha + \beta\cdot x'))

<IPython.core.display.Math object>

In [101]:
display(Math(r'\begin{cases}\frac{P}{1-P}\in[0,1] \Rightarrow ln(\frac{P}{1-P})\in[-\infty,0] \\ \frac{P}{1-P}\in[1,+\infty] \Rightarrow ln(\frac{P}{1-P})\in[0,\infty] \end{cases}'))

<IPython.core.display.Math object>

In [106]:
display(Math(r'Despejando\ sobre\ la\ última\ fórmula:'))
display(Math(r'P = \frac{1}{1+e^{-(\alpha + \beta\cdot x)}}'))

<IPython.core.display.Math object>

<IPython.core.display.Math object>

* Si a + bx es muy pequeño (negativo), P tiende a 0
* Si a + bx = 0, P = 0.5
* Si a + bx es muy grande (positivo), P tiende a 1

# Regresión logística múltiple

In [108]:
display(Math(r'P = \frac{1}{1+e^{-(\alpha + \sum_{i = 1}^n \beta_i\cdot x_i)}}'))

<IPython.core.display.Math object>