# Modelo de Regresión Logística

La Regresión Logística es un clasificador binario, utiliza una función para predecir la probabilidad de que la respuesta a alguna pregunta sea 1 o 0, sí o no, verdaddero o falso, etc.

Utilizada para predecir el resultado de una variable categorica en función de las variables independientes **(x)**.


# Las matemáticas tras la regresión logística

## Las tablas de contingencia
Una tabla de contingencia es una representación de la frecuencia para cada categoría

PROBABILIDAD: Cual es la probabilidad de que un cliente X compre un producto sabiendo que es Mujer u Hombre?


In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("../python-ml-course-master/datasets/gender-purchase/Gender Purchase.csv")
df.head()

Unnamed: 0,Gender,Purchase
0,Female,Yes
1,Female,Yes
2,Female,No
3,Male,No
4,Male,Yes


In [4]:
# Crear tabla de contingencia
cont_table = pd.crosstab(df["Gender"], df["Purchase"])
cont_table

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,106,159
Male,125,121


In [5]:
# Sum horizontal
cont_table.sum(axis=1)

Gender
Female    265
Male      246
dtype: int64

In [6]:
# Div cada columna por la suma total por genero
cont_table.astype("float").div(cont_table.sum(axis=1), axis=0)

Purchase,No,Yes
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.4,0.6
Male,0.50813,0.49187


## La probabilidad condicional
Define la probabilidad de que ocurra un evento A sabiendo que ocurre otro evento B

In [7]:
from IPython.display import display, Math , Latex

* Cual es la probabilidad de que un cliente compre un producto sabiendo que es un hombre?
* Cual es la probabilidad de que sabiendo que un cliente compra un producto, sea mujer?

In [12]:
display(Math(r'P(Purchase|Male) = \frac{Numero\ total\ de\ compras\ hechas\ por\ hombres}{Numero\ total\ de\ hombres} = \frac{Purchase\cap Male}{Male}'))

121/246


<IPython.core.display.Math object>

0.491869918699187

In [14]:
display(Math(r'P(~Purchase|Male) = 1-P(Purchase|Male)'))

125/246

<IPython.core.display.Math object>

0.508130081300813

In [10]:
display(Math(r'P(Female|Purchase) = \frac{Numero\ total\ de\ compras\ hechas\ por\ mujeres}{Numero\ total\ de\ compras} = \frac{Female\cap Purchase}{Purchase}'))

159/280


<IPython.core.display.Math object>

0.5678571428571428

In [15]:
display(Math(r'P(~Female|Purchase) = 1-P(Female|Purchase)'))

121/280

<IPython.core.display.Math object>

0.43214285714285716

## Ratio de probabilidades
Cociente entre los casos de exito sobre los de fracaso, para cada grupo

In [24]:
display(Math(r'P_m = \ Prob\ de\ hacer\ compra\ sabiendo\ que\ es\ hombre'))
display(Math(r'P_f = \ Prob\ de\ hacer\ compra\ sabiendo\ que\ es\ mujer'))
display(Math(r'odds_{purchase, male} = \frac{P_m}{1-P_m} = \frac{N_{p,m}}{N_{\bar p,m}}'))
display(Math(r'odds_{purchase, female} = \frac{P_f}{1-P_f} = \frac{N_{p,f}}{N_{\bar p,f}}'))


<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [22]:
pm = 121/246
pf = 159/265
odds_m = pm/(1-pm)
odds_f = pf/(1-pf)

print(odds_m)
print(odds_f)

# Conclucion: Las mujeres tienen mas posibilidad a comprar que los hombres.

0.9680000000000002
1.4999999999999998


* Ratio > 1, es más probable el exito que el fracaso. Cuanto mayor es el ratio, mayor probabilidad de exito.
* Ratio = 1, exito es equiprobable (p=0,5)
* Ratio < 1, el fracaso es más probable que el exito

## La regresión logística desde la regresión lineal

In [30]:
# Definicion de regresion lineal
display(Math(r'y = \alpha + \beta \cdot x'))
display(Math(r'(x,y)\in[-\infty, +\infty]^2'))


<IPython.core.display.Math object>

<IPython.core.display.Math object>

In [38]:
# Como quiero categorizar, en el caso de la regresión logística, y tiene que ser discreta
display(Math(r'y\in[0, 1]'))

# Usamos esta var. dependiente para calcular la regresion lineal entre [0, 1]
display(Math(r'P\in[0, 1]'))
display(Math(r'P = \alpha + \beta \cdot x'))
display(Math(r'\frac{P}{1-P} = \alpha + \beta \cdot x\ \in[0, +\infty]'))

display(Math(r'ln(\frac{P}{1-P}) = \alpha + \beta \cdot x'))
display(Math(r'P = \frac{1}{1+e^{-(\alpha + \beta \cdot x)}}'))


<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

<IPython.core.display.Math object>

P es la probabilidad condicionada de exito o de fracaso condicionada a la presencia de la variable x

## Regresión logística multiple

In [40]:
display(Math(r'P = \frac{1}{1+e^{-(\alpha + \sum_{i=1}^n\beta_i \cdot x_i)}}'))


<IPython.core.display.Math object>

# Método deestimación de máxima verosimilitud
El método de máxima verosimilitud es una técnica para estimar los valores de θ dada una muestra finita de datos.