In [11]:
import pandas as pd
import statsmodels.formula.api as smf


In [12]:
df = pd.read_csv('risk_data.csv')

$$z = \theta_0 + \theta_1*creditlimit$$

$$P(y = 1 | X) = \frac{1}{1 + e^{-z}}$$

## Interpretando coeficientes

### Supuestos
- Sabemos por el teorema central del limite, que el promedio de los promedios es normal
- Beta es realmente, en promedio _cuanto incremental log odds a medida que cambi $j$_ 
- Dado que beta es un promedio que se distribuye normal y tiene un error estandard, podemos ver si es estdísticamente diferente de 0 con la prueba Z


### Procedimiento
Se usa el estadístico $z score$ para probar si $\beta_j=0$


Es decir, la hipotesis nula nos dice que beta no tiene efecto, $H_0=0$

Al igual que cuando normalizamos mediante esta forma:

$$z = \frac{\mu - x}{\sigma}$$

Hacemos lo mismo con $\beta_j$ ya que las $\beta$ de una regresión lineal 

$$z_j = \frac{\beta_j - H_0}{SE_j}$$


Dedo que la hipotsis nula es 0:

$$z_j = \frac{\beta_j}{SE_j}$$

Z se distribuye normal estandard, $Z -> N(0, \sigma^2)$

Buscamos el valor $Z$ en las tablitas de normal estandard y estimamos el P-value 

La prueba es de dos colas dado que la distribución normal es simetrica:

$$p=2 * pvalue$$


In [28]:
model = smf.logit('default ~credit_limit', data=df).fit()

model.summary().tables[1]

Optimization terminated successfully.
         Current function value: 0.419710
         Iterations 6


0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-1.1910,0.028,-42.555,0.000,-1.246,-1.136
credit_limit,-0.0002,9.63e-06,-20.508,0.000,-0.000,-0.000


### ¿Tiene sentido lo anterior? ¿cómo puede ser que _a mayor líite de crédito, menor default_ ?

Las empresas le dan más límite de crédtito a los mejores clientes, podemos controlar por score de crédito y salario


$$z = \theta_0 + \theta_1*creditlimit + \theta_2*Salario + \theta_3*score$$

$$P(y = 1 | X) = \frac{1}{1 + e^{-z}}$$

In [46]:
model = smf.logit('default ~credit_limit+credit_score2+wage', data=df).fit()

model.summary().tables[1]

Optimization terminated successfully.
         Current function value: 0.407682
         Iterations 6


0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,0.2995,0.056,5.371,0.000,0.190,0.409
credit_limit,2.524e-05,1.25e-05,2.011,0.044,6.43e-07,4.98e-05
credit_score2,-0.0024,0.000,-19.478,0.000,-0.003,-0.002
wage,-0.0010,4.94e-05,-19.878,0.000,-0.001,-0.001


Al igual que en regresiones lineales, si controlamos por las variables adecuadas podemos obtener el coeficiente correcto