In [1]:
import pandas as pd
import statsmodels.formula.api as smf

In [3]:
df = pd.read_csv('risk_data.csv')
df.head()

Unnamed: 0,wage,educ,exper,married,credit_score1,credit_score2,credit_limit,default
0,950.0,11,16,1,500.0,518.0,3200.0,0
1,780.0,11,7,1,414.0,429.0,1700.0,0
2,1230.0,14,9,1,586.0,571.0,4200.0,0
3,1040.0,15,8,1,379.0,411.0,1500.0,0
4,1000.0,16,1,1,379.0,518.0,1800.0,0


$$z = \theta_0 + \theta_1*creditlimit$$

$$P(y = 1 | X) = \frac{1}{1 + e^{-z}}$$

## Interpretando coeficientes

### Supuestos
- Sabemos por el teorema central del limite, que el promedio de los promedios es normal
- Beta es realmente, en promedio _cuanto incremental log odds a medida que cambi $j$_ 
- Dado que beta es un promedio que se distribuye normal y tiene un error estandard, podemos ver si es estdísticamente diferente de 0 con la prueba Z


### Procedimiento
Se usa el estadístico $z score$ para probar si $\beta_j=0$


Es decir, la hipotesis nula nos dice que beta no tiene efecto, $H_0=0$

Al igual que cuando normalizamos mediante esta forma:

$$z = \frac{\mu - x}{\sigma}$$

Hacemos lo mismo con $\beta_j$ ya que las $\beta$ de una regresión lineal 

$$z_j = \frac{\beta_j - H_0}{SE_j}$$


Dedo que la hipotsis nula es 0:

$$z_j = \frac{\beta_j}{SE_j}$$

Z se distribuye normal estandard, $Z -> N(0, \sigma^2)$

Buscamos el valor $Z$ en las tablitas de normal estandard y estimamos el P-value 

La prueba es de dos colas dado que la distribución normal es simetrica:

$$p=2 * pvalue$$


In [6]:
model = smf.logit('default ~ credit_limit', data=df).fit()

print(model.summary())

Optimization terminated successfully.
         Current function value: 0.419710
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                50000
Model:                          Logit   Df Residuals:                    49998
Method:                           MLE   Df Model:                            1
Date:                Tue, 04 Mar 2025   Pseudo R-squ.:                 0.01034
Time:                        20:14:30   Log-Likelihood:                -20986.
converged:                       True   LL-Null:                       -21205.
Covariance Type:            nonrobust   LLR p-value:                 2.402e-97
                   coef    std err          z      P>|z|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept       -1.1910      0.028    -42.555      0.000      -1.246      -1.136
credit_limit    -0.0002

In [7]:
df['default'].mean()

0.1508

### ¿Tiene sentido lo anterior? ¿cómo puede ser que _a mayor líite de crédito, menor default_ ?

Las empresas le dan más límite de crédtito a los mejores clientes, podemos controlar por score de crédito y salario


$$z = \theta_0 + \theta_1*creditlimit + \theta_2*Salario + \theta_3*score$$

$$P(y = 1 | X) = \frac{1}{1 + e^{-z}}$$

In [9]:
model = smf.logit('default ~ credit_limit + credit_score2 + wage', data=df).fit()

print(model.summary())

Optimization terminated successfully.
         Current function value: 0.407682
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                50000
Model:                          Logit   Df Residuals:                    49996
Method:                           MLE   Df Model:                            3
Date:                Tue, 04 Mar 2025   Pseudo R-squ.:                 0.03870
Time:                        20:16:53   Log-Likelihood:                -20384.
converged:                       True   LL-Null:                       -21205.
Covariance Type:            nonrobust   LLR p-value:                     0.000
                    coef    std err          z      P>|z|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept         0.2995      0.056      5.371      0.000       0.190       0.409
credit_limit   2.524

Al igual que en regresiones lineales, si controlamos por las variables adecuadas podemos obtener el coeficiente correcto