# Regresión logística para incumplimientos

**Recuerde que la probabilidad de impago es la probabilidad de que alguien no pague un préstamo**. Esto se expresa como una probabilidad que es un valor entre cero y uno. Estas probabilidades están asociadas con nuestra columna de estado del préstamo, donde $1$ es un impago y $0$ es un no impago.

Las predicciones resultantes nos dan probabilidades de impago. Cuanto más cercano sea el valor a $1$, mayor será la probabilidad de que el préstamo sea impago.

Para obtener estas probabilidades, entrenamos modelos de aprendizaje automático en nuestras columnas de datos crediticios, conocidas como características, para que los modelos aprendan a usar los datos para predecir las probabilidades. Estos tipos de modelos se conocen como **modelos de clasificación**, donde la clase es incumplimiento o no incumplimiento. **En la industria, se utilizan con frecuencia dos modelos: las regresiones logísticas y los árboles de decisión. Ambos modelos pueden predecir la probabilidad de incumplimiento y nos indican qué importancia tiene cada columna para las predicciones.**

**La regresión logística es como una regresión lineal, pero solo produce un valor entre 0 y 1**. Observe que la ecuación de la regresión lineal es en realidad parte de la regresión logística. 
$$Y=\beta_0 + \beta_1\X_1 + \beta_2X_2 + \ldots$$
$$P(estado \;prestamo = 1) = \dfrac{1}{1+e^{-Y}.$$
Las regresiones logísticas funcionan mejor con datos en los que lo que determina un incumplimiento o no incumplimiento puede variar en gran medida. Piense en la intersección con el eje $y$, que es el logaritmo de las probabilidades de no incumplimiento. Esta es otra forma de expresar la probabilidad general de no incumplimiento.

Utilizaremos la regresión logística dentro de `scikit-learn`. El uso del modelo es fácil.  

In [12]:
# Libreria
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Data
cr_loan = pd.read_csv("cr_loan_w2.csv")

Como cualquier función, puede pasar parámetros o no. El parámetro `solver` es un optimizador, al igual que el solver en Excel. LBFGS es el valor predeterminado.

In [None]:
clf_logistic = LogisticRegression(solver = 'lbfgs')

Para entrenar el modelo, llamamos al método `fit` en él. Dentro del método, tenemos que proporcionar al modelo columnas de entrenamiento y etiquetas de entrenamiento. Usamos `ravel` de `numpy` para hacer que las etiquetas sean una matriz unidimensional en lugar de un dataframe. En nuestros datos de crédito, las columnas de entrenamiento son todas las columnas excepto el estado del préstamo. El estado del préstamo contiene las etiquetas.

In [3]:
# Ajustar el modelo a los datos
clf_logistic.fit(training_columns, no.ravel(training_labels))

NameError: name 'training_columns' is not defined

Generalmente, en el aprendizaje automático, dividimos todo nuestro conjunto de datos en dos conjuntos de datos individuales.

Son el conjunto de entrenamiento y el conjunto de prueba. Usamos la mayoría de los datos para entrenar nuestros modelos, de modo que aprendan lo máximo posible de ellos. Nuestro conjunto de prueba se usa para ver cómo reacciona nuestro modelo a nuevos datos que no ha visto antes. Esto es como cuando los estudiantes aprenden en la escuela. Aprenden datos de una materia y se les evalúa sobre diferentes datos de esa misma materia. De esta manera, podemos evaluar su dominio del tema.

Lo primero que hacemos es separar nuestros datos en columnas de entrenamiento y etiquetas. Aquí, les hemos asignado X e Y. 

In [10]:
# Separa a datos de entrenamiento y prueba
X = cr_loan.drop("loan_status", axis = 1)
y = cr_loan[['loan_status']]

Una vez hecho esto, utilizamos la función de división del tren de prueba dentro del paquete de aprendizaje de `scikit`. Echemos un vistazo al código. ¿Recuerdas que dije que necesitamos columnas de entrenamiento y etiquetas para nuestro modelo? Necesitamos esto tanto para el conjunto de entrenamiento como para el conjunto de prueba, que se crean fácilmente con una línea de código. Dentro de esta función, establecemos el porcentaje de los datos que se utilizarán como conjunto de prueba y un número utilizado como semilla aleatoria para la reproducibilidad.

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X,y,
                                                   test_size=0.4,
                                                   random_state=123)

## EJERCICIO
Las tasas de interés son fáciles de entender, pero ¿qué tan útiles son para predecir la probabilidad de incumplimiento?

Dado que aún no ha intentado predecir la probabilidad de incumplimiento, pruebe a crear y entrenar un modelo de regresión logística con solo `loan_int_rate`. Verifique también los parámetros internos del modelo, que son como configuraciones, para ver la estructura del modelo con esta única columna.

Los datos cr_loan_clean ya se han cargado en el espacio de trabajo.

In [24]:
# Librerias
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression

# DATA
cr_loan_clean = pd.read_csv("cr_loan_nout_nmiss.csv")

In [25]:
# Crear los conjuntos X y y utilizando las columnas loan_int_rate y loan_status.
X = cr_loan_clean[["loan_int_rate"]].values
y = cr_loan_clean[["loan_status"]].values

# Crear y ajustar un modelo de regresión logística a los datos de entrenamiento y llámelo clf_logistic_single.
clf_logistic_single = LogisticRegression()
clf_logistic_single.fit(X, np.ravel(y))

# Imprimir los parámetros del modelo con .get_params().
print(clf_logistic_single.get_params())

# Verificar la intersección del modelo con el atributo .intercept_.
print(clf_logistic_single.intercept_)

{'C': 1.0, 'class_weight': None, 'dual': False, 'fit_intercept': True, 'intercept_scaling': 1, 'l1_ratio': None, 'max_iter': 100, 'multi_class': 'auto', 'n_jobs': None, 'penalty': 'l2', 'random_state': None, 'solver': 'lbfgs', 'tol': 0.0001, 'verbose': 0, 'warm_start': False}
[-4.45785901]
