## Ejercicio
Los bancos desempeñan un papel crucial en las economías de mercado. Ellos deciden quién puede obtener financiamiento y en qué condiciones, y pueden hacer o deshacer decisiones de inversión. Para que los mercados y la sociedad funcionen, las personas y las empresas necesitan acceso a crédito.

Los algoritmos de puntuación de crédito, que estiman la probabilidad de incumplimiento, son el método que los bancos utilizan para determinar si se debe conceder un préstamo o no. Esta competencia exige a los participantes mejorar el estado del arte en puntuación de crédito, prediciendo la probabilidad de que alguien experimente problemas financieros en los próximos dos años.

El objetivo es construir un modelo que los prestatarios puedan utilizar para ayudar a tomar las mejores decisiones financieras.

Se proporcionan datos históricos sobre 250,000 prestatarios y estas son las columnas con las que podemos trabajar:

|    | Nombre de la variable                    | Descripción                                                                                                                                                | Tipo      |
|---:|:-------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------|
|  0 | SeriousDlqin2yrs (_**Target**_)        | Persona experimentó una morosidad de 90 días de atraso o peor                                                                                             | S/N       |
|  1 | RevolvingUtilizationOfUnsecuredLines | Saldo total en tarjetas de crédito y líneas de crédito personales, excepto bienes raíces y sin deudas de cuotas como préstamos de automóviles, dividido por la suma de los límites de crédito | porcentaje  |
|  2 | age                                  | Edad del prestatario en años                                                                                                                             | entero      |
|  3 | NumberOfTime30-59DaysPastDueNotWorse | Número de veces que el prestatario ha estado atrasado entre 30-59 días, pero no peor, en los últimos 2 años.                                              | entero      |
|  4 | DebtRatio                            | Pagos mensuales de deuda, pensión alimenticia, costos de vida divididos por el ingreso bruto mensual                                                     | porcentaje |
|  5 | MonthlyIncome                        | Ingreso mensual                                                                                                                                        | real         |
|  6 | NumberOfOpenCreditLinesAndLoans      | Número de préstamos abiertos (cuotas como préstamo de automóvil o hipoteca) y líneas de crédito (por ejemplo, tarjetas de crédito)                       | entero      |
|  7 | NumberOfTimes90DaysLate              | Número de veces que el prestatario ha estado atrasado 90 días o más.                                                                                    | entero      |
|  8 | NumberRealEstateLoansOrLines         | Número de préstamos hipotecarios y préstamos de bienes raíces, incluidas líneas de crédito de capital inmobiliario                                      | entero      |
|  9 | NumberOfTime60-89DaysPastDueNotWorse | Número de veces que el prestatario ha estado atrasado entre 60-89 días, pero no peor, en los últimos 2 años.                                              | entero      |
| 10 | NumberOfDependents                   | Número de dependientes en la familia, excluyéndose a sí mismo (cónyuge, hijos, etc.)                                                                      | entero      |

In [1]:
import pandas as pd

df = pd.read_csv("../Data/cs_training.csv").drop("Unnamed: 0", axis=1)
df

Unnamed: 0,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
0,1,0.766127,45,2,0.802982,9120.0,13,0,6,0,2.0
1,0,0.957151,40,0,0.121876,2600.0,4,0,0,0,1.0
2,0,0.658180,38,1,0.085113,3042.0,2,1,0,0,0.0
3,0,0.233810,30,0,0.036050,3300.0,5,0,0,0,0.0
4,0,0.907239,49,1,0.024926,63588.0,7,0,1,0,0.0
...,...,...,...,...,...,...,...,...,...,...,...
149995,0,0.040674,74,0,0.225131,2100.0,4,0,1,0,0.0
149996,0,0.299745,44,0,0.716562,5584.0,4,0,1,0,2.0
149997,0,0.246044,58,0,3870.000000,,18,0,1,0,0.0
149998,0,0.000000,30,0,0.000000,5716.0,4,0,0,0,0.0


In [7]:
df.isna().mean()

SeriousDlqin2yrs                        0.000000
RevolvingUtilizationOfUnsecuredLines    0.000000
age                                     0.000000
NumberOfTime30-59DaysPastDueNotWorse    0.000000
DebtRatio                               0.000000
MonthlyIncome                           0.198207
NumberOfOpenCreditLinesAndLoans         0.000000
NumberOfTimes90DaysLate                 0.000000
NumberRealEstateLoansOrLines            0.000000
NumberOfTime60-89DaysPastDueNotWorse    0.000000
NumberOfDependents                      0.026160
dtype: float64

In [2]:
TARGET = "SeriousDlqin2yrs"

### Extra
- Realiza un tuning del modelo y validación:
    - Prueba optimizar los hiperparámetros con un `GridSearchCV`.
    - Obtén un `feature_importances_` si tiene y prueba reentrenar quitando algunas columnas menos relevantes.
    - Valida las métricas del modelo
- Juega con diferentes umbrales de `.predict_proba()` para ajustar la _**sensibilidad (recall)**_ y la _**especificidad (specificity)**_. ¿Qué tiene un mayor perjuicio para un banco, un falso positivo o un falso negativo? Intenta encontrar un balance justo entre estos dos errores.