<a href="https://colab.research.google.com/github/RubenMcCarty/Deep-Learning-RQ/blob/main/DATA_SCIENTIST_EXAMEN_BIC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **1. Solicitud de tarjetas de credito en el banco BIC**
### [Profesor: M.Sc.Ruben Quispe](https://www.linkedin.com/in/msc-rub%C3%A9n-quispe-l/)


Caso: El banco BIC  recibe muchas solicitudes de tarjetas de crédito. Muchas de ellas son rechazadas por diversas razones, como deudas elevadas de préstamos, bajos niveles de ingresos o demasiadas consultas sobre el informe crediticio de una persona, etc. El análisis manual de estas aplicaciones es pesado, propenso a errores y requiere mucho tiempo. Afortunadamente, esta tarea se puede automatizar con el poder del aprendizaje automático y prácticamente todos los bancos comerciales lo hacen hoy en día. Tu tarea en este examen es desarrollar un modelo predictivo de aprobación de tarjetas de crédito utilizando técnicas de aprendizaje automático, tal como lo hacen los bancos reales.

Usarás un dataset que tiene la información necesaria para completar la tarea propuesta, el cual te hemos mandado por correo o también lo puedes descargar de [aquí](https://drive.google.com/file/d/1PGysvgrvHx3Z3lFr6jc-oSN9l7l6Z71E/view?usp=sharing). Debes cargarlo al entorno de ejecución para poder usarlo más adelante. 

La estructura de este notebook es la siguiente:

- Primero, comienza cargando y viendo el dataset.
- Verás  que el dataset tiene una mezcla de variables numéricas y no numéricas, que contiene valores de diferentes rangos, además de que contiene algunos datos faltantes.
- Tendrás que preprocesar el dataset para garantizar que el modelo de ML pueda hacer buenas predicciones.
- Una vez que los datos estén en buen estado, harás un análisis exploratorio de datos para derivar intuiciones.
- Finalmente, construirás un modelo de que pueda predecir si se aceptará o no la solicitud de una tarjeta de crédito de una persona.

**Nota:** Los nombres de las columnas son anónimos sin embargo esto no debe impedir realizar una correcta evaluación.

**Nota:** Cada vez que veas ... o # ... TU CÓDIGO AQUÍ ... debes completar con una o más líneas de código.

In [None]:
# Importa pandas
# ... TU CÓDIGO AQUÍ ...

# Carga el dataset usando read_csv
cc_apps = ...

# Inspecciona los datos (haz print)
# ... TU CÓDIGO AQUÍ ...

### **2. Inspecciona las solicitudes**

El resultado puede parecer un poco confuso a primera vista, pero intentarás descubrir cuáles son las variables más importantes. Como puedes ver desde el primer vistazo a los datos, el dataset tiene una mezcla de características numéricas y no numéricas. Esto se puede solucionar con un preprocesamiento, pero antes de hacerlo, revisa un poco más el dataset para ver si hay otros problemas que deben solucionarse.

In [None]:
# Haz print del resumen estadístico
cc_apps_description = ...
print(cc_apps_description)

print('\n')

# Haz print de la información del dataframe
cc_apps_info = ...
print(cc_apps_info)

print('\n')

# Inspecciona las últimas 17 filas en búsqueda de valores faltantes en el dataset
# ... TU CÓDIGO AQUÍ ...

### **3. Divide el conjunto de datos en train y test**

Ahora, divide los datos en un conjunto de train y uno de test para prepararlos para dos fases diferentes del modelado: entrenamiento y prueba. Idealmente, no se debe usar información de los datos de prueba para preprocesar los datos de entrenamiento o para dirigir el proceso de entrenamiento de un modelo de aprendizaje automático. Por lo tanto, primero dividirás los datos y luego los preprocesarás.

Además, por indicación del banco debes eliminar las variables en la posición 11 y 13.

In [None]:
# Importa train_test_split
# ... TU CÓDIGO AQUÍ ...

# Elimina las variables 11 y 13
cc_apps = ...

# Divide el conjunto en sets de train y test
cc_apps_train, cc_apps_test = train_test_split(..., test_size=0.33, random_state=42)

### **4. Manejo de los valores faltantes (parte 1)**

Ahora que haz dividido los datos, puedes manejar algunos de los problemas que identificaste al inspeccionar el DataFrame, que incluyen:

- El dataset contiene datos numéricos y no numéricos (específicamente datos que son de tipo float64, int64 y object). Específicamente, las variables 2, 7, 10 y 14 contienen valores numéricos (de tipo float64, float64, int64 e int64 respectivamente) y todas las demás variables contienen valores no numéricos.
- El dataset también contiene valores de varios rangos. Algunas variables tienen un rango de valores de 0 a 28, algunas de 2 a 67 y otras de 1017 a 100000. Además de esto, pudiste obtener información estadística útil (como media, máx. y mín.) sobre las variables que tienen valores numéricos.
- Finalmente, el dataset tiene valores faltantes, de los cuales te ocuparás en esta tarea. Los valores que faltan en el dataset están etiquetados con '?', que puedes ver en el resultado de la última celda de la segunda tarea.

Ahora, reemplaza temporalmente estos signos de interrogación de valor faltante con NaN.

In [None]:
# Importa numpy
# ... TU CÓDIGO AQUÍ ...

# Reemplaza los '?' con NaN en los sets de train y test
# ... TU CÓDIGO AQUÍ ...

### **5. Manejo de los valores faltantes (parte 2)**

Reemplazaste todos los signos de interrogación con NaN. Esto te ayudará en el próximo tratamiento de valores faltantes que vas a realizar.

Una pregunta importante que surge aquí es ¿por qué le damos tanta importancia a los valores faltantes? ¿No pueden simplemente ser ignorados? Ignorar los valores faltantes puede afectar en gran medida el rendimiento de un modelo de aprendizaje automático. Al ignorar los valores faltantes, el modelo de aprendizaje automático puede perder información sobre el dataset que puede ser útil para su entrenamiento. Entonces, hay muchos modelos que no pueden manejar los valores faltantes implícitamente, como el análisis discriminante lineal (LDA).

Para evitar este problema, vas a imputar los valores faltantes con la estrategia imputación media.

In [None]:
# Haz print al recuerto de NaNs en el dataset para verificar
# ... TU CÓDIGO AQUÍ ...

# Imputa los valores faltantes con la media
# ... TU CÓDIGO AQUÍ ...

# Haz print al recuerto de NaNs en el dataset para verificar
# ... TU CÓDIGO AQUÍ ...

### **6. Manejo de los valores faltantes (parte 3)**

Todavía faltan algunos valores por imputar para las columnas 0, 1, 3, 4, 5, 6 y 13. Todas estas columnas contienen datos no numéricos y es por eso que la estrategia de imputación media no funcionaría aquí. Esto necesita un tratamiento diferente.

Imputa estos valores faltantes con los valores más frecuentes presentes en las respectivas columnas. Esta es una buena práctica cuando se trata de imputar valores faltantes para datos categóricos en general.

In [None]:
# Haz print al recuerto de NaNs en el dataset para verificar
# ... TU CÓDIGO AQUÍ ...

# Itera por cada columna de cc_apps_train
for col in ...:
    # Valida si la columna es de tipo 'object'
    if ... == 'object':
        # Imputa los NaN con el valor más frecuente
        # ... TU CÓDIGO AQUÍ ...

# Haz print al recuerto de NaNs en el dataset para verificar
# ... TU CÓDIGO AQUÍ ...

### **7. Preprocesamiento de los datos (parte 1)**

Los valores faltantes ahora se manejan correctamente.

Todavía son necesarios unos pasos de preprocesamiento de datos menores pero esenciales antes de proceder a construir el modelo. Dividimos estos pasos de preprocesamiento restantes en dos tareas principales:

1. Convierte los datos no numéricos en numéricos.
2. Escala los valores de las variables a un rango uniforme.

Primero, convierte todos los valores no numéricos en valores numéricos. Esta es buena opción porque no solo da como resultado un cálculo más rápido, sino que también muchos modelos de aprendizaje automático (como XGBoost) (y especialmente los desarrollados con scikit-learn) requieren que los datos estén en un formato estrictamente numérico. Haz esto usando el método get_dummies() de pandas.

In [None]:
# Convierte las variables categóricas de los sets train y test independientemente
cc_apps_train = ...
cc_apps_test = ...

# Vuelve a indexar las columnas del set test alineadas al set train (como resultado ambos sets deben tener exactamente las mismas columnas)
# ... TU CÓDIGO AQUÍ ...

### **8. Preprocesamiento de los datos (parte 2)**

Solo queda un último paso de preprocesamiento de escalado antes de proceder a entrenar un modelo.

Usando score crediticio como ejemplo, el score crediticio de una persona es su solvencia basada en su historial crediticio. Cuanto mayor sea este número, más confiable financieramente se considera que es una persona. Por lo tanto, un score crediticio de 1 es el más alto, ya que estamos ajustando la escala de todos los valores al rango de 0-1.

In [None]:
# Importa MinMaxScaler
# ... TU CÓDIGO AQUÍ ...

# Separa las variables y el target en variables separadas
X_train, y_train = ...
X_test, y_test = ...

# Instancia MinMaxScaler y úsalo para re-escalar X_train y X_test
scaler = MinMaxScaler(feature_range=(0,1))
rescaledX_train = ...
rescaledX_test = ...

### **9. Entrenamiento de un modelo de regresión logística con el set de entrenamiento**

Predecir si una solicitud de tarjeta de crédito será aprobada o no es una tarea de clasificación. El dataset contiene más instancias que corresponden al estado "Denegado" que instancias correspondientes al estado "Aprobado". Específicamente, de 690 instancias, hay 383 (55,5 %) solicitudes que fueron denegadas y 307 (44,5 %) que fueron aprobadas.

Esto es un punto de referencia. Un buen modelo de aprendizaje automático debería poder predecir con precisión el estado de las aplicaciones con respecto a estas estadísticas.

¿Qué modelo elegir? Una pregunta que debe hacerse es: ¿las características que afectan el proceso de decisión de aprobación de tarjetas de crédito están correlacionadas entre sí? Aunque se puede medir la correlación, eso está fuera del alcance del examen, por lo que asumirá que están correlacionados por ahora. Debido a esta correlación, debes aprovechar el hecho de que los modelos lineales generalizados funcionan bien en estos casos. Haz el modelado de aprendizaje automático con un modelo de regresión logística (un modelo lineal generalizado).

In [None]:
# Importa LogisticRegression
# ... TU CÓDIGO AQUÍ ...

# Instancia un clasificador de LogisticRegression con los valores de parámetros por defecto
logreg = ...

# Entrena logreg con los sets de entrenamiento
# ... TU CÓDIGO AQUÍ ...

### **10. Haz predicciones y evalúa el desempeño**

¿Qué tan bien funciona el modelo?

Evalúa la precisión de la clasificación del modelo con el set de prueba (test). También mira la matriz de confusión. En el caso de predecir solicitudes de tarjetas de crédito, es importante ver si el modelo es igualmente capaz de predecir el estado aprobado y denegado, de acuerdo con la frecuencia de estas etiquetas en el dataset original. Si el modelo no está funcionando bien en este aspecto, entonces podría terminar aprobando solicitudes que deberían haber sido denegadas. La matriz de confusión  ayuda a ver el desempeño del modelo en este aspecto.

In [None]:
# Importa confusion_matrix
# ... TU CÓDIGO AQUÍ ...

# Usa logreg para predecir instancias del set de test y guárdalo
y_pred = ...

# Haz print de la precisión del modelo logreg
print("Precisión del clasificador regresión logística: ", ...)

# Haz print de la matriz de confusión del modelo logreg
# ... TU CÓDIGO AQUÍ ...

### **11. Haz "Grid searching" y consigue un modelo que tenga mejor desempeño**

Realiza una búsqueda de grilla de los hiperparámetros del modelo para mejorar su capacidad para predecir aprobaciones de tarjetas de crédito.

La implementación de la regresión logística de scikit-learn consta de diferentes hiperparámetros, pero solo haz grid search sobre los dos siguientes:

- tol: Usa los valores 0.01, 0.001, 0.0001 y 0.05
- max_iter: Usa los valores 100, 150 y 200
- solver: Usa los valores 'liblinear' y 'lbfgs'

In [None]:
# Importa GridSearchCV
# ... TU CÓDIGO AQUÍ ...

# Define los valores de grilla para tol y max_iter
tol = ...
max_iter = ...
solver = ...

# Crea un diccionario donde tol y max_iter son las llaves y las listas creadas previamente son sus valores correspondientes
param_grid = dict(..., ..., ...)

### **12. Encuentra el modelo con mejor rendimiento**

Haz definido la grilla de valores de hiperparámetros y los haz convertido en un formato de diccionario único que GridSearchCV() espera como uno de sus parámetros. Ahora, haz la búsqueda de grilla para ver qué valores funcionan mejor.

Crea una instancia de GridSearchCV() con el modelo logreg anterior con todos los datos que tienes. También configura GridSearchCV() para que realice una validación cruzada de cinco pliegues (folds).

Termina el examen almacenando la puntuación mejor lograda y los mejores hiperparámetros respectivos (si el accuracy no varía respecto al modelo entrenado previamente, indica el por qué en un comentario).

In [None]:
# Instancia GridSearchCV con los parámetros requeridos
grid_model = GridSearchCV(estimator=..., param_grid=..., cv=5)

# Entrena grid_model con los datos de entrenamiento
grid_model_result = grid_model.fit(...)

# Resume los resultados
best_score, best_params = grid_model_result...., grid_model_result.....
print("Mejor: %f usando %s" % (..., ...))

# Extrae el mejor modelo y evalúalo en el set de prueba
best_model = ...
print("Accuracy of logistic regression classifier: ", ...)