
# <center>  Proyecto Final - Fase 2  </center>

## Descripción
- En esta sección se ejecutará el preprocesamiento e ingeniería de variable en los datos de entrenamiento
- Además, se estimará por medio de la Regresión Logística la probabilidad de default en los datos de test (modelo de línea base)
  

## Problema de negocio

    
Un problema imperante en el entorno bancario a nivel global se enfoca en el riesgo crediticio o riesgo de impago. 
  
Este aspecto hace refencia a las pérdidas que incurren los bancos dado que los prestamistas son incapaces de devolver los créditos otorgados. 

Lo cual conlleva la siguiente pregunta: **¿Cómo poder reducir el número de personas que caen en mora crediticia?** 
  
Aspecto que se aborda a continuación.

## Objetivos del proyecto


El objetivo de este proyecto es construir un modelo que los prestatarios puedan usar para ayudar a tomar las mejores decisiones financieras.

Mediante el uso de diferentes algoritmos se obtendrá la probabilidad de impago en cada individuo. El principal indicador que se va usar para ver la bonanza de los distintos modelos va a ser el AUC (Area Under the Curve) generado por las curvas ROC.

## Importar librerías y verificar versiones

In [0]:
import sys
import numpy as np
import pandas as pd
import sklearn as sk
# Librerías para visualización
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

In [0]:
print('** Versiones Actuales | Requeridas **')
print('Python:\nVersion Actual:', sys.version, ' | Requerida >= 3.6')
print('NumPy:\nVersion Actual: {:10} | Requerida >= 1.16.2'.format(np.__version__))
print('Pandas:\nVersion Actual: {:10}| Requerida >= 1.0.1'.format(pd.__version__))
print('Scikit-learn:\nVersion Actual: {:10}| Requerida >= 0.22.1'.format(sk.__version__))
print('Matplotlib:\nVersion Actual: {:10} | Requerida >= 3.0.3'.format(matplotlib.__version__))
print('Seaborn:\nVersion Actual: {:10} |Requerida >= 0.9.0 '.format(sns.__version__))

In [0]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
import matplotlib.pyplot as plt

## Descripción de las variables contenidas en el _dataset_


El _dataset_ usado proviene de la plataforma **Kaggle**, y se encuentra separado en dos partes. 

La primera parte contiene los datos que serán usados para el entrenamiento del modelo, que serán nombrados como *datos_training*. La segunda parte son los datos que se usarán para el test del modelo *datos_test*. Estas muestras contienen 150.000 y 101.503 registros, respectivamente (aunque existen algunos campos que tienen distintos valores ausentes). 

Accesso a la Competencia **Give Me Some Credit:** [Link de acceso](https://www.kaggle.com/c/GiveMeSomeCredit/overview)

Link de descarga correspondiente a cada dataset: 
* [training data](https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/Proyecto%20Final/cs-training.csv)
* [test data](https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/Proyecto%20Final/cs-test.csv)

* **SeriousDlqin2yrs:** Persona que tiene 90 días de morosidad vencida o peor (Si = 1 y  No = 0)
* **RevolvingUtilizationOfUnsecuredLines:** El saldo total en tarjetas de crédito y líneas de crédito personales (excepto bienes inmuebles y sin deuda a plazos) sobre la suma de los límites de crédito
* **Age:** Edad prestamista en años 
* **NumberOfTime30-59DaysPastDueNotWorse:** Número de veces que el prestatario ha caido en mora entre 30 y 59 días, pero no ha empeorado en los últimos 2 años 
* **DebtRatio:** Pagos mensuales de deuda sobre el ingreso bruto mensual 
* **MonthlyIncome:** Ingreso mensual 
* **NumberOfOpenCreditLinesAndLoans:** Número de préstamos abiertos (cuotas como préstamos para automóviles o hipotecas) y líneas de crédito 
* **NumberOfTimes90DaysLate:** Número de veces que el prestatario ha caido en mora entre 90 días o más 
* **NumberRealEstateLoansOrLines:** Número de préstamos hipotecarios e inmobiliarios, incluidas las líneas de crédito hipotecario 
* **NumberOfTime60-89DaysPastDueNotWorse:** Número de veces que el prestatario ha caido en mora entre 60 y 89 días, pero no ha empeorado en los últimos 2 años 
* **NumberOfDependents:** Número de dependientes en la familia excluyendose a si mismos (ej: cónyuge, hijos, etc.)

## Carga de los datos

In [0]:
dbutils.fs.cp("dbfs:/FileStore/tables/cs_training.csv", "file:/FileStore/tables/cs_training.csv")

In [0]:
dbutils.fs.cp("dbfs:/FileStore/tables/cs_test.csv", "file:/FileStore/tables/cs_test.csv")

In [0]:
# Colocar la ruta del directorio correspondiente a cada dataset
ruta_training = "file:/FileStore/tables/cs_training.csv"
ruta_test     = "file:/FileStore/tables/cs_test.csv"

In [0]:
# Lectura de los datos usando pandas (creación de DataFrames)
datos_training = pd.read_csv(ruta_training, sep = ',', decimal = '.', index_col = 0)
datos_test     = pd.read_csv(ruta_test,     sep = ',', decimal = '.', index_col = 0)

In [0]:
# Imprimir el número de filas y columnas de ambos datasets
print('Filas y columnas - datos de entrenamiento', datos_training.shape)
print('Filas y columnas - datos de test', datos_test.shape)

In [0]:
# Imprimir los tipos de datos de cada columna en el dataset de entrenamiento
print(datos_training.dtypes)

## Ingeniería de variable

### Selección de variable objetivo y predictores del DataFrame `datos_training`

In [0]:
# En la variable y colocar la variable objetivo. En la variable X todos los predictores (Pista: no usar .values para convertir a un np.array)


### División en datos de training y test

Para dividir la muestra de entrenamiento en dos submuestras de _training_ y _test_, se decide guardar una proporción de 80% _training_ 20% _test_. 

En los argumentos de `train_test_split` emplear el muestreo estratificado `stratify=y` y  `random_state=0`

In [0]:
# División en training y test


In [0]:
# Imprimir las filas y columnas de los datos de training y test: para los predictores y para la variable objetivo


### Escalamiento (variables numéricas)

In [0]:
# Selección de las etiquetas de las variables numéricas (Pista: X debe ser un DataFrame no un ndarray)
X_num = X.select_dtypes(include=np.number).columns
print(X_num)

### Pipeline - Ingeniería de variable

In [0]:
# Creación de un Pipeline para el preprocesamiento de las variables numéricas
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler',  MinMaxScaler(feature_range=(0, 1)))])

In [0]:
# Delimitar el preprocesamiento de variables
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, X_num)])

Crear en la variable `reg_log` el algoritmo de Regresión Logística con los siguientes argumentos: `max_iter=1000, class_weight='balanced', random_state=0, n_jobs = -1`

In [0]:
# Delimitar la configuración del algoritmo de Regresión Logística


### Pipeline - Ingeniería de variable y Modelo de Línea Base

In [0]:
# Creción de Pipeline para preprocesamiento y ejecución del algoritmo
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('classifier', reg_log)])

clf.fit(X_train, y_train)

Aplicar Validación Cruzada:
1. Crear el grid de valores llamado `param_grid` con el hiperparámetro: `'classifier__C': [1, 10, 100, 1000, 10000]` 
2. En la variable `grid` asignar `GridSearchCV` con los siguientes argumentos: `cv = 10, param_grid = param_grid, estimator = clf, scoring = 'roc_auc', n_jobs = -1`
3. Realizar el ajuste con respecto a los datos de entrenamiento
4. Imprimir el hiperparámetro óptimo y el mejor score

In [0]:
# Validación Cruzada 


In [0]:
# Algortimo optimizado
log_opt = LogisticRegression(multi_class = 'ovr', 
                             solver = 'lbfgs',
                             C = grid.best_params_['classifier__C'],
                             max_iter = 1000,
                             class_weight = 'balanced', 
                             random_state = 0,
                             n_jobs = -1)

In [0]:
# Creación del Pipeline para el preprocesamiento de los datos y ejecución del algortimo optimizado
clf_opt = Pipeline(steps=[('preprocessor', preprocessor),
                          ('classifier', log_opt)])

clf_opt.fit(X_train, y_train)

# Clasificación de clientes (cut-off 0.5)
yHat_test = clf_opt.predict(X_test)

Imprimir la matriz de confusión en forma de visualización evaluando los datos de test: `y_test` y `yHat_test`. Adicionalmente, interpretar los resultados a partir de la matriz de confusión.

In [0]:
# Matriz de confusión


Imprimir la métrica del AUC para analizar el desempeño del algoritmo en los datos de test

In [0]:
#Métricas de evaluación para analizar el desempeño del algoritmo (AUC)


### Envío probabilidades de default (datos_test) - Kaggle Submission

In [0]:
X_datos_test = datos_test.loc[:, [i for i in datos_test.columns if i != 'SeriousDlqin2yrs']]
X_datos_test.shape

In [0]:
prob_default = clf_opt.predict_proba(X_datos_test)[:,1]
prob_default

In [0]:
df_entrega = pd.DataFrame(data=prob_default, 
                          columns = ["Probability"])

df_entrega['Id'] = range(1, prob_default.shape[0]+1)
df_entrega = df_entrega[["Id", "Probability"]] 

In [0]:
display(df_entrega)