<header style="padding:10px;background:#f9f9f9;border-top:3px solid #00b2b1"><img id="Teradata-logo" src="https://www.teradata.com/Teradata/Images/Rebrand/Teradata_logo-two_color.png" alt="Teradata" width="220" align="right" />
  
# Modelo de Cobranzas (In-Database)

El objetivo de este modelo es identificar la probabilidad de incumplir con el pago de cuotas pendientes
    
![Slide](images/Diapositiva3.PNG)

![Slide](images/Diapositiva4.PNG)

![Slide](images/Diapositiva8.PNG)

![Slide](images/Diapositiva5.PNG)

![Slide](images/Diapositiva6.PNG)
    
![Slide](images/Diapositiva7.PNG)
    


## **Instalar las librerías**

In [None]:
#!pip install teradataml==17.20.0.4 kds==0.1.3 lightgbm==4.0.0 nyoka==4.3.0

## **Carga de Modulos**

In [None]:
import pandas as pd
import numpy as np
import getpass as gp
import plotly.express as px
from sklearn.metrics import roc_auc_score, classification_report, confusion_matrix, accuracy_score
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
import kds

from teradataml import *
from teradataml.analytics.valib import *
configure.val_install_location = "val"

In [None]:
eng = create_context(host = 'host.docker.internal', username='demo_user', password = password)
print(eng)

![Slide](images/Diapositiva10.PNG)

## **Lectura Inicial de base de datos**

In [None]:
# Leemos la data de desarrollo de modelos
tdf = DataFrame(in_schema("demo_user","matriz_modelo"))

In [None]:
# Primeros Registros
tdf.head(10)

In [None]:
# Vemos la dimensionalidad
tdf.shape

In [None]:
# Demostrando que no es head() de Python, sino es una funcion de la librería TeradataML con el mismo nombre
tdf.head(5).show_query()

![Slide](images/Diapositiva6.PNG)

## **Exploración de los datos**

In [None]:
# Estadísticas Descriptivas por Columna
valS = valib.Statistics(data=tdf, columns="allnumeric")
valS.result.head(58).sort('xcol')

In [None]:
# Agregando show_query() al final, podemos ver que efectivamente, los códigos se traducen automáticamente a lenguaje SQL antes de ejecutarse
valS.result.show_query()

### Análisis Univariado

In [None]:
## Para variables Cualitativas
def plot_cat(feature):
    catfreq = valib.Frequency(data=tdf, columns=feature)
    df=catfreq.result.to_pandas().reset_index()
    fig = px.bar(df, x='xval', y='xcnt')
    fig.update_xaxes(tickangle = 0, title=feature)
    fig.update_yaxes(title="Frecuencia")  
    fig.show()

In [None]:
## Distribución de la Variable Target (Morosidad=1, Pago Puntual=0)
plot_cat('TAR')

In [None]:
## Calculando la proporción del Target
tResp = valib.Frequency(data=tdf, columns="TAR")
tResp.result

In [None]:
## Graficando otras variables categóricas
plot_cat('SEX')

In [None]:
plot_cat('MARRIAGE')

In [None]:
## Para variables cuantitativas
def plot_num(feature):
    df=tdf.filter(items=['PARTY_ID', feature]).to_pandas()
    fig,axes=plt.subplots(1,2)
    sns.boxplot(data=df,x=feature,ax=axes[0])
    sns.distplot(a=df[feature],ax=axes[1],color='#ff4125')
    fig.set_size_inches(18,6)

In [None]:
## Analizando la distribución de algunas variables numéricas
plot_num('PAY_1')

In [None]:
plot_num('BILL_AMT1')

### Matriz de correlaciones

In [None]:
## Función de VAL para el cálculo In-Database de la matriz de correlaciones
Cor_Mat = valib.Matrix(data=tdf, columns="allnumeric", exclude_columns=["PARTY_ID","SEX","EDUCATION","MARRIAGE"], type="COR")
## Imprimir los resultados
Cor_Mat.result.sort('rownum').head(33)

In [None]:
## Graficando la Matriz de Correlaciones - Más claro significa correlación más alta
sns.set(rc = {'figure.figsize':(16,12)})
sns.heatmap(Cor_Mat.result.to_pandas().sort_values(['rownum']))

Observamos que existen correlaciones significativas entre los grupos de variables históricas

![Slide](images/Diapositiva9.PNG)

## **Modelo de Regresión Logística In-Database**

### Particion Muestral

Seleccionamos las variables más relevantes y dividimos en muestras 70% Train / 30% Test

In [None]:
## Seleccionamos variables más relevantes y generamos una columna que divide la tabla en muestras de entrenamiento y test
tbl_sample = tdf[['PARTY_ID','SEX','PAY_1','AGE','INCOME','CV_LPAY_TOT','CV_LBILL_TOT','CANT_PAY_MAY0',
                  'BILL_AMT1','LOG_BILL_AMT1','AVG_LPAY_TOT','STD_PAY_TOT','TAR']].sample(frac = [0.7, 0.3])

In [None]:
## Almacenando la Muestra de Entrenamiento en la BD y generando la referencia con un DF de TeradataML
copy_to_sql(tbl_sample[tbl_sample.sampleid == "1"].drop("sampleid", axis = 1), schema_name="demo_user", table_name="TrainModel", if_exists="replace")
tbl_train = DataFrame(in_schema("demo_user","TrainModel"))
tbl_train.shape

In [None]:
## Almacenando la Muestra de Test en la BD y generando la referencia con un DF de TeradataML
copy_to_sql(tbl_sample[tbl_sample.sampleid == "2"].drop("sampleid", axis = 1), schema_name="demo_user", table_name="TestModel", if_exists="replace")
tbl_test = DataFrame(in_schema("demo_user","TestModel"))
tbl_test.shape

In [None]:
## Verificando que el DF hace referencia a la tabla creada en la BD
tbl_test.show_query()

<font color='red'/>

### Entrenamiento del Modelo In-Database utilizando VAL

In [None]:
## Función de VAL que entrena un Modelo de Regresión Logística
tdModel = valib.LogReg(data=tbl_train,
                       columns="all",
                       exclude_columns=["PARTY_ID"],
                       stepwise='True',
                       response_column="TAR")
tdModel.model.to_pandas().sort_values(['Column Name'])

In [None]:
## Métricas estadísticas del Modelo
tdModel.statistical_measures.to_pandas()

### Validación del Modelo

In [None]:
## Usando la muestra de Test se pueden generar los estadísticos de validación
obj = valib.LogRegEvaluator(data=tbl_test, model=tdModel.model, index_columns='PARTY_ID')

In [None]:
from IPython.core.display import display, HTML
cursor=con.raw_connection().cursor()
parms = 'database=' + obj.result._table_name.split('.')[0] + ';tablename=' + obj.result._table_name.split('.')[1] + ';analysistype=logistic'
cursor.callproc("val.td_analyze", ['report',parms])
cursor.nextset()
z=cursor.fetchall()
# Loop in case of group by generating multiple reports
for i in range(len(z)):
    display(HTML(z[i][1]))

<font color='red'/>

### Scoring del Modelo In-Database utilizando VAL

In [None]:
## Función de Scoring de la Regresión Logística en VAL
Logit_Model_Score = valib.LogRegPredict(data=tdf, 
                                        model=tdModel.model, 
                                        index_columns="PARTY_ID",
                                        estimate_column="PRED_TAR",
                                        prob_column="Probability")
 
## Mostramos los primeros 10 registros de la tabla 
Logit_Model_Score.result.head(10)

In [None]:
## Tabla temporal donde se almacenan los resultados del modelo
tdModel.model.show_query()

In [None]:
## Almacenando el resultado en una Tabla permanente de la BD
copy_to_sql(tdModel.model, schema_name="demo_user", table_name="ScoreLogRes", if_exists="replace")

In [None]:
## Combinando la información real con las predicciones para calcular las métricas de performance
vec_con = Logit_Model_Score.result.join(other = tdf.filter(items = ['PARTY_ID', 'TAR']), how = "inner", on = ["PARTY_ID"],
                             lprefix = "predic", rprefix = "orig")

vec_con.head(5)

In [None]:
# Métricas de Evaluación
vec = vec_con.to_pandas()
y_test = vec.TAR
y_pred = vec.PRED_TAR
y_probs = vec.Probability
print('Area bajo la Curva ROC: ',roc_auc_score(y_test, y_probs))
print('Matriz de Confusión: ',confusion_matrix(y_test,y_pred))
print('Métricas de Clasificación: ', classification_report(y_test,y_pred))

In [None]:
# Reporte de Deciles y Gráficos
kds.metrics.report(y_test, y_probs, plot_style='ggplot')

![Slide](images/Diapositiva11.PNG)

![Slide](images/Diapositiva12.PNG)

## **Entrenamiento de un modelo XGBoost 100% Python**

In [None]:
from sklearn2pmml.pipeline import PMMLPipeline
from sklearn2pmml import sklearn2pmml
from xgboost import XGBClassifier

In [None]:
## Movemos los datos a Python con to_pandas()
pdf = tdf[['PARTY_ID','SEX','PAY_1','AGE','INCOME','CV_LPAY_TOT','CV_LBILL_TOT',
           'CANT_PAY_MAY0','BILL_AMT1','LOG_BILL_AMT1','AVG_LPAY_TOT','STD_PAY_TOT','TAR']].to_pandas(all_rows=True)
pdf.head(5)

In [None]:
pdf.shape

In [None]:
X = pdf.drop(["TAR"],axis=1)
y = pdf.TAR

In [None]:
## Creando las muestras de Entrenamiento y Test
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                   test_size=0.3,
                                                   random_state=12345) 

<font color='red'/>

### Entrenando el Modelo y Exportando como PMML

In [None]:
## Se crea el Pipeline para Exportar el modelo en formato PMML
pipeline = PMMLPipeline([("classifier", XGBClassifier(eval_metric='aucpr', use_label_encoder=False, n_estimators=150, max_depth=5))])
pipeline.fit(X_train, y_train)
sklearn2pmml(pipeline, "ModelXGBPy.pmml", with_repr = True)

In [None]:
# Métricas de Evaluación
y_pred = pipeline.predict(X)
y_probs = pipeline.predict_proba(X)[:, 1]
print('Area bajo la Curva ROC: ',roc_auc_score(y, y_probs))
print('Matriz de Confusión: ',confusion_matrix(y,y_pred))
print('Métricas de Clasificación: ', classification_report(y,y_pred))

In [None]:
# Reporte de Deciles y Gráficos
kds.metrics.report(y, y_probs, plot_style='ggplot')

## **Entrenamiento de un modelo LightGBM 100% Python**

In [None]:
from lightgbm import LGBMClassifier
from sklearn.pipeline import Pipeline
from nyoka import lgb_to_pmml
from sklearn.model_selection import GridSearchCV 

In [None]:
## Se crea el Pipeline del modelo
pipeline_obj = Pipeline([('lgbmc',LGBMClassifier(objective = "binary", verbosity=-1, learning_rate=0.1, max_depth=6, num_leaves=50))])
pipeline_obj.fit(X_train, y_train)

In [None]:
## Se exporta el modelo en formato PMML
lgb_to_pmml(pipeline_obj,X_train.columns,"TAR","ModelLGBPy.pmml")

In [None]:
# Métricas de Evaluación
y_pred = pipeline_obj.predict(X)
y_probs = pipeline_obj.predict_proba(X)[:, 1]
print('Area bajo la Curva ROC: ',roc_auc_score(y, y_probs))
print('Matriz de Confusión: ',confusion_matrix(y,y_pred))
print('Métricas de Clasificación: ', classification_report(y,y_pred))

In [None]:
# Reporte de Deciles y Gráficos
kds.metrics.report(y, y_probs, plot_style='ggplot')

Comparando los resultados, el mejor modelo es XGBoost, por eso será el que se lleve al proceso de Scoring

<font color='red'/>

## **Scoring del Modelo XGB entrenado en Python utilizando BYOM en la BD**

In [None]:
con.execute("CREATE SET TABLE demo_user.pmml_models (model_id VARCHAR(40) \
            CHARACTER SET LATIN NOT CASESPECIFIC, model BLOB(2097088000)) \
            PRIMARY INDEX ( model_id );")

In [None]:
model_bytes = open("ModelXGBPy.pmml", "rb").read()
con.execute("insert into demo_user.pmml_models  (model_id, model) values(?,?)", 'cobr_xgb_model', model_bytes)

In [None]:
pd.read_sql("select * from demo_user.pmml_models", con)

In [None]:
con.execute("CREATE TABLE demo_user.ScoreResult AS ( \
SELECT * FROM mldb.PMMLPredict( \
    ON (SELECT * FROM demo_user.matriz_score) \
    ON (select * from demo_user.pmml_models where model_id='cobr_xgb_model') DIMENSION \
    USING \
        Accumulate('PARTY_ID') \
        ModelOutputFields ('probability(0)', 'probability(1)') \
) AS dt \
) WITH DATA;")

In [None]:
con.execute('UPDATE demo_user.ScoreResult SET prediction=0 WHERE "probability(0)" GT "probability(1)";')

In [None]:
con.execute('UPDATE demo_user.ScoreResult SET prediction=1 WHERE "probability(1)" GT "probability(0)";')

In [None]:
result_df = DataFrame.from_query("select top 10 * FROM demo_user.ScoreResult;")
result_df.head()

## **Finalizando la Demo**

In [None]:
con.execute("DROP TABLE demo_user.TrainModel;")

In [None]:
con.execute("DROP TABLE demo_user.TestModel;")

In [None]:
con.execute("DROP TABLE demo_user.pmml_models;")

In [None]:
con.execute("DROP TABLE demo_user.ScoreResult;")

In [None]:
## Finalizando el Notebook y Limpiando el ambiente 
remove_context()

![Slide](images/Diapositiva13.PNG)

![Slide](images/Diapositiva14.PNG)

Copyright 2023. Elaborado por Luis Cajachahua bajo licencia MIT