<header>
   <p  style='font-size:36px;font-family:Arial; color:#F0F0F0; background-color: #00233c; padding-left: 20pt; padding-top: 20pt;padding-bottom: 10pt; padding-right: 20pt;'>
       Análise de risco de crédito com Vantage
  <br>
       <img id="teradata-logo" src="https://storage.googleapis.com/clearscape_analytics_demo_data/DEMO_Logo/teradata.svg" alt="Teradata" style="width: 125px; height: auto; margin-top: 20pt;">
    </p>
</header>

# Caso de Uso  

## Descrição do caso

O caso que vamos analisar baseia-se num conjunto de dados públicos que podem ser encontrados em [Kaggle](https://www.kaggle.com/laotse/credit-risk-dataset?select=credit_risk_dataset.csv) e contém dados de 32.581 mutuários e 11 variáveis relacionadas a cada mutuário.  
Vamos ver quais são essas variáveis:  

* id: Identificador do cliente
* person_age - variável numérica; idade em anos
* person_income - variável numérica; renda anual em dólares
* person_home_ownership - variável categórica; "Aluguel", "hipoteca" ou "próprio"
* person_emp_length - variável numérica; tempo de trabalho em anos
* loan_intent: variável categórica; "educação", "medicina", "negócios", "melhorias residenciais", "pessoal" ou "consolidação de dívidas"
* loan_amt - variável numérica; valor do empréstimo em dólares
* loan_grade - variável categórica; "A", "B", "C", "D", "E", "F" ou "G"
* loan_int_rate - variável numérica; taxa de juros em porcentagem
* loan_percent_income - variável numérica; entre 0 e 1; relação entre empréstimo e renda
* loan_status: variável numérica binária; 0 ou 1 → esta será nossa variável alvo
* cb_person_default_on_file - variável binária e categórica; "Y" ou "N", marca se o cliente já esteve inadimplente
* cb_person_cred_hist_length: - variável numérica, histórico de crédito em anos

***

## Configurando a conexão entre Python e Teradata

### Carregamos as bibliotecas Python necessárias

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = [7.50, 3.50]
plt.rcParams["figure.autolayout"] = True

import warnings
import getpass
import os
import random
warnings.filterwarnings('ignore')

### Carregamos as bibliotecas Teradata necessárias

In [2]:
#Conexión con Vantage
from teradataml import create_context, DataFrame, get_context, copy_to_sql, in_schema, remove_context, display_analytic_functions

#Este paquete permite que SQLAlchemy se conecte a la base de datos Teradata.
from teradatasqlalchemy.types import * 
from teradatasqlalchemy import INTEGER

#Creación de modelo GLM
from teradataml import GLM, TDGLMPredict

#Evaluación de modelos
from teradataml import ClassificationEvaluator

### Conexão com Vantage

In [4]:
#con=create_context(host = '40.71.87.158', username='tdbacen', password = getpass.getpass())
con=create_context(host = '40.71.87.158', username='tdbacen', password = 'tdbacen')

get_context()

Engine(teradatasql://tdbacen:***@40.71.87.158)

***
# 4. Criação e validação de modelo de Regressão Logística in-database 
  
Vamos realizar uma série de etapas para criar e validar o modelo:  
* Criação de amostras para treinamento e validação
* Criação de modelo
* Validação do modelo

## 4.1 Criação de amostras  
  
A partir do conjunto de dados final com os dados já curados que armazenamos nas etapas anteriores, vamos gerar uma marca aleatória para separá-lo em 3 amostras:  
  
* Uma amostra para criar o modelo
* Uma amostra para avaliar o modelo
* Uma amostra que simula um novo conjunto de dados para posteriormente aplicar o modelo em produção
  
Para criar as marcas aleatórias usaremos a função Vantage SQL chamada _SAMPLEID_.  
A função identifica a amostra à qual pertence uma linha, distinguindo linhas que pertencem a diferentes amostras especificadas na cláusula SAMPLE de uma instrução SELECT.  

In [7]:
ads=DataFrame.from_query("SELECT a.*, SAMPLEID as sid"
                               " FROM (SELECT * FROM CreditRisk_dataset) a"
                               " SAMPLE RANDOMIZED ALLOCATION 0.3, 0.3, 0.4"
                           )

ads.head(5)

cb_person_default_on_file_0,cb_person_default_on_file_1,cb_person_default_on_file_other,loan_grade_0,loan_grade_1,loan_grade_2,loan_grade_3,loan_grade_4,loan_grade_5,loan_grade_6,loan_grade_other,loan_intent_0,loan_intent_1,loan_intent_2,loan_intent_3,loan_intent_4,loan_intent_5,loan_intent_other,person_home_ownership_0,person_home_ownership_1,person_home_ownership_2,person_home_ownership_3,person_home_ownership_other,id,loan_status,cb_person_cred_hist_length,loan_amnt,loan_int_rate,loan_percent_income,person_age,person_emp_length,person_income,sid
0,1,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,31888,1,1.281,-0.03,1.422,-1.126,1.302,-0.191,1.707,2
0,1,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,3359,0,-0.938,-0.41,0.53,0.185,-0.431,-0.432,-0.485,1
0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,22691,0,0.048,-0.33,0.277,-0.189,0.829,-0.673,-0.247,1
0,1,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,10701,0,-0.938,-0.251,0.765,-0.564,-0.903,0.051,0.063,3
0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,26811,0,1.035,-0.726,1.104,0.092,0.672,-0.915,-0.622,1


In [8]:
#Lista de variables para el análisis
lista01 = ads.columns
lista02 = [e for e in lista01 if e not in ['id', 'loan_status', 'sid']]
lista02

['cb_person_default_on_file_0',
 'cb_person_default_on_file_1',
 'cb_person_default_on_file_other',
 'loan_grade_0',
 'loan_grade_1',
 'loan_grade_2',
 'loan_grade_3',
 'loan_grade_4',
 'loan_grade_5',
 'loan_grade_6',
 'loan_grade_other',
 'loan_intent_0',
 'loan_intent_1',
 'loan_intent_2',
 'loan_intent_3',
 'loan_intent_4',
 'loan_intent_5',
 'loan_intent_other',
 'person_home_ownership_0',
 'person_home_ownership_1',
 'person_home_ownership_2',
 'person_home_ownership_3',
 'person_home_ownership_other',
 'cb_person_cred_hist_length',
 'loan_amnt',
 'loan_int_rate',
 'loan_percent_income',
 'person_age',
 'person_emp_length',
 'person_income']

### 4.1.1. Separação de amostras para treinamento e validação

In [9]:
ads_train=ads[ads["sid"]==1]
ads_test=ads[ads["sid"]==2]

### 4.1.2. Armazenamos a terceira amostra no Vantage para simular a pontuação

In [10]:
ads[ads["sid"]==3].drop(['loan_status','sid'], axis = 1).to_sql('CreditRisk_score', 
                                                           primary_index="id", 
                                                           if_exists="replace")

## 4.2. Criação de modelo  

Usaremos a função do Modelo Linear Geral _GLM()_ para criar nosso modelo de Regressão Logística.  
Alguns recursos notáveis da função GLM:  
  
* Usa o algoritmo Minibatch Stochastic Gradient Descent (SGD), que é altamente escalonável para grandes conjuntos de dados. O algoritmo estima o gradiente de perda em minilotes, que é definido usando o argumento "batch_size", e atualiza o modelo com uma taxa de aprendizado usando o argumento "learning_rate".
* Usa uma combinação dos argumentos "iter_num_no_change" e "tolerance" para definir o critério de convergência e executa múltiplas iterações (até o valor especificado no argumento "iter_max") até que o algoritmo atenda ao critério.
  
A função também oferece suporte às seguintes abordagens:  
* Regularização L1 (LASSO), L2 (RIDGE) e Elastic Net para reduzir parâmetros do modelo.
* Aprendizagem acelerada usando abordagens Momentum e Nesterov.

In [11]:
GLM_model = GLM(input_columns= lista02,
                response_column = "loan_status",
                data = ads_train, 
                family = 'BINOMIAL',
                iter_max = 100,
                learning_rate = 'OPTIMAL',
                momentum = 0.6
               )

In [10]:
GLM_model.result.sort('attribute').head(70)

attribute,predictor,estimate,value
-13,LocalSGD Iterations�,0.0,
-12,Nesterov�,,TRUE
-11,Momentum�,0.6,
-10,Learning Rate (Final)�,0.4244373524943592,
-9,Learning Rate (Initial)�,0.05,
-8,Number of Iterations�,100.0,NOT CONVERGED
-7,Alpha�,0.15,Elasticnet
-6,Regularization�,0.02,ENABLED
-5,BIC�,285.5488175852404,
-4,AIC�,62.73690417250724,


In [12]:
GLM_model.result.columns

['attribute', 'predictor', 'estimate', 'value']

### 4.2.1 Aplicar el modelo sobre la muestra de Evaluación
  
Usaremos a função _TDGLMPredict()_ para aplicar nosso modelo recém-criado à amostra de avaliação

In [13]:
GLM_predict = TDGLMPredict(object = GLM_model.result,
                         newdata = ads_test,
                         id_column="id",
                         accumulate="loan_status")

In [39]:
GLM_predict.result

id,prediction,loan_status
13132,0.0,0
19107,0.0,0
29099,0.0,0
18108,0.0,1
20922,0.0,0
22186,0.0,1
11603,1.0,1
18434,0.0,0
5832,0.0,0
3018,0.0,0


### 4.2.2. Avaliação do modelo  
  
A função _ClassificationEvaluator()_ fornece informações detalhadas sobre o ajuste do modelo

In [14]:
GLMpred = GLM_predict.result.assign(pred = GLM_predict.result.prediction.cast(type_=INTEGER))

In [16]:
Evaluator_obj = ClassificationEvaluator(data=GLMpred,
                                        observation_column='loan_status',
                                        prediction_column='pred',
                                        labels=['0', '1'])

TeradataMlException: [Teradata][teradataml](TDML_2102) Failed to execute SQL: '[Version 17.20.0.19] [Session 41515] [Teradata Database] [Error 7810] Error in function TD_ClassificationEvaluator: Datatype of ObservationColumn and PredictionColumn must be same.
 at gosqldriver/teradatasql.formatError ErrorUtil.go:89
 at gosqldriver/teradatasql.(*teradataConnection).formatDatabaseError ErrorUtil.go:217
 at gosqldriver/teradatasql.(*teradataConnection).makeChainedDatabaseError ErrorUtil.go:233
 at gosqldriver/teradatasql.(*teradataConnection).processErrorParcel TeradataConnection.go:814
 at gosqldriver/teradatasql.(*TeradataRows).processResponseBundle TeradataRows.go:2288
 at gosqldriver/teradatasql.(*TeradataRows).executeSQLRequest TeradataRows.go:855
 at gosqldriver/teradatasql.newTeradataRows TeradataRows.go:712
 at gosqldriver/teradatasql.(*teradataStatement).QueryContext TeradataStatement.go:122
 at gosqldriver/teradatasql.(*teradataConnection).QueryContext TeradataConnection.go:1318
 at database/sql.ctxDriverQuery ctxutil.go:48
 at database/sql.(*DB).queryDC.func1 sql.go:1757
 at database/sql.withLock sql.go:3439
 at database/sql.(*DB).queryDC sql.go:1752
 at database/sql.(*Conn).QueryContext sql.go:2011
 at main.goCreateRows goside.go:775
 at _cgoexp_361f854e4d93_goCreateRows _cgo_gotypes.go:387
 at runtime.cgocallbackg1 cgocall.go:316
 at runtime.cgocallbackg cgocall.go:235
 at runtime.cgocallback asm_amd64.s:994
 at runtime.goexit asm_amd64.s:1594'

In [46]:
Evaluator_obj.result

SeqNum,Prediction,Mapping,CLASS_1,CLASS_2,Precision,Recall,F1,Support
0,0,CLASS_1,7326,1102,0.8692453725676317,0.9524180967238688,0.9089330024813896,7692
1,1,CLASS_2,366,980,0.7280832095096582,0.4707012487992315,0.5717619603267211,2082


In [47]:
Evaluator_obj.output_data

SeqNum,Metric,MetricValue
3,Micro-Recall,0.849805606711684
5,Macro-Precision,0.798664291038645
6,Macro-Recall,0.7115596727615502
7,Macro-F1,0.7403474814040554
9,Weighted-Recall,0.849805606711684
10,Weighted-F1,0.8371108099536608
8,Weighted-Precision,0.8391758387547915
4,Micro-F1,0.849805606711684
2,Micro-Precision,0.849805606711684
1,Accuracy,0.849805606711684


### 4.2.3. Armazenamos o modelo no Vantage  
  
Para utilizar o modelo com novos dados vamos armazená-los como uma tabela no Vantage

In [17]:
GLM_model.result.to_sql('CreditScoreRegLog_model', primary_index="attribute", if_exists="replace")

***
# 4.3. Executando o modelo GLM em produção  
  
Para executar nosso modelo em um ambiente produtivo, precisamos:  
* Recuperar o modelo armazenado
* Carregue os dados nos quais deseja aplicar o modelo
* Use a função de previsão correspondente

## 4.3.1. Recuperação de modelo

In [18]:
modeldf = DataFrame.from_query("SELECT * FROM CreditScoreRegLog_model", index_label=None)

## 4.3.2. Dados para pontuação

In [19]:
newdf = DataFrame.from_query("SELECT * FROM CreditRisk_score", index_label=None)

## 4.3.3. Aplicação de modelo

In [21]:
Scored_df = TDGLMPredict(object = modeldf,
                         newdata = newdf,
                         id_column="id", 
                         output_prob=True, 
                         output_responses='1')

In [22]:
Scored_df.result.head()

id,prediction,prob_1
3,1.0,0.8002848984083453
13,0.0,0.1780790760381077
15,0.0,0.1984067179554256
17,0.0,0.2343930884449839
20,0.0,0.0084244453351573
21,0.0,0.0311866685002871
18,0.0,0.2550927471423515
7,1.0,0.6165575063003609
2,0.0,0.0028425184762501
1,0.0,6.434016627247128e-08


***
# Desconectando do Vantage  
  
O código a seguir limpará as tabelas temporárias criadas durante a sessão de trabalho.

In [13]:
remove_context()

True

<footer style="padding:10px;background:#f9f9f9;border-bottom:3px solid #394851">©2024 Teradata. All Rights Reserved</footer>  
<img id="teradata-logo" src="https://storage.googleapis.com/clearscape_analytics_demo_data/DEMO_Logo/teradata.svg" alt="Teradata" style="width: 125px; height: auto; margin-top: 20pt;">