In [2]:
# Imports
import warnings
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
import time
import numpy as np
import joblib # para salvar o modelo preditivo
from sklearn.preprocessing import LabelEncoder # para fazer o OneHotEncoding
from sklearn.metrics import mean_squared_error, precision_score, recall_score, accuracy_score, roc_auc_score, confusion_matrix
from imblearn.over_sampling import SMOTE # fazer o balanceamento
from sklearn.preprocessing import MinMaxScaler # fazer a padronização
from sklearn.metrics import r2_score # medir a acurácia
import pymssql as sql

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [3]:
# Carregando o modelo treinado
clf = joblib.load('modelo_treinado.pk')

In [5]:
# Importando dados

# Criando conexão com SQL Server

conexao = sql.connect(
    server='DESKTOP-CR5F8QN',
    user='sa',
    password='137',
    database='MODELOS_PREDITIVOS'
)

# Consulta ao banco de dados
df = pd.read_sql_query('SELECT * FROM EXTRACAO_DADOS_SISTEMA', conexao)

# Fechando conexão
conexao.close()

In [6]:
# Exclusão de valores nulos
df.dropna(inplace=True)

In [7]:
# Criando faixa de prazos
bins = [-1, 120, 180, 240]
labels = ['Até 120 meses', '121 até 180 meses', '181 até 240 meses']
df['FAIXA_PRAZO_FINANCIAMENTO'] = pd.cut(df['PZ_FINANCIAMENTO'], bins=bins, labels=labels)
pd.value_counts(df.FAIXA_PRAZO_FINANCIAMENTO)

FAIXA_PRAZO_FINANCIAMENTO
Até 120 meses        7402
181 até 240 meses    2241
121 até 180 meses     767
Name: count, dtype: int64

In [8]:
# Criando faixa de valor financiado
bins = [-1, 100000, 200000, 300000, 400000, 500000, 750000, 1000000, 900000000]
labels = ['Até 100 mil', '101 até 200 mil', '201 até 300 mil', '301 até 400 mil',
          '401 até 500 mil', '501 até 750 mil', '750 mil até 1 milhão', 'Acima de 1 milhão']
df['FAIXA_VALOR_FINANCIADO'] = pd.cut(df['VALOR_FINANCIAMENTO'], bins=bins, labels=labels)
pd.value_counts(df.FAIXA_VALOR_FINANCIADO)

FAIXA_VALOR_FINANCIADO
201 até 300 mil         3949
301 até 400 mil         2098
101 até 200 mil         1823
401 até 500 mil         1128
501 até 750 mil          915
750 mil até 1 milhão     236
Até 100 mil              167
Acima de 1 milhão         94
Name: count, dtype: int64

In [9]:
# Selecionando colunas
columns = ['TAXA_AO_ANO', 'CIDADE_CLIENTE', 'ESTADO_CLIENTE','RENDA_MENSAL_CLIENTE', 
           'QT_PC_ATRASO', 'QT_DIAS_PRIM_PC_ATRASO','QT_TOTAL_PC_PAGAS',
           'VL_TOTAL_PC_PAGAS', 'QT_PC_PAGA_EM_DIA','QT_DIAS_MIN_ATRASO',
           'QT_DIAS_MAX_ATRASO', 'QT_DIAS_MEDIA_ATRASO','VALOR_PARCELA',
           'IDADE_DATA_ASSINATURA_CONTRATO', 'FAIXA_VALOR_FINANCIADO',
           'FAIXA_PRAZO_FINANCIAMENTO','INADIMPLENTE_COBRANCA']

df_tratado = pd.DataFrame(df, columns=columns)

In [10]:
# Carregando as variáveis categóricas para OneHotEncoding (exceto a variável target)
var_categoricas = []
for i in df_tratado.columns[0:16].tolist():
    if df_tratado.dtypes[i] == 'object' or df_tratado.dtypes[i] == 'category':
        var_categoricas.append(i)

In [11]:
# Criando o encoder e aplicando o OneHotEncoder
lb = LabelEncoder()

for var in var_categoricas:
    df_tratado[var] = lb.fit_transform(df_tratado[var])

In [12]:
# Separar variáveis preditoras e target
PREDITORAS = df_tratado.iloc[:, 0:15]

In [13]:
# Normalizando as variáveis
normalizador = MinMaxScaler()
dados_normalizados = normalizador.fit_transform(PREDITORAS)

In [14]:
# Gerando previsões
previsoes = clf.predict(dados_normalizados)
probabilidades = clf.predict_proba(dados_normalizados)
df['PREVISOES'] = previsoes
df['PROBABILIDADES'] = probabilidades[:,1]
df.head()

Unnamed: 0,NUMERO_CONTRATO,DATA_ASSINATURA_CONTRATO,TIPO_FINANCIAMENTO,TAXA_AO_ANO,PZ_FINANCIAMENTO,CIDADE_CLIENTE,ESTADO_CLIENTE,RENDA_MENSAL_CLIENTE,QT_PC_ATRASO,QT_DIAS_PRIM_PC_ATRASO,QT_TOTAL_PC_PAGAS,VL_TOTAL_PC_PAGAS,QT_PC_PAGA_EM_DIA,QT_DIAS_MIN_ATRASO,QT_DIAS_MAX_ATRASO,QT_DIAS_MEDIA_ATRASO,VALOR_FINANCIAMENTO,VALOR_PARCELA,IDADE_DATA_ASSINATURA_CONTRATO,INADIMPLENTE_COBRANCA,FAIXA_PRAZO_FINANCIAMENTO,FAIXA_VALOR_FINANCIADO,PREVISOES,PROBABILIDADES
0,41637,2012-03-23,IMOBILIARIO,15.0,180,FORTALEZA,CE,4800.0,0,0,97,120078.0,72,3,506,152,73767.0,471.29,70.0,SIM,121 até 180 meses,Até 100 mil,SIM,0.976667
1,67958,2012-01-24,IMOBILIARIO,15.0,200,SAO PAULO,SP,6800.0,0,0,103,156759.47,42,1,349,93,323251.0,1858.69,28.0,SIM,181 até 240 meses,301 até 400 mil,SIM,0.94
2,68502,2014-05-23,IMOBILIARIO,18.0,200,SAO PAULO,SP,6800.0,0,0,98,277125.05,83,1,151,39,529419.0,3123.57,60.0,SIM,181 até 240 meses,501 até 750 mil,SIM,0.976667
3,68731,2015-10-23,IMOBILIARIO,15.0,200,SAO PAULO,SP,6800.0,0,0,87,351395.19,66,1,3797,206,499753.0,2873.58,41.0,SIM,181 até 240 meses,401 até 500 mil,SIM,0.906667
4,68996,2017-01-24,IMOBILIARIO,17.0,200,SAO PAULO,SP,6800.0,0,0,71,344249.83,57,1,36,10,722057.0,4224.03,63.0,SIM,181 até 240 meses,501 até 750 mil,SIM,0.986667


In [15]:
# Exportando dados com 
df.to_excel('dados_prev_probab.xlsx', index=False)

In [None]:
# Vamos criar nossa tabela intermediária no SQL e criar a procedure para fazer o input dos dados

In [None]:
# Insetindo dados no SQL

In [16]:
# Separando as colunas que serão utilizadas para inserção
columns = ['NUMERO_CONTRATO', 'PREVISOES', 'PROBABILIDADES']
df_conversao = pd.DataFrame(df, columns=columns)
df_conversao.head()

Unnamed: 0,NUMERO_CONTRATO,PREVISOES,PROBABILIDADES
0,41637,SIM,0.976667
1,67958,SIM,0.94
2,68502,SIM,0.976667
3,68731,SIM,0.906667
4,68996,SIM,0.986667


In [21]:
import pymssql as sql

# Criando conexão com o SQL Server
conexao = sql.connect(
    server='DESKTOP-CR5F8QN',
    user='sa',
    password='137',
    database='MODELOS_PREDITIVOS'
)

# Criando um cursor e executando um LOOP no DataFrame para fazer o insert no banco SQL Server
cursor = conexao.cursor()

for index, row in df_conversao.iterrows():
    sql = 'INSERT INTO RESULTADOS_INTERMEDIARIOS (NUMERO_CONTRATO, PREVISOES, PROBABILIDADES) VALUES (%s, %s, %s)'
    val = (row['NUMERO_CONTRATO'], row['PREVISOES'], row['PROBABILIDADES'])
    cursor.execute(sql, val)
    conexao.commit()
    
print("Dados inseridos com sucesso no SQL!")

Dados inseridos com sucesso no SQL!


In [24]:
import pymssql as sql
conexao = sql.connect(
    server='DESKTOP-CR5F8QN',
    user='sa',
    password='137',
    database='MODELOS_PREDITIVOS'
)

cursor = conexao.cursor()
cursor.execute('EXEC SP_INPUT_RESULTADOS_MODELO_PREDITIVO')
conexao.commit()
conexao.close()

In [26]:
import pymssql as sql
conexao = sql.connect(
    server='DESKTOP-CR5F8QN',
    user='sa',
    password='137',
    database='MODELOS_PREDITIVOS'
)

cursor = conexao.cursor()
cursor.execute('TRUNCATE TABLE RESULTADOS_INTERMEDIARIOS')
conexao.commit()
conexao.close()