In [105]:
import pandas as pd
import numpy as np
from datetime import datetime
from sqlalchemy import create_engine
from pricing.service.scoring.lscore import LScoring
import requests
from time import sleep
import warnings
warnings.filterwarnings('ignore')

In [4]:
df_dividas = pd.read_excel("../tabelas/base_dividas_201904.xlsx")

In [5]:
df_dividas[df_dividas["tipo"]=='processos'].head()

Unnamed: 0,cnpj,data_ocorrencia,descricao_natureza,modalidade_natureza,natureza,tipo,uf,valor
0,3403405000169,03/07/2017,EXC JUD TRAB,,Execução de Título Judicial Trabalhista,processos,SC,"R$ 17788,37"
1,3403405000169,24/01/2017,EXC JUD TRAB,,Execução de Título Judicial Trabalhista,processos,RS,"R$ 75143,93"
2,3403405000169,11/08/2016,FISCAL ESTADUAL,,Execução Fiscal Estadual,processos,SC,"R$ 0,00"
0,4501499000171,25/01/2019,FISCAL ESTADUAL,,Execução Fiscal Estadual,processos,MG,"R$ 0,00"
1,4501499000171,18/01/2018,EXECUCAO,,Execução,processos,MG,"R$ 0,00"


#### 1. Data pre-processing

In [6]:
def get_cheques(js):
    res = js.get("cheques")
    if not res is None:
        df = pd.DataFrame(res.get("itens"))
        df = df[["data_ocorrencia", "uf", "quantidade_cheques"]]
        df["tipo"] = "cheques"
        return df
    else:
        return None
        

def get_restricoes_financeiras(js):
    res = js.get("restricoes_financeiras")
    if not res is None:
        df = pd.DataFrame(res.get("itens"))
        if "uf" in list(df.columns):
            df = df[["data_ocorrencia", "modalidade_natureza", "natureza", "uf", "valor"]]
        else:
            df = df[["data_ocorrencia", "modalidade_natureza", "natureza", "uf", "valor"]]
            df['uf'] = None
        
        df["tipo"] = "restricoes_financeiras"
        return df
    return None

def get_protestos(js):
    res = js.get("protestos")
    if not res is None:
        df = pd.DataFrame(res.get("itens"))
        if "uf" in list(df.columns):
            df = df[["data_anotacao", "natureza", "sub_judice_descricao", "uf", "valor"]]
            df.columns = ["data_ocorrencia", "natureza", "modalidade_natureza", "uf", "valor"]
        else:
            df = df[["data_anotacao", "natureza", "sub_judice_descricao", "valor"]]
            df.columns = ["data_ocorrencia", "natureza", "modalidade_natureza", "valor"]
            df["uf"] = None
        df['tipo'] = "protestos"
        return df
    return None

def get_pendencias(js):
    res = js.get("pendencias")
    if not res is None:
        df = pd.DataFrame(res.get("itens"))
        if "uf" in list(df.columns):
            df = df[["data_ocorrencia", "modalidade", "natureza", "valor", "uf"]]
            
        else:
            df = df[["data_ocorrencia", "modalidade", "natureza", "valor"]]
            df["uf"] = None
        df.rename(columns={"modalidade" : "modalidade_natureza"}, inplace=True)
        df['tipo'] = "pendencias"
        return df
    return None

def get_processos(js):
    res = js.get("processos")
    if not res is None:
        df = pd.DataFrame(res.get('itens'))
        if "uf" in list(df.columns):
            df = df[["data_ocorrencia", "descricao_natureza", "natureza", "uf", "valor"]]
        else:
            df = df[["data_ocorrencia", "descricao_natureza", "natureza", "valor"]]
            df["uf"] = None
        df.rename(columns = {"descricao_natureza" : "modalidade_natureza"})
        df["tipo"] = "processos"
        return df
    return None
            



In [7]:
dict_campos = {"restricoes" : ["data_ocorrencia", "modalidade_natureza", "natureza", "valor"],
         "protestos" : ["data_anotacao", "natureza", "sub_judice_descricao", "valor"],
          "pendencias" : ["data_ocorrencia", "modalidade", "natureza", "valor"],
          "processos" : ["data_ocorrencia", "descricao_natureza", "natureza", "valor"],
            "restricoes_financeiras" : ["data_ocorrencia", "modalidade_natureza", "natureza", "valor"]
         }

dict_rename = {"processos" : {"descricao_natureza" : "modalidade_natureza"},
               "pendencias" : {"modalidade" : "modalidade_natureza"},
                "protestos" : {'sub_judice_descricao' : "modalidade_natureza", "data_anotacao" : "data_ocorrencia"}
              }

def get_infos_dividas(js, tp_pendencia):
    res = js.get("result").get(tp_pendencia)
    if not res is None:
        df = pd.DataFrame(res.get('itens'))
        cols = dict_campos.get(tp_pendencia)
        if "uf" in list(df.columns):
            cols = cols + ["uf"]
            df = df[cols].copy()
        else:
            df = df[cols]
            df["uf"] = None
        rename = dict_rename.get(tp_pendencia)
        if not rename is None:
            df.rename(columns = rename, inplace=True)
        df["tipo"] = tp_pendencia
        return df
    return None

In [8]:
def get_numero_consulta(doc):
    engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/varejo")
    con = engine.connect()
    query = "select data_ref, numero_consulta from consultas_idwall_operacoes where cnpj_cpf='{}'".format(doc)
    df = pd.read_sql(query, con)
    numero = df[df['data_ref']==df['data_ref'].max()]["numero_consulta"].iloc[0]
    con.close()
    return numero

def get_details(numero):
    URL = "https://api-v2.idwall.co/relatorios"
    authorization = "b3818f92-5807-4acf-ade8-78a1f6d7996b"
    url_details = URL + "/{}".format(numero) + "/dados"
    while True:
        dets = requests.get(url_details, headers={"authorization": authorization})
        djson = dets.json()
        sleep(1)
        if djson['result']['status'] == "CONCLUIDO":
            break

    return dets.json()

In [9]:
def formata_dados(df):
    df['modalidade_natureza'] = df.apply(lambda x : x['modalidade_natureza'].replace(" ", "") if isinstance(x['modalidade_natureza'], str) else "OUTROS", axis=1)
    df['valor'] = df.apply(lambda x : x['valor'].split("R$ ")[1].replace(",", "."), axis=1)
    df["valor"] = df.apply(lambda x : float(x["valor"]), axis=1)
    return df

def gera_dados(doc):
    numero = get_numero_consulta(doc)
    js = get_details(numero)
    
    fr = []
    lista_pendencias = ["restricoes", "processos", "protestos", "pendencias", "restricoes_financeiras"]
    for el in lista_pendencias:
        res = get_infos_dividas(js, el)
        if not res is None:
            fr.append(res)

    df = pd.concat(fr)
    df = formata_dados(df)
    return df

def atribui_segmento(df):
    segmento_infra = ['FATAGUA', 'TELEFFX', 'TELEFFIXA', 'TELEFMOVEL', 'CONDOMINIO', 'ENERGIAELET', 'ALUGUEL', 
                  'SERVTELEFON']
    segmento_credito = ['EMPRESCONTA', 'EMPRESTIMO', 'CREDCARTAO', 'FINANCIAMENT', 'CREDITOEFINANCIAMENTO-FINANC']
    segmento_processos = ['EXCJUDTRAB', 'FISCALESTADUAL', 'EXECUCAO', 'FISCALFEDERAL', 'FISCALMUNICIPAL',
                     'EXECUCAO-JE', 'BUSCAEAPREENSAO']
    df['segmento'] = df.apply(lambda x : 'processos' if x['tipo']=='processos'
                          else('credito' if x['modalidade_natureza'] in segmento_credito
                              else ('infra' if x['modalidade_natureza'] in segmento_infra else "outros")), axis=1)
    return df

In [10]:
# hortifruti 26203839000110

In [11]:
df = gera_dados("26203839000110")

In [12]:
df["modalidade_natureza"].unique().tolist()

['Dívidanãocontestada.', 'DUPLICATA', 'OUTROS', 'EMPRESTIMO', 'FINANCIAMENT']

In [13]:
df = atribui_segmento(df)

In [14]:
df.head()

Unnamed: 0,data_ocorrencia,modalidade_natureza,natureza,tipo,uf,valor,segmento
0,27/03/2019,Dívidanãocontestada.,Falta Pagamento,protestos,SP,4235.87,outros
1,10/02/2019,Dívidanãocontestada.,Falta Pagamento,protestos,SP,1738.64,outros
2,01/02/2019,Dívidanãocontestada.,Falta Pagamento,protestos,SP,1125.0,outros
3,18/01/2019,Dívidanãocontestada.,Falta Pagamento,protestos,SP,986.0,outros
4,11/01/2019,Dívidanãocontestada.,Falta Pagamento,protestos,SP,986.0,outros


#### Part 2 - Calculations

In [1]:
# calculos das metricas

In [19]:
# 1 - probabilidade
def calcula_probabilidade(df):
    dt = df.groupby("segmento").count().reset_index()[["segmento", "valor"]]
    dt.columns = ["segmento", "ocorrencias"]
    dt["probabilidade"] = dt["ocorrencias"]/dt["ocorrencias"].sum()
    return dt

# 2 - composicao da divida
def calcula_composicao(df):
    dt = df.groupby("segmento").sum().reset_index()
    dt.columns = ["segmento", "valor_divida"]
    dt["composicao"] = dt["valor_divida"]/dt["valor_divida"].sum()
    return dt

In [21]:
dfp = calcula_probabilidade(df)

dfc = calcula_composicao(df)

dfcalc = dfp.merge(dfc, left_on="segmento", right_on="segmento", how='left')

In [26]:
dfcalc

Unnamed: 0,segmento,ocorrencias,probabilidade,valor_divida,composicao
0,credito,2,0.04,130934.84,0.727194
1,outros,48,0.96,49119.95,0.272806


In [137]:
def get_lscore(cnpj, produto):
    ls = LScoring(cnpj=cnpj, produto=produto)
    score = ls.calcula().get('score')
    fat_medio = ls.faturamentos['valor'].mean()
    return score, fat_medio    

def calcula_fat_medio(cnpj, produto):
    df_fat = get_faturamento(cnpj, produto)
    df_fat.index = pd.to_datetime(df_fat.data)
    _df = df_fat.resample('MS').sum().reset_index()
    _df = _df.sort_values('data', ascending=False).iloc[:12, :]
    return _df['valor'].mean()

def calcula_pi(dfcalc):
    dfcalc['pi'] = dfcalc['valor_divida']/dfcalc['fat_medio']
    dfcalc['pi'] = (2/3)*dfcalc['pi']
    return dfcalc

escala_impacto = {"credito" : {"i0" : 0.75, "i1" : 1},
                 "processos" : {"i0" : 0.5, "i1" : 0.75},
                  "infra" : {"i0" : 0.25, "i1" : 0.5},
                  "outros" : {"i0" : 0, "i1" : 0.25},
                 }

def calcula_lambda(dfcalc):
    dfcalc["lambda"] = dfcalc['composicao']*dfcalc['pi']
    return dfcalc

def impacto_segmento(lambda_, segmento, escala_impacto):
    escala = escala_impacto.get(segmento)
    i0 = escala.get("i0")
    i1 = escala.get("i1")
    return (i1 - i0)*lambda_ + i0

def calcula_impacto_segmento(dfcalc, escala_impacto):
    dfcalc['impacto_segmento'] = dfcalc.apply(lambda x : impacto_segmento(x['lambda'], x["segmento"], escala_impacto), axis=1)
    return dfcalc

def calcula_risco(dfcalc):
    dfcalc["risco"] = dfcalc["probabilidade"]*dfcalc["impacto_segmento"]
    return dfcalc

def d_score(risco_, score_limite):
    return -score_limite*risco_ + score_limite

def calcula_escala_score(lscore):
    delta = int(np.floor(lscore/4))
    escala = {"credito" : delta, "processos" : 2*delta, "infra" : 3*delta, "outros" : 4*delta}
    return escala

def calcula_dscore(dfcalc, lscore):
    escala = calcula_escala_score(lscore)
    dfcalc["dscore"] = dfcalc.apply(lambda x : d_score(x["risco"], escala.get(x["segmento"])), axis=1)
    return dfcalc


In [138]:
def calcula(cnpj, produto):
    df = gera_dados(cnpj)
    df = atribui_segmento(df)
    dfp = calcula_probabilidade(df)
    dfc = calcula_composicao(df)
    dfcalc = dfp.merge(dfc, left_on="segmento", right_on="segmento", how='left')
    lscore, fat_medio = get_lscore(cnpj, produto)

    dfcalc['fat_medio'] = fat_medio
    dfcalc = calcula_pi(dfcalc)
    dfcalc = calcula_lambda(dfcalc)
    dfcalc = calcula_impacto_segmento(dfcalc, escala_impacto)
    dfcalc = calcula_risco(dfcalc)
    dfcalc = calcula_dscore(dfcalc, lscore)
    dscore = dfcalc['dscore'].mean()
    segmentos = dfcalc["segmento"].tolist()
    dscores = dfcalc["dscore"].tolist()
    res = dict(zip(segmentos, dscores))
    res["lscore"] = int(lscore)
    res['dscore'] = int(dscore)
    res['score'] = int((lscore + dscore)/2)
    return res

In [141]:
# %%timeit
cnpj = "26203839000110"
produto = "tomatico"
res = calcula(cnpj, produto)

         data      valor
0  2018-04-01   23202.45
1  2018-05-01   70938.27
2  2018-06-01   63191.59
3  2018-07-01   73146.46
4  2018-08-01   94741.67
5  2018-09-01   89927.79
6  2018-10-01  102632.88
7  2018-11-01   86734.29
8  2018-12-01   91533.72
9  2019-01-01   94312.90
10 2019-02-01   91812.90
11 2019-03-01   97810.85
12 2019-04-01   97382.16
periodo de elegibilidade : [datetime.date(2018, 11, 1), datetime.date(2018, 12, 1), datetime.date(2019, 1, 1), datetime.date(2019, 2, 1), datetime.date(2019, 3, 1), datetime.date(2019, 4, 1)]
         data      valor
0  2018-04-01   23202.45
1  2018-05-01   70938.27
2  2018-06-01   63191.59
3  2018-07-01   73146.46
4  2018-08-01   94741.67
5  2018-09-01   89927.79
6  2018-10-01  102632.88
7  2018-11-01   86734.29
8  2018-12-01   91533.72
9  2019-01-01   94312.90
10 2019-02-01   91812.90
11 2019-03-01   97810.85
12 2019-04-01   97382.16
probabilidade_zeros :0.0
SCORE INICIAL : 740.1272727272727
score : 740.1272727272727


In [144]:
res

{'credito': 178.11322384818953,
 'outros': 721.9392695673541,
 'lscore': 740,
 'dscore': 450,
 'score': 595}

In [145]:
cnpj

'26203839000110'