In [1]:
import pandas as pd
import numpy as np
from datetime import datetime
from dateutil.relativedelta import relativedelta
from conector.mysql import mysql_engine
from sqlalchemy import create_engine
from pricing.service.scoring.base import BaseScoring
from werkzeug import exceptions
from scipy import stats
from pricing.utils import formata_cnpj
from datamanager import conn_pricing


class LScoring(BaseScoring):
    def __init__(self, data=None, cnpj=None, produto=None):
        self.cnpj = cnpj
        self.produto = data.get("id_produto") if not data is None else produto
        self.params = self.get_dados() if not self.cnpj is None else data.get("dados")
        # self.params = data['dados']
        # self.produto = data['id_produto']
        self.faturamentos = None
        self.razao_outlier = None
        self.data_max = None
        self.estabilidade = None
        self.pesos = None
        self.volatilidade = None
        self.curva_score = None
        self.score_crescimento = None
        self.prop_queda = None
        self.score_volatilidade = None
        self.slope = None
        self.erro = None
        self.probabilidade_zeros = None
        self.zscore = None
    
    def get_dados(self):
        if self.produto in ["tomatico", "padrao"]:
            engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/credito-digital")
            con = engine.connect()
        else:
            engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/varejo")
            con = engine.connect()
        
        query_wirecard = "select cnpj, data, valor from fluxo_wirecard where cnpj='{}'".format(self.cnpj)
        query_pv = "select cpf_cnpj as cnpj, data, valor from fluxo_pv where cpf_cnpj='{}'".format(formata_cnpj(self.cnpj))
        query_tomatico = "select cnpj, dataFluxo as data, valorFluxo as valor from tb_Fluxo where cnpj='{}'".format(self.cnpj)
        query_justa = "select cnpj, data, valor from fluxo_justa where cnpj='{}'".format(self.cnpj)
        dict_query = {"tomatico" : query_tomatico,
                    "padrao" : query_tomatico,
                    "wirecard" : query_wirecard,
                    "moip" : query_wirecard,
                    "pagueveloz" : query_pv,
                    "justa" : query_justa
                }
        query = dict_query.get(self.produto)
        df = pd.read_sql(query, con)
        con.close()
        df = df.groupby("data").sum().reset_index()
        try:
            df["data"] = df.apply(lambda x : x["data"].date(), axis=1)
        except:
            pass
        dados = df[["data", "valor"]].to_dict("records")
        return dados
    
    @classmethod
    def validar_dados(cls, data):
        if data is None:
            raise exceptions.BadRequest("Missing data")

        if not isinstance(data['dados'], list):
            raise exceptions.UnprocessableEntity(
                "Field 'dados' should be an array")

    @staticmethod
    def gera_periodo(periods=12):
        now = datetime.now().date()
        start = datetime(now.year, now.month, 1)
        start = start - relativedelta(months=periods)
        datas = pd.date_range(start=start, periods=periods, freq='MS')
        datas = [el.date() for el in datas]
        return datas

    @staticmethod
    def mensaliza(df):
        df.index = pd.to_datetime(df.data)
        df = df.resample('MS').sum().reset_index()
    
        return df

    def isElegible(self):
        df = pd.DataFrame(self.params)
        df = self.mensaliza(df)
        per = self.gera_periodo(periods=6)
        
        df = df[df['data'].isin(per)].copy()
        lista_val = df['valor'].tolist()
        if 0 in lista_val or len(df) < 6:
            return None
        return 1

    def gera_serie(self, periods=12):
        df = pd.DataFrame(self.params)
        df = self.mensaliza(df)
        df['data'] = df.data.dt.date
        periodo_completo = self.gera_periodo(periods=periods)
        df = df[df['data'].isin(periodo_completo)]
        if df.empty:
            self.faturamentos = df
            return
        data_min = df['data'].min()
        datas = pd.date_range(
            start=data_min, end=periodo_completo[-1], freq="MS")
        datas = [el.date() for el in datas]

        for data in datas:
            if data not in df['data'].tolist():
                df_extra = pd.DataFrame({"data": [data], "valor": [0]})
                df = pd.concat([df, df_extra])
                df.sort_values("data", inplace=True)

        if self.faturamentos is None:
            self.faturamentos = df
        return

    def outlier_6meses(self):
        razao_outlier = self.faturamentos['valor'].mean(
        )/np.mean(self.faturamentos['valor'].tolist()[:-1])
        if self.razao_outlier is None:
            self.razao_outlier = razao_outlier
        return

    def data_maxima(self):
        res = dict(zip(list(self.faturamentos['valor'].diff())[
                   1:], self.faturamentos['data'].tolist()[0:-1]))
        data_max = res.get(np.max(list(res.keys())))
        if self.data_max is None:
            self.data_max = data_max
        return

    def crescimento_efetivo(self):
        df = self.faturamentos[self.faturamentos['data'] > self.data_max]
        estabilidade = df['valor'].std()/df['valor'].iloc[0]
        if self.estabilidade is None:
            self.estabilidade = estabilidade
        return

    def calcula_pesos(self):
        pesos = list(range(1, self.faturamentos.shape[0]))

        if self.estabilidade <= 0.15:
            dic_pesos = dict(
                zip(self.faturamentos['data'].tolist()[:-1], pesos))
            peso_max = np.max(list(dic_pesos.values()))
            dic_pesos[self.data_max] = peso_max

            if self.data_max - relativedelta(months=1) in list(dic_pesos.keys()):
                p = dic_pesos.get(self.data_max - relativedelta(months=1))
            else:
                p = 0

            keys = pd.date_range(start=self.data_max + relativedelta(months=1),
                                 end=list(dic_pesos.keys())[-1], freq='MS')
            keys = [el.date() for el in keys]

            i = 1
            for data in keys:
                dic_pesos[data] = p + i
                i += 1
        else:
            dic_pesos = dict(
                zip(self.faturamentos['data'].tolist()[:-1], pesos))

        if self.pesos is None:
            self.pesos = dic_pesos
        return

    def calcula_volatilidade(self):
        self.volatilidade = self.faturamentos['valor'].std(
        )/self.faturamentos['valor'].mean()
        return

    # score de crescimento
    def lscore(self):
        pesos = list(self.pesos.values())

        if self.razao_outlier >= 2:
            pesos[-1] = 1

        dfcalc = self.faturamentos[['valor']].diff()
        dfcalc.dropna(inplace=True)
        dfcalc['pesos'] = pesos
        dfcalc['tx'] = dfcalc['valor'] * dfcalc['pesos']
        tx = dfcalc['tx'].sum() / dfcalc['pesos'].sum()
        tx = tx/self.faturamentos['valor'].mean()
        return tx

    def calibracao(self):
        eng = mysql_engine("apiPricing")
        df = pd.read_sql("select * from apiPricing.calibracao_score", eng)
        self.curva_score = df[['metrica',
                               'score', 'tipo_metrica', 'bandwidth']]
        return

    def get_score(self, metrica, tipo_metrica):
        dfcal = self.curva_score[self.curva_score['tipo_metrica']
                                 == tipo_metrica]
        bw = dfcal['bandwidth'].iloc[0]

        if tipo_metrica == 'lscore':
            if metrica <= dfcal['metrica'].min():
                return 0
            if metrica >= dfcal['metrica'].max():
                return 1000
        else:
            if metrica >= dfcal['metrica'].max():
                return 0
            if metrica <= dfcal["metrica"].min():
                return 1000

        return dfcal[(dfcal['metrica'] >= metrica-bw) & (dfcal['metrica'] <= metrica+bw)]['score'].mean()

    def prop_quedas(self):
        dt = self.faturamentos
        df1 = dt[['valor']].diff()
        df1.dropna(inplace=True)
        df1['flag'] = df1.apply(lambda x: int(x['valor'] < 0), axis=1)
        if 1 not in df1['flag'].tolist():
            self.prop_queda = 0
        if 0 not in df1["flag"].tolist():
            self.prop_queda = 1
        
        return

    def calcula_tendencia(self):
        dt = pd.DataFrame(self.params)
        dt["valor"] = dt["valor"]/dt["valor"].max()
        x = dt.index
        y = dt['valor']

        slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
        self.slope = slope
        self.erro = std_err
        return
    
    # calculo da probabilidade de se observar faturamento nulo
    def probabilidade_faturamento_nulo(self):
        _df = self.faturamentos
        media = _df['valor'].mean()
        _df['prop'] = _df['valor']/media

        periodo_elegibilidade = self.gera_periodo(periods=6)
        df_zeros = _df[~_df['data'].isin(periodo_elegibilidade)]
        
        # qualquer valor menor que 20% do valor medio sera considerado faturamento nulo
        probabilidade = len(df_zeros[df_zeros['prop'] <= 0.2])/len(_df)
        
        if self.probabilidade_zeros is None:
            self.probabilidade_zeros = probabilidade
        return 
    
    def calcula_zscore(self, score_inicial):
        if self.probabilidade_zeros > 0:
            n = len(self.faturamentos)
            # considering a valid prob if we have at least 10 months
            if n >= 10:
                score = score_inicial * ((((-1) * n)/(n-6)) * self.probabilidade_zeros + 1)
                if self.zscore is None:
                    self.zscore = score
                    
    @property
    def correcao(self):
        return {6 : 0.7, 7 : 0.8, 8 : 0.9}
    
    def get_correcao(self, score):
        historico = len(self.faturamentos)
        
        fator_correcao = self.correcao.get(historico, 1)
        
        return fator_correcao*score

    def calcula(self):
        if self.produto == 'tomatico' or self.produto == "padrao":
            if not self.isElegible():
                return {'score': np.nan}

        self.gera_serie()
        if self.faturamentos.empty:
            return {"score" : np.nan}

        now = datetime.now().date() - relativedelta(months=1)
        data_proposta = datetime(now.year, now.month, 1).date()

        if self.faturamentos[self.faturamentos['data'] == data_proposta]['valor'].iloc[0] == 0:
            self.faturamentos = self.faturamentos[self.faturamentos['data'] != data_proposta]

        self.data_maxima()
        self.outlier_6meses()
        self.calcula_volatilidade()
        self.crescimento_efetivo()
        self.calcula_pesos()
        self.probabilidade_faturamento_nulo()

        lscore = self.lscore()

        self.prop_quedas()
        self.calibracao()

        score = self.get_score(metrica=lscore, tipo_metrica='lscore')
        self.score_crescimento = score
        if self.prop_queda == 0:
            self.score_crescimento = 1000
            self.calcula_zscore(self.score_crescimento)
            if not self.zscore is None:
                score = (self.score_crescimento + self.zscore)/2
                
            else:
                score = self.score_crescimento
            
            score = self.get_correcao(score)
            return {'score' : int(score)}

        if self.prop_queda == 1:
            self.calcula_zscore(self.score_crescimento)
            if not self.zscore is None:
                score = (self.zscore + self.score_crescimento)/2
        
            else:
                score = self.score_crescimento
                
            score = self.get_correcao(score)
            return {'score' : int(score)}

        self.calcula_tendencia()
        if self.slope < -0.2:
            self.calcula_zscore(score)
            if not self.zscore is None:
                score = (self.zscore + self.score_crescimento)/2
            else:
                score = self.score_crescimento
            score = self.get_correcao(score)
            return {'score': int(score)}

        if abs(self.slope) <= 0.01 and self.erro < 0.05:
            self.score_volatilidade = 1000*(1-self.erro)
            score = (2*self.score_crescimento + self.score_volatilidade)/3
            self.calcula_zscore(score)
            
            if not self.zscore is None:
                score = (self.zscore + score)/2

            score = self.get_correcao(score)
            
            return {'score': int(score)}

        self.params = self.faturamentos.sort_values('data', ascending=False).iloc[:6, :].sort_values('data').to_dict('records')
        self.calcula_tendencia()
        if self.slope < -0.2:
            self.calcula_zscore(self.score_crescimento)
            
            if not self.zscore is None:
                score = (self.zscore + self.score_crescimento)/2
            else:
                score = self.score_crescimento

            score = self.get_correcao(score)
            
            return  {'score': int(score)}
        
        self.score_volatilidade = int(self.get_score(metrica=self.volatilidade, tipo_metrica='vscore'))
        
        score = (2*self.score_crescimento + self.score_volatilidade)/3
        
        self.calcula_zscore(score)
        if not self.zscore is None:
            score = (self.zscore + score)/2

        score = self.get_correcao(score)
        
        return {'score': int(score)}

    
   

In [2]:
# from pricing.service.scoring.lscore import LScoring
from sqlalchemy import create_engine
import numpy as np
import pandas as pd
import requests
from time import sleep
from datetime import datetime
from conector.mysql import mysql_engine, CaptalysDBContext
from dateutil.relativedelta import relativedelta

class DScoring(object):
    def __init__(self, cnpj, produto, socios=False, baseline_type = 'lscore'):
        self.cnpj = cnpj
        self.doctype = 'cpf' if len(self.cnpj)<12 else 'cnpj'
        self.baseline_type = baseline_type
        self.score_socios = socios
        self.produto = produto
        self.lscore = None
        self.baseline = 1000
        self.fator_elegibilidade = 2
        self.faturamento_medio = None
        self.calibracao_segmento = None
        self.consulta = None
        self.estados_dividas = None
        self.dispersao_divida = None
        self.idade_empresa = None
        self.metricas = None
        
    def score_mestre(self):
        ls = LScoring(cnpj=self.cnpj, produto=self.produto)
        
        df = pd.DataFrame(ls.params)
        periodo = len(df)

        datas = pd.date_range(end=datetime.now().date().replace(day=1) - relativedelta(months=1), periods=periodo, freq='MS')
        datas = [el.date() for el in datas]
        df['data'] = datas

        params = df.to_dict("records")
        ls.params = params
        lscore = ls.calcula().get('score')
        fat_medio = ls.faturamentos['valor'].mean()
        self.lscore = lscore
        self.faturamento_medio = fat_medio
        return
    
    
    @property
    def campos_divida(self):
        return {
                "restricoes" : ["data_ocorrencia", "modalidade_natureza", "natureza", "valor"],
                "protestos" : ["data_anotacao", "natureza", "sub_judice_descricao", "valor"],
                "pendencias" : ["data_ocorrencia", "modalidade", "natureza", "valor"],
                "processos" : ["data_ocorrencia", "descricao_natureza", "natureza", "valor"],
                "restricoes_financeiras" : ["data_ocorrencia", "modalidade_natureza", "natureza", "valor"]
               }
    @property
    def campos_rename(self):
        return {
                "processos" : {"descricao_natureza" : "modalidade_natureza"},
                "pendencias" : {"modalidade" : "modalidade_natureza"},
                "protestos" : {'sub_judice_descricao' : "modalidade_natureza", "data_anotacao" : "data_ocorrencia"}
                }
    
    @property
    def segmentos(self):
        return {"credito" : ['EMPRESCONTA', 'EMPRESTIMO', 'CREDCARTAO', 'FINANCIAMENT', 
                             'CREDITOEFINANCIAMENTO-FINANC'],
                "processos" : ['EXCJUDTRAB', 'FISCALESTADUAL', 'EXECUCAO', 'FISCALFEDERAL', 
                               'FISCALMUNICIPAL','EXECUCAO-JE', 'BUSCAEAPREENSAO'],
                "infra" : ['FATAGUA', 'TELEFFX', 'TELEFFIXA', 'TELEFMOVEL', 'CONDOMINIO', 
                           'ENERGIAELET', 'ALUGUEL', 'SERVTELEFON'] 
               }
    

    @staticmethod
    def get_numero_consulta(doc):
        engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/varejo")
        con = engine.connect()
        query = "select data_ref, numero_consulta from consultas_idwall_operacoes where cnpj_cpf='{}'".format(doc)
        df = pd.read_sql(query, con)
        numero = df[df['data_ref']==df['data_ref'].max()]["numero_consulta"].iloc[0]
        con.close()
#         self.numero_consulta = numero
        return numero
    
    @staticmethod
    def get_details(numero):
        URL = "https://api-v2.idwall.co/relatorios"
        authorization = "b3818f92-5807-4acf-ade8-78a1f6d7996b"
        url_details = URL + "/{}".format(numero) + "/dados"
        while True:
            dets = requests.get(url_details, headers={"authorization": authorization})
            djson = dets.json()
            sleep(1)
            if djson['result']['status'] == "CONCLUIDO":
                break

        return dets.json()
    
    @staticmethod
    def formata_dados(df):
        df['modalidade_natureza'] = df.apply(lambda x : x['modalidade_natureza'].replace(" ", "") if isinstance(x['modalidade_natureza'], str) else "OUTROS", axis=1)
        df['valor'] = df.apply(lambda x : x['valor'].split("R$ ")[1].replace(",", "."), axis=1)
        df["valor"] = df.apply(lambda x : float(x["valor"]), axis=1)
        return df
    
    def get_infos_dividas(self, js, tp_pendencia):
        res = js.get("result").get(tp_pendencia)
        if not res is None:
            df = pd.DataFrame(res.get('itens'))
            cols = self.campos_divida.get(tp_pendencia)
            if "uf" in list(df.columns):
                cols = cols + ["uf"]
                df = df[cols].copy()
            else:
                df = df[cols]
                df["uf"] = None
            rename = self.campos_rename.get(tp_pendencia)
            if not rename is None:
                df.rename(columns = rename, inplace=True)
            df["tipo"] = tp_pendencia
            return df
        return None
    
    
    def gera_dados(self, doc):
        numero = self.get_numero_consulta(doc)
        js = self.get_details(numero)
        if len(doc) > 11:
            self.consulta = js
        fr = []
        lista_pendencias = ["restricoes", "processos", "protestos", "pendencias", "restricoes_financeiras"]
        for el in lista_pendencias:
            res = self.get_infos_dividas(js, el)
            if not res is None:
                fr.append(res)
        if len(fr) == 0:
            return pd.DataFrame()
        df = pd.concat(fr)
        df = self.formata_dados(df)
        if len(doc) > 11:
            self.estados_dividas = df["uf"].unique().tolist()
        return df
    
    def calcula_dispersao_divida(self):
        uf_cnpj = self.consulta.get("result").get("cnpj").get("localizacao").get("estado")
        lista_dispersao = [el for el in self.estados_dividas if el!= uf_cnpj]
        dispersao = len(lista_dispersao)/4
        self.dispersao_divida = dispersao
        return
    
    def get_idade(self):
        data_abertura = self.consulta.get("result").get("cnpj").get("data_abertura")
        data_abertura = data_abertura.replace("/", "-")
        data = datetime.strptime(data_abertura, "%d-%m-%Y").date()
        idade = ((datetime.now().date() - data).days/366)
        self.idade_empresa = np.around(idade, 2)
        return 

    
    def atribui_segmento(self, df):
        df['segmento'] = df.apply(lambda x : 'processos' if x['tipo']=='processos'
                              else('credito' if x['modalidade_natureza'] in self.segmentos.get("credito")
                                  else ('infra' if x['modalidade_natureza'] in self.segmentos.get("infra") else "outros")), axis=1)
        return df
    
    @staticmethod
    def calcula_probabilidade(df):
        dt = df.groupby("segmento").count().reset_index()[["segmento", "valor"]]
        dt.columns = ["segmento", "ocorrencias"]
        dt["probabilidade"] = dt["ocorrencias"]/dt["ocorrencias"].sum()
        return dt
    
    @staticmethod
    def calcula_composicao(df):
        dt = df.groupby("segmento").sum().reset_index()
        dt.columns = ["segmento", "valor_divida"]
        dt["composicao"] = dt["valor_divida"]/dt["valor_divida"].sum()
        return dt
    
    
    def calcula_pi(self, dfcalc):
        dfcalc['pi'] = dfcalc['valor_divida']/dfcalc['fat_medio']
        dfcalc['pi'] = (1/self.fator_elegibilidade)*dfcalc['pi']
        return dfcalc

    @property
    def peso_segmento(self):
        return {
            "credito" : 4,
            "processos" : 3,
            "infra" : 2,
            "outros" : 1
        }
    
    @property
    def fator_segmento(self):
        return {"credito" : 1, "processos" : 0.8, "infra" : 0.6, "outros" : 0.4}
    
    def lambda_(self, c, p, segmento):
        f = self.fator_segmento.get(segmento)
        return c*p*f
    
    def calcula_lambda(self, dfcalc):
        dfcalc["lambda"] = dfcalc.apply(lambda x : self.lambda_(x["composicao"], x["pi"], x["segmento"]), axis=1)
        return dfcalc
    
    @staticmethod
    def calcula_risco(dfcalc):
        dfcalc["risco"] = dfcalc["probabilidade"]*dfcalc["lambda"]
        return dfcalc
    
    @staticmethod
    def d_score(risco_, score_limite):
        return -score_limite*risco_ + score_limite


    def calcula_dscore(self, dfcalc):
        if self.baseline_type == 'lscore':
            score_limite = 1*self.lscore
        else:
            score_limite = self.baseline
        dfcalc["dscore"] = dfcalc.apply(lambda x : self.d_score(x["risco"], score_limite) if x["pi"] <=1 else 0, axis=1)
        return dfcalc
    
    def get_metricas(self, dfcalc):
        segmentos = ["credito", "processos", "infra", "outros"]
        final = {}
        for el in segmentos:
            dt = dfcalc[dfcalc["segmento"]==el]
            res = {}
            if dt.empty:
                res["num_ocorr"] = 0
                res["comp"] = 0
                res["risco"] = 0
                final[el] = res
            else:
                res["num_ocorr"] = dt["ocorrencias"].iloc[0]
                res["comp"] = dt['composicao'].iloc[0]
                res["risco"] = dt["risco"].iloc[0]
                final[el] = res
        self.metricas = final
        return
    
    def update_dataset(self):
        df_metricas = pd.DataFrame()
        df_metricas["cnpj"] = [self.cnpj]
        df_metricas["produto"] = [self.produto]
        df_metricas["data_metricas"] = [datetime.now().date()]
        df_metricas["data_modelo"] = [None]
        df_metricas["num_ocorr_cr"] = [self.metricas.get('credito').get('num_ocorr')]
        df_metricas["num_ocorr_proc"] = [self.metricas.get('processos').get('num_ocorr')]
        df_metricas["num_ocorr_infra"] =  [self.metricas.get('infra').get('num_ocorr')]
        df_metricas["num_ocorr_out"] = [self.metricas.get('outros').get('num_ocorr')]
        df_metricas["comp_cr"] = [self.metricas.get('credito').get('comp')]
        df_metricas["comp_proc"] = [self.metricas.get('processos').get('comp')]
        df_metricas["comp_infra"] = [self.metricas.get('infra').get('comp')]
        df_metricas["comp_out"] = [self.metricas.get('outros').get('comp')]
        df_metricas["risco_cr"] = [self.metricas.get('credito').get('risco')]
        df_metricas["risco_proc"] = [self.metricas.get('processos').get('risco')]
        df_metricas["risco_infra"] = [self.metricas.get('infra').get('risco')]
        df_metricas["risco_out"] = [self.metricas.get('outros').get('risco')]
        df_metricas["idade_empresa"] = [self.idade_empresa]
        df_metricas["dispersao_divida"] = [self.dispersao_divida]
        df_metricas["outlier"] = [None]
        
        
        engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/credit_model")
        con = engine.connect()
        
        con.execute("delete from outlier_detection where cnpj='{}'".format(self.cnpj))
        df_metricas.to_sql('outlier_detection', schema='credit_model', con=con, if_exists='append', index=False)
        
        con.close()
        
        return
    
    def get_socios(self):
        schema = 'credito-digital' if self.produto != 'moip' else self.produto
        engine = mysql_engine(schema)
        query = "select cpf from tb_Socio where cnpj='{}'".format(self.cnpj)
        with CaptalysDBContext(engine) as db:
            res = db.session.execute(query).fetchall()

        lista_socios = [el[0] for el in res]
        self.lista_socios = lista_socios
        return lista_socios
    
    def calcula_socios(self):
        lista_socios = self.get_socios()
        resp = []
        for el in lista_socios:
            _df = self.gera_dados(el)
            if not _df.empty:
                resp.append(_df)
        if len(resp) == 0:
            return np.nan
        
        df = pd.concat(resp)
        df = self.atribui_segmento(df)
        dfp = self.calcula_probabilidade(df)
        dfc = self.calcula_composicao(df)
        dfcalc = dfp.merge(dfc, left_on="segmento", right_on="segmento", how='left')
        dfcalc['fat_medio'] = self.faturamento_medio
        dfcalc = self.calcula_pi(dfcalc)
        dfcalc = self.calcula_lambda(dfcalc)
        
        dfcalc = self.calcula_risco(dfcalc)
        dfcalc = self.calcula_dscore(dfcalc)
        self.get_metricas(dfcalc)
        dscore = dfcalc['dscore'].mean()
        
        lista_segmentos = dfcalc["segmento"].tolist()
        lista_dscore = dfcalc["dscore"].tolist()
        lista_dscore = [int(el) for el in lista_dscore]
        res = dict(zip(lista_segmentos, lista_dscore))
        res["lscore"] = int(self.lscore)
        res['dscore'] = int(dscore)
        res['score'] = int((self.lscore + dscore)/2)
        return res, dfcalc
    
            
    def calcula(self, update=True):
        self.score_mestre()
        doc = self.cnpj
        df = self.gera_dados(doc)
        if df.empty:
            return {}, None
        self.calcula_dispersao_divida()
        self.get_idade()
        df = self.atribui_segmento(df)
        dfp = self.calcula_probabilidade(df)
        dfc = self.calcula_composicao(df)
        dfcalc = dfp.merge(dfc, left_on="segmento", right_on="segmento", how='left')

        dfcalc['fat_medio'] = self.faturamento_medio
        dfcalc = self.calcula_pi(dfcalc)
        dfcalc = self.calcula_lambda(dfcalc)
        dfcalc = self.calcula_risco(dfcalc)
        dfcalc = self.calcula_dscore(dfcalc)
        self.get_metricas(dfcalc)
        if update:
            self.update_dataset()
        
        dscore = dfcalc['dscore'].mean()
        
        lista_segmentos = dfcalc["segmento"].tolist()
        lista_dscore = dfcalc["dscore"].tolist()
        lista_dscore = [int(el) for el in lista_dscore]
        res = dict(zip(lista_segmentos, lista_dscore))
        res["lscore"] = int(self.lscore)
        res['dscore'] = int(dscore)
        res['score'] = int((self.lscore + dscore)/2)
        
        dfcalc["baseline_type"] = self.baseline_type
        dfcalc["baseline"] = self.lscore if self.baseline_type == 'lscore' else 1000
        dfcalc["fator_elegibilidade"] = self.fator_elegibilidade
        dfcalc["cnpj"] = self.cnpj
        dfcalc["produto"] = self.produto
        dfcalc["data_ref"] = datetime.now().date()
        return res, dfcalc

if __name__ == '__main__':
    ds = DScoring(cnpj='11018748001703', produto='justa')
    res, dfcalc = ds.calcula(update=False)
    print(dfcalc.columns)
    print(res)


Index(['segmento', 'ocorrencias', 'probabilidade', 'valor_divida',
       'composicao', 'fat_medio', 'pi', 'lambda', 'risco', 'dscore',
       'baseline_type', 'baseline', 'fator_elegibilidade', 'cnpj', 'produto',
       'data_ref'],
      dtype='object')
{'infra': 224, 'outros': 0, 'lscore': 231, 'dscore': 112, 'score': 171}


In [3]:
engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/varejo")
con = engine.connect()
dfdiv = pd.read_sql("select distinct cnpj_cpf from consultas_idwall_operacoes", con)
con.close()

In [4]:
dfdiv["flag_cnpj"] = dfdiv.apply(lambda x : int(len(x["cnpj_cpf"])==14), axis=1)

In [5]:
dfdiv = dfdiv[dfdiv['flag_cnpj']==1]

In [6]:
dfdiv.head()

Unnamed: 0,cnpj_cpf,flag_cnpj
1,19008188000142,1
2,748390000182,1
5,272073000302,1
6,570256000134,1
7,3403405000169,1


In [7]:
engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/credit_model")
con = engine.connect()
dfout = pd.read_sql("select distinct cnpj from outlier_detection", con)
con.close()

In [8]:
dfout.shape

(829, 1)

In [9]:
dfdiv.shape

(2884, 2)

In [10]:
dfdiv = dfdiv[["cnpj_cpf"]]

In [11]:
dfdiv.columns = ['cnpj']

In [12]:
dfdiv = dfdiv[~dfdiv['cnpj'].isin(dfout['cnpj'].tolist())]

In [13]:
dfdiv.shape

(2055, 1)

In [14]:
dfdiv.head()

Unnamed: 0,cnpj
1,19008188000142
2,748390000182
5,272073000302
6,570256000134
10,5674948000146


In [3]:
def get_produto(cnpj):
    eng_varejo = engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/varejo")
    con_varejo = eng_varejo.connect()

    df_pv = pd.read_sql("select * from fluxo_pv where cpf_cnpj='{}'".format(formata_cnpj(cnpj)), con_varejo)
    if not df_pv.empty:
        con_varejo.close()
        return 'pagueveloz'
    df_wire = pd.read_sql("select * from fluxo_wirecard where cnpj='{}'".format(cnpj), con_varejo)
    if not df_wire.empty:
        con_varejo.close()
        return 'wirecard'
    df_justa = pd.read_sql("select * from fluxo_justa where cnpj='{}'".format(cnpj), con_varejo)
    if not df_justa.empty:
        con_varejo.close()
        return 'justa'
    
    eng_credito = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/credito-digital")
    con_credito = eng_credito.connect()
    df_tom = pd.read_sql("select * from tb_Fluxo where cnpj='{}'".format(cnpj), con_credito)
    con_credito.close()
    if not df_tom.empty:
        return 'tomatico'
    return

In [4]:
get_produto('25401132000156')

In [17]:
dfdiv['produto'] = dfdiv.apply(lambda x : get_produto(x["cnpj"]), axis=1)

In [18]:
dfdiv["flag"] = dfdiv.apply(lambda x : int(x["produto"] is None), axis=1)

In [19]:
dfdiv = dfdiv[dfdiv["flag"]==0]

In [20]:
dfdiv.head()

Unnamed: 0,cnpj,produto,flag
2,748390000182,wirecard,0
5,272073000302,wirecard,0
6,570256000134,wirecard,0
15,7366146000102,wirecard,0
18,9252459000157,wirecard,0


In [23]:
ds = DScoring(cnpj='09252459000157', produto='wirecard')
res, dfcalc = ds.calcula(update=False)



ZeroDivisionError: float division by zero

In [22]:
res

{}

In [23]:
dfcalc

In [31]:
from tqdm import tqdm_notebook

In [25]:
lista_out = dfdiv['cnpj'].tolist()

In [27]:
lista_out.__len__()

2411

In [28]:
teste = lista_out[:100]

In [29]:
teste.__len__()

100

In [45]:
resp = []
err = []
i = 0
for el in tqdm_notebook(lista_out):
    try:
        produto = dfdiv[dfdiv['cnpj']==el]["produto"].iloc[0]
        ds = DScoring(cnpj=el, produto=produto)
        res, dfcalc = ds.calcula()
        if not dfcalc is None:
            resp.append(dfcalc)
    except:
        i+=1
        print(i)
        err.append(el)

HBox(children=(IntProgress(value=0, max=2411), HTML(value='')))



1
2
3
4
5
6


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.




7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146



In [46]:
err.__len__()

146

In [51]:
final = pd.concat(resp)

In [53]:
final.shape

(712, 16)

In [55]:
final.rename(columns={'dscore' : 'dscore_segmento'}, inplace=True)

In [56]:
engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/credit_model")
con = engine.connect()
final.to_sql("debt_score", schema='credit_model', con=con, if_exists='append', index=False)
con.close()

In [57]:
resp = []
err = []
i = 0
for el in tqdm_notebook(lista_out):
    try:
        produto = dfdiv[dfdiv['cnpj']==el]["produto"].iloc[0]
        ds = DScoring(cnpj=el, produto=produto, baseline_type='padrao')
        res, dfcalc = ds.calcula(update=False)
        if not dfcalc is None:
            resp.append(dfcalc)
    except:
        i+=1
        print(i)
        err.append(el)

HBox(children=(IntProgress(value=0, max=2411), HTML(value='')))



1
2
3
4
5
6


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.




7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146



In [59]:
final = pd.concat(resp)

In [60]:
final.rename(columns={'dscore' : 'dscore_segmento'}, inplace=True)

In [61]:
final

Unnamed: 0,segmento,ocorrencias,probabilidade,valor_divida,composicao,fat_medio,pi,lambda,risco,dscore_segmento,baseline_type,baseline,fator_elegibilidade,cnpj,produto,data_ref
0,outros,1,1.000000,736.10,1.000000,3382.729167,0.108803,0.043521,0.043521,956.478928,padrao,1000,2,16613061000164,wirecard,2019-06-18
0,outros,13,1.000000,61089.66,1.000000,21331.403333,1.431918,0.572767,0.572767,0.000000,padrao,1000,2,20513026000140,wirecard,2019-06-18
0,outros,4,1.000000,56532.52,1.000000,9828.396667,2.875979,1.150392,1.150392,0.000000,padrao,1000,2,23649108000105,wirecard,2019-06-18
0,outros,1,1.000000,2833.06,1.000000,66938.483333,0.021162,0.008465,0.008465,991.535333,padrao,1000,2,25332384000170,wirecard,2019-06-18
0,outros,8,1.000000,9300.39,1.000000,3863.779167,1.203535,0.481414,0.481414,0.000000,padrao,1000,2,12549813000114,wirecard,2019-06-18
0,credito,2,0.181818,534180.88,0.990498,5547.470000,48.146351,47.688847,8.670699,0.000000,padrao,1000,2,09115895000184,wirecard,2019-06-18
1,outros,9,0.818182,5124.68,0.009502,5547.470000,0.461893,0.001756,0.001436,998.563573,padrao,1000,2,09115895000184,wirecard,2019-06-18
0,credito,2,0.500000,112777.19,0.995585,10241.360000,5.505967,5.481659,2.740830,0.000000,padrao,1000,2,24659002000155,wirecard,2019-06-18
1,outros,2,0.500000,500.11,0.004415,10241.360000,0.024416,0.000043,0.000022,999.978441,padrao,1000,2,24659002000155,wirecard,2019-06-18
0,outros,1,1.000000,46.37,1.000000,12610.565000,0.001839,0.000735,0.000735,999.264585,padrao,1000,2,11045287000192,wirecard,2019-06-18


In [62]:
engine = create_engine("mysql+pymysql://capMaster:#jackpot123#@captalys.cmrbivuuu7sv.sa-east-1.rds.amazonaws.com:23306/credit_model")
con = engine.connect()
final.to_sql("debt_score", schema='credit_model', con=con, if_exists='append', index=False)
con.close()