In [1]:
from pyspark.sql.window import Window
from pyspark.sql.types import LongType
from pyspark.sql.types import *
from pyspark.sql.functions import *
from pyspark.sql.functions import countDistinct, row_number
from pyspark.sql import SQLContext
from datetime import datetime, timedelta
from dateutil.relativedelta import relativedelta


In [2]:
spark.conf.set("spark.databricks.io.cache.enabled", "true")

### Definição de Parâmetros

In [4]:
dbutils.widgets.text("periodo_inicial", '2017-01-01')
dbutils.widgets.text("periodo_final", '2019-07-15')
dbutils.widgets.text("idunidade_operacional", "3")
dbutils.widgets.text("idcidade", "3")

### Leitura de Parâmetros

In [6]:
sqlContext = SQLContext.getOrCreate(sc)
sqlContext.sql("SET periodo_inicial = " + dbutils.widgets.get("periodo_inicial"))
sqlContext.sql("SET periodo_final = " + dbutils.widgets.get("periodo_final"))
unidade_operacional = dbutils.widgets.get("idunidade_operacional")
cidade = dbutils.widgets.get("idcidade")

In [7]:
ano_inicial = datetime.strptime(dbutils.widgets.get("periodo_inicial"), "%Y-%m-%d").year
ano_final = datetime.strptime(dbutils.widgets.get("periodo_final"), "%Y-%m-%d").year
mes_inicial = datetime.strptime(dbutils.widgets.get("periodo_inicial"), "%Y-%m-%d").month
mes_final = datetime.strptime(dbutils.widgets.get("periodo_final"), "%Y-%m-%d").month

In [8]:
sqlContext.sql("SET ano_incial = " + str(ano_inicial))
sqlContext.sql("SET ano_final = " + str(ano_final))
sqlContext.sql("SET mes_inicial = " + str(mes_inicial))
sqlContext.sql("SET mes_final = " + str(mes_final))

In [9]:
dbutils.notebook.run("utilidades", 500, {"id_unidade_operacional": unidade_operacional, "id_cidade": cidade, "v_output": "codigos_cidade_unidadeoperacional"})

### Set nomes de tabelas em formato de parâmetro hive

In [11]:
n_unidade_cidade = spark.read.table('transient.kpis_codigos_cidade_unidadeoperacional')
nome_uoperacional = n_unidade_cidade.collect()[0].unidadeoperacional.lower().split(" ")[0]
nome_cidade = n_unidade_cidade.collect()[0].cidade.lower().split(" ")[0]

nome_tabela_faturas = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_faturas_"
nome_tabela_cortes = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_cortes_"
nome_tabela_processos = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_processos_"
nome_tabela_debito_recuperado_total = "modelos_preditivos.kpi_" + nome_uoperacional+"_"+nome_cidade+"_debito_recuperado_total"
nome_tabela_media_debito_recuperado = "modelos_preditivos.kpi_"+ nome_uoperacional+"_"+nome_cidade+"_media_cdc_debito_recuperado"
nome_tabela_debito_fato_gerador = "modelos_preditivos.kpi_"+ nome_uoperacional+"_"+nome_cidade+"_info_debito_fato_gerador"
nome_tabela_recuperado_fato_gerador = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_debito_recuperado_fato_gerador"
nome_tabela_media_fato_gerador = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_media_cdc_debito_recuperado_fato_gerador"
nome_tabela_ate_1_fatura = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_debito_recuperado_ate_1_faturas"
nome_tabela_2_3_fatura = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_debito_recuperado_2_ate_3_faturas"
nome_tabela_4_6_fatura = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_debito_recuperado_4_ate_6_faturas"
nome_tabela_7_12_fatura = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_debito_recuperado_7_ate_12_faturas"
nome_tabela_12_mais_fatura = "modelos_preditivos.kpi_"+nome_uoperacional+"_"+nome_cidade+"_debito_recuperado_mais_12_faturas"

sqlContext.sql("SET tabela_faturas = " + nome_tabela_faturas)
sqlContext.sql("SET tabela_cortes = " + nome_tabela_cortes)
sqlContext.sql("SET tabela_processos = " + nome_tabela_processos)
sqlContext.sql("SET tabela_debito_recuperado_total = " + nome_tabela_debito_recuperado_total)
sqlContext.sql("SET tabela_media_debito_recuperado = " + nome_tabela_media_debito_recuperado)
sqlContext.sql("SET tabela_debito_fato_gerador = " + nome_tabela_debito_fato_gerador)
sqlContext.sql("SET tabela_recuperado_fato_gerador = " + nome_tabela_recuperado_fato_gerador)
sqlContext.sql("SET tabela_media_fato_gerador = " + nome_tabela_media_fato_gerador)
sqlContext.sql("SET tabela_ate_1_fatura = " + nome_tabela_ate_1_fatura)
sqlContext.sql("SET tabela_2_3_fatura = " + nome_tabela_2_3_fatura)
sqlContext.sql("SET tabela_4_6_fatura = " + nome_tabela_4_6_fatura)
sqlContext.sql("SET tabela_7_12_fatura = " + nome_tabela_7_12_fatura)
sqlContext.sql("SET tabela_12_mais_fatura = " + nome_tabela_12_mais_fatura)

In [12]:
%sql
CREATE OR REPLACE TEMP VIEW FATURAS_VENCIDAS AS
select *
from ${hiveconf:tabela_faturas}
--modelos_preditivos.kpi_maua_maua_faturas_
where (data_pagamento > data_vencimento)
or (data_parcelamento > data_vencimento)
or ((idfaturasituacao = 1) and (current_date > data_vencimento))

In [13]:
%sql
CREATE OR REPLACE TEMP VIEW ORDENS_CORTE_EXECUTADAS AS
select * 
from ${hiveconf:tabela_cortes} 
-- modelos_preditivos.kpi_maua_maua_cortes_
where not datahoraterminoexecucao is null

In [14]:
%sql
CREATE OR REPLACE TEMP VIEW FATURAS_CORTES AS
select t2.*
from (
      select t1.*,
      max(t1.datahoraabertura) over (partition by cdc, fatura_id) as data_abertura_corte_fatura
      from (
            select f.*, os.idos, os.idosdetalhe, os.STATUSORDEMSERVICO, TO_DATE(CAST(os.datahoraabertura as timestamp)) as datahoraabertura,
            TO_DATE(CAST(os.datahoraterminoexecucao AS timestamp)) as datahoraterminoexecucao
            from FATURAS_VENCIDAS f
            left join ORDENS_CORTE_EXECUTADAS os
            on f.cdc = os.idligacao
            and f.data_vencimento < os.DATAHORAABERTURA
            and ((f.data_pagamento > os.datahoraterminoexecucao) 
                 or(f.data_parcelamento > os.datahoraterminoexecucao)
                 or((f.idfaturasituacao = 1) and (current_date > os.datahoraterminoexecucao)))) t1) t2
where t2.datahoraabertura = t2.data_abertura_corte_fatura
and not t2.datahoraabertura is null
and not t2.datahoraterminoexecucao is null

In [15]:
%sql
drop table if exists ${hiveconf:tabela_debito_recuperado_total} 
;
create table ${hiveconf:tabela_debito_recuperado_total}  as 
select 
t1.ano_corte, t1.mes_corte,
sum(case when t1.dias_entre_vencimento_e_corte <90 then t1.valor else 0 end) total_debito_cortado,
sum(case when (t1.dias_entre_vencimento_e_corte <90) and (t1.dias_entre_pagamento_e_corte > 0) and (t1.dias_entre_pagamento_e_corte <=30) then t1.valor else 0 end) as debito_recuperado 
from (
      select fc.*, 
      year(fc.datahoraterminoexecucao) as ano_corte, 
      month(fc.datahoraterminoexecucao) as mes_corte,
      datediff(fc.data_pagamento, fc.datahoraterminoexecucao) as dias_entre_pagamento_e_corte,
      datediff(fc.datahoraterminoexecucao, fc.data_vencimento) as dias_entre_vencimento_e_corte
      from FATURAS_CORTES fc) t1
where t1.datahoraterminoexecucao >= "${hiveconf:periodo_inicial}" 
and t1.datahoraterminoexecucao <= "${hiveconf:periodo_final}"
group by t1.ano_corte, t1.mes_corte
order by t1.ano_corte, t1.mes_corte

In [16]:
%sql
CREATE OR REPLACE TEMP VIEW TOTAL_CORTADOS_VISAO_MENSAL AS
select
t1.ano_corte, t1.mes_corte,
count (distinct case when t1.dias_entre_vencimento_e_corte <90 then t1.cdc else null end) as total_cortados
from (
      select fc.*, 
      year(fc.datahoraterminoexecucao) as ano_corte, 
      month(fc.datahoraterminoexecucao) as mes_corte,
      datediff(fc.data_pagamento, fc.datahoraterminoexecucao) as dias_entre_pagamento_e_corte,
      datediff(fc.datahoraterminoexecucao, fc.data_vencimento) as dias_entre_vencimento_e_corte
      from FATURAS_CORTES fc) t1
where t1.datahoraterminoexecucao >= "${hiveconf:periodo_inicial}" 
and t1.datahoraterminoexecucao <= "${hiveconf:periodo_final}"
group by t1.ano_corte, t1.mes_corte
order by t1.ano_corte, t1.mes_corte

In [17]:
%sql
drop table if exists ${hiveconf:tabela_media_debito_recuperado}
;
create table ${hiveconf:tabela_media_debito_recuperado} as 
select
t1.ano_corte,
t1.mes_corte,
t1.media_cortado_por_cdc,
t1.media_recuperado_por_cdc
from (
      select dr.ano_corte,
            dr.mes_corte,
            dr.total_debito_cortado, 
            dr.debito_recuperado, c.total_cortados,
            dr.total_debito_cortado/c.total_cortados as media_cortado_por_cdc,
            dr.debito_recuperado/c.total_cortados as media_recuperado_por_cdc
      from ${hiveconf:tabela_debito_recuperado_total}  dr
      left join TOTAL_CORTADOS_VISAO_MENSAL c
      on dr.ano_corte = c.ano_corte
      and dr.mes_corte = c.mes_corte
      order by dr.ano_corte, dr.mes_corte) t1

In [18]:
%sql
CREATE OR REPLACE TEMP VIEW FATURAS_CORTE_NOTIFICACOES AS
select distinct t2.*, count(fatura_id) over (partition by t2.idos, t2.idosdetalhe) as total_faturas_corte,
datediff(t2.datahoraterminoexecucao, t2.NOTIFICACAO_MAIS_RECENTE) as dias_entre_notificacao_e_abert

from (
      select t1.*, max(t1.DATA_NOTIFICACAO) over (partition by t1.fatura_id, t1.cdc) as NOTIFICACAO_MAIS_RECENTE
      
      from  (
              select fc.*,
                     p.id_proc,
                     to_date(p.datarealentreganotificacao, 'yyyyMMdd') DATA_NOTIFICACAO,
                     p.proc_periodo,
                     p.statusligacaoprocesso STATUS_PROCESSO,
                     p.datarealentreganotificacao,
                     year(fc.datahoraterminoexecucao) as ano_corte, 
                     month(fc.datahoraterminoexecucao) as mes_corte,
                     datediff(fc.data_pagamento, fc.datahoraterminoexecucao) as dias_entre_pagamento_e_corte,
                     datediff(fc.datahoraterminoexecucao, fc.data_vencimento) as dias_entre_vencimento_e_corte
                     
              from FATURAS_CORTES fc
              left join  ${hiveconf:tabela_processos} p
              --left join modelos_preditivos.kpi_maua_maua_processos_ p
              on fc.fatura_id = p.id_fatura_fat_proc
              and fc.cdc = p.cdc_proc_lig
              and p.statusligacaoprocesso != 'C'
              ) t1
    )t2
where (t2.DATA_NOTIFICACAO = t2.NOTIFICACAO_MAIS_RECENTE)

In [19]:
%sql
drop table if exists ${hiveconf:tabela_debito_fato_gerador} 
;
create table ${hiveconf:tabela_debito_fato_gerador}  as
select
ano_corte,
mes_corte,
count (distinct case when (dias_entre_vencimento_e_corte > 60) then cdc else null end) total_cdc_cortados_fato_gerador,

count (distinct case when (dias_entre_pagamento_e_corte > 0)
           and (dias_entre_pagamento_e_corte <= 30) 
           and (dias_entre_vencimento_e_corte > 60) then cdc else null end) as total_cdc_recuperados_fato_gerador,
           
sum (case when (dias_entre_vencimento_e_corte > 60) then valor else 0 end) as debito_fato_gerador_ate_corte,

sum (case when (dias_entre_pagamento_e_corte > 0)
           and (dias_entre_pagamento_e_corte <= 30) 
           and (dias_entre_vencimento_e_corte > 60) then valor else 0 end) as debito_fato_gerador_recuperado
           
from FATURAS_CORTE_NOTIFICACOES 
where ano_corte >= "${hiveconf:ano_incial}"
group by ano_corte, mes_corte

In [20]:
%sql
drop table if exists ${hiveconf:tabela_recuperado_fato_gerador}
;
create table ${hiveconf:tabela_recuperado_fato_gerador} as
select 
ano_corte,
mes_corte,
debito_fato_gerador_ate_corte,
debito_fato_gerador_recuperado
from ${hiveconf:tabela_debito_fato_gerador}
where ano_corte >= "${hiveconf:ano_incial}"
and  (not (ano_corte = "${hiveconf:ano_final}" and mes_corte > "${hiveconf:mes_final}"))

In [21]:
%sql
drop table if exists ${hiveconf:tabela_media_fato_gerador}
;
create table ${hiveconf:tabela_media_fato_gerador} as 
 select 
      ano_corte,
      mes_corte,
      debito_fato_gerador_ate_corte/total_cdc_cortados_fato_gerador as media_cdc_fato_gerador_cortado,
      debito_fato_gerador_recuperado/total_cdc_recuperados_fato_gerador as media_cdc_fato_gerador_recuperado
from ${hiveconf:tabela_debito_fato_gerador}
where ano_corte >= "${hiveconf:ano_incial}"
and  (not (ano_corte = "${hiveconf:ano_final}" and mes_corte > "${hiveconf:mes_final}"))

In [22]:
%sql
drop table if exists ${hiveconf:tabela_ate_1_fatura}
;
create table ${hiveconf:tabela_ate_1_fatura} as 
select
ano_corte,
mes_corte,
sum (case when (total_faturas_corte =1) and (dias_entre_vencimento_e_corte <90) then valor else 0 end) as debito_cortado_ate_1_faturas,
sum (case when (dias_entre_pagamento_e_corte > 0)
           and (dias_entre_vencimento_e_corte <90)
           and (dias_entre_pagamento_e_corte <= 30) 
           and (total_faturas_corte =1) then valor else 0 end) as debito_recuperado_ate_1_faturas
from FATURAS_CORTE_NOTIFICACOES 
where ano_corte >= "${hiveconf:ano_incial}"
and (not (ano_corte = "${hiveconf:ano_final}" and mes_corte > "${hiveconf:mes_final}"))
group by ano_corte, mes_corte

In [23]:
%sql
drop table if exists ${hiveconf:tabela_2_3_fatura}
;
create table ${hiveconf:tabela_2_3_fatura} as 
select
ano_corte,
mes_corte,
sum (case when (total_faturas_corte>=2 and total_faturas_corte <=3) and (dias_entre_vencimento_e_corte <90) then valor else 0 end) as debito_cortado_2_ate_3_faturas,
sum (case when (dias_entre_pagamento_e_corte > 0)
           and (dias_entre_vencimento_e_corte <90)
           and (dias_entre_pagamento_e_corte <= 30) 
           and (total_faturas_corte >=2)
           and (total_faturas_corte <=3)
           then valor else 0 end) as debito_recuperado_2_ate_3_faturas
from FATURAS_CORTE_NOTIFICACOES 
where ano_corte>= "${hiveconf:ano_incial}"
and (not(ano_corte = "${hiveconf:ano_final}" and mes_corte > "${hiveconf:mes_final}"))
group by ano_corte, mes_corte

In [24]:
%sql
drop table if exists ${hiveconf:tabela_4_6_fatura}
;
create table ${hiveconf:tabela_4_6_fatura} as 
select
ano_corte,
mes_corte,
sum (case when (total_faturas_corte>=4 and total_faturas_corte <=6) and (dias_entre_vencimento_e_corte <90) then valor else 0 end) as debito_cortado_4_ate_6_faturas,
sum (case when (dias_entre_pagamento_e_corte > 0)
           and (dias_entre_vencimento_e_corte <90)
           and (dias_entre_pagamento_e_corte <= 30) 
           and (total_faturas_corte >=4)
           and (total_faturas_corte <=6) then valor else 0 end) as debito_recuperado_4_ate_6_faturas
from FATURAS_CORTE_NOTIFICACOES 
where ano_corte >= "${hiveconf:ano_incial}"
and (not(ano_corte = "${hiveconf:ano_final}" and mes_corte > "${hiveconf:mes_final}"))
group by ano_corte, mes_corte

In [25]:
%sql
drop table if exists ${hiveconf:tabela_7_12_fatura}
;
create table ${hiveconf:tabela_7_12_fatura} as 
select
ano_corte,
mes_corte,
sum (case when (total_faturas_corte>=7 and total_faturas_corte<=12) and (dias_entre_vencimento_e_corte <90) then valor else 0 end) as debito_cortado_7_ate_12_faturas,
sum (case when (dias_entre_pagamento_e_corte > 0)
           and (dias_entre_vencimento_e_corte <90)
           and (dias_entre_pagamento_e_corte <= 30) 
           and (total_faturas_corte >=7)
           and (total_faturas_corte <=12) then valor else 0 end) as debito_recuperado_7_ate_12_faturas
from FATURAS_CORTE_NOTIFICACOES 
where ano_corte >= "${hiveconf:ano_incial}"
and (not(ano_corte = "${hiveconf:ano_final}" and mes_corte > "${hiveconf:mes_final}"))
group by ano_corte, mes_corte

In [26]:
%sql
drop table if exists ${hiveconf:tabela_12_mais_fatura}
;
create table ${hiveconf:tabela_12_mais_fatura} as 
select
ano_corte,
mes_corte,
sum (case when (total_faturas_corte >=13) and (dias_entre_vencimento_e_corte <90) then valor else 0 end) as debito_cortado_mais_de_12_faturas,
sum (case when (dias_entre_pagamento_e_corte > 0)
           and (dias_entre_vencimento_e_corte <90)
           and (dias_entre_pagamento_e_corte <= 30) 
           and (total_faturas_corte >=13) then valor else 0 end) as debito_recuperado_mais_de_12_faturas
from FATURAS_CORTE_NOTIFICACOES 
where ano_corte >= "${hiveconf:ano_incial}"
and (not(ano_corte = "${hiveconf:ano_final}" and mes_corte > "${hiveconf:mes_final}"))
group by ano_corte, mes_corte