In [1]:
from pyspark.sql.window import Window
from pyspark.sql.types import LongType 
from pyspark.sql.types import *
from pyspark.sql.functions import *
from pyspark.sql.functions import countDistinct, row_number
from pyspark.sql import SQLContext, HiveContext
from dateutil.relativedelta import relativedelta
from datetime import datetime, timedelta
from pyspark.sql.functions import udf
from pyspark.sql.types import DateType


In [2]:
sqlContext = SQLContext(sc)
dbutils.widgets.text("idunidade_operacional", "3")
dbutils.widgets.text("idcidade", "3")
dbutils.widgets.text("periodo_inicial", "2019-01-01")
dbutils.widgets.text("periodo_final", "2019-04-30")

In [3]:
unidade_operacional = dbutils.widgets.get("idunidade_operacional") 
cidade = dbutils.widgets.get("idcidade") 
periodo_inicial = dbutils.widgets.get("periodo_inicial")
periodo_final = dbutils.widgets.get("periodo_final")

In [4]:
days = lambda i: i * 86400
udf_days_no_mes = udf(days, LongType())
mes_anterior = lambda x: datetime.strptime(x, '%Y-%m-%d') - relativedelta(years=1)
func_ano_anterior =  udf(lambda x: datetime.strptime(x, '%Y-%m-%d') - relativedelta(years=1), DateType())
func_mes_anterior = udf(lambda x: datetime.strptime(x, '%Y-%m-%d') - relativedelta(months=1), DateType())
func_3mes_anterior = udf(lambda x: datetime.strptime(x, '%Y-%m-%d') - relativedelta(months=3), DateType())
func_6mes_anterior = udf(lambda x: datetime.strptime(x, '%Y-%m-%d') - relativedelta(months=6), DateType())
#func_mais_vinte_dias = udf(lambda x: x + relativedelta(days=20), DateType())
#func_mais_cincuentaeum_dias = udf(lambda x: x + relativedelta(days=51), DateType())

## Obtendo Views de Faturas

In [6]:
dbutils.notebook.run("gerador_views_genericas", 500, {"a_output": "faturas",\
                                                                    "idunidade_operacional": dbutils.widgets.get("idunidade_operacional"),
                                                                    "idcidade": dbutils.widgets.get("idcidade")})
"""
global_temp_db = spark.conf.get("spark.sql.globalTempDatabase")
df_faturas = table(global_temp_db + "." + returned_table)
"""

## Funções de Pre-processamento
- Extrai faturas em um lag de até 24 meses dado um periodo inicial e final  
  --(p.ex. se periodo_inicial = "2019-01-01" e periodo_final = "2019-04-30"
  os dados a analisar serão desde "2017-01-01" até "2019-04-30")
- Cria datas de referencia de cada ano anterior a data de referência atual
- Cria colunas de informações unificadas:
  -- p.ex. data_pagamento_ou_parcelamento = coalesce (data_pagamento, data_parcelamento)
- Remove rows com inconsistências (p.ex. valor de fatura zero)

In [8]:
def get_periodos_e_datas_referencia (df_f, p_inicial, p_final):
  data_limite_inferior =  datetime.strptime(p_inicial, '%Y-%m-%d') - relativedelta(years=2)
  data_limite_superior =  datetime.strptime(p_final, '%Y-%m-%d') 
  df_f = df_f.where((col('data_vencimento_ajustada') >= data_limite_inferior) & (col('data_vencimento_ajustada') <= data_limite_superior))
  df_f = df_f.withColumn('data_pagamento_ou_parcelamento', coalesce('data_pagamento', 'data_parcelamento'))\
             .withColumn('data_referencia_ano_previo', func_ano_anterior(col('data_referencia').cast("string")))\
             .withColumn('valor_total', col('valor'))
  df_f  = df_f.where((col('valor_total').isNotNull()) & (col('valor_total')> 0))
  return df_f 

## Funções para criação de variaveis preditivas

In [10]:
def get_variaveis_qtde_faturas_cdc_cpf(df_f, part_by ="cdc_cpf", _inicio = -1, _3_meses = -100, _6_meses = -190, _12_meses = -370):
  
  if (part_by == "cdc_cpf"):
    
    window_spec = Window.partitionBy('cdc', 'cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                        .orderBy(col('data_referencia').cast('timestamp').cast('long'))
  
    window_spec_ano_previo = Window.partitionBy('cdc', 'cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                                   .orderBy(col('data_referencia_ano_previo').cast('timestamp').cast('long'))
    
    df_f = df_f.withColumn("qtde_faturas_3_meses_cdc_cpf", size(collect_set("fatura_id")\
                                                                .over(window_spec\
                                                                      .rangeBetween(days(_3_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_6_meses_cdc_cpf", size(collect_set("fatura_id")\
                                                                .over(window_spec\
                                                                      .rangeBetween(days(_6_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_12_meses_cdc_cpf", size(collect_set("fatura_id")\
                                                                .over(window_spec\
                                                                      .rangeBetween(days(_12_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_3_meses_ano_prev_cdc_cpf", size(collect_set("fatura_id")\
                                                                         .over(window_spec_ano_previo\
                                                                               .rangeBetween(days(_3_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_6_meses_ano_prev_cdc_cpf", size(collect_set("fatura_id")\
                                                                         .over(window_spec_ano_previo\
                                                                               .rangeBetween(days(_6_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_12_meses_ano_prev_cdc_cpf", size(collect_set("fatura_id")\
                                                                          .over(window_spec_ano_previo\
                                                                                .rangeBetween(days(_12_meses), days(_inicio)))))
    
    return df_f
  
  if (part_by == "cpf"):
    
    window_spec = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                        .orderBy(col('data_referencia').cast('timestamp').cast('long'))
  
    window_spec_ano_previo = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                                   .orderBy(col('data_referencia_ano_previo').cast('timestamp').cast('long'))
    
    df_f = df_f.withColumn("qtde_faturas_3_meses_cpf", size(collect_set("fatura_id")\
                                                            .over(window_spec\
                                                                  .rangeBetween(days(_3_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_6_meses_cpf", size(collect_set("fatura_id")\
                                                            .over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_12_meses_cpf", size(collect_set("fatura_id")\
                                                            .over(window_spec\
                                                                  .rangeBetween(days(_12_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_3_meses_ano_prev_cpf", size(collect_set("fatura_id")\
                                                                     .over(window_spec_ano_previo\
                                                                           .rangeBetween(days(_3_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_6_meses_ano_prev_cpf", size(collect_set("fatura_id")\
                                                                     .over(window_spec_ano_previo\
                                                                           .rangeBetween(days(_6_meses), days(_inicio)))))\
               .withColumn("qtde_faturas_12_meses_ano_prev_cpf", size(collect_set("fatura_id")\
                                                                      .over(window_spec_ano_previo\
                                                                            .rangeBetween(days(_12_meses), days(_inicio)))))
    
    return df_f


In [11]:
def get_variaveis_qtde_faturas_vencidas_cdc_cpf(df_f, part_by ="cdc_cpf", _inicio = -1, _3_meses = -100, _6_meses = -190, _12_meses = -370):
  
  if (part_by == "cdc_cpf"):
    
    window_spec = Window.partitionBy('cdc', 'cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                        .orderBy(col('data_referencia').cast('timestamp').cast('long'))
  
    window_spec_ano_previo = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                                   .orderBy(col('data_referencia_ano_previo').cast('timestamp').cast('long'))
    
    df_f = df_f.withColumn("qtde_faturas_vencidas_3_meses_cdc_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                             when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                             .otherwise(0))\
                                                                        .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                   .otherwise(0))).over(window_spec.rangeBetween(days(_3_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_6_meses_cdc_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                             when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                             .otherwise(0))\
                                                                        .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                   .otherwise(0))).over(window_spec.rangeBetween(days(_6_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_12_meses_cdc_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                             when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                             .otherwise(0))\
                                                                         .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                   .otherwise(0))).over(window_spec.rangeBetween(days(_12_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_3_meses_ano_prev_cdc_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                                     when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                                     .otherwise(0))\
                                                                                  .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                           .otherwise(0))).over(window_spec_ano_previo.rangeBetween(days(_3_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_6_meses_ano_prev_cdc_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                                     when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                                     .otherwise(0))\
                                                                                  .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                           .otherwise(0))).over(window_spec_ano_previo.rangeBetween(days(_6_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_12_meses_ano_prev_cdc_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                                       when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                                       .otherwise(0))\
                                                                                  .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                             .otherwise(0))).over(window_spec_ano_previo.rangeBetween(days(_12_meses), days(_inicio))))
    
    return df_f
  
  if (part_by == "cpf"):
    
    window_spec = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                        .orderBy(col('data_referencia').cast('timestamp').cast('long'))
  
    window_spec_ano_previo = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                                   .orderBy(col('data_referencia_ano_previo').cast('timestamp').cast('long'))
    
    df_f = df_f.withColumn("qtde_faturas_vencidas_3_meses_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                             when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                             .otherwise(0))\
                                                                        .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                   .otherwise(0)))\
                                                                .over(window_spec\
                                                                      .rangeBetween(days(_3_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_6_meses_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                             when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                             .otherwise(0))\
                                                                        .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                   .otherwise(0)))\
                                                                .over(window_spec\
                                                                      .rangeBetween(days(_6_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_12_meses_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                             when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                             .otherwise(0))\
                                                                        .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                   .otherwise(0)))\
                                                                 .over(window_spec\
                                                                       .rangeBetween(days(_12_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_3_meses_ano_prev_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                                     when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                                     .otherwise(0))\
                                                                                .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                           .otherwise(0)))\
                                                                         .over(window_spec_ano_previo\
                                                                               .rangeBetween(days(_3_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_6_meses_ano_prev_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                                     when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                                     .otherwise(0))\
                                                                                .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                           .otherwise(0)))\
                                                                         .over(window_spec_ano_previo\
                                                                               .rangeBetween(days(_6_meses), days(_inicio))))\
               .withColumn("qtde_faturas_vencidas_12_meses_ano_prev_cpf", sum(when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                                                       when(datediff(col('data_pagamento_ou_parcelamento'), col('data_vencimento_ajustada'))>0, 1)\
                                                                                       .otherwise(0))\
                                                                                  .otherwise(when(datediff(current_date(), 'data_vencimento_ajustada')>0, 1)\
                                                                                             .otherwise(0)))\
                                                                          .over(window_spec_ano_previo\
                                                                                .rangeBetween(days(_12_meses), days(_inicio))))
    
    return df_f

In [12]:
def get_variaveis_qtde_pagamentos_prazo_cdc_cpf(df_f, part_by ="cdc_cpf", _inicio = -1, _3_meses = -100, _6_meses = -190, _12_meses = -370):
  
  if (part_by == "cdc_cpf"):
    
    window_spec = Window.partitionBy('cdc', 'cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                        .orderBy(col('data_referencia').cast('timestamp').cast('long'))
    
    window_spec_ano_previo = Window.partitionBy('cdc', 'cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                                   .orderBy(col('data_referencia_ano_previo').cast('timestamp').cast('long'))
    
    df_f = df_f.withColumn('qtde_faturas_pagas_prazo_3_meses_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                           .otherwise(0)).over(window_spec.rangeBetween(days(_3_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_6_meses_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                           .otherwise(0)).over(window_spec.rangeBetween(days(_6_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_12_meses_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                           .otherwise(0)).over(window_spec.rangeBetween(days(_12_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_3_meses_ano_previo_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                                      .otherwise(0)).over(window_spec_ano_previo.rangeBetween(days(_3_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_6_meses_ano_previo_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                                      .otherwise(0)).over(window_spec_ano_previo.rangeBetween(days(_6_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_12_meses_ano_previo_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                                      .otherwise(0)).over(window_spec_ano_previo.rangeBetween(days(_12_meses), days(_inicio))))
    return df
  
  if (part_by == "cpf"):
    
    window_spec = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                        .orderBy(col('data_referencia').cast('timestamp').cast('long'))
    
    window_spec_ano_previo = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                                   .orderBy(col('data_referencia_ano_previo').cast('timestamp').cast('long'))
    
    df_f = df_f.withColumn('qtde_faturas_pagas_prazo_3_meses_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                           .otherwise(0)).over(window_spec.rangeBetween(days(_3_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_6_meses_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                           .otherwise(0)).over(window_spec.rangeBetween(days(_6_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_12_meses_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                           .otherwise(0)).over(window_spec.rangeBetween(days(_12_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_3_meses_ano_previo_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                                      .otherwise(0)).over(window_spec_ano_previo.rangeBetween(days(_3_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_6_meses_ano_previo_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                                      .otherwise(0)).over(window_spec_ano_previo.rangeBetween(days(_6_meses), days(_inicio))))\
               .withColumn('qtde_faturas_pagas_prazo_12_meses_ano_previo_cdc_cpf', sum(when(datediff('data_pagamento_ou_parcelamento', 'data_vencimento_ajustada') <= 0, 1)\
                                                                                      .otherwise(0)).over(window_spec_ano_previo.rangeBetween(days(_12_meses), days(_inicio))))
    
    return df
    

In [13]:
def get_variaveis_valor_cdc_cpf(df_f, part_by ="cdc_cpf", _inicio = -1, _3_meses = -100, _6_meses = -190, _12_meses = -370):
  
  if (part_by == "cdc_cpf"):
    window_spec = Window.partitionBy('cdc', 'cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                        .orderBy(col('data_referencia').cast('timestamp').cast('long'))
    
    window_spec_ano_previo = Window.partitionBy('cdc', 'cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                                   .orderBy(col('data_referencia_ano_previo').cast('timestamp').cast('long'))
    
    df_f = df_f.withColumn('valor_media_3_meses_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))).isNull(), 0)\
                                                                .otherwise(avg(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_3_meses_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))).isNull(), 0)\
                                                                 .otherwise(stddev(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('valor_media_6_meses_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))).isNull(), 0)\
                                                                .otherwise(avg(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_6_meses_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))).isNull(), 0)\
                                                                 .otherwise(stddev(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('valor_media_12_meses_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))).isNull(), 0)\
                                                                 .otherwise(avg(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_12_meses_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))).isNull(), 0)\
                                                                  .otherwise(stddev(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('min_valor_3_meses_cdc_cpf', round(when((min(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))).isNull(),0)\
                                                              .otherwise(min(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('max_valor_3_meses_cdc_cpf', round(when((max(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))).isNull(),0)\
                                                              .otherwise(max(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('min_valor_6_meses_cdc_cpf', round(when((min(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                              .otherwise(min(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('max_valor_6_meses_cdc_cpf', round(when((max(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                              .otherwise(max(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('min_valor_12_meses_cdc_cpf', round(when((min(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))).isNull(),0)\
                                                               .otherwise(min(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('max_valor_12_meses_cdc_cpf', round(when((max(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))).isNull(),0)\
                                                                .otherwise(max(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))),2))
    
    
    df_f = df_f.withColumn('valor_media_3_meses_ano_previo_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                              .rangeBetween(days(_3_meses), days(_inicio)))).isNull(), 0)\
                                                                           .otherwise(avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                   .rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_3_meses_ano_previo_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                               .rangeBetween(days(_3_meses), days(_inicio)))).isNull(), 0)\
                                                                            .otherwise(stddev(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                       .rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('valor_media_6_meses_ano_previo_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                              .rangeBetween(days(_6_meses), days(_inicio)))).isNull(), 0)\
                                                                           .otherwise(avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                   .rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_6_meses_ano_previo_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                               .rangeBetween(days(_6_meses), days(_inicio)))).isNull(), 0)\
                                                                            .otherwise(stddev(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                       .rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('valor_media_12_meses_ano_previo_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                               .rangeBetween(days(_12_meses), days(_inicio)))).isNull(), 0)\
                                                                            .otherwise(avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                    .rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_12_meses_ano_previo_cdc_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                .rangeBetween(days(_12_meses), days(_inicio)))).isNull(), 0)\
                                                                             .otherwise(stddev(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                        .rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('min_valor_3_meses_ano_previo_cdc_cpf', round(when((min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                            .rangeBetween(days(_3_meses), days(_inicio)))).isNull(),0)\
                                                                         .otherwise(min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                 .rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('max_valor_3_meses_ano_previo_cdc_cpf', round(when((max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                            .rangeBetween(days(_3_meses), days(_inicio)))).isNull(),0)\
                                                                         .otherwise(max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                 .rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('min_valor_6_meses_ano_previo_cdc_cpf', round(when((min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                            .rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                                         .otherwise(min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                 .rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('max_valor_6_meses_ano_previo_cdc_cpf', round(when((max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                            .rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                                         .otherwise(max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                 .rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('min_valor_12_meses_ano_previo_cdc_cpf', round(when((min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                             .rangeBetween(days(_12_meses), days(_inicio)))).isNull(),0)\
                                                                          .otherwise(min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                  .rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('max_valor_12_meses_ano_previo_cdc_cpf', round(when((max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                             .rangeBetween(days(_12_meses), days(_inicio)))).isNull(),0)\
                                                                .otherwise(max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                        .rangeBetween(days(_12_meses), days(_inicio)))),2))
    return df_f
  
  
  if (part_by == "cpf"):
    
    window_spec = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                        .orderBy(col('data_referencia').cast('timestamp').cast('long'))
    
    window_spec_ano_previo = Window.partitionBy('cliente_fatura_cpf', 'cliente_fatura_cnpj')\
                                   .orderBy(col('data_referencia_ano_previo').cast('timestamp').cast('long'))
    
    df_f = df_f.withColumn('valor_media_3_meses_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))).isNull(), 0)\
                                                                .otherwise(avg(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_3_meses_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))).isNull(), 0)\
                                                                 .otherwise(stddev(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('valor_media_6_meses_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))).isNull(), 0)\
                                                                .otherwise(avg(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_6_meses_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))).isNull(), 0)\
                                                                 .otherwise(stddev(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('valor_media_12_meses_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))).isNull(), 0)\
                                                                 .otherwise(avg(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_12_meses_cpf', round(when((avg(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))).isNull(), 0)\
                                                                  .otherwise(stddev(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('min_valor_3_meses_cpf', round(when((min(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))).isNull(),0)\
                                                              .otherwise(min(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('max_valor_3_meses_cpf', round(when((max(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))).isNull(),0)\
                                                              .otherwise(max(col('valor_total')).over(window_spec.rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('min_valor_6_meses_cpf', round(when((min(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                              .otherwise(min(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('max_valor_6_meses_cpf', round(when((max(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                              .otherwise(max(col('valor_total')).over(window_spec.rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('min_valor_12_meses_cpf', round(when((min(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))).isNull(),0)\
                                                               .otherwise(min(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('max_valor_12_meses_cpf', round(when((max(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))).isNull(),0)\
                                                                .otherwise(max(col('valor_total')).over(window_spec.rangeBetween(days(_12_meses), days(_inicio)))),2))
    
    df_f = df_f.withColumn('valor_media_3_meses_ano_previo_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                              .rangeBetween(days(_3_meses), days(_inicio)))).isNull(), 0)\
                                                                           .otherwise(avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                   .rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_3_meses_ano_previo_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                               .rangeBetween(days(_3_meses), days(_inicio)))).isNull(), 0)\
                                                                            .otherwise(stddev(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                       .rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('valor_media_6_meses_ano_previo_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                              .rangeBetween(days(_6_meses), days(_inicio)))).isNull(), 0)\
                                                                           .otherwise(avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                   .rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_6_meses_ano_previo_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                               .rangeBetween(days(_6_meses), days(_inicio)))).isNull(), 0)\
                                                                            .otherwise(stddev(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                       .rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('valor_media_12_meses_ano_previo_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                               .rangeBetween(days(_12_meses), days(_inicio)))).isNull(), 0)\
                                                                            .otherwise(avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                    .rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('valor_stddev_12_meses_ano_previo_cpf', round(when((avg(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                .rangeBetween(days(_12_meses), days(_inicio)))).isNull(), 0)\
                                                                             .otherwise(stddev(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                        .rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('min_valor_3_meses_ano_previo_cpf', round(when((min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                            .rangeBetween(days(_3_meses), days(_inicio)))).isNull(),0)\
                                                                         .otherwise(min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                 .rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('max_valor_3_meses_ano_previo_cpf', round(when((max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                            .rangeBetween(days(_3_meses), days(_inicio)))).isNull(),0)\
                                                                         .otherwise(max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                 .rangeBetween(days(_3_meses), days(_inicio)))),2))\
               .withColumn('min_valor_6_meses_ano_previo_cpf', round(when((min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                            .rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                                         .otherwise(min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                 .rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('max_valor_6_meses_ano_previo_cpf', round(when((max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                            .rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                                         .otherwise(max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                 .rangeBetween(days(_6_meses), days(_inicio)))),2))\
               .withColumn('min_valor_12_meses_ano_previo_cpf', round(when((min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                             .rangeBetween(days(_12_meses), days(_inicio)))).isNull(),0)\
                                                                          .otherwise(min(col('valor_total')).over(window_spec_ano_previo\
                                                                                                                  .rangeBetween(days(_12_meses), days(_inicio)))),2))\
               .withColumn('max_valor_12_meses_ano_previo_cpf', round(when((max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                             .rangeBetween(days(_12_meses), days(_inicio)))).isNull(),0)\
                                                                .otherwise(max(col('valor_total')).over(window_spec_ano_previo\
                                                                                                        .rangeBetween(days(_12_meses), days(_inicio)))),2))
    return df_f


In [14]:
def get_ratios(df_f):
  
  df_f = df_f.withColumn('ratio_valor_media_3_meses_cdc_cpf', when(col('valor_media_3_meses_cdc_cpf')==0, 1)\
                                                              .otherwise(round(col('valor_total')/col('valor_media_3_meses_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_6_meses_cdc_cpf', when(col('valor_media_6_meses_cdc_cpf')==0, 1)\
                                                              .otherwise(round(col('valor_total')/col('valor_media_6_meses_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_12_meses_cdc_cpf', when(col('valor_media_12_meses_cdc_cpf')==0, 1)\
                                                              .otherwise(round(col('valor_total')/col('valor_media_12_meses_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_3_meses_cpf', when(col('valor_media_3_meses_cpf')==0, 1)\
                                                              .otherwise(round(col('valor_total')/col('valor_media_3_meses_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_6_meses_cpf', when(col('valor_media_6_meses_cpf')==0, 1)\
                                                              .otherwise(round(col('valor_total')/col('valor_media_6_meses_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_12_meses_cpf', when(col('valor_media_12_meses_cpf')==0, 1)\
                                                              .otherwise(round(col('valor_total')/col('valor_media_12_meses_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_3_meses_ano_previo_cdc_cpf', when(col('valor_media_3_meses_ano_previo_cdc_cpf')==0,1)\
                                                                         .otherwise(round(col('valor_total')/col('valor_media_3_meses_ano_previo_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_6_meses_ano_previo_cdc_cpf', when(col('valor_media_6_meses_ano_previo_cdc_cpf')==0,1)\
                                                                         .otherwise(round(col('valor_total')/col('valor_media_6_meses_ano_previo_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_12_meses_ano_previo_cdc_cpf', when(col('valor_media_12_meses_ano_previo_cdc_cpf')==0,1)\
                                                                         .otherwise(round(col('valor_total')/col('valor_media_12_meses_ano_previo_cdc_cpf'), 2)))\
             .withColumn('ratio_valor_media_3_meses_ano_previo_cpf', when(col('valor_media_3_meses_ano_previo_cpf')==0,1)\
                                                                         .otherwise(round(col('valor_total')/col('valor_media_3_meses_ano_previo_cpf'), 2)))\
             .withColumn('ratio_valor_media_6_meses_ano_previo_cpf', when(col('valor_media_6_meses_ano_previo_cdc_cpf')==0,1)\
                                                                         .otherwise(round(col('valor_total')/col('valor_media_6_meses_ano_previo_cpf'), 2)))\
             .withColumn('ratio_valor_media_12_meses_ano_previo_cpf', when(col('valor_media_12_meses_ano_previo_cdc_cpf')==0,1)\
                                                                         .otherwise(round(col('valor_total')/col('valor_media_12_meses_ano_previo_cpf'), 2)))
  
  return df_f
                      

## Executor Principal

In [16]:
import logging

logger = spark._jvm.org.apache.log4j.LogManager.getLogger('feature_extraction_faturas')

df_faturas = spark.read.table('transient.faturas_modelo')

df_faturas = get_periodos_e_datas_referencia(df_faturas, periodo_inicial, periodo_final)
df_features = get_variaveis_qtde_faturas_cdc_cpf(df_faturas)
df_features = get_variaveis_qtde_faturas_cdc_cpf(df_features, part_by = "cpf")
df_features = get_variaveis_qtde_faturas_vencidas_cdc_cpf(df_features)
df_features = get_variaveis_qtde_faturas_vencidas_cdc_cpf(df_features, part_by = "cpf")
df_features = get_variaveis_valor_cdc_cpf(df_features)
df_features = get_variaveis_valor_cdc_cpf(df_features, part_by = "cpf")
df_features = get_ratios(df_features)
################# Filtro da base pela data de vencimento ##############################
data_inferior =  datetime.strptime(periodo_inicial, '%Y-%m-%d')
data_superior =  datetime.strptime(periodo_final, '%Y-%m-%d')

df_features = df_features.where((col('data_vencimento_ajustada') >= data_inferior)\
                                & (col('data_vencimento_ajustada')<=data_superior)) 

df_features.write.saveAsTable(name= "transient.variaveis_faturas", mode = 'overwrite')
#df_features.createOrReplaceGlobalTempView('faturas_variaveis')
#dbutils.notebook.exit("faturas_variaveis")
dbutils.notebook.exit('feature_extraction_faturas_finalizado_com_sucesso') 