In [1]:
from pyspark.sql.window import Window
from pyspark.sql.types import LongType 
from pyspark.sql.types import *
from pyspark.sql.functions import *
from pyspark.sql.functions import countDistinct, row_number
from pyspark.sql import SQLContext, HiveContext
from dateutil.relativedelta import relativedelta
from datetime import datetime, timedelta
from pyspark.sql.functions import udf
from pyspark.sql.types import DateType


In [2]:
sqlContext = SQLContext(sc)
dbutils.widgets.text("idunidade_operacional", "3")
dbutils.widgets.text("idcidade", "3")
dbutils.widgets.dropdown("t_objetivo", "treinamento", ["treinamento", "predicao"])

In [3]:
unidade_operacional = dbutils.widgets.get("idunidade_operacional") 
cidade = dbutils.widgets.get("idcidade") 
objetivo = dbutils.widgets.get("t_objetivo")

## Obtendo Views de Processos

In [5]:
dbutils.notebook.run("gerador_views_genericas", 500, {"a_output": "processos",\
                                                                    "idunidade_operacional": dbutils.widgets.get("idunidade_operacional"),
                                                                    "idcidade": dbutils.widgets.get("idcidade")})
"""
global_temp_db = spark.conf.get("spark.sql.globalTempDatabase")
df_processos = table(global_temp_db + "." + returned_table)
"""

## Funções de Pre-processamento
- Renomeia colunas para evitar conflito em joins posteriores com faturas
- Filtra informações de Processos viáveis para análise
     - Objetivo: Corte
     - Data Recebimento Notificação não nula
     - Para treinamento: processos finalizados via corte ou pagamento ou negociação
     - Para predição: processos finalizados e pendentes 
- Cria variaveis base: dias de atraso, dias antes da notificação, etc.

In [7]:
def calc_valor_acumulado(periodo_atual, lista_periodos_valores):
  valor_acumulado = 0.0
  for element in lista_periodos_valores:
    if element['periodo'] <= periodo_atual:
      valor_acumulado = valor_acumulado + element['valor_proc']
  return valor_acumulado

days = lambda i: i * 86400
udf_days_no_mes = udf(days, LongType())
func_valor_acumulado = udf(lambda x:calc_valor_acumulado(x[0], x[1]), FloatType())
func_ano_anterior =  udf(lambda x: datetime.strptime(x, '%Y-%m-%d') - relativedelta(years=1), DateType())

In [8]:
def pre_processamento_basico(df_p, obj = "treinamento"):
  
  df_p = df_p.withColumnRenamed('data_vencimento_ajustada', 'data_vencimento_ajustada_proc')\
             .withColumnRenamed('data_pagamento', 'data_pagamento_proc')\
             .withColumnRenamed('data_parcelamento', 'data_parcelamento_proc')\
             .withColumnRenamed('cdc', 'cdc_proc')\
             .withColumnRenamed('fatura_id', 'fatura_id_proc')\
             .withColumnRenamed('cliente_fatura_cpf', 'cliente_fatura_cpf_proc')\
             .withColumnRenamed('cliente_fatura_cnpj', 'cliente_fatura_cnpj_proc')\
             .withColumnRenamed('cliente_fatura_nome', 'cliente_fatura_nome_proc')\
             .withColumnRenamed('id_situacao_fatura', 'id_situacao_fatura_proc')
  
  df_p = df_p.where((col('id_objetivo_processo_corte') == 2)\
                    & (col('data_apto_corte').isNotNull())\
                    & (col('data_recebimento_notificacao').isNotNull()))
  
  if (obj == "treinamento"):
    df_p = df_p.where((col('status_processo') == "F") \
                      & ((col('data_pagamento_proc').isNotNull()) \
                         | (col('data_parcelamento_proc').isNotNull()) \
                         | (col('data_corte').isNotNull())))
    
  elif (obj == "predicao"):
    df_p = df_p.where((col('status_processo') != "C"))
    
    
  df_p = df_p.select('id_processo_corte','data_vencimento_ajustada_proc', 'data_pagamento_proc',\
                     'data_parcelamento_proc', 'cdc_proc', 'fatura_id_proc', 'cliente_fatura_cpf_proc',\
                     'cliente_fatura_cnpj_proc', 'cliente_fatura_nome_proc', 'data_recebimento_notificacao',\
                     'data_corte_prevista', 'data_apto_corte', 'data_corte','periodo', 'valor_proc',\
                     'status_processo', 'id_situacao_fatura_proc')  
  return df_p


In [9]:
def cria_colunas_base(df_p):
  
  window_spec_processo = Window.partitionBy('id_processo_corte', 'cdc_proc', 'cliente_fatura_cpf_proc', 'cliente_fatura_cnpj_proc')
  window_spec_cdc_cpf = Window.partitionBy('cdc_proc', 'cliente_fatura_cpf_proc', 'cliente_fatura_cnpj_proc')
  window_spec_cdc_cpf_cnpj_pgtos = Window.partitionBy('cdc_proc', 'cliente_fatura_cpf_proc','cliente_fatura_cnpj_proc', 'data_pagamento_proc', 'data_parcelamento_proc')
  
  
  df_p = df_p.withColumn('periodo_referencia_ano_previo', func_ano_anterior(col('periodo').cast("string")))
  
  df_p = df_p.withColumn('dias_pagamento_antes_prevcorte', when(col('data_pagamento_proc').isNotNull(),\
                                                                datediff(col('data_apto_corte'), col('data_pagamento_proc')))\
                                                           .otherwise(when(col('data_parcelamento_proc').isNotNull(),\
                                                                           datediff(col('data_apto_corte'), col('data_parcelamento_proc')))))
  
  df_p = df_p.withColumn('dias_pagamento_antes_notificacao', when(col('data_pagamento_proc').isNotNull(),\
                                                                  datediff(col('data_recebimento_notificacao'), col('data_pagamento_proc')))\
                                                             .otherwise(when(col('data_parcelamento_proc').isNotNull(),\
                                                                             datediff(col('data_recebimento_notificacao'),col('data_parcelamento_proc')))))
  
  df_p = df_p.withColumn('dias_atraso', when(col('data_pagamento_proc').isNotNull(),\
                                             datediff(col('data_pagamento_proc'),col('data_vencimento_ajustada_proc')))\
                                       .otherwise(when(col('data_parcelamento_proc').isNotNull(),\
                                                       datediff(col('data_parcelamento_proc'), col('data_vencimento_ajustada_proc')))\
                                                  .otherwise(datediff(current_date(), col('data_vencimento_ajustada_proc')))))
  
  
  
  df_p = df_p.withColumn('qtde_faturas_processo', size(collect_set(col('fatura_id_proc')).over(window_spec_processo)))
  
  df_p = df_p.withColumn('debito_acumulado_processo', sum(col('valor_proc')).over(window_spec_processo))
  
  df_p = df_p.withColumn('dias_atraso_dataprevcorte', when(col('data_pagamento_proc').isNotNull(),\
                                                           datediff(col('data_pagamento_proc'), col('data_apto_corte')))\
                                                      .otherwise(when(col('data_parcelamento_proc').isNotNull(),\
                                                                      datediff(col('data_parcelamento_proc'), col('data_apto_corte')))\
                                                                 .otherwise(datediff(current_date(),col('data_apto_corte')))))
  
  
  df_p = df_p.withColumn('lista_periodo_valor_cpf_cnpj', collect_list(struct(col('periodo'), col('valor_proc'))).over(window_spec_cdc_cpf))\
             .withColumn('lista_periodo_valor_cpf_cnpj_pgtos',collect_list(struct(col('periodo'), col('valor_proc'))).over(window_spec_cdc_cpf_cnpj_pgtos))
  
  
  df_p = df_p.withColumn('debito_acumulado_ate_periodo', when(col('status_processo') == 'P', 
                                                              sum(when((col('status_processo') == 'P')\
                                                                       & (col('data_pagamento_proc').isNull())\
                                                                       & (col('data_parcelamento_proc').isNull()),\
                                                                       func_valor_acumulado(struct(col('periodo'),\
                                                                                                   col('lista_periodo_valor_cpf_cnpj'))))\
                                                                  .otherwise(0)).over(window_spec_cdc_cpf))\
                                                        .otherwise(when(col('status_processo')=='F',\
                                                                        sum(when((col('data_pagamento_proc').isNotNull())\
                                                                                 |(col('data_parcelamento_proc').isNotNull()),\
                                                                                 func_valor_acumulado(struct(col('periodo'),\
                                                                                                             col('lista_periodo_valor_cpf_cnpj_pgtos'))))\
                                                                            .otherwise(0)).over(window_spec_cdc_cpf_cnpj_pgtos))))\
             .withColumn('pagou_pos_20d_dcp', when(datediff(col('data_pagamento_proc'),col('data_apto_corte'))>20,1)\
                                              .otherwise(when(datediff(col('data_parcelamento_proc'),col('data_apto_corte'))>20,1)\
                                                         .otherwise(when(datediff(current_date(),col('data_apto_corte'))>20,1)\
                                                                    .otherwise(0))))
  
  df_p = df_p.drop('lista_periodo_valor_cpf_cnpj', 'lista_periodo_valor_cpf_cnpj_pgtos')
  df_p = df_p.dropDuplicates(['id_processo_corte', 'cdc_proc', 'fatura_id_proc', 'periodo'])
  
  return df_p


## Funções para criação de variaveis preditivas

In [11]:
def get_estatisticas_debito_atrasos(df_p, _inicio = -1, _3_meses = -100, _6_meses = -190, _12_meses = -370):
  
  window_cdc_cpf = Window.partitionBy('cdc_proc', 'cliente_fatura_cpf_proc', 'cliente_fatura_cnpj_proc')\
                          .orderBy(col('periodo').cast('timestamp').cast('long'))
  
  
  df_p = df_p.withColumn('dias_atraso_media_3_meses_cdc_cpf', avg(col('dias_atraso'))\
                                                             .over(window_cdc_cpf\
                                                                   .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('dias_atraso_media_6_meses_cdc_cpf', avg(col('dias_atraso'))\
                                                              .over(window_cdc_cpf\
                                                                    .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('dias_atraso_media_12_meses_cdc_cpf', avg(col('dias_atraso'))\
                                                               .over(window_cdc_cpf\
                                                                     .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('dias_atraso_stddev_3_meses_cdc_cpf', stddev(col('dias_atraso'))\
                                                               .over(window_cdc_cpf\
                                                                     .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('dias_atraso_stddev_6_meses_cdc_cpf', stddev(col('dias_atraso'))\
                                                               .over(window_cdc_cpf\
                                                                     .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('dias_atraso_stddev_12_meses_cdc_cpf', stddev(col('dias_atraso'))\
                                                                .over(window_cdc_cpf\
                                                                      .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_media_3_meses_cdc_cpf',avg(col('debito_acumulado_processo'))\
                                                                           .over(window_cdc_cpf\
                                                                                 .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_media_6_meses_cdc_cpf', avg(col('debito_acumulado_processo'))\
                                                                            .over(window_cdc_cpf\
                                                                                  .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_media_12_meses_cdc_cpf', avg(col('debito_acumulado_processo'))\
                                                                             .over(window_cdc_cpf\
                                                                                   .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_stddev_3_meses_cdc_cpf', stddev(col('debito_acumulado_processo'))\
                                                                             .over(window_cdc_cpf\
                                                                                   .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_stddev_6_meses_cdc_cpf', stddev(col('debito_acumulado_processo'))\
                                                                             .over(window_cdc_cpf\
                                                                                   .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_stddev_12_meses_cdc_cpf', stddev(col('debito_acumulado_processo'))\
                                                                              .over(window_cdc_cpf\
                                                                                    .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_media_3_meses_cdc_cpf', avg(col('dias_atraso_dataprevcorte'))\
                                                                            .over(window_cdc_cpf\
                                                                                  .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_media_6_meses_cdc_cpf', avg(col('dias_atraso_dataprevcorte'))\
                                                                            .over(window_cdc_cpf\
                                                                                  .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_media_12_meses_cdc_cpf', avg(col('dias_atraso_dataprevcorte'))\
                                                                            .over(window_cdc_cpf\
                                                                                  .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_stddev_3_meses_cdc_cpf', stddev(col('dias_atraso_dataprevcorte'))\
                                                                             .over(window_cdc_cpf\
                                                                                   .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_stddev_6_meses_cdc_cpf', stddev(col('dias_atraso_dataprevcorte'))\
                                                                             .over(window_cdc_cpf\
                                                                                   .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_stddev_12_meses_cdc_cpf', stddev(col('dias_atraso_dataprevcorte'))\
                                                                              .over(window_cdc_cpf\
                                                                                    .rangeBetween(days(_12_meses), days(_inicio))))
  
  window_cdc_cpf_ano_pr = Window.partitionBy('cdc_proc', 'cliente_fatura_cpf_proc', 'cliente_fatura_nome_proc','cliente_fatura_cnpj_proc')\
                          .orderBy(col('periodo_referencia_ano_previo').cast('timestamp').cast('long'))
  
  
  df_p = df_p.withColumn('dias_atraso_media_3_meses_ano_ant_cdc_cpf', avg(col('dias_atraso'))\
                                                                      .over(window_cdc_cpf_ano_pr\
                                                                            .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('dias_atraso_media_6_meses_ano_ant_cdc_cpf', avg(col('dias_atraso'))\
                                                                      .over(window_cdc_cpf_ano_pr\
                                                                            .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('dias_atraso_media_12_meses_ano_ant_cdc_cpf', avg(col('dias_atraso'))\
                                                                       .over(window_cdc_cpf_ano_pr\
                                                                             .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('dias_atraso_stddev_3_meses_ano_ant_cdc_cpf', stddev(col('dias_atraso'))\
                                                                       .over(window_cdc_cpf_ano_pr\
                                                                             .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('dias_atraso_stddev_6_meses_ano_ant_cdc_cpf', stddev(col('dias_atraso'))\
                                                                       .over(window_cdc_cpf_ano_pr\
                                                                             .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('dias_atraso_stddev_12_meses_ano_ant_cdc_cpf', stddev(col('dias_atraso'))\
                                                                        .over(window_cdc_cpf_ano_pr\
                                                                              .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_media_3_meses_ano_ant_cdc_cpf', avg(col('debito_acumulado_processo'))\
                                                                                    .over(window_cdc_cpf_ano_pr\
                                                                                         .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_media_6_meses_ano_ant_cdc_cpf', avg(col('debito_acumulado_processo'))\
                                                                                    .over(window_cdc_cpf_ano_pr\
                                                                                          .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_media_12_meses_ano_ant_cdc_cpf', avg(col('debito_acumulado_processo'))\
                                                                                     .over(window_cdc_cpf_ano_pr\
                                                                                           .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_stddev_3_meses_ano_ant_cdc_cpf', stddev(col('debito_acumulado_processo'))\
                                                                                     .over(window_cdc_cpf_ano_pr\
                                                                                           .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_stddev_6_meses_ano_ant_cdc_cpf', stddev(col('debito_acumulado_processo'))\
                                                                                     .over(window_cdc_cpf_ano_pr\
                                                                                           .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('debito_acumulado_processo_stddev_12_meses_ano_ant_cdc_cpf', stddev(col('debito_acumulado_processo'))\
                                                                                      .over(window_cdc_cpf_ano_pr\
                                                                                            .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_media_3_meses_ano_ant_cdc_cpf', avg(col('dias_atraso_dataprevcorte'))\
                                                                                    .over(window_cdc_cpf_ano_pr\
                                                                                          .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_media_6_meses_ano_ant_cdc_cpf', avg(col('dias_atraso_dataprevcorte'))\
                                                                                    .over(window_cdc_cpf_ano_pr\
                                                                                          .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_media_12_meses_ano_ant_cdc_cpf', avg(col('dias_atraso_dataprevcorte'))\
                                                                                     .over(window_cdc_cpf_ano_pr\
                                                                                           .rangeBetween(days(_12_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_stddev_3_meses_ano_ant_cdc_cpf', stddev(col('dias_atraso_dataprevcorte'))\
                                                                                     .over(window_cdc_cpf_ano_pr\
                                                                                           .rangeBetween(days(_3_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_stddev_6_meses_ano_ant_cdc_cpf', stddev(col('dias_atraso_dataprevcorte'))\
                                                                                     .over(window_cdc_cpf_ano_pr\
                                                                                           .rangeBetween(days(_6_meses), days(_inicio))))\
             .withColumn('dias_atraso_dataprevcorte_stddev_12_meses_ano_ant_cdc_cpf', stddev(col('dias_atraso_dataprevcorte'))\
                                                                                      .over(window_cdc_cpf_ano_pr\
                                                                                            .rangeBetween(days(_12_meses), days(_inicio))))
  
  return df_p

In [12]:
def get_estatisticas_notificao_e_corte (df_p, _inicio = -1, _3_meses = -100, _6_meses = -190, _12_meses = -370):
  
  ######################## variaveis estatisticas dos ultimos 12 meses #########################################################
  window_cdc_cpf = Window.partitionBy('cdc_proc', 'cliente_fatura_cpf_proc', 'cliente_fatura_cnpj_proc')\
                          .orderBy(col('periodo').cast('timestamp').cast('long'))
  
  ######################## variaveis estatisticas com base na notificacao #########################################################
  df_p = df_p.withColumn('paga_antes_avisocorte_media_3_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                    .over(window_cdc_cpf\
                                                                                          .rangeBetween(days(_3_meses),days(_inicio)))).isNull(),0)\
                                                                              .otherwise(avg(col('dias_pagamento_antes_notificacao'))\
                                                                                         .over(window_cdc_cpf\
                                                                                               .rangeBetween(days(_3_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_media_6_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                    .over(window_cdc_cpf\
                                                                                          .rangeBetween(days(_6_meses),days(_inicio)))).isNull(),0)\
                                                                              .otherwise(avg(col('dias_pagamento_antes_notificacao'))\
                                                                                         .over(window_cdc_cpf\
                                                                                               .rangeBetween(days(_6_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_media_12_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                    .over(window_cdc_cpf\
                                                                                         .rangeBetween(days(_12_meses),days(_inicio)))).isNull(),0)\
                                                                              .otherwise(avg(col('dias_pagamento_antes_notificacao'))\
                                                                                         .over(window_cdc_cpf\
                                                                                              .rangeBetween(days(_12_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_stddev_3_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                     .over(window_cdc_cpf\
                                                                                           .rangeBetween(days(_3_meses),days(_inicio)))).isNull(),0)\
                                                                               .otherwise(stddev(col('dias_pagamento_antes_notificacao'))\
                                                                                          .over(window_cdc_cpf\
                                                                                                .rangeBetween(days(_3_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_stddev_6_meses_cdc_cpf',round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                    .over(window_cdc_cpf\
                                                                                          .rangeBetween(days(_6_meses),days(_inicio)))).isNull(),0)\
                                                                              .otherwise(stddev(col('dias_pagamento_antes_notificacao'))\
                                                                                         .over(window_cdc_cpf\
                                                                                               .rangeBetween(days(_6_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_stddev_12_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                      .over(window_cdc_cpf\
                                                                                            .rangeBetween(days(_12_meses),days(_inicio)))).isNull(),0)\
                                                                                .otherwise(stddev(col('dias_pagamento_antes_notificacao'))\
                                                                                           .over(window_cdc_cpf\
                                                                                                 .rangeBetween(days(_12_meses), days( _inicio)))),2))
 
  
  ######################## variaveis estatisticas com base na data de corte prevista #########################################################
  df_p = df_p.withColumn('paga_antes_corte_media_3_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                               .over(window_cdc_cpf\
                                                                                     .rangeBetween(days(_3_meses),days(_inicio)))).isNull(),0)\
                                                                         .otherwise(avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                    .over(window_cdc_cpf\
                                                                                          .rangeBetween(days(_3_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_media_6_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                               .over(window_cdc_cpf\
                                                                                     .rangeBetween(days(_6_meses),days(_inicio)))).isNull(),0)\
                                                                         .otherwise(avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                    .over(window_cdc_cpf\
                                                                                          .rangeBetween(days(_6_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_media_12_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                .over(window_cdc_cpf\
                                                                                      .rangeBetween(days(_12_meses),days(_inicio)))).isNull(),0)\
                                                                          .otherwise(avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                     .over(window_cdc_cpf\
                                                                                           .rangeBetween(days(_12_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_stddev_3_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                .over(window_cdc_cpf\
                                                                                      .rangeBetween(days(_3_meses),days(_inicio)))).isNull(),0)\
                                                                          .otherwise(stddev(col('dias_pagamento_antes_prevcorte'))\
                                                                                     .over(window_cdc_cpf\
                                                                                           .rangeBetween(days(_3_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_stddev_6_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                .over(window_cdc_cpf\
                                                                                      .rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                                          .otherwise(stddev(col('dias_pagamento_antes_prevcorte'))\
                                                                                     .over(window_cdc_cpf\
                                                                                           .rangeBetween(days(_6_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_stddev_12_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                 .over(window_cdc_cpf\
                                                                                       .rangeBetween(days(_12_meses),days(_inicio)))).isNull(),0)\
                                                                           .otherwise(stddev(col('dias_pagamento_antes_prevcorte'))\
                                                                                      .over(window_cdc_cpf\
                                                                                            .rangeBetween(days(_12_meses), days( _inicio)))),2))
  
  ######################## variaveis de quantidade de cortes #########################################################
  df_p = df_p.withColumn('qtde_corte_3_meses_cdc_cpf', size(collect_set(col('data_corte'))\
                                                            .over(window_cdc_cpf\
                                                                  .rangeBetween(days(_3_meses), days(_inicio)))))\
             .withColumn('qtde_corte_6_meses_cdc_cpf', size(collect_set(col('data_corte'))\
                                                            .over(window_cdc_cpf\
                                                                  .rangeBetween(days(_6_meses), days(_inicio)))))\
             .withColumn('qtde_corte_12_meses_cdc_cpf', size(collect_set(col('data_corte'))\
                                                             .over(window_cdc_cpf\
                                                                   .rangeBetween(days(_12_meses), days(_inicio)))))
  
  
  ######################## variaveis estatisticas do ano anterior a data de referencia #########################################################
  window_cdc_cpf_ano_prev = Window.partitionBy('cdc_proc', 'cliente_fatura_cpf_proc', 'cliente_fatura_cnpj_proc')\
                                  .orderBy(col('periodo_referencia_ano_previo').cast('timestamp').cast('long'))
  
  
  ######################## variaveis estatisticas com base na notificacao ######################################################################
  df_p = df_p.withColumn('paga_antes_avisocorte_media_ano_ant_3_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                    .over(window_cdc_cpf_ano_prev\
                                                                                          .rangeBetween(days(_3_meses),days(_inicio)))).isNull(),0)\
                                                                              .otherwise(avg(col('dias_pagamento_antes_notificacao'))\
                                                                                         .over(window_cdc_cpf_ano_prev\
                                                                                               .rangeBetween(days(_3_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_media_ano_ant_6_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                    .over(window_cdc_cpf_ano_prev\
                                                                                          .rangeBetween(days(_6_meses),days(_inicio)))).isNull(),0)\
                                                                              .otherwise(avg(col('dias_pagamento_antes_notificacao'))\
                                                                                         .over(window_cdc_cpf_ano_prev\
                                                                                               .rangeBetween(days(_6_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_media_ano_ant_12_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                    .over(window_cdc_cpf_ano_prev\
                                                                                         .rangeBetween(days(_12_meses),days(_inicio)))).isNull(),0)\
                                                                              .otherwise(avg(col('dias_pagamento_antes_notificacao'))\
                                                                                         .over(window_cdc_cpf_ano_prev\
                                                                                              .rangeBetween(days(_12_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_stddev_ano_ant_3_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                     .over(window_cdc_cpf_ano_prev\
                                                                                           .rangeBetween(days(_3_meses),days(_inicio)))).isNull(),0)\
                                                                               .otherwise(stddev(col('dias_pagamento_antes_notificacao'))\
                                                                                          .over(window_cdc_cpf_ano_prev\
                                                                                                .rangeBetween(days(_3_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_stddev_ano_ant_6_meses_cdc_cpf',round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                    .over(window_cdc_cpf_ano_prev\
                                                                                          .rangeBetween(days(_6_meses),days(_inicio)))).isNull(),0)\
                                                                              .otherwise(stddev(col('dias_pagamento_antes_notificacao'))\
                                                                                         .over(window_cdc_cpf_ano_prev\
                                                                                               .rangeBetween(days(_6_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_avisocorte_stddev_ano_ant_12_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_notificacao'))\
                                                                                      .over(window_cdc_cpf_ano_prev\
                                                                                            .rangeBetween(days(_12_meses),days(_inicio)))).isNull(),0)\
                                                                                .otherwise(stddev(col('dias_pagamento_antes_notificacao'))\
                                                                                           .over(window_cdc_cpf_ano_prev\
                                                                                                 .rangeBetween(days(_12_meses), days( _inicio)))),2))
 
  
  ######################## variaveis estatisticas com base na data de corte prevista ##############################################################
  df_p = df_p.withColumn('paga_antes_corte_media_ano_ant_3_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                               .over(window_cdc_cpf_ano_prev\
                                                                                     .rangeBetween(days(_3_meses),days(_inicio)))).isNull(),0)\
                                                                         .otherwise(avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                    .over(window_cdc_cpf_ano_prev\
                                                                                          .rangeBetween(days(_3_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_media_ano_ant_6_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                               .over(window_cdc_cpf_ano_prev\
                                                                                     .rangeBetween(days(_6_meses),days(_inicio)))).isNull(),0)\
                                                                         .otherwise(avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                    .over(window_cdc_cpf_ano_prev\
                                                                                          .rangeBetween(days(_6_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_media_ano_ant_12_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                .over(window_cdc_cpf_ano_prev\
                                                                                      .rangeBetween(days(_12_meses),days(_inicio)))).isNull(),0)\
                                                                          .otherwise(avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                     .over(window_cdc_cpf_ano_prev\
                                                                                           .rangeBetween(days(_12_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_stddev_ano_ant_3_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                .over(window_cdc_cpf_ano_prev\
                                                                                      .rangeBetween(days(_3_meses),days(_inicio)))).isNull(),0)\
                                                                          .otherwise(stddev(col('dias_pagamento_antes_prevcorte'))\
                                                                                     .over(window_cdc_cpf_ano_prev\
                                                                                           .rangeBetween(days(_3_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_stddev_ano_ant_6_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                .over(window_cdc_cpf_ano_prev\
                                                                                      .rangeBetween(days(_6_meses), days(_inicio)))).isNull(),0)\
                                                                          .otherwise(stddev(col('dias_pagamento_antes_prevcorte'))\
                                                                                     .over(window_cdc_cpf_ano_prev\
                                                                                           .rangeBetween(days(_6_meses), days( _inicio)))),2))\
             .withColumn('paga_antes_corte_stddev_ano_ant_12_meses_cdc_cpf', round(when((avg(col('dias_pagamento_antes_prevcorte'))\
                                                                                 .over(window_cdc_cpf_ano_prev\
                                                                                       .rangeBetween(days(_12_meses),days(_inicio)))).isNull(),0)\
                                                                           .otherwise(stddev(col('dias_pagamento_antes_prevcorte'))\
                                                                                      .over(window_cdc_cpf_ano_prev\
                                                                                            .rangeBetween(days(_12_meses), days( _inicio)))),2))
  
   ######################## variaveis de quantidade de cortes #########################################################
  df_p = df_p.withColumn('qtde_corte_ano_ant_3_meses_cdc_cpf', size(collect_set(col('data_corte'))\
                                                            .over(window_cdc_cpf_ano_prev\
                                                                  .rangeBetween(days(_3_meses), days(_inicio)))))\
             .withColumn('qtde_corte_ano_ant_6_meses_cdc_cpf', size(collect_set(col('data_corte'))\
                                                            .over(window_cdc_cpf_ano_prev\
                                                                  .rangeBetween(days(_6_meses), days(_inicio)))))\
             .withColumn('qtde_corte_ano_ant_12_meses_cdc_cpf', size(collect_set(col('data_corte'))\
                                                             .over(window_cdc_cpf_ano_prev\
                                                                   .rangeBetween(days(_12_meses), days(_inicio)))))
  
  return df_p

## Executor Principal

In [14]:
import logging

logger = spark._jvm.org.apache.log4j.LogManager.getLogger('feature_extraction_processos')

df_processos = spark.read.table('transient.processos_modelo')

if (objetivo == "predicao"):
  df_processos = pre_processamento_basico (df_processos, obj = "predicao")
else:
  df_processos = pre_processamento_basico (df_processos, obj = "treinamento")

df_features = cria_colunas_base(df_processos)
df_features = get_estatisticas_debito_atrasos(df_features)
df_features = get_estatisticas_notificao_e_corte(df_features)
df_features.write.saveAsTable(name= "transient.variaveis_processos", mode = 'overwrite')
dbutils.notebook.exit('feature_extraction_processos_finalizado_com_sucesso') 
#df_features.createOrReplaceGlobalTempView('processos_variaveis')
dbutils.notebook.exit("processos_variaveis")