In [1]:
from pyspark.sql.window import Window
from pyspark.sql.types import LongType 
from pyspark.sql.types import *
from pyspark.sql.functions import *
from pyspark.sql.functions import countDistinct, row_number
from pyspark.sql import SQLContext, HiveContext
from dateutil.relativedelta import relativedelta
from datetime import datetime, timedelta
from pyspark.sql.functions import udf
from pyspark.sql.types import DateType


In [2]:
dbutils.widgets.text("idunidade_operacional", "3")
dbutils.widgets.text("idcidade", "3")
dbutils.widgets.text("periodo_inicial", "2019-01-01")
dbutils.widgets.text("periodo_final", "2019-04-30")
dbutils.widgets.dropdown("t_objetivo", "treinamento", ["treinamento", "predicao"])
dbutils.widgets.dropdown("target_modelo", "modelo_selfcures", ["modelo_selfcures"])

In [3]:
unidade_operacional = dbutils.widgets.get("idunidade_operacional") 
cidade = dbutils.widgets.get("idcidade") 
periodo_inicial = dbutils.widgets.get("periodo_inicial")
periodo_final = dbutils.widgets.get("periodo_final")
objetivo = dbutils.widgets.get("t_objetivo")
modelo = dbutils.widgets.get("target_modelo")

## Gerando Bases de Faturas, Processos e cadastros

In [5]:
dbutils.notebook.run("gerador_variaveis_faturas", 3000, {"idunidade_operacional": unidade_operacional,\
                                                                        "idcidade": cidade,\
                                                                        "periodo_inicial": periodo_inicial,\
                                                                        "periodo_final": periodo_final})
                                      

In [6]:
dbutils.notebook.run("gerador_variaveis_processos", 3000, {"idunidade_operacional": unidade_operacional,\
                                                                            "idcidade": cidade,\
                                                                            "t_objetivo": objetivo})

In [7]:
dbutils.notebook.run("gerador_views_genericas", 500, {"a_output": "cadastros",\
                                                                    "idunidade_operacional": unidade_operacional,
                                                                    "idcidade": cidade})

## Montando base e Target

In [9]:
def cria_target_e_join_base(b_faturas, b_processos, df_cad, t_modelo= "m_self_cures"):
  
  if (t_modelo == "m_self_cures"):
    
    nova_base = b_faturas.alias('faturas').join(b_processos.alias('processos'), \
                                                [b_faturas.cdc == b_processos.cdc_proc,\
                                                 b_faturas.fatura_id == b_processos.fatura_id_proc], 'INNER')\
                                         .select('faturas.*', 'processos.*')
    
    nova_base = nova_base.withColumn('target', when(col('data_pagamento_ou_parcelamento').isNotNull(),\
                                                   when(datediff(col('data_pagamento_ou_parcelamento'), col('data_apto_corte'))<=20,\
                                                        when(col('data_corte').isNull(), 'SELF_CURE'))\
                                                   .otherwise('NON_SELF_CURE'))\
                                              .otherwise(when(datediff(current_date(),col('data_apto_corte')) > 20, 'NON_SELF_CURE')))
    
    nova_base = nova_base.where(col('target').isNotNull())
    
    base_final = nova_base.alias('a').join(df_cad.alias('c'), nova_base.cdc == df_cad.cdc, 'LEFT')\
                                     .select('a.*', 'c.idcategoria','c.situacao_ligacao_id', 'c.tipo_faturamento_id',\
                                             'c.categorias', 'c.tipo_faturamento', 'c.classe_consumo').drop('debito_acumulado_ate_periodo')

    
    return base_final
 

## Aplicando Filtros

In [11]:
def aplica_filtros (base,  mod= "modelo_selfcures"):
  
  if (mod == "modelo_selfcures"):
    dbutils.notebook.run("utilidades", 500, {"v_output": "codigos_tipo_faturamento",\
                                                                      "id_unidade_operacional": dbutils.widgets.get("idunidade_operacional"),\
                                                                      "id_cidade": dbutils.widgets.get("idcidade")})
    
    dbutils.notebook.run("utilidades", 500, {"v_output": "codigos_categorias",\
                                                                "id_unidade_operacional": dbutils.widgets.get("idunidade_operacional"),\
                                                                "id_cidade": dbutils.widgets.get("idcidade")})
    
    sqlContext.sql("refresh table transient.codigos_tipo_faturamento")
    sqlContext.sql("refresh table transient.codigos_categorias")
    
    df_t_faturamento = spark.read.table('transient.codigos_tipo_faturamento')
    df_categorias = spark.read.table('transient.codigos_categorias')
    
    lista_id_faturamento = list(set([row.idtipofaturamento for row in df_t_faturamento.collect()]))
    lista_id_categorias =  list(set([row.idcategoria for row in df_categorias.collect()]))
    
    print(lista_id_faturamento)
    print(lista_id_categorias)
    
    base_final = base.where((col('tipo_faturamento_id').isin(*lista_id_faturamento)) \
                            &(col('idcategoria').isin(lista_id_categorias)) \
                            & (col('situacao_ligacao_id') == 1)).drop('tipo_faturamento_id', 'idcategoria', 'situacao_ligacao_id')
    
    return base_final
 

## Executor Principal

In [13]:
import logging

logger = spark._jvm.org.apache.log4j.LogManager.getLogger('gerador_base')

sqlContext.sql("refresh table transient.variaveis_faturas")
sqlContext.sql("refresh table transient.variaveis_processos")
sqlContext.sql("refresh table transient.cadastros_modelo")

b_faturas = spark.read.table('transient.variaveis_faturas')
b_processos = spark.read.table('transient.variaveis_processos')
b_cadastros = spark.read.table('transient.cadastros_modelo')

df_variaveis_completas = cria_target_e_join_base(b_faturas, b_processos, b_cadastros)
df_variaveis_completas1 = aplica_filtros(df_variaveis_completas)

df_variaveis_completas1.write.saveAsTable(name= "transient.base_treino_predicao", mode = 'overwrite')
#df_variaveis_completas.createOrReplaceGlobalTempView('base_treino_predicao')
#dbutils.notebook.exit('gerador_base_finalizado_com_sucesso') 