In [1]:
%run ../spark-default.py

In [2]:
spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic")

In [3]:
import builtins as b
from datetime import datetime, timedelta, date
import sys, traceback
from delta.tables import DeltaTable

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [4]:
# spark.sql("optimize stage.ciha_step1")

In [5]:
# Até aqui, a base do CIHA foi enriquecida com:
#  - Nome das cidades (residencia e movimentação)
#  - Nome, uf e info dos estados (residencia e movimentação)
#  - Infos do IBGE como população e área
#  - Calculo de feriados

In [6]:
ciha_step1 = spark.table("stage.ciha_step1")
ciha_step1.printSchema()

root
 |-- pk: string (nullable = true)
 |-- mes_cmpt: string (nullable = true)
 |-- espec: string (nullable = true)
 |-- cgc_hosp: string (nullable = true)
 |-- munic_res: string (nullable = true)
 |-- nasc: date (nullable = true)
 |-- sexo: string (nullable = true)
 |-- uti_mes_to: string (nullable = true)
 |-- uti_int_to: string (nullable = true)
 |-- proc_rea: string (nullable = true)
 |-- qt_proc: string (nullable = true)
 |-- dt_atend: date (nullable = true)
 |-- dt_saida: date (nullable = true)
 |-- diag_princ: string (nullable = true)
 |-- diag_secun: string (nullable = true)
 |-- cobranca: string (nullable = true)
 |-- natureza: string (nullable = true)
 |-- gestao: string (nullable = true)
 |-- munic_mov: string (nullable = true)
 |-- cod_idade: string (nullable = true)
 |-- idade: string (nullable = true)
 |-- dias_perm: string (nullable = true)
 |-- morte: string (nullable = true)
 |-- nacional: string (nullable = true)
 |-- car_int: string (nullable = true)
 |-- homonimo: s

In [7]:
ciha_step1

pk,mes_cmpt,espec,cgc_hosp,munic_res,nasc,sexo,uti_mes_to,uti_int_to,proc_rea,qt_proc,dt_atend,dt_saida,diag_princ,diag_secun,cobranca,natureza,gestao,munic_mov,cod_idade,idade,dias_perm,morte,nacional,car_int,homonimo,cnes,fonte,cgc_consor,modalidade,input_file_name,arquivo_sigla_uf,ano_cmpt,feriado,feriados,feriados_prox,feriados_prox_dist,munic_res_nome_uf,munic_mov_nome_uf,munic_res_nome_municipio,munic_mov_nome_municipio,munic_res_sigla_uf,munic_mov_sigla_uf,munic_res_regiao,munic_mov_regiao,munic_res_populacao_residente,munic_mov_populacao_residente,munic_res_area_unidade_territorial,munic_mov_area_unidade_territorial
00016e53-72d5-47a...,8,,60552098000111,355030,1972-06-26,3,0,0,301010072,2,2022-08-23,2022-08-23,E039,,,,M,355030,4,50,0,0,,,,2082624,1,1,1,s3a://datalake/so...,SP,2022,False,,"[{2022-07-26, Fun...",15.0,São Paulo,São Paulo,São Paulo,São Paulo,SP,SP,Sudeste,Sudeste,11253503,11253503,1521.101,1521.101
a6ad9b39-44dd-468...,1,,20959292000100,313170,1992-01-14,3,0,0,301010072,1,2022-01-19,2022-01-19,R529,,18.0,,M,313170,4,30,0,0,,,,2215586,1,0,1,s3a://datalake/so...,MG,2022,False,,"[{2021-12-25, Nat...",18.0,Minas Gerais,Minas Gerais,Itabira,Itabira,MG,MG,Sudeste,Sudeste,109783,109783,1253.704,1253.704
0001aa82-4139-476...,4,,61599908000158,355030,1965-02-01,1,0,0,407010009,2,2022-04-22,2022-04-22,Z018,,,,M,355030,4,57,0,0,,,,2080575,1,1,1,s3a://datalake/so...,SP,2022,False,,"[{2022-04-15, Sex...",1.0,São Paulo,São Paulo,São Paulo,São Paulo,SP,SP,Sudeste,Sudeste,11253503,11253503,1521.101,1521.101
a6b09c4e-c80a-433...,3,,60975737008560,355030,1965-03-01,3,0,0,301060061,1,2022-03-31,2022-03-31,Z00,,,,M,355030,4,57,0,0,,,,9406751,1,1,1,s3a://datalake/so...,SP,2022,False,,"[{2022-04-15, Sex...",15.0,São Paulo,São Paulo,São Paulo,São Paulo,SP,SP,Sudeste,Sudeste,11253503,11253503,1521.101,1521.101
00031bdc-881a-4fd...,9,,9152345000135,315120,1980-03-23,3,0,0,301060061,1,2022-09-19,2022-09-19,E669,,,,M,315120,4,42,0,0,,,,2119528,1,1,1,s3a://datalake/so...,MG,2022,False,,"[{2022-10-12, Nos...",12.0,Minas Gerais,Minas Gerais,Pirapora,Pirapora,MG,MG,Sudeste,Sudeste,53368,53368,549.514,549.514
a6b189ba-f2b3-4a8...,3,,60194990000844,310620,1944-06-27,3,0,1,408030003,1,2022-03-23,2022-03-27,M511,,12.0,,M,310620,4,77,4,0,,,,2200422,1,1,2,s3a://datalake/so...,MG,2022,False,,"[{2022-04-15, Sex...",23.0,Minas Gerais,Minas Gerais,Belo Horizonte,Belo Horizonte,MG,MG,Sudeste,Sudeste,2375151,2375151,331.401,331.401
0004b978-4ac7-4ab...,11,,10892164000124,261160,1959-11-17,3,0,0,301060002,1,2022-11-29,2022-11-29,B342,,18.0,,D,261160,4,63,0,0,,,,1120,1,0,1,s3a://datalake/so...,PE,2022,False,,"[{2022-12-08, Dia...",9.0,Pernambuco,Pernambuco,Recife,Recife,PE,PE,Nordeste,Nordeste,1537704,1537704,218.435,218.435
a6b1f954-05a9-4d9...,4,,15194004000125,292740,1994-05-26,3,0,0,202010201,1,2022-04-16,2022-04-16,O141,,,,M,292740,4,27,0,0,,,,5407591,1,1,1,s3a://datalake/so...,BA,2022,False,,"[{2022-04-15, Sex...",1.0,Bahia,Bahia,Salvador,Salvador,BA,BA,Nordeste,Nordeste,2675656,2675656,693.276,693.276
0005c95b-2ef0-4eb...,4,,88630413000796,431490,2007-02-20,1,0,0,501050035,1,2022-04-04,2022-04-04,M796,,,,M,431490,4,15,0,0,,,,2262568,1,1,1,s3a://datalake/so...,RS,2022,False,,"[{2022-04-15, Sex...",11.0,Rio Grande do Sul,Rio Grande do Sul,Porto Alegre,Porto Alegre,RS,RS,Sul,Sul,1409351,1409351,496.682,496.682
a6b360d2-d98d-419...,6,,45775608000126,350790,1957-11-19,1,0,0,302050027,2,2022-06-09,2022-06-09,Z501,,,,M,350790,4,64,0,0,,,,2081784,5,5,1,s3a://datalake/so...,SP,2022,False,,"[{2022-07-09, Rev...",30.0,São Paulo,São Paulo,Brotas,Brotas,SP,SP,Sudeste,Sudeste,21580,21580,1101.384,1101.384


In [8]:
cid10 = spark.table("stage.cid10_joined")
cid10.show(truncate=False)

+-------------+---------------------------+----------------+-----------+--------------------------------------------------------------------------------------------+-------------------------------------------------+------------------------+-----------------------+---------+-----------------------+------------------------------------------------------------------------------------------------+--------------------------------------------------+--------------------+---------------+------------------------------------------------------------+--------------------------------------------------+
|sub_categoria|sub_categoria_classificacao|restringido_sexo|causa_obito|sub_categoria_descricao                                                                     |sub_categoria_descricao_abreviada                |sub_categoria_referencia|sub_categoria_excluidos|categoria|categoria_classificacao|categoria_descricao                                                                             |categoria

In [9]:
ciha_step1.columns

['pk',
 'mes_cmpt',
 'espec',
 'cgc_hosp',
 'munic_res',
 'nasc',
 'sexo',
 'uti_mes_to',
 'uti_int_to',
 'proc_rea',
 'qt_proc',
 'dt_atend',
 'dt_saida',
 'diag_princ',
 'diag_secun',
 'cobranca',
 'natureza',
 'gestao',
 'munic_mov',
 'cod_idade',
 'idade',
 'dias_perm',
 'morte',
 'nacional',
 'car_int',
 'homonimo',
 'cnes',
 'fonte',
 'cgc_consor',
 'modalidade',
 'input_file_name',
 'arquivo_sigla_uf',
 'ano_cmpt',
 'feriado',
 'feriados',
 'feriados_prox',
 'feriados_prox_dist',
 'munic_res_nome_uf',
 'munic_mov_nome_uf',
 'munic_res_nome_municipio',
 'munic_mov_nome_municipio',
 'munic_res_sigla_uf',
 'munic_mov_sigla_uf',
 'munic_res_regiao',
 'munic_mov_regiao',
 'munic_res_populacao_residente',
 'munic_mov_populacao_residente',
 'munic_res_area_unidade_territorial',
 'munic_mov_area_unidade_territorial']

In [10]:
ciha_step2 = (ciha_step1.alias("s1")
    .join(cid10.alias("cid10_princ"),
          col("s1.diag_princ") == col("cid10_princ.sub_categoria"),
         "left")
    .join(cid10.alias("cid10_secun"),
          col("s1.diag_secun") == col("cid10_secun.sub_categoria"),
         "left")
    .select(
        col("s1.pk"),
        col("s1.mes_cmpt"),
        col("s1.espec"),
        col("s1.cgc_hosp"),
        col("s1.munic_res"),
        col("s1.nasc"),
        col("s1.sexo"),
        col("s1.uti_mes_to"),
        col("s1.uti_int_to"),
        col("s1.proc_rea"),
        col("s1.qt_proc"),
        col("s1.dt_atend"),
        dayofweek('s1.dt_atend').alias("dt_atend_dow"),
        col("s1.dt_saida"),
        col("s1.diag_princ"),
        col("s1.diag_secun"),
        col("s1.cobranca"),
        col("s1.natureza"),
        col("s1.gestao"),
        col("s1.munic_mov"),
        col("s1.cod_idade"),
        col("s1.idade"),
        col("s1.dias_perm"),
        col("s1.morte"),
        col("s1.nacional"),
        col("s1.car_int"),
        col("s1.homonimo"),
        col("s1.cnes"),
        col("s1.fonte"),
        col("s1.cgc_consor"),
        col("s1.modalidade"),
        col("s1.input_file_name"),
        col("s1.arquivo_sigla_uf"),
        col("s1.ano_cmpt"),
        col("s1.feriado"),
        col("s1.feriados"),
        col("s1.feriados_prox"),
        col("s1.feriados_prox_dist"),
        col("s1.munic_res_nome_uf"),
        col("s1.munic_mov_nome_uf"),
        col("s1.munic_res_nome_municipio"),
        col("s1.munic_mov_nome_municipio"),
        col("s1.munic_res_sigla_uf"),
        col("s1.munic_mov_sigla_uf"),
        col("s1.munic_res_regiao"),
        col("s1.munic_mov_regiao"),
        col("s1.munic_res_populacao_residente"),
        col("s1.munic_mov_populacao_residente"),
        col("s1.munic_res_area_unidade_territorial"),
        col("s1.munic_mov_area_unidade_territorial"),
        struct("cid10_princ.*").alias("diag_princ_cid10"),
        struct("cid10_secun.*").alias("diag_secun_cid10")
    )
)
    
ciha_step2.printSchema()
ciha_step2.show(truncate=False)

root
 |-- pk: string (nullable = true)
 |-- mes_cmpt: string (nullable = true)
 |-- espec: string (nullable = true)
 |-- cgc_hosp: string (nullable = true)
 |-- munic_res: string (nullable = true)
 |-- nasc: date (nullable = true)
 |-- sexo: string (nullable = true)
 |-- uti_mes_to: string (nullable = true)
 |-- uti_int_to: string (nullable = true)
 |-- proc_rea: string (nullable = true)
 |-- qt_proc: string (nullable = true)
 |-- dt_atend: date (nullable = true)
 |-- dt_atend_dow: integer (nullable = true)
 |-- dt_saida: date (nullable = true)
 |-- diag_princ: string (nullable = true)
 |-- diag_secun: string (nullable = true)
 |-- cobranca: string (nullable = true)
 |-- natureza: string (nullable = true)
 |-- gestao: string (nullable = true)
 |-- munic_mov: string (nullable = true)
 |-- cod_idade: string (nullable = true)
 |-- idade: string (nullable = true)
 |-- dias_perm: string (nullable = true)
 |-- morte: string (nullable = true)
 |-- nacional: string (nullable = true)
 |-- car_i

In [11]:
spark.sql("drop table stage.ciha_step2")

In [12]:
DeltaTable.createIfNotExists(spark) \
  .tableName("stage.ciha_step2") \
  .addColumns(ciha_step2.schema) \
  .partitionedBy("ano_cmpt") \
  .execute()

<delta.tables.DeltaTable at 0x771eccb2f6d0>

In [10]:
spark.sql("delete from stage.ciha_step2")

num_affected_rows
117092917


In [13]:
ciha_step2.write.mode("overwrite").insertInto("stage.ciha_step2")

In [14]:
spark.sql("optimize stage.ciha_step2")

path,metrics
s3a://datalake/st...,"{16, 88, {2394364..."


In [13]:
spark.conf.set("spark.databricks.delta.retentionDurationCheck.enabled", "false")

In [14]:
spark.sql("VACUUM stage.ciha_step2 RETAIN 0 HOURS")

path
s3a://datalake/st...


In [15]:
spark.stop()