In [49]:
import os
from datetime import date
import functools
from IPython.core.display import display, HTML
import findspark
findspark.init()
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
import pyspark.sql.types as T

from funcoes import union_all

In [50]:
# aumentando a largura do notebook

In [51]:
display(HTML("<style>.container { width:100% !important; }</style>"))

In [52]:
# iniciando spark

In [53]:
spark = SparkSession.builder.appName('Sindrome Gripal').getOrCreate()

In [54]:
# criando lista de dataframes

In [77]:
dfs = [spark.read.csv(os.path.join(os.path.expanduser('~/Área de Trabalho/analises/sindrome_gripal_bruto/'), x), header=True, sep=';') for x in os.listdir('./sindrome_gripal_bruto/') if x.startswith('dados_utf8')]

In [8]:
# contando arquivos carregados corretamente

In [9]:
print(len(dfs))

53


In [10]:
# concatenando em um unico dataframe - Esse método evita o deslocamento dos valores, caso o número de colunas seja diferente entre os arquivos

In [209]:
df = union_all(dfs)

In [12]:
print(df.columns)

['cbo', 'classificacaoFinal', 'cnes', 'condicoes', 'dataEncerramento', 'dataInicioSintomas', 'dataNascimento', 'dataNotificacao', 'dataTeste', 'estado', 'estadoIBGE', 'estadoNotificacao', 'estadoNotificacaoIBGE', 'estadoTeste', 'evolucaoCaso', 'excluido', 'idade', 'municipio', 'municipioIBGE', 'municipioNotificacao', 'municipioNotificacaoIBGE', 'origem', 'paisOrigem', 'profissionalSaude', 'resultadoTeste', 'sexo', 'sintomas', 'tipoTeste', 'validado', 'ÿid']


In [13]:
# uma pequena amostra dos dados

In [14]:
df.limit(5).toPandas()

Unnamed: 0,cbo,classificacaoFinal,cnes,condicoes,dataEncerramento,dataInicioSintomas,dataNascimento,dataNotificacao,dataTeste,estado,...,municipioNotificacaoIBGE,origem,paisOrigem,profissionalSaude,resultadoTeste,sexo,sintomas,tipoTeste,validado,ÿid
0,,,0,,,2020-04-13T04:00:00.000Z,undefined,2020-04-18T06:11:30.514Z,,AMAZONAS,...,1302603,undefined,undefined,Não,,Feminino,"Dor de Garganta, Tosse, Dispneia",,undefined,3oCCp7rbM8
1,,,0,,,2020-04-18T04:00:00.000Z,undefined,2020-04-18T06:16:47.679Z,,AMAZONAS,...,1302603,undefined,undefined,Não,,Masculino,"Febre, Dispneia, Tosse",,undefined,T8J34m4L3J
2,225 - Médico,,0,,,2020-04-09T04:00:00.000Z,undefined,2020-04-18T13:07:58.014Z,2020-04-15T04:00:00.000Z,AMAZONAS,...,1302603,undefined,undefined,Sim,Positivo,Feminino,"Outros, Tosse, Dor de Garganta",RT-PCR,undefined,6tGpdl676k
3,,,0,,,2020-04-10T04:00:00.000Z,undefined,2020-04-17T04:00:00.000Z,,AMAZONAS,...,1302603,undefined,undefined,Não,,Masculino,"Dispneia, Febre, Tosse",,undefined,MTSyf9bwba
4,,,0,Doenças cardíacas crônicas,,2020-04-11T05:00:00.000Z,undefined,2020-04-18T15:13:52.281Z,,AMAZONAS,...,1304062,undefined,undefined,Não,,Masculino,"Febre, Tosse",,undefined,wEFtLYscQo


In [15]:
print(f'total de linhas: {df.count()}')

total de linhas: 49010408


In [16]:
print(f'numero de colunas: {len(df.columns)}')

numero de colunas: 30


In [57]:
df.printSchema()

root
 |-- cbo: string (nullable = true)
 |-- classificacaoFinal: string (nullable = true)
 |-- cnes: string (nullable = true)
 |-- condicoes: string (nullable = true)
 |-- dataEncerramento: string (nullable = true)
 |-- dataInicioSintomas: string (nullable = true)
 |-- dataNascimento: string (nullable = true)
 |-- dataNotificacao: string (nullable = true)
 |-- dataTeste: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- estadoIBGE: string (nullable = true)
 |-- estadoNotificacao: string (nullable = true)
 |-- estadoNotificacaoIBGE: string (nullable = true)
 |-- estadoTeste: string (nullable = true)
 |-- evolucaoCaso: string (nullable = true)
 |-- excluido: string (nullable = true)
 |-- idade: string (nullable = true)
 |-- municipio: string (nullable = true)
 |-- municipioIBGE: string (nullable = true)
 |-- municipioNotificacao: string (nullable = true)
 |-- municipioNotificacaoIBGE: string (nullable = true)
 |-- origem: string (nullable = true)
 |-- paisOrigem: string

In [18]:
# contagem dos nulls / nan

In [19]:
df.select([F.count(F.when(F.isnan(c) | F.col(c).isNull(), c)).alias(c) for c in df.columns]).limit(1).toPandas().T

Unnamed: 0,0
cbo,1265059
classificacaoFinal,25779622
cnes,0
condicoes,1158398
dataEncerramento,29008305
dataInicioSintomas,0
dataNascimento,0
dataNotificacao,0
dataTeste,0
estado,1309


In [20]:
# armonizando colunas

In [210]:
rename_columns = {
    'dataNascimento': 'dt_nasc', 'dataNotificacao': 'dt_ntf', 'dataInicioSintomas': 'dt_sint',
    'dataTeste': 'dt_teste', 'tipoTeste': 'tp_teste', 'resultadoTeste': 'res_teste',
    'classificacaoFinal': 'class_final', 'evolucaoCaso': 'ev_caso', 'estadoNotificacao': 'est_ntf',
}

In [211]:
for old_col, new_col in rename_columns.items():
    df = df.withColumnRenamed(old_col, new_col)

In [60]:
df.groupby(['res_teste', 'class_final']).count().show(1000, truncate=False)

+-----------------------------+----------------------------------+--------+
|res_teste                    |class_final                       |count   |
+-----------------------------+----------------------------------+--------+
|null                         |Confirmação Laboratorial          |1       |
|Negativo                     |Confirmação Laboratorial          |2       |
|null                         |Confirmado por Critério Clínico   |1       |
|Negativo                     |Confirmado Clínico-Imagem         |3496    |
|Inconclusivo ou Indeterminado|Confirmado Clínico-Epidemiológico |1669    |
|null                         |Confirmado Clínico-Epidemiológico |127314  |
|Negativo                     |Confirmado Clinico-Imagem         |1       |
|Negativo                     |Confirmado Clínico-Epidemiológico |50889   |
|null                         |Descartado                        |998474  |
|null                         |Confirmado por Critério Clínico   |63696   |
|null       

In [61]:
# Verificando categorias e polarizando

In [62]:
df.groupby('sexo').count().show()

+----------+--------+
|      sexo|   count|
+----------+--------+
|         M|       2|
|  Negativo|       1|
|  Feminino|25225976|
|Indefinido|  118545|
| undefined|       2|
|      null|    2892|
| Masculino|23662990|
+----------+--------+



In [212]:
df = df.withColumn('sexo', F.when((df['sexo'] == 'Feminino'), F.lit(1)) \
                   .when((df['sexo'] == 'Masculino') | (df['sexo'] == 'M'), F.lit(2)) \
                   .when((df['sexo'] == 'Indefinido') | (df['sexo'] == 'undefined'), F.lit(9)))

In [64]:
df.groupby('sexo').count().show()

+----+--------+
|sexo|   count|
+----+--------+
|null|    2893|
|   1|25225976|
|   9|  118547|
|   2|23662992|
+----+--------+



In [65]:
df.groupby('class_final').count().show(truncate=False)

+----------------------------------+--------+
|class_final                       |count   |
+----------------------------------+--------+
|Confirmado por Critério Clínico   |199014  |
|Confirmado                        |1       |
|null                              |25779622|
|Confirmado Clinico-Epidemiologico |11      |
|Confirmado Clínico-Epidemiológico |321919  |
|Confirmado Laboratorial           |9802190 |
|Confirmado Clinico-Imagem         |1       |
|Síndrome Gripal Não Especificada  |2416508 |
|Confirmação Clínico Epidemiológico|259     |
|Sindrome Gripal Nao Especificada  |14      |
|Confirmado Clínico-Imagem         |13242   |
|Descartado                        |10462632|
|Confirmação Laboratorial          |14995   |
+----------------------------------+--------+



In [213]:
df = df.withColumn('class_final', F.when((df['class_final'] == 'Confirmado por Critério Clínico'), F.lit(3)) \
                    .when((df['class_final'] == 'Confirmado'), F.lit(1)) \
                    .when((df['class_final'] == 'Confirmado Clinico-Epidemiologico'), F.lit(2)) \
                    .when((df['class_final'] == 'Confirmação Clínico-Epidemiológico'), F.lit(2)) \
                    .when((df['class_final'] == 'Confirmado Laboratorial'), F.lit(4)) \
                    .when((df['class_final'] == 'Confirmado Clinico-Imagem'), F.lit(5)) \
                    .when((df['class_final'] == 'Síndrome Gripal Não Especificada'), F.lit(6)) \
                    .when((df['class_final'] == 'Confirmação Clínico Epidemiológico'), F.lit(2)) \
                    .when((df['class_final'] == 'Sindrome Gripal Nao Especificada'), F.lit(6)) \
                    .when((df['class_final'] == 'Confirmado Clínico-Imagem'), F.lit(5)) \
                    .when((df['class_final'] == 'Descartado'), F.lit(7)) \
                    .when((df['class_final'] == 'Confirmação Laboratorial'), F.lit(4)))

In [70]:
df.groupby('class_final').count().show(truncate=False)

+-----------+--------+
|class_final|count   |
+-----------+--------+
|null       |26101541|
|1          |1       |
|6          |2416522 |
|3          |199014  |
|5          |13243   |
|4          |9817185 |
|7          |10462632|
|2          |270     |
+-----------+--------+



In [214]:
df = df.withColumn('res_teste', F.when((df['res_teste'] == 'Positivo'), F.lit(1)) \
                   .when((df['res_teste'] == 'undefined') | (df['res_teste'] == 'Inconclusivo ou Indefinido'), F.lit(9)) \
                   .when((df['res_teste'] == 'Negativo'), F.lit(2)))

In [72]:
df.filter(df['class_final'].isNull()).groupby(['res_teste', 'class_final']).count().show()

+---------+-----------+--------+
|res_teste|class_final|   count|
+---------+-----------+--------+
|     null|       null|26101541|
+---------+-----------+--------+



In [73]:
df.groupby('tp_teste').count().show(truncate=False)

+-----------------------------------------------------+--------+
|tp_teste                                             |count   |
+-----------------------------------------------------+--------+
|RT-PCR                                               |18672084|
|Imunoensaio por Eletroquimioluminescência - ECLIA IgG|57028   |
|Imunoensaio por Eletroquimioluminescência  ECLIA    |16703   |
|null                                                 |540     |
|Quimioluminescência - CLIA                           |27195   |
|Teste rápido                                         |80      |
|Enzimaimunoensaio - ELISA IgM                        |43242   |
|Enzimaimunoensaio  ELISA                            |11815   |
|TESTE RÁPIDO - ANTICORPO                             |16540228|
|Concluído                                            |1       |
|TESTE RÁPIDO - ANTÍGENO                              |6270778 |
|undefined                                            |2       |
|null                    

In [215]:
df.withColumn('tp_teste', F.when((df['tp_teste'] == 'RT-PCR'), F.lit(1)) \
                .when((df['tp_teste'] == 'Imunoensaio por Eletroquimioluminescência - ECLIA IgG') | (df['tp_teste'] == 'Imunoensaio por Eletroquimioluminescência  ECLIA'), F.lit(2)) \
                .when((df['tp_teste'] == 'Quimioluminescência - CLIA'), F.lit(3)) \
                .when((df['tp_teste'] == 'Teste rápido'), F.lit(4)) \
                .when((df['tp_teste'] == 'Enzimaimunoensaio - ELISA IgM'), F.lit(5)) \
                .when((df['tp_teste'] == 'Enzimaimunoensaio   ELISA'), F.lit(5)) \
                .when((df['tp_teste'] == 'TESTE RÁPIDO - ANTICORPO'), F.lit(6)) \
                .when((df['tp_teste'] == 'Concluído'), F.lit(7)) \
                .when((df['tp_teste'] == 'TESTE RÁPIDO - ANTÍGENO'), F.lit(4)) \
                .when((df['tp_teste'] == 'undefined'), F.lit(9))).groupby('tp_teste').count().show()

+--------+--------+
|tp_teste|   count|
+--------+--------+
|    null| 7399770|
|       1|18672084|
|       6|16540228|
|       3|   27195|
|       5|   43242|
|       9|       2|
|       4| 6270858|
|       7|       1|
|       2|   57028|
+--------+--------+



In [216]:
df = df.withColumn('tp_teste', F.when((df['tp_teste'] == 'RT-PCR'), F.lit(1)) \
                    .when((df['tp_teste'] == 'Imunoensaio por Eletroquimioluminescência - ECLIA IgG') | (df['tp_teste'] == 'Imunoensaio por Eletroquimioluminescência  ECLIA'), F.lit(2)) \
                    .when((df['tp_teste'] == 'Quimioluminescência - CLIA'), F.lit(3)) \
                    .when((df['tp_teste'] == 'Teste rápido'), F.lit(4)) \
                    .when((df['tp_teste'] == 'Enzimaimunoensaio - ELISA IgM'), F.lit(5)) \
                    .when((df['tp_teste'] == 'Enzimaimunoensaio   ELISA'), F.lit(5)) \
                    .when((df['tp_teste'] == 'TESTE RÁPIDO - ANTICORPO'), F.lit(6)) \
                    .when((df['tp_teste'] == 'Concluído'), F.lit(7)) \
                    .when((df['tp_teste'] == 'TESTE RÁPIDO - ANTÍGENO'), F.lit(4)) \
                    .when((df['tp_teste'] == 'undefined'), F.lit(9)))

In [87]:
df.groupby('ev_caso').count().show(truncate=False)

+------------------------+--------+
|ev_caso                 |count   |
+------------------------+--------+
|Cancelado               |2553404 |
|Ignorado                |2630898 |
|null                    |27370478|
|Internado               |24168   |
|44                      |1       |
|Óbito                   |97740   |
|Internado em UTI        |4914    |
|Em tratamento domiciliar|1288935 |
|Cura                    |15039870|
+------------------------+--------+



In [217]:
df = df.withColumn('ev_caso', F.when((df['ev_caso'] == 'Óbito'), F.lit(1)) \
                  .when((df['ev_caso'] == 'Cura'), F.lit(2)) \
                  .when((df['ev_caso'] == 'Internado em UTI'), F.lit(3)) \
                  .when((df['ev_caso'] == 'Internado'), F.lit(3)) \
                  .when((df['ev_caso'] == 'Ignorado'), F.lit(9)) \
                  .when((df['ev_caso'] == 'Cancelado'), F.lit(4)) \
                  .when((df['ev_caso'] == 'Em tratamento domiciliar'), F.lit(5)))

In [89]:
df.groupby('ev_caso').count().show()

+-------+--------+
|ev_caso|   count|
+-------+--------+
|   null|27370479|
|      1|   97740|
|      3|   29082|
|      5| 1288935|
|      9| 2630898|
|      4| 2553404|
|      2|15039870|
+-------+--------+



In [90]:
# cont normal até aqui

In [91]:
df.count()

49010408

In [218]:
list_var_date = ['dt_sint', 'dt_nasc', 'dt_ntf', 'dt_teste']

In [219]:
for col in list_var_date:
    df = df.withColumn(col, F.col(col).cast(T.DateType()))

In [94]:
# filtrando data de nascimento para valores maiores que 1930

In [220]:
df = df.filter((F.year(df['dt_nasc']) >= 1930) & (F.year(df['dt_nasc']) < date.today().year))

In [187]:
df.count()

1396585

In [97]:
print(df.columns)

['cbo', 'class_final', 'cnes', 'condicoes', 'dataEncerramento', 'dt_sint', 'dt_nasc', 'dt_ntf', 'dt_teste', 'estado', 'estadoIBGE', 'est_ntf', 'estadoNotificacaoIBGE', 'estadoTeste', 'ev_caso', 'excluido', 'idade', 'municipio', 'municipioIBGE', 'municipioNotificacao', 'municipioNotificacaoIBGE', 'origem', 'paisOrigem', 'profissionalSaude', 'res_teste', 'sexo', 'sintomas', 'tp_teste', 'validado', 'ÿid']


In [221]:
df2 = df.select('dt_ntf', 'dt_nasc', 'dt_teste', 'sexo', 'class_final', 'res_teste', 'tp_teste', 'ev_caso', 'idade')

In [189]:
df2.show()

+----------+----------+----------+----+-----------+---------+--------+-------+-----+
|    dt_ntf|   dt_nasc|  dt_teste|sexo|class_final|res_teste|tp_teste|ev_caso|idade|
+----------+----------+----------+----+-----------+---------+--------+-------+-----+
|2020-06-28|1978-01-09|2020-06-04|   2|       null|        2|       6|   null|   42|
|2020-06-28|1974-05-25|2020-06-04|   1|       null|        2|       6|   null|   46|
|2020-06-28|1986-11-13|2020-06-04|   1|       null|        2|       6|   null|   33|
|2020-06-28|1979-09-17|2020-06-04|   1|       null|        2|       6|   null|   40|
|2020-06-28|1980-03-09|2020-06-04|   1|       null|        2|       6|   null|   40|
|2020-06-28|1985-01-25|2020-06-04|   1|       null|        2|       6|   null|   35|
|2020-06-28|1986-07-10|2020-06-04|   2|       null|        2|       6|   null|   34|
|2020-06-28|1996-11-04|2020-06-04|   2|       null|        2|       6|   null|   23|
|2020-06-28|1986-01-21|2020-06-04|   2|       null|        2|    

In [222]:
df2 = df2.withColumn('idade',
                   F.when((F.col('idade') >= 100) | (F.col('idade').isNull()),
                          F.floor(F.datediff(
                              F.current_date(),
                              F.to_date(F.col('dt_nasc'))))) \
                   .otherwise(F.col('idade')))

In [223]:
df2.show()

+----------+----------+----------+----+-----------+---------+--------+-------+-----+
|    dt_ntf|   dt_nasc|  dt_teste|sexo|class_final|res_teste|tp_teste|ev_caso|idade|
+----------+----------+----------+----+-----------+---------+--------+-------+-----+
|2020-06-28|1978-01-09|2020-06-04|   2|       null|        2|       6|   null|   42|
|2020-06-28|1974-05-25|2020-06-04|   1|       null|        2|       6|   null|   46|
|2020-06-28|1986-11-13|2020-06-04|   1|       null|        2|       6|   null|   33|
|2020-06-28|1979-09-17|2020-06-04|   1|       null|        2|       6|   null|   40|
|2020-06-28|1980-03-09|2020-06-04|   1|       null|        2|       6|   null|   40|
|2020-06-28|1985-01-25|2020-06-04|   1|       null|        2|       6|   null|   35|
|2020-06-28|1986-07-10|2020-06-04|   2|       null|        2|       6|   null|   34|
|2020-06-28|1996-11-04|2020-06-04|   2|       null|        2|       6|   null|   23|
|2020-06-28|1986-01-21|2020-06-04|   2|       null|        2|    

In [226]:
var_fx = {
    '0': 4, '1': 4, '2': 4, '3': 4, '4': 4, '5': 509, '6': 509, '7': 509, '8': 509, '9': 509, '10': 1014,
    '11': 1014, '12': 1014, '13': 1014, '14': 1014, '15': 1519, '16': 1519, '17': 1519, '18': 1519, '19': 1519,
    '20': 2024, '21': 2024, '22': 2024, '23': 2024, '24': 2024, '25': 2529, '26': 2529, '27': 2529, '28': 2529,
    '29': 2529, '30': 3034, '31': 3034, '32': 3034, '33': 3034, '34': 3034, '35': 3539, '36': 3539, '37': 3539,
    '38': 3539, '39': 3539, '40': 4044, '41': 4044, '42': 4044, '43': 4044, '44': 4044, '45': 4549, '46': 4549,
    '47': 4549, '48': 4549, '49': 4549, '50': 5054, '51': 5054, '52': 5054, '53': 5054, '54': 5054, '55': 5559,
    '56': 5559, '57': 5559, '58': 5559, '59': 5559, '60': 6064, '61': 6064, '62': 6064, '63': 6064, '64': 6064,
    '65': 6569, '66': 6569, '67': 6569, '68': 6569, '69': 6569, '70': 7074, '71': 7074, '72': 7074, '73': 7074,
    '74': 7074, '75': 8099, '76': 8099, '77': 8099, '78': 8099, '79': 8099, '80': 8099, '81': 8099, '82': 8099,
    '83': 8099, '84': 8099, '85': 8099, '86': 8099, '87': 8099, '88': 8099, '89': 8099, '90': 8099, '91': 8099,
    '92': 8099, '93': 8099, '94': 8099, '95': 8099, '96': 8099, '97': 8099, '98': 8099, '99': 8099, '100': 8099,
}

In [227]:
df2 = df2.withColumn('fx_etaria', F.udf(lambda x: var_fx[x], T.IntegerType())(df2['idade']))

In [228]:
df2.show(3, 0)

+----------+----------+----------+----+-----------+---------+--------+-------+-----+---------+
|dt_ntf    |dt_nasc   |dt_teste  |sexo|class_final|res_teste|tp_teste|ev_caso|idade|fx_etaria|
+----------+----------+----------+----+-----------+---------+--------+-------+-----+---------+
|2020-06-28|1978-01-09|2020-06-04|2   |null       |2        |6       |null   |42   |4044     |
|2020-06-28|1974-05-25|2020-06-04|1   |null       |2        |6       |null   |46   |4549     |
|2020-06-28|1986-11-13|2020-06-04|1   |null       |2        |6       |null   |33   |3034     |
+----------+----------+----------+----+-----------+---------+--------+-------+-----+---------+
only showing top 3 rows



In [263]:
df2 = df2.withColumn('evolucaoCaso', F.when(df2['ev_caso'] == 1, F.lit(1)))#df3 = df3.select('dt_ntf', 'dt_teste', 'sexo', 'class_final', 'res_teste', 'tp_teste', 'ev_caso', 'fx_etaria'

In [264]:
df3 = df2.groupby(['dt_ntf', 'dt_teste', 'sexo', 'class_final', 'res_teste', 'tp_teste', 'ev_caso', 'fx_etaria', 'evolucaoCaso']).count()

In [265]:
df3 = df3.withColumnRenamed('count', 'casos')

In [266]:
df3.show(5, 0)

+----------+----------+----+-----------+---------+--------+-------+---------+------------+-----+
|dt_ntf    |dt_teste  |sexo|class_final|res_teste|tp_teste|ev_caso|fx_etaria|evolucaoCaso|casos|
+----------+----------+----+-----------+---------+--------+-------+---------+------------+-----+
|2020-06-28|2020-05-31|1   |null       |2        |6       |null   |7074     |null        |1    |
|2020-06-28|2020-06-09|2   |null       |2        |6       |null   |1519     |null        |1    |
|2020-06-28|2020-06-06|2   |null       |2        |6       |null   |2529     |null        |5    |
|2020-06-27|2020-06-15|1   |null       |1        |6       |null   |3034     |null        |4    |
|2020-06-27|2020-06-13|2   |null       |2        |6       |null   |2529     |null        |1    |
+----------+----------+----+-----------+---------+--------+-------+---------+------------+-----+
only showing top 5 rows



In [272]:
df3.coalesce(1).write.parquet('sg')