# O PROBLEMA

Imagine agora que você foi contratado(a) como Expert em Data Analytics por um grande hospital para entender como foi o comportamento da população na época da pandemia da COVID-19 e quais indicadores seriam importantes para o planejamento, caso haja um novo surto da doença.

Apesar de ser contratado(a) agora, a sua área observou que a utilização do estudo do PNAD-COVID 19 do IBGE seria uma ótima base para termos boas respostas ao problema proposto, pois são dados confiáveis. Porém, não será necessário utilizar todas as perguntas realizadas na pesquisa para enxergar todas as oportunidades ali postas.

É sempre bom ressaltar que há dados triviais que precisam estar no projeto, pois auxiliam muito na análise dos dados:

## PNAD-COVID-19 do IBGE

O Head de Dados pediu para que você entrasse na base de dados do PNAD-COVID-19 do IBGE e organizasse esta base para análise, utilizando Banco de Dados em Nuvem e trazendo as seguintes características:

- a. Utilização de no máximo 20 questionamentos realizados na pesquisa;
- b. Utilizar 3 meses para construção da solução;
- c. Caracterização dos sintomas clínicos da população;
- d. Comportamento da população na época da COVID-19;
- e. Características econômicas da Sociedade;

Seu objetivo será trazer uma breve análise dessas informações, como foi a organização do banco, as perguntas selecionadas para a resposta do problema e quais seriam as principais ações que o hospital deverá tomar em caso de um novo surto de COVID-19.

- Dica: Leiam com atenção a base de dados e toda a documentação que o site o PNAD – Covid19 traz, principalmente os dicionários, que ajudam e muito no entendimento da Base de Dados.
- Dica 2: Utilizem o que já foi ensinado e consolidado nas outras fases para apresentar a resolução do projeto.

Lembre-se de que você poderá apresentar o desenvolvimento do seu projeto durante as lives com docentes. Essa é uma boa oportunidade para discutir sobre as dificuldades encontradas e pegar dicas valiosas com especialistas e colegas de turma.

Link para a base: https://www.ibge.gov.br/estatisticas/investigacoes-experimentais/estatisticas-experimentais/27946-divulgacao-semanal-pnadcovid1?t=downloads&utm_source=covid19&utm_medium=hotsite&utm_campaign=covid_19

Outras fontes:

https://www.gov.br/saude/pt-br/assuntos/noticias/2021/janeiro/entenda-a-ordem-de-vacinacao-contra-a-covid-19-entre-os-grupos-prioritarios

https://www.gov.br/saude/pt-br/assuntos/coronavirus/vacinas/esquemas-vacinais

### Instalando dependências e bibliotecas

In [None]:
!apt-get pip
!apt-get install openjdk-8-jdk-headless -qq > /dev/null #instalando java 8
!wget -q https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz #baixando Spark
!tar xf spark-3.1.2-bin-hadoop2.7.tgz #descompactando Spark
!pip install -q findspark

E: Invalid operation pip


In [None]:
#criando arquivo requirements.txt
%%writefile requirements.txt

asttokens==2.4.0
attrs==23.1.0
backcall==0.2.0
certifi==2023.7.22
click==8.1.7
click-plugins==1.1.1
cligj==0.7.2
comm==0.1.4
debugpy==1.8.0
decorator==5.1.1
executing==2.0.0
fastjsonschema==2.18.1
findspark==2.0.1
fiona==1.9.5
geopandas==0.13.2
greenlet==3.0.0
importlib-metadata==6.8.0
importlib-resources==6.1.0
ipykernel==6.25.2
ipython==8.12.3
jedi==0.19.1
jsonschema==4.19.1
jsonschema-specifications==2023.7.1
jupyter-client==8.4.0
jupyter-core==5.4.0
matplotlib-inline==0.1.6
mysql-connector-python==8.1.0
nbformat==5.9.2
nest-asyncio==1.5.8
numpy==1.24.4
packaging==23.2
pandas==2.0.3
pandasql==0.7.3
parso==0.8.3
pexpect==4.8.0
pickleshare==0.7.5
pkgutil-resolve-name==1.3.10
platformdirs==3.11.0
plotly==5.17.0
polars==0.19.11
prompt-toolkit==3.0.39
protobuf==4.21.12
psutil==5.9.5
ptyprocess==0.7.0
pure-eval==0.2.2
py4j==0.10.9.7
Pygments==2.16.1
PyMySQL==1.1.0
pyproj==3.5.0
pyspark==3.5.0
python-dateutil==2.8.2
pytz==2023.3.post1
pyzmq==25.1.1
referencing==0.30.2
rpds-py==0.10.6
shapely==2.0.2
six==1.16.0
SQLAlchemy==2.0.22
stack-data==0.6.3
tenacity==8.2.3
tornado==6.3.3
traitlets==5.11.2
typing-extensions==4.8.0
tzdata==2023.3
wcwidth==0.2.8
zipp==3.17.0

Writing requirements.txt


In [None]:
!pip install -r requirements.txt

Collecting asttokens==2.4.0 (from -r requirements.txt (line 2))
  Downloading asttokens-2.4.0-py2.py3-none-any.whl (27 kB)
Collecting comm==0.1.4 (from -r requirements.txt (line 9))
  Downloading comm-0.1.4-py3-none-any.whl (6.6 kB)
Collecting debugpy==1.8.0 (from -r requirements.txt (line 10))
  Downloading debugpy-1.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.3/3.3 MB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting decorator==5.1.1 (from -r requirements.txt (line 11))
  Downloading decorator-5.1.1-py3-none-any.whl (9.1 kB)
Collecting executing==2.0.0 (from -r requirements.txt (line 12))
  Downloading executing-2.0.0-py2.py3-none-any.whl (24 kB)
Collecting ipykernel==6.25.2 (from -r requirements.txt (line 20))
  Downloading ipykernel-6.25.2-py3-none-any.whl (154 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.2/154.2 kB[0m [31m15.6 MB/s[0m eta [36m0:00

### Importando bibliotecas

In [None]:
import warnings
warnings.filterwarnings(action = 'ignore')

In [None]:
import os


os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-8-openjdk-amd64'
os.environ['SPARK_HOME'] = '/content/spark-3.1.2-bin-hadoop2.7'

In [None]:
import findspark

findspark.init()

In [None]:
#bibliotecas para conexão com o banco de dados
from sqlalchemy import create_engine
from sqlalchemy.sql import text

#bibliotecas dataviz
import pandas as pd
import polars as pl
import plotly.express as px
import plotly.graph_objects as go

In [None]:
findspark.init()

### Criando sessão Spark

In [None]:
from pyspark.sql import SparkSession


spark = SparkSession.builder.master('local[*]').appName('Iniciando com Spark').getOrCreate()

In [None]:
spark

### Importando dados

In [None]:
'''from google.colab import drive


drive.mount('/content/drive')'''

"from google.colab import drive\n\n\ndrive.mount('/content/drive')"

In [None]:
'''import zipfile


zipfile.ZipFile('/content/drive/MyDrive/cursos/postech/postech_techchallenge_fase_3/dados/2023-10-27_pnad_covid_view.zip', 'r').extractall('/content/drive/MyDrive/cursos/postech/postech_techchallenge_fase_3/dados')'''

"import zipfile\n\n\nzipfile.ZipFile('/content/drive/MyDrive/cursos/postech/postech_techchallenge_fase_3/dados/2023-10-27_pnad_covid_view.zip', 'r').extractall('/content/drive/MyDrive/cursos/postech/postech_techchallenge_fase_3/dados')"

In [None]:
path = '2023-10-27_pnad_covid_view.csv'
df = spark.read.csv(path, sep=',', inferSchema=True, header=True)

In [None]:
df.show(5)

+----------+--------------+------------------+-----+------+--------+--------------------+-----------------------------+-----------------------+-----------------------------+---------------------------------+--------------------+------------------------+------------------+---------------------------------+--------------------------+---------------------------+-------------------------------+----------------+-------------------------------+------------------------+---------------------+-----------------------+-----------------+--------------------+--------------------+-------------+-----------------------+-----------+---------------------------+-------------+-----------------+---------------+
|      data|            uf|situacao_domicilio|idade|  sexo|cor_raca|        escolaridade|questao_estabelecimento_saude|questao_permaneceu_casa|questao_remedio_conta_propria|questao_remedio_orientacao_medica|questao_hospital_SUS|questao_hospital_privado|questao_internacao|questao_internacao_ajuda_res

In [None]:
df.printSchema()

root
 |-- data: string (nullable = true)
 |-- uf: string (nullable = true)
 |-- situacao_domicilio: string (nullable = true)
 |-- idade: integer (nullable = true)
 |-- sexo: string (nullable = true)
 |-- cor_raca: string (nullable = true)
 |-- escolaridade: string (nullable = true)
 |-- questao_estabelecimento_saude: string (nullable = true)
 |-- questao_permaneceu_casa: string (nullable = true)
 |-- questao_remedio_conta_propria: string (nullable = true)
 |-- questao_remedio_orientacao_medica: string (nullable = true)
 |-- questao_hospital_SUS: string (nullable = true)
 |-- questao_hospital_privado: string (nullable = true)
 |-- questao_internacao: string (nullable = true)
 |-- questao_internacao_ajuda_respirar: string (nullable = true)
 |-- questao_motivo_afastamento: string (nullable = true)
 |-- questao_tempo_afastado_trab: string (nullable = true)
 |-- questao_tipo_trabalho_realizado: string (nullable = true)
 |-- faixa_rendimento: string (nullable = true)
 |-- rendimento_aposenta

### Dicionários

In [None]:
estados = {
    'Acre': 'AC',
    'Alagoas': 'AL',
    'Amapá': 'AP',
    'Amazonas': 'AM',
    'Bahia': 'BA',
    'Ceará': 'CE',
    'Distrito Federal': 'DF',
    'Espírito Santo': 'ES',
    'Goiás': 'GO',
    'Maranhão': 'MA',
    'Mato Grosso': 'MT',
    'Mato Grosso do Sul': 'MS',
    'Minas Gerais': 'MG',
    'Pará': 'PA',
    'Paraíba': 'PB',
    'Paraná': 'PR',
    'Pernambuco': 'PE',
    'Piauí': 'PI',
    'Rio de Janeiro': 'RJ',
    'Rio Grande do Norte': 'RN',
    'Rio Grande do Sul': 'RS',
    'Rondônia': 'RO',
    'Roraima': 'RR',
    'Santa Catarina': 'SC',
    'São Paulo': 'SP',
    'Sergipe': 'SE',
    'Tocantins': 'TO'
}

regioes = {
    'AC': 'Norte',
    'AL': 'Nordeste',
    'AP': 'Norte',
    'AM': 'Norte',
    'BA': 'Nordeste',
    'CE': 'Nordeste',
    'DF': 'Centro-Oeste',
    'ES': 'Sudeste',
    'GO': 'Centro-Oeste',
    'MA': 'Nordeste',
    'MT': 'Centro-Oeste',
    'MS': 'Centro-Oeste',
    'MG': 'Sudeste',
    'PA': 'Norte',
    'PB': 'Nordeste',
    'PR': 'Sul',
    'PE': 'Nordeste',
    'PI': 'Nordeste',
    'RJ': 'Sudeste',
    'RN': 'Nordeste',
    'RS': 'Sul',
    'RO': 'Norte',
    'RR': 'Norte',
    'SC': 'Sul',
    'SP': 'Sudeste',
    'SE': 'Nordeste',
    'TO': 'Norte'
}

### Adicionando colunas

In [None]:
df = df.withColumn('sigla', df.uf).replace(to_replace=estados, subset=['sigla']) #adicionando sigla dos estados
df = df.withColumn('regiao', df.sigla).replace(to_replace=regioes, subset=['regiao']) #adicionando regioes dos estados
df.show(5, truncate=False)

+----------+--------------+------------------+-----+------+--------+------------------------------------+-----------------------------+-----------------------+-----------------------------+---------------------------------+--------------------+------------------------+------------------+---------------------------------+--------------------------+---------------------------+-------------------------------+----------------+-------------------------------+------------------------+---------------------+-----------------------+-----------------+-----------------------+--------------------+-------------+-----------------------+-----------+---------------------------+-------------+-----------------+---------------+-----+--------+
|data      |uf            |situacao_domicilio|idade|sexo  |cor_raca|escolaridade                        |questao_estabelecimento_saude|questao_permaneceu_casa|questao_remedio_conta_propria|questao_remedio_orientacao_medica|questao_hospital_SUS|questao_hospital_priva

In [None]:
df_covid = df.createOrReplaceTempView('df_covid') #criando tabela temporária na sessão Spark SQL

### Análise exploratória

##Pessoas Infectadas por Sintomas

In [None]:
df_testes_positivos = spark.sql(
    '''
        SELECT
          case
            when sintoma_covid = 'Sim' then 'Sintomáticos'
            else 'Assintomáticos' end as sintoma_covid,
            count(resultado_teste) as qtd_infectados
        FROM df_covid
        WHERE resultado_teste = 'Positivo'
        GROUP BY 1
    '''
).toPandas()
df_testes_positivos

Unnamed: 0,sintoma_covid,qtd_infectados
0,Assintomáticos,1977
1,Sintomáticos,350


In [None]:
fig = px.pie(
    data_frame=df_testes_positivos,
    values = 'qtd_infectados',
    names = 'sintoma_covid',
    color_discrete_sequence=px.colors.sequential.Reds_r,
    labels={'qtd_infectados':'Casos positivos de covid',
            'sintoma_covid':'Resultado'
    }
)

fig.update_layout(
    title='<b>Infectados Sintomaticos e Assintomáticos</b>',
    legend_title='Legenda',
    width=800,
    height=600
)

fig.show()

##Pessoas Infectadas por tipo de risco

In [None]:
tipo_risco = spark.sql(

'''
    select
        (sum(case when descricao_fator_risco_covid like '%Diabetes%' then 1 else 0 end) /sum(case when fator_risco_covid = 'Sim' then 1 ELSE 0 END)) * 100 as Diabetes,
        (sum(case when descricao_fator_risco_covid like '%Hipertensao%' then 1 else 0 end) / sum(case when fator_risco_covid = 'Sim' then 1 ELSE 0 END)) * 100  as Hipertensao,
        (sum(case when descricao_fator_risco_covid like '%Doenca respiratoria%' then 1 else 0 end) / sum(case when fator_risco_covid = 'Sim' then 1 ELSE 0 END)) * 100 as Doenca_respiratoria,
        (sum(case when descricao_fator_risco_covid like '%Idoso%' then 1 else 0 end) / sum(case when fator_risco_covid = 'Sim' then 1 ELSE 0 END)) * 100  as Idoso,
        (sum(case when descricao_fator_risco_covid like '%Cancer%' then 1 else 0 end) / sum(case when fator_risco_covid = 'Sim' then 1 ELSE 0 END)) * 100  as Cancer,
        (sum(case when descricao_fator_risco_covid like '%Doenca cardiaca%' then 1 else 0 end) / sum(case when fator_risco_covid = 'Sim' then 1 ELSE 0 END)) * 100  as Doenca_cardiaca
    from df_covid
    WHERE resultado_teste = 'Positivo'
'''

).toPandas()
tipo_risco

Unnamed: 0,Diabetes,Hipertensao,Doenca_respiratoria,Idoso,Cancer,Doenca_cardiaca
0,23.036649,58.638743,19.633508,43.979058,3.272251,11.780105


In [None]:
df_tipo_risco = tipo_risco.T.reset_index().rename(columns={0:'perc_risco','index':'risco'})
df_tipo_risco.sort_values('perc_risco',ascending=False, inplace=True)
df_tipo_risco

Unnamed: 0,risco,perc_risco
1,Hipertensao,58.638743
3,Idoso,43.979058
0,Diabetes,23.036649
2,Doenca_respiratoria,19.633508
5,Doenca_cardiaca,11.780105
4,Cancer,3.272251


In [None]:
fig = px.bar(
    data_frame = df_tipo_risco,
    x = df_tipo_risco.risco,
    y = df_tipo_risco.perc_risco,
    color= df_tipo_risco.risco,
    color_discrete_sequence=['#8B0000']
    )

fig.update_layout(
    title='<b>Percentual de Tipo de risco em casos Positivos</b>',
    xaxis_title='Tipo de Riscos',
    yaxis_title='Percentual',
    showlegend=False,
    width=1200,
    height=800
)

fig.show()

##Pessoas Infectadas por tipo de Sintomas

In [None]:
tipo_sintoma = spark.sql(
    '''
    select
          (sum(case when descricao_sintoma_covid like '%Febre%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END)) * 100 as Febre,
          sum(case when descricao_sintoma_covid like '%Tosse%'then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS tosse,
          sum(case when descricao_sintoma_covid like '%Dor de garganta%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS dor_garganta,
          sum(case when descricao_sintoma_covid like '%Dificuldade para respirar%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS dificuldade_respirar,
          sum(case when descricao_sintoma_covid like '%Dor de cabeça%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS dor_cabeca,
          sum(case when descricao_sintoma_covid like '%Dor no peito%'then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS dor_peito,
          sum(case when descricao_sintoma_covid like '%Nausea%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS nausea,
          sum(case when descricao_sintoma_covid like '%Fadiga%'then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS fadiga,
          sum(case when descricao_sintoma_covid like '%Dor nos olhos%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS dor_olhos,
          sum(case when descricao_sintoma_covid like '%Perda de olfato ou paladar%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS perda_olfato_paladar,
          sum(case when descricao_sintoma_covid like '%Dor muscular%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS dor_muscular,
          sum(case when descricao_sintoma_covid like '%Diarreia%' then 1 ELSE 0 END) / sum(case when descricao_sintoma_covid is not null then 1 ELSE 0 END) * 100 AS diarreia
    from df_covid
    WHERE resultado_teste = 'Positivo'
    '''
).toPandas()

tipo_sintoma

Unnamed: 0,Febre,tosse,dor_garganta,dificuldade_respirar,dor_cabeca,dor_peito,nausea,fadiga,dor_olhos,perda_olfato_paladar,dor_muscular,diarreia
0,44.857143,46.571429,36.571429,27.142857,57.714286,19.428571,21.142857,42.285714,19.142857,43.714286,44.857143,17.428571


In [None]:
df_tipo_sintoma = tipo_sintoma.T.reset_index().rename(columns={0:'perc_sintoma','index':'sintoma'})
df_tipo_sintoma.sort_values('perc_sintoma',ascending=False, inplace=True)

In [None]:
fig = px.bar(
    data_frame = df_tipo_sintoma,
    x = df_tipo_sintoma.sintoma,
    y = df_tipo_sintoma.perc_sintoma,
    color= df_tipo_sintoma.sintoma,
    color_discrete_sequence=['#8B0000']
    )

fig.update_layout(
    title='<b>Percentual de Sintomas em casos Positivos</b>',
    xaxis_title='Tipo de Sintomas',
    yaxis_title='Percentual',
    showlegend=False,
    width=1200,
    height=800
)

fig.show()

##Pessoas Infectadas por região

In [None]:
Positivo_Regiao = spark.sql(

'''
    select
      count(resultado_teste) as positivo_regiao,
      regiao
    from df_covid
    WHERE resultado_teste = 'Positivo'
    group by 2
    order by 1 desc

'''
).toPandas()
Positivo_Regiao

Unnamed: 0,positivo_regiao,regiao
0,780,Nordeste
1,491,Norte
2,468,Sudeste
3,347,Centro-Oeste
4,241,Sul


In [None]:
fig = px.bar(
    data_frame=Positivo_Regiao,
    x='positivo_regiao',
    y='regiao',
    color='regiao',
    color_discrete_sequence=['#8B0000']
)

fig.update_layout(
    title='<b>Quantidade total de infectados por região</b>',
    xaxis_title='Quantidade',
    yaxis_title='Tipo de trabalho',
    showlegend=False,
    width=1200,
    height=800
)

fig.show()

##Pessoas Infectadas e que buscaram atendimento de saúde

In [None]:
estabelecimento_saude = spark.sql(

'''
    select
      count(resultado_teste) as qtd_estabelecimento_saude,
      (case
        when questao_estabelecimento_saude = 'Sim' then 'Buscou atendimento'
        when questao_estabelecimento_saude = 'Não' then 'Não buscou atendimento'
        else 'Ignorado ou não respondeu' end) as estabelecimento_saude
    from df_covid
    WHERE resultado_teste = 'Positivo'
    group by 2
    order by 1 desc
'''
).toPandas()
estabelecimento_saude

Unnamed: 0,qtd_estabelecimento_saude,estabelecimento_saude
0,1977,Ignorado ou não respondeu
1,220,Buscou atendimento
2,130,Não buscou atendimento


In [None]:
fig = px.bar(
    data_frame = estabelecimento_saude,
    x = estabelecimento_saude.estabelecimento_saude,
    y = estabelecimento_saude.qtd_estabelecimento_saude,
    color= estabelecimento_saude.estabelecimento_saude,
    color_discrete_sequence=['#8B0000']
    )

fig.update_layout(
    title='<b>Pessoas que buscaram atendimento</b>',
    xaxis_title='Quantidade',
    yaxis_title='Pessoas que buscaram atendimento',
    showlegend=False,
    width=1200,
    height=800
)

fig.show()

##Pessoas Infectadas, internadas e que buscou atendimento

In [None]:
internada_atendimento1 = spark.sql(

'''
    select
      count(resultado_teste) as qtd_estabelecimento_saude,
      (case
        when questao_estabelecimento_saude = 'Sim' then 'Buscou atendimento'
        when questao_estabelecimento_saude = 'Não' then 'Não buscou atendimento'
        else 'Ignorado ou não respondeu' end) as estabelecimento_saude,
      (case
          when questao_internacao = "Sim" then 'Internado(a)'
          when questao_internacao = 'Não' then 'Não ficou Internado(a)'
            else 'Ignorado ou não respondeu' end) as questao_internacao
    from df_covid
    WHERE resultado_teste = 'Positivo'
    group by 2,3
    order by 1 desc
'''
).toPandas()
internada_atendimento1


Unnamed: 0,qtd_estabelecimento_saude,estabelecimento_saude,questao_internacao
0,1977,Ignorado ou não respondeu,Ignorado ou não respondeu
1,130,Não buscou atendimento,Ignorado ou não respondeu
2,108,Buscou atendimento,Ignorado ou não respondeu
3,93,Buscou atendimento,Não ficou Internado(a)
4,19,Buscou atendimento,Internado(a)


##Pessoas Infectadas e internadas

In [34]:
internada_atendimento = spark.sql(

'''
    select
      count(resultado_teste) as qtd_internacao,
      (case
          when questao_internacao = "Sim" then 'Internado(a)'
          when questao_internacao = 'Não' then 'Não ficou Internado(a)'
            else 'Ignorado ou não respondeu' end) as questao_internacao
    from df_covid
    WHERE resultado_teste = 'Positivo'
    group by 2
    order by 1 desc
'''
).toPandas()
internada_atendimento

Unnamed: 0,qtd_internacao,questao_internacao
0,2215,Ignorado ou não respondeu
1,93,Não ficou Internado(a)
2,19,Internado(a)


In [35]:
fig = px.bar(
    data_frame = internada_atendimento,
    x = internada_atendimento.questao_internacao,
    y = internada_atendimento.qtd_internacao,
    color= internada_atendimento.questao_internacao,
    color_discrete_sequence=['#8B0000']
    )

fig.update_layout(
    title='<b>Pessoas que ficaram internadas</b>',
    xaxis_title='Quantidade',
    yaxis_title='Pessoas internadas',
    showlegend=False,
    width=1200,
    height=800
)

fig.show()

In [None]:
df.show(5, truncate=False)

##Pessoas Infectadas que tomaram remédio por conta própria

In [36]:
remedio_contra_propria = spark.sql(

'''
    select
      count(resultado_teste) as qtd_remedio_conta_propria,
      (case
          when questao_remedio_conta_propria = "Sim" then 'Tomou remédio por conta própria'
          when questao_remedio_conta_propria = 'Não' then 'Não tomou remédio por conta própria'
            else 'Ignorado ou não respondeu' end) as questao_remedio_conta_propria
    from df_covid
    WHERE resultado_teste = 'Positivo'
    group by 2
    order by 1 desc
'''
).toPandas()
remedio_contra_propria

Unnamed: 0,qtd_remedio_conta_propria,questao_remedio_conta_propria
0,2201,Ignorado ou não respondeu
1,80,Não tomou remédio por conta própria
2,46,Tomou remédio por conta própria


In [41]:
remedio_orientacao_medica = spark.sql(

'''
    select
      count(resultado_teste) as qtd_internacao,
      (case
          when questao_remedio_orientacao_medica = "Sim" then 'Tomou remédio por orientação'
          when questao_remedio_orientacao_medica = 'Não' then 'Não tomou remédio '
            else 'Ignorado ou não respondeu' end) as questao_remedio_orientacao_medica
    from df_covid
    WHERE resultado_teste = 'Positivo'
    group by 2
    order by 1 desc
'''
).toPandas()
remedio_orientacao_medica

Unnamed: 0,qtd_internacao,questao_remedio_orientacao_medica
0,2201,Ignorado ou não respondeu
1,89,Não tomou remédio
2,37,Tomou remédio por orientação


In [47]:
analise = spark.sql(
'''
    select
      count(resultado_teste) as qtd_internacao,
      questao_remedio_conta_propria,
      questao_remedio_orientacao_medica
    from df_covid
    WHERE resultado_teste = 'Positivo'
    group by 2,3
    order by 1 desc
'''
).toPandas()
analise

Unnamed: 0,qtd_internacao,questao_remedio_conta_propria,questao_remedio_orientacao_medica
0,2197,Não aplicável,Não aplicável
1,47,Não,Não
2,42,Sim,Não
3,33,Não,Sim
4,4,Sim,Sim
5,4,Ignorado,Ignorado


In [50]:
df_testes_validos_zona = spark.sql(
    '''
        SELECT questao_remedio_conta_propria,
               questao_remedio_orientacao_medica,
               count(questao_remedio_conta_propria),
               count(questao_remedio_orientacao_medica)
        FROM df_covid
        WHERE resultado_teste = 'Positivo'
        GROUP BY questao_remedio_conta_propria, questao_remedio_orientacao_medica
    '''
).toPandas()
df_testes_validos_zona

Unnamed: 0,questao_remedio_conta_propria,questao_remedio_orientacao_medica,count(questao_remedio_conta_propria),count(questao_remedio_orientacao_medica)
0,Sim,Não,42,42
1,Sim,Sim,4,4
2,Ignorado,Ignorado,4,4
3,Não aplicável,Não aplicável,2197,2197
4,Não,Não,47,47
5,Não,Sim,33,33
