<a href="https://colab.research.google.com/github/karinaguerra/postech-data-analytics-tech-challenge/blob/main/ead_pnad_covid_ibge_fase_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Problema

Imagine agora que você foi contratado(a) como Expert em Data Analytics por um grande hospital para entender como foi o comportamento da população na época da pandemia da COVID-19 e quais indicadores seriam importantes para o planejamento, caso haja um novo surto da doença.

Apesar de ser contratado(a) agora, a sua área observou que a utilização do estudo do PNAD-COVID 19 do
IBGE seria uma ótima base para termos boas respostas ao problema proposto, pois são dados confiáveis.
Porém, não será necessário utilizar todas as perguntas realizadas na pesquisa para enxergar todas as oportunidades ali postas.

É sempre bom ressaltar que há dados triviais que precisam estar no projeto, pois auxiliam muito na análise
dos dados:

* Características clínicas dos sintomas;
* Características da população;
* Características econômicas da sociedade.

PNAD-COVlD-19 do IBGE
O Head de Dados pediu para que você entrasse na base de dados do [PNAD-COVlD-19 do IBGE](https://covid19.ibge.gov.br/pnad-covid/) e organizasse esta base para análise, utilizando Banco de Dados em Nuvem e trazendo as seguintes características:

1. Utilização de no máximo 20 questionamentos realizados na
pesquisa;
2. Utilizar 3 meses para construção da solução;
3. Caracterização dos sintomas clínicos da população;
4. Comportamento da população na época da COVID-19;
5. Características econômicas da Sociedade;

Seu objetivo será trazer uma breve análise dessas informações, como foi a organização do banco, as perguntas selecionadas para a resposta do problema e quais seriam as principais ações que o hospital deverá tomar em caso de um novo surto de COVID-19.

**Dica:** Leiam com atenção a base de dados e toda a documentação que o site o PNAD - Covid 19 traz, principalmente os dicionários, que ajudam e muito no entendimento da Base de Dados.

**Dica 2:** Utilizem o que já foi ensinado e consolidado nas outras fases para apresentar a resolução do projeto.

[PNAD COVID19 - Downloads](https://www.ibge.gov.br/estatisticas/sociais/trabalho/27946-divulgacao-semanal-pnadcovid1.html?=&t=downloads)

In [None]:
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from urllib.request import urlopen

In [None]:
df = pd.read_csv('/content/drive/MyDrive/PosTech_Analise_de_dados/FASE3/tech_challenge_3/dados/df_covid.csv')

In [None]:
df.shape

(1149197, 52)

In [None]:
df.head()

Unnamed: 0,uf,idade,sexo,cor,escolaridade,ensino_publico_privado,frequentou_escola,tipo_moradia,situacao_domiciliar,rendimento,...,diagnostico_depressao,diagnostico_cancer,afastado_trabalho,motivo_do_afastamento,remunerado_continua,mais_de_um_trabalho,tipo_trabalho,horas_trabalho_normal,trabalho_remoto_semana_passada,regiao
0,rondonia,36,homem,parda,medio completo,nao aplicavel,nao aplicavel,proprio ja pago,urbana,801 a 1.600,...,nao,nao,nao aplicavel,nao aplicavel,nao aplicavel,nao,empregado do setor privado,48.0,nao aplicavel,norte
1,rondonia,30,mulher,parda,superior completo,nao aplicavel,nao aplicavel,proprio ja pago,urbana,801 a 1.600,...,nao,nao,nao aplicavel,nao aplicavel,nao aplicavel,nao,conta propria,36.0,nao aplicavel,norte
2,rondonia,13,homem,parda,fundamental incompleto,nao aplicavel,sim,proprio ja pago,urbana,nao aplicavel,...,nao,nao,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,0.0,nao aplicavel,norte
3,rondonia,11,homem,parda,fundamental incompleto,nao aplicavel,sim,proprio ja pago,urbana,nao aplicavel,...,nao,nao,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,0.0,nao aplicavel,norte
4,rondonia,57,mulher,branca,fundamental incompleto,nao aplicavel,nao aplicavel,proprio ja pago,urbana,nao aplicavel,...,nao,nao,nao,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,0.0,nao aplicavel,norte


In [None]:
print(df.columns.to_list())

['uf', 'idade', 'sexo', 'cor', 'escolaridade', 'ensino_publico_privado', 'frequentou_escola', 'tipo_moradia', 'situacao_domiciliar', 'rendimento', 'restringiu_contato_fisico', 'febre', 'tosse', 'dor_garganta', 'dificuldade_respirar', 'dor_cabeca', 'dor_peito', 'nausea', 'nariz_entupido', 'fadiga', 'dor_olhos', 'perda_olfato_paladar', 'dor_muscular', 'diarreia', 'ida_unidade_saude', 'hospital_publico', 'hospital_privado', 'posto_publico', 'ambulatorio_privado', 'pronto_socorro_publico', 'pronto_socorro_privado', 'fez_teste', 'teste_swab', 'resultado_swab', 'teste_sangue_dedo', 'resultado_sangue_dedo', 'teste_sangue_coleta', 'resultado_sangue_coleta', 'diagnostico_diabetes', 'diagnostico_hipertensao', 'diagnostico_doenca_pulmao', 'diagnostico_doenca_cardiaca', 'diagnostico_depressao', 'diagnostico_cancer', 'afastado_trabalho', 'motivo_do_afastamento', 'remunerado_continua', 'mais_de_um_trabalho', 'tipo_trabalho', 'horas_trabalho_normal', 'trabalho_remoto_semana_passada', 'regiao']


## Média da idade

In [None]:
idade_media = round(df['idade'].mean())
print(f"A média de idade é {idade_media}")

A média de idade é 37


## Média da idade das Mulheres

In [None]:
df_mulher = df[df['sexo'] == 'mulher']
idade_media_mulher = round(df_mulher['idade'].mean())
print(f"A média de idade das mulheres é {idade_media_mulher}")

A média de idade das mulheres é 38


## Média da idade dos Homens


In [None]:
df_homem = df[df['sexo'] == 'homem']
idade_media_homem = round(df_homem['idade'].mean())
print(f"A média de idade das homem é {idade_media_homem}")

A média de idade das homem é 36


# Gênero

In [None]:
df_sexo = df['sexo'].value_counts()

labels = ['Mulher', 'Homem']
colors = ['skyblue', 'steelblue']

fig = go.Figure(data=[go.Pie(labels=labels, values=df_sexo, hole=.35, marker_colors=colors)])

fig.update_layout(
    title='Proporção entre Homens e Mulheres',
    font=dict(size=14),
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="center",
        x=0.5
    )
)

fig.show()

In [None]:
df_sexo_idade_media = df[['sexo','idade']]
df_sexo_idade_media.head()

Unnamed: 0,sexo,idade
0,homem,36
1,mulher,30
2,homem,13
3,homem,11
4,mulher,57


In [None]:
df_sexo_idade_media = df[['sexo','idade']]

# boxplot
fig = px.box(df_sexo_idade_media, x='idade', color='sexo', title='Média da Idade por Sexo',
             labels={'idade': 'Idade', 'sexo': 'Gênero'},
             color_discrete_map={'homem': 'steelblue', 'mulher': 'skyblue'}) # Cores personalizadas

fig.update_layout(xaxis_showgrid=True, yaxis_showgrid=True,
   font=dict(size=15),
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="center",
        x=0.5))

# Exibir o gráfico
fig.show()

In [None]:
df_sexo_idade = df.groupby(['regiao', 'sexo'])['idade'].mean().reset_index()
df_sexo_idade

Unnamed: 0,regiao,sexo,idade
0,centro-oeste,homem,35.702639
1,centro-oeste,mulher,37.625642
2,nordeste,homem,34.126353
3,nordeste,mulher,36.153265
4,norte,homem,32.311528
5,norte,mulher,33.736613
6,sudeste,homem,37.837817
7,sudeste,mulher,40.280296
8,sul,homem,38.344658
9,sul,mulher,40.618802


In [None]:
# Agrupar por região e sexo e calcular a média da idade
df_sexo_idade = df.groupby(['regiao', 'sexo'])['idade'].mean().reset_index()

# Criar o gráfico de barras agrupadas
fig = px.bar(df_sexo_idade, x='regiao', y='idade', color='sexo', barmode='group' ,
             title='Média de Idade por Região e Sexo',
             labels={'idade': 'Média de Idade', 'regiao': 'Região', 'sexo': 'Gênero'},
             color_discrete_sequence=['steelblue', 'skyblue'],
             )

fig.update_layout(xaxis_showgrid=True, yaxis_showgrid=True,
   font=dict(size=15),
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="center",
        x=0.5))

# Exibir o gráfico
fig.show()

In [None]:
# Agrupar os dados por idade e sexo
df_idade_sexo = df.groupby(['idade', 'sexo']).size().unstack()

fig = go.Figure()

fig.add_trace(go.Bar(x=df_idade_sexo.index, y=df_idade_sexo['mulher'], name='Mulher', offset=0, marker_color='skyblue'))
fig.add_trace(go.Bar(x=df_idade_sexo.index, y=df_idade_sexo['homem'], name='Homem', offset=0, opacity=0.7, marker_color='steelblue'))

fig.update_layout(
    barmode='overlay', # Sobrepor as barras
    xaxis_title='Idade',
    yaxis_title='Quantidade',
    title='Distribuição de Idade por Sexo'
)

# Exibir o gráfico
fig.show()


In [None]:
df_uf_sexo = df.groupby(['uf', 'sexo']).size().unstack()

df_uf_sexo = df_uf_sexo.sort_values(by='mulher', ascending=False)

fig = go.Figure()

fig.add_trace(go.Bar(x=df_uf_sexo.index, y=df_uf_sexo['mulher'], name='Mulher', marker_color='skyblue'))
fig.add_trace(go.Bar(x=df_uf_sexo.index, y=df_uf_sexo['homem'], name='Homem', opacity=0.7, marker_color='steelblue'))

fig.update_layout(
    xaxis_title='Estados',
    yaxis_title='Quantidade',
    title='Quantidade de Homens e Mulheres por Estado (uf)'
)


fig.show()

# Situação domiciliar

In [None]:
df_situacao_domiciliar = df['situacao_domiciliar'].value_counts().reset_index()
df_situacao_domiciliar.columns = ['situacao_domiciliar', 'quantidade']

fig = px.bar(df_situacao_domiciliar, x='situacao_domiciliar', y='quantidade',
             labels={'situacao_domiciliar': 'Situação Domiciliar', 'quantidade': 'Quantidade'},
            #  title='Distribuição da Situação Domiciliar',
             color='situacao_domiciliar', # Colore as barras de acordo com a situação domiciliar
             color_discrete_sequence=['steelblue', 'skyblue', 'lightgreen', 'orange'], # Define as cores para cada situação domiciliar
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Situação Domiciliar',
                  legend=dict(orientation='v', # Orientação horizontal
                              # y=1, # Posição vertical
                              # x=0.5, # Posição horizontal
                              # xanchor='center', # Ancoragem horizontal
                              # yanchor='bottom' # Ancoragem vertical
                             )
                 )

# Mostrar o gráfico
fig.show()


In [None]:
df_situacao_domiciliar = df['situacao_domiciliar'].value_counts()

labels = df_situacao_domiciliar.index.to_list()
colors = ['steelblue', 'skyblue', 'lightgreen', 'orange']

fig = go.Figure(data=[go.Pie(labels=labels, values=df_situacao_domiciliar, hole=.35, marker_colors=colors)])

fig.update_layout(
    title='Proporção da Situação Domiciliar',
    legend_title="Situação Domiciliar",
    font=dict(
        size=15
    )
)

fig.show()


# Étnico-racial

In [None]:
# Calcular a contagem de valores únicos na coluna 'cor_raca'
df_cor_raca = df['cor'].value_counts().reset_index()
df_cor_raca.columns = ['cor', 'quantidade']

# Calcular o percentual de cada étinico-racial
total_registros = df_cor_raca['quantidade'].sum()
df_cor_raca['percentual'] = round(df_cor_raca['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
# df_cor_raca = df_cor_raca[df_cor_raca['cor'] != 'Ignorado']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_cor_raca, x='cor', y='percentual',
             labels={'cor': 'étnico-racial', 'percentual': 'Percentual'},
             title='Distribuição por étnico-racial',
             color='cor', # Colore as barras de acordo com a cor/raca
            #  color_discrete_sequence=px.colors.sequential.Blues_r # Define as cores para cada cor/raca
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='étnico-racial', showlegend=False, font=dict(
        size=15))

for i in range(len(df_cor_raca)):
    fig.add_annotation(y=df_cor_raca['percentual'][i], x=df_cor_raca['cor'][i],
                       text=f"{df_cor_raca['percentual'][i]:.1f}%",
                       showarrow=False, font=dict(color='black', size=14),
                       yshift=10)


# Mostrar o gráfico
fig.show()

In [None]:
df_cor_raca_regiao = df.groupby(['regiao', 'cor']).size().unstack()

df_cor_raca_regiao = df_cor_raca_regiao.sort_values(by='branca', ascending=False)

fig = go.Figure()

fig.add_trace(go.Bar(x=df_cor_raca_regiao.index, y=df_cor_raca_regiao['branca'], name='Branca', marker_color='#1565C0'))
fig.add_trace(go.Bar(x=df_cor_raca_regiao.index, y=df_cor_raca_regiao['preta'], name='Preta', opacity=0.7, marker_color='#1976D2'))
fig.add_trace(go.Bar(x=df_cor_raca_regiao.index, y=df_cor_raca_regiao['parda'], name='Parda', opacity=0.7, marker_color='#64B5F6'))
fig.add_trace(go.Bar(x=df_cor_raca_regiao.index, y=df_cor_raca_regiao['amarela'], name='Amarela', opacity=0.7, marker_color='#BBDEFB'))
fig.add_trace(go.Bar(x=df_cor_raca_regiao.index, y=df_cor_raca_regiao['indigena'], name='Indígena', opacity=0.7, marker_color='#E3F2FD'))

fig.update_layout(
    xaxis_title='Região',
    yaxis_title='Quantidade',
    font=dict(size=15),
    title='Quantidade de pessoas por étinico-racial e Região'
)


fig.show()


# Escolaridade

In [None]:
# Calcular a contagem de valores únicos na coluna 'escolaridade'
df_escolaridade = df['escolaridade'].value_counts().reset_index()
df_escolaridade.columns = ['escolaridade', 'quantidade']

# Calcular o percentual de cada escolaridade
total_registros = df_escolaridade['quantidade'].sum()
df_escolaridade['percentual'] = round(df_escolaridade['quantidade'] / total_registros * 100, 2)

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_escolaridade, x='escolaridade', y='percentual',
             labels={'escolaridade': 'Escolaridade', 'percentual': 'Percentual'},
             title='Distribuição por Escolaridade',
             color='escolaridade', # Colore as barras de acordo com a escolaridade
            #  color_discrete_sequence=px.colors.sequential.Blues_r # Define as cores para cada escolaridade
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para remover a legenda
fig.update_layout(
    legend_title='Escolaridade',
    showlegend=False,
    font=dict(size=15)
)

for i in range(len(df_escolaridade)):
    fig.add_annotation(y=df_escolaridade['percentual'][i], x=df_escolaridade['escolaridade'][i],
                       text=f"{df_escolaridade['percentual'][i]:.1f}%",
                       showarrow=False, font=dict(color='black', size=14),
                       yshift=10)

# Mostrar o gráfico
fig.show()


In [None]:
df_escolaridade_regiao = df.groupby(['regiao', 'escolaridade']).size().unstack()

df_escolaridade_regiao = df_escolaridade_regiao.sort_values(by='fundamental completa', ascending=False)

fig = go.Figure()

fig.add_trace(go.Bar(x=df_escolaridade_regiao.index, y=df_escolaridade_regiao['fundamental completa'], name='Fundamental Completo', marker_color='#BBDEFB'))
fig.add_trace(go.Bar(x=df_escolaridade_regiao.index, y=df_escolaridade_regiao['medio completo'], name='Médio Completo', opacity=0.7, marker_color='#64B5F6'))
fig.add_trace(go.Bar(x=df_escolaridade_regiao.index, y=df_escolaridade_regiao['superior completo'], name='Superior Completo', opacity=0.7, marker_color='#42A5F5'))
fig.add_trace(go.Bar(x=df_escolaridade_regiao.index, y=df_escolaridade_regiao['fundamental incompleto'], name='Fundamental Incompleto', opacity=0.7, marker_color='#2196F3'))
fig.add_trace(go.Bar(x=df_escolaridade_regiao.index, y=df_escolaridade_regiao['sem instrucao'], name='Sem Instrução', opacity=0.7, marker_color='#1976D2'))


fig.update_layout(
    xaxis_title='Região',
    yaxis_title='Quantidade',
    title='Escolaridade por Região',
    font=dict(size=15)
)

fig.show()


# Tipo de moradia

In [None]:
df_tipo_moradia = df['tipo_moradia'].value_counts().reset_index()
df_tipo_moradia.columns = ['tipo_moradia', 'quantidade']
total_moradia = df_tipo_moradia['quantidade'].sum()
df_tipo_moradia['percentual'] = round(df_tipo_moradia['quantidade'] / total_moradia * 100, 2)

fig = px.bar(df_tipo_moradia, x='tipo_moradia', y='percentual',
             labels={'tipo_moradia': 'Tipo de Moradia', 'percentual': 'Percentual'},
             title='Distribuição por Tipo de Moradia',
             color='tipo_moradia', # Colore as barras de acordo com o tipo de moradia
            #  color_discrete_sequence=px.colors.sequential.Blues_r # Define as cores para cada tipo de moradia
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Tipo de Moradia', showlegend=False, font=dict(
        size=15))

for i in range(len(df_tipo_moradia)):
    fig.add_annotation(y=df_tipo_moradia['percentual'][i], x=df_tipo_moradia['tipo_moradia'][i],
                       text=f"{df_tipo_moradia['percentual'][i]:.1f}%",
                       showarrow=False, font=dict(color='black', size=14),
                       yshift=10)


# Mostrar o gráfico
fig.show()


In [None]:
df_tipo_moradia

Unnamed: 0,tipo_moradia,quantidade,percentual
0,proprio ja pago,783239,68.16
1,alugado,161148,14.02
2,cedido por familiar,96856,8.43
3,proprio ainda pagando,66522,5.79
4,cedido por empregador,25296,2.2
5,cedido de outra forma,12315,1.07
6,outra condicao,3821,0.33


In [None]:
total_urbano = len(df[df['situacao_domiciliar'] == 'urbana'])
total_rural = len(df[df['situacao_domiciliar'] == 'rural'])

df_urbano = df[df['situacao_domiciliar'] == 'urbana']
df_rural = df[df['situacao_domiciliar'] == 'rural']

df_tipo_moradia_urbano = df_urbano['tipo_moradia'].value_counts().reset_index()
df_tipo_moradia_urbano.columns = ['tipo_moradia', 'quantidade']

df_tipo_moradia_rural = df_rural['tipo_moradia'].value_counts().reset_index()
df_tipo_moradia_rural.columns = ['tipo_moradia', 'quantidade']

# Lista para armazenar os gráficos
figs = []

for situacao in df['situacao_domiciliar'].unique():
    df_situacao = df[df['situacao_domiciliar'] == situacao]
    df_tipo_moradia_situacao = df_situacao['tipo_moradia'].value_counts().reset_index()
    df_tipo_moradia_situacao.columns = ['tipo_moradia', 'quantidade']

    # Calcular o percentual de cada tipo de moradia
    total_registros = df_tipo_moradia_situacao['quantidade'].sum()
    df_tipo_moradia_situacao['percentual'] = round(df_tipo_moradia_situacao['quantidade'] / total_registros * 100, 2)

    # Criar o gráfico de barras com Plotly Express
    fig = go.Figure()

    # Adicionar a barra com os percentuais
    fig.add_trace(go.Bar(x=df_tipo_moradia_situacao['tipo_moradia'], y=df_tipo_moradia_situacao['quantidade'],
                         marker_color='steelblue',
                         text=[f"{p:.1f}%" for p in df_tipo_moradia_situacao['percentual']],
                         textposition='auto',
                         name='Percentual'))

    # Adicionar a barra com os totais
    fig.add_trace(go.Bar(x=df_tipo_moradia_situacao['tipo_moradia'], y=df_tipo_moradia_situacao['quantidade'],
                         marker_color='steelblue',
                         text=df_tipo_moradia_situacao['quantidade'],
                         textposition='auto',
                         name='Total', visible=False))  # Deixar invisível por padrão

    fig.update_layout(title=f'Distribuição por Tipo de Moradia - {situacao}',
                      xaxis_title='Tipo de Moradia', yaxis_title='Percentual',
                      legend_title='Tipo de Moradia', showlegend=True)

    figs.append(fig)

# Criar subplot com os gráficos lado a lado
fig = make_subplots(rows=1, cols=len(figs), subplot_titles=df['situacao_domiciliar'].unique())

for i, fig_temp in enumerate(figs, start=1):
    for trace in fig_temp.data:
        fig.add_trace(trace, row=1, col=i)

# Atualizar o layout do subplot
fig.update_layout(title='Distribuição por Tipo de Moradia',
                  legend_title='Tipo de Moradia', showlegend=False, font=dict(size=15))

# Mostrar o gráfico
fig.show()

In [None]:
df_tipo_moradia_rural.head(2)

Unnamed: 0,tipo_moradia,quantidade
0,proprio ja pago,210702
1,cedido por empregador,21195


In [None]:
df_tipo_moradia_urbano.head(2)

Unnamed: 0,tipo_moradia,quantidade
0,proprio ja pago,572537
1,alugado,150262


# Renda

In [None]:
df_renda = df['rendimento'].value_counts().reset_index()
df_renda.columns = ['rendimento', 'quantidade']

# Definir a ordem desejada das categorias de rendimento
ordem_rendimento = ['0 a 100', '301 a 600', '601 a 800', '101 a 300', '801 a 1.600', '1.601 a 3.000',
                     '3.001 a 10.000', '10.001 a 50.000', '50.001 a 100.000', 'mais de 100.000', 'nao aplicavel']

# Reordenar o DataFrame de acordo com a ordem desejada
df_renda['rendimento'] = pd.Categorical(df_renda['rendimento'], categories=ordem_rendimento, ordered=True)
df_renda = df_renda.sort_values('rendimento')

# Calcular o percentual de cada renda
total_registros = df_renda['quantidade'].sum()
df_renda['percentual'] = round(df_renda['quantidade'] / total_registros * 100, 2)

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_renda, x='rendimento', y='percentual',
             labels={'rendimento': 'Rendimento', 'percentual': 'Percentual'},
             title='Distribuição por Renda',
             color='rendimento', # Colore as barras de acordo com a renda
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Renda', showlegend=False, font=dict(size=15))

for i in range(len(df_renda)):
    fig.add_annotation(y=df_renda['percentual'][i], x=df_renda['rendimento'][i],
                       text=f"{df_renda['percentual'][i]:.1f}%",
                       showarrow=False, font=dict(color='black', size=15),
                       yshift=10)

# Mostrar o gráfico
fig.show()

In [None]:
df['situacao_domiciliar'].head()

0    urbana
1    urbana
2    urbana
3    urbana
4    urbana
Name: situacao_domiciliar, dtype: object

In [None]:
df_renda_urbana = df[df['situacao_domiciliar'] == 'urbana']['rendimento'].value_counts().reset_index()
df_renda_urbana.columns = ['rendimento', 'quantidade']

df_renda_rural = df[df['situacao_domiciliar'] == 'rural']['rendimento'].value_counts().reset_index()
df_renda_rural.columns = ['rendimento', 'quantidade']

# Definir a ordem desejada das categorias de rendimento
ordem_rendimento = ['0 a 100', '301 a 600', '601 a 800', '101 a 300', '801 a 1.600', '1.601 a 3.000',
                     '3.001 a 10.000', '10.001 a 50.000', '50.001 a 100.000', 'mais de 100.000', 'nao aplicavel']

# Reordenar o DataFrame de acordo com a ordem desejada
df_renda_urbana['rendimento'] = pd.Categorical(df_renda_urbana['rendimento'], categories=ordem_rendimento, ordered=True)
df_renda_urbana = df_renda_urbana.sort_values('rendimento')

df_renda_rural['rendimento'] = pd.Categorical(df_renda_rural['rendimento'], categories=ordem_rendimento, ordered=True)
df_renda_rural = df_renda_rural.sort_values('rendimento')

# Calcular o percentual de cada renda
total_registros_urbana = df_renda_urbana['quantidade'].sum()
df_renda_urbana['percentual'] = round(df_renda_urbana['quantidade'] / total_registros_urbana * 100, 2)

total_registros_rural = df_renda_rural['quantidade'].sum()
df_renda_rural['percentual'] = round(df_renda_rural['quantidade'] / total_registros_rural * 100, 2)

# Criar o gráfico de barras com Plotly Express
fig = make_subplots(rows=1, cols=2, subplot_titles=('Urbana', 'Rural'))

fig.add_trace(go.Bar(x=df_renda_urbana['rendimento'], y=df_renda_urbana['quantidade'],
                     marker_color='steelblue',
                     text=[f"{p:.1f}%" for p in df_renda_urbana['percentual']],
                     textposition='auto',
                     name='Percentual'), row=1, col=1)

fig.add_trace(go.Bar(x=df_renda_rural['rendimento'], y=df_renda_rural['quantidade'],
                     marker_color='steelblue',
                     text=[f"{p:.1f}%" for p in df_renda_rural['percentual']],
                     textposition='auto',
                     name='Percentual'), row=1, col=2)

fig.update_layout(title='Distribuição por Renda - Urbana e Rural',
                  legend_title='Renda', showlegend=False, font=dict(size=15))

# Mostrar o gráfico
fig.show()


In [None]:
df_renda_regiao = df.groupby(['regiao', 'rendimento']).size().unstack()

df_renda_regiao = df_renda_regiao.sort_values(by='0 a 100', ascending=False)

fig = go.Figure()

fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['0 a 100'], name='0 a 100', marker_color='#E3F2FD'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['101 a 300'], name='101 a 300', opacity=0.7, marker_color='#BBDEFB'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['301 a 600'], name='301 a 600', opacity=0.7, marker_color='#64B5F6'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['601 a 800'], name='601 a 800', opacity=0.7, marker_color='#42A5F5'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['801 a 1.600'], name='801 a 1.600', opacity=0.7, marker_color='#2196F3'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['1.601 a 3.000'], name='1.601 a 3.000', opacity=0.7, marker_color='#1E88E5'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['3.001 a 10.000'], name='3.001 a 10.000', opacity=0.7, marker_color='#1976D2'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['10.001 a 50.000'], name='10.001 a 50.000', opacity=0.7, marker_color='#1565C0'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['50.001 a 100.000'], name='50.001 a 100.000', opacity=0.7, marker_color='#0D47A1'))
fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['mais de 100.000'], name='mais de 100.000', opacity=0.7, marker_color='#01579B'))
# fig.add_trace(go.Bar(x=df_renda_regiao.index, y=df_renda_regiao['nao aplicavel'], name='nao aplicavel', opacity=0.7, marker_color='gray'))

fig.update_layout(
    xaxis_title='Região',
    yaxis_title='Quantidade',
    title='Rendimento por Região',
    font=dict(size=15)
)

fig.show()


In [None]:
df_renda

Unnamed: 0,rendimento,quantidade,percentual
8,0 a 100,2848,0.25
4,301 a 600,30397,2.65
5,601 a 800,16718,1.45
6,101 a 300,14405,1.25
1,801 a 1.600,189736,16.51
2,1.601 a 3.000,103125,8.97
3,3.001 a 10.000,57729,5.02
7,10.001 a 50.000,7720,0.67
9,50.001 a 100.000,47,0.0
10,mais de 100.000,10,0.0


# Trabalho

In [None]:
# Calcular a contagem de valores únicos na coluna 'tipo_trabalho'
df_tipo_trabalho = df['tipo_trabalho'].value_counts().reset_index()
df_tipo_trabalho.columns = ['tipo_trabalho', 'quantidade']

# Definir a ordem desejada das categorias de tipo de trabalho
ordem_tipo_trabalho = ['empregado do setor privado', 'conta propria', 'empregado do setor público',
                       'trabalhador domestico', 'fora do mercado de trabalho', 'empregador',
                       'trabalhador familiar', 'policial ou bombeiro militar', 'militar', 'nao aplicavel']

# Reordenar o DataFrame de acordo com a ordem desejada
df_tipo_trabalho['tipo_trabalho'] = pd.Categorical(df_tipo_trabalho['tipo_trabalho'], categories=ordem_tipo_trabalho, ordered=True)
df_tipo_trabalho = df_tipo_trabalho.sort_values('tipo_trabalho')

# Calcular o percentual de cada tipo de trabalho
total_registros = df_tipo_trabalho['quantidade'].sum()
df_tipo_trabalho['percentual'] = round(df_tipo_trabalho['quantidade'] / total_registros * 100, 2)

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_tipo_trabalho, x='tipo_trabalho', y='percentual',
             labels={'tipo_trabalho': 'Tipo de Trabalho', 'percentual': 'Percentual'},
             title='Distribuição por Tipo de Trabalho',
             color='tipo_trabalho', # Colore as barras de acordo com o tipo de trabalho
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Tipo de Trabalho', showlegend=False, font=dict(size=15))

for i in range(len(df_tipo_trabalho)):
    fig.add_annotation(y=df_tipo_trabalho['percentual'][i], x=df_tipo_trabalho['tipo_trabalho'][i],
                       text=f"{df_tipo_trabalho['percentual'][i]:.1f}%",
                       showarrow=False, font=dict(color='black', size=15),
                       yshift=10)

# Mostrar o gráfico
fig.show()

In [None]:
df_tipo_trabalho

Unnamed: 0,tipo_trabalho,quantidade,percentual
1,empregado do setor privado,187163,16.29
2,conta propria,133217,11.59
3,empregado do setor público,65839,5.73
4,trabalhador domestico,22285,1.94
5,fora do mercado de trabalho,15508,1.35
6,empregador,13354,1.16
7,trabalhador familiar,10367,0.9
8,policial ou bombeiro militar,2037,0.18
9,militar,1735,0.15
0,nao aplicavel,697692,60.71


In [None]:
df_afastado_trabalho = df['afastado_trabalho'].value_counts().reset_index()
df_afastado_trabalho.columns = ['afastado_trabalho', 'quantidade']

# Calcular o percentual de cada tipo de afastamento
total_registros = df_afastado_trabalho['quantidade'].sum()
df_afastado_trabalho['percentual'] = round(df_afastado_trabalho['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'nao aplicavel' dos dados
# df_afastado_trabalho = df_afastado_trabalho[df_afastado_trabalho['afastado_trabalho'] != 'nao aplicavel']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_afastado_trabalho, x='afastado_trabalho', y='percentual',
             labels={'afastado_trabalho': 'Afastamento do Trabalho', 'percentual': 'Percentual'},
             title='Distribuição por Afastamento do Trabalho',
             color='afastado_trabalho', # Colore as barras de acordo com o tipo de afastamento
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Afastamento do Trabalho', showlegend=False, font=dict(size=15))

for i in range(len(df_afastado_trabalho)):
    fig.add_annotation(y=df_afastado_trabalho['percentual'][i], x=df_afastado_trabalho['afastado_trabalho'][i],
                       text=f"{df_afastado_trabalho['percentual'][i]:.1f}%",
                       showarrow=False, font=dict(color='black', size=12),
                       yshift=10)


# Mostrar o gráfico
fig.show()


# Restrição de Contato

In [None]:
# Calcular a contagem de valores únicos na coluna 'restricao_contrato'
df_restricao_contrato = df['restringiu_contato_fisico'].value_counts().reset_index()
df_restricao_contrato.columns = ['restringiu_contato_fisico', 'quantidade']

# Calcular o percentual de cada tipo de restrição de contrato
total_registros = df_restricao_contrato['quantidade'].sum()
df_restricao_contrato['percentual'] = round(df_restricao_contrato['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
# df_restricao_contrato = df_restricao_contrato[df_restricao_contrato['restringiu_contato_fisico'] != 'não aplicável']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_restricao_contrato, x='restringiu_contato_fisico', y='percentual',
             labels={'restringiu_contato_fisico': 'Restrição de Contrato', 'percentual': 'Percentual'},
             title='Distribuição por Restrição de Contato',
             color='restringiu_contato_fisico', # Colore as barras de acordo com a restrição de contrato
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Restrição de Contato Fisico', showlegend=False, font=dict(size=15))

for i in range(len(df_restricao_contrato)):
    fig.add_annotation(y=df_restricao_contrato['percentual'][i], x=df_restricao_contrato['restringiu_contato_fisico'][i],
                       text=f"{df_restricao_contrato['percentual'][i]:.1f}%",
                       showarrow=False, font=dict(color='black', size=15),
                       yshift=10)

# Mostrar o gráfico
fig.show()

# Sintomas

In [None]:
# Reunir as tabelas de sintomas
df_sintomas = df[['tosse', 'dor_garganta', 'dificuldade_respirar', 'dor_cabeca', 'dor_peito', 'nausea', 'fadiga', 'dor_olhos', 'perda_olfato_paladar', 'dor_muscular', 'diarreia']]

# Renomear as colunas
novos_nomes = {
    'tosse': 'Tosse',
    'dor_garganta': 'Dor de Garganta',
    'dificuldade_respirar': 'Dificuldade Respiratória',
    'dor_cabeca': 'Dor de Cabeça',
    'dor_peito': 'Dor no Peito',
    'nausea': 'Náusea',
    'fadiga': 'Fadiga',
    'dor_olhos': 'Dor nos Olhos',
    'perda_olfato_paladar': 'Perda de Olfato/Paladar',
    'dor_muscular': 'Dor Muscular',
    'diarreia': 'Diarreia'
}
df_sintomas = df_sintomas.rename(columns=novos_nomes)

In [None]:
print(df_sintomas['Tosse'].unique())

['nao ' 'sim' 'ignorado' 'nao sabe']


In [None]:
df_sintomas_plot = pd.DataFrame(df_sintomas)

# Função para contar o número de 'sim' em uma coluna
count_sim = lambda col: col[col == 'sim'].count()

# Aplicar a função em cada coluna
total_sim_por_coluna = df_sintomas_plot.apply(count_sim)

# Calcular percentual de 'sim' em relação ao total
total_respostas = len(df_sintomas_plot)
percentual_sim = (total_sim_por_coluna / total_respostas) * 100

# Ordenar por ordem crescente
percentual_sim = percentual_sim.sort_values(ascending=False)

# Criar DataFrame com os resultados
df_plot = percentual_sim.reset_index()
df_plot.columns = ['Sintoma', 'Percentual']

# Criar gráfico de barras horizontal com Plotly
fig = px.bar(df_plot, x='Sintoma', y='Percentual',
             title='Percentual de pessoal que tiveram sintoma',
             labels={'Sintoma': 'Sintoma', 'Percentual': 'Percentual'},
             color_discrete_sequence=['steelblue'])

# Adicionar rótulos aos gráficos de barras
for i in range(len(df_plot)):
    fig.add_annotation(y=df_plot['Percentual'][i], x=df_plot['Sintoma'][i],
                       text=f"{df_plot['Percentual'][i]:.2f}%",
                       showarrow=False, font=dict(color='black', size=14),
                       yshift=10)

fig.update_layout(yaxis={'categoryorder':'total ascending'})
fig.show()

# Pessoas que fizeram os testes

In [None]:
count_values = lambda col: col.value_counts()
# Aplicar a função em cada coluna
total_por_coluna = df_sintomas.apply(count_values)

# inverter coluna
total_por_coluna_t = total_por_coluna.T
total_por_coluna_t.head()

Unnamed: 0,ignorado,nao,nao sabe,sim
Tosse,3549,1129630,645,15373
Dor de Garganta,3549,1132408,683,12557
Dificuldade Respiratória,3552,1140175,671,4799
Dor de Cabeça,3550,1125929,758,18960
Dor no Peito,3576,1141462,711,3448


In [None]:
total_por_coluna_t['percentual_sim'] = (total_por_coluna_t['sim'] / total_por_coluna_t['nao ']) * 100

In [None]:
total_por_coluna_t.head()

Unnamed: 0,ignorado,nao,nao sabe,sim,percentual_sim
Tosse,3549,1129630,645,15373,1.360888
Dor de Garganta,3549,1132408,683,12557,1.108876
Dificuldade Respiratória,3552,1140175,671,4799,0.4209
Dor de Cabeça,3550,1125929,758,18960,1.683943
Dor no Peito,3576,1141462,711,3448,0.302069


In [None]:
df_teste = df['fez_teste']

In [None]:
# Contagem de 'sim' e 'nao'
contagem_teste = df_teste.value_counts()
print(contagem_teste)

fez_teste
nao         1013242
sim          133542
ignorado       2413
Name: count, dtype: int64


In [None]:
# Prepare data
labels = ['Sim', 'Não', 'Ignorado']
sizes = [contagem_teste['sim'], contagem_teste['nao '], contagem_teste['ignorado']]
colors = ['skyblue', 'steelblue', 'dodgerblue']

# Create pie chart
fig = go.Figure(data=[go.Pie(labels=labels, values=sizes, hole=0.5, marker=dict(colors=colors))])

# Update layout
fig.update_layout(title='Proporção de Pessoas que Fizeram Teste', font=dict(size=14),
                  legend=dict(orientation="h", yanchor="bottom", y=1.02,xanchor="center",x=0.5))


# Show plot
fig.show()


In [None]:
df_teste_uf = df[['uf','fez_teste']]

In [None]:
# Contagem de 'sim' e 'nao'
contagem_teste_uf = df_teste_uf.value_counts()
contagem_teste_uf = contagem_teste_uf.reset_index()
contagem_teste_uf.head()

Unnamed: 0,uf,fez_teste,count
0,minas gerais,nao,94275
1,sao paulo,nao,85341
2,rio de janeiro,nao,76636
3,santa catarina,nao,63480
4,rio grande do sul,nao,58936


In [None]:
contagem_teste_uf_sim = contagem_teste_uf[contagem_teste_uf['fez_teste'] == 'sim']

In [None]:
# Dicionário de mapeamento de nomes - para a criação do mara os nomes dos estado devem estar corretos
mapeamento_estados = {
    'acre': 'Acre',
    'alagoas': 'Alagoas',
    'amapa': 'Amapá',
    'amazonas': 'Amazonas',
    'bahia': 'Bahia',
    'ceara': 'Ceará',
    'distrito federal': 'Distrito Federal',
    'espirito santo': 'Espírito Santo',
    'goias': 'Goiás',
    'maranhao': 'Maranhão',
    'mato grosso': 'Mato Grosso',
    'mato grosso do sul': 'Mato Grosso do Sul',
    'minas gerais': 'Minas Gerais',
    'para': 'Pará',
    'paraiba': 'Paraíba',
    'parana': 'Paraná',
    'pernambuco': 'Pernambuco',
    'piaui': 'Piauí',
    'rio de janeiro': 'Rio de Janeiro',
    'rio grande do norte': 'Rio Grande do Norte',
    'rio grande do sul': 'Rio Grande do Sul',
    'rondonia': 'Rondônia',
    'roraima': 'Roraima',
    'santa catarina': 'Santa Catarina',
    'sao paulo': 'São Paulo',
    'sergipe': 'Sergipe',
    'tocantins': 'Tocantins'
}

# Aplicar a substituição de nomes
contagem_teste_uf_sim['uf'] = contagem_teste_uf_sim['uf'].replace(mapeamento_estados)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [None]:
contagem_teste_uf_sim.head()

Unnamed: 0,uf,fez_teste,count
26,São Paulo,sim,12428
27,Rio de Janeiro,sim,10601
28,Minas Gerais,sim,8741
29,Goiás,sim,7647
30,Rio Grande do Sul,sim,7446


In [None]:
# Carregar o arquivo GeoJSON com os limites dos estados brasileiros
with urlopen('https://raw.githubusercontent.com/codeforamerica/click_that_hood/master/public/data/brazil-states.geojson') as response:
    brazil_states = json.load(response)

# Mapear os estados do Brasil
fig = px.choropleth(contagem_teste_uf_sim,
                    geojson=brazil_states,
                    locations='uf',
                    featureidkey='properties.name',
                    color='count',
                    hover_name='uf',
                    color_continuous_scale='blues')

# Atualizar o layout do mapa
fig.update_geos(projection_type="mercator", visible=False)

# Definir limites de visualização para o Brasil
fig.update_geos(projection_type="mercator", lataxis_range=[-35, 6], lonaxis_range=[-75, -30])
# Atualizar o layout do mapa
fig.update_layout(title='Estado onde mais foram feitos testes de COVID-19', coloraxis_colorbar_title='Total de testes', height=900, font=dict(size=14))

# Mostrar o mapa
fig.show()

In [None]:
# Dicionário de mapeamento de nomes completos para siglas
mapeamento_estados_siglas = {
    'Acre': 'AC',
    'Alagoas': 'AL',
    'Amapá': 'AP',
    'Amazonas': 'AM',
    'Bahia': 'BA',
    'Ceará': 'CE',
    'Distrito Federal': 'DF',
    'Espírito Santo': 'ES',
    'Goiás': 'GO',
    'Maranhão': 'MA',
    'Mato Grosso': 'MT',
    'Mato Grosso do Sul': 'MS',
    'Minas Gerais': 'MG',
    'Pará': 'PA',
    'Paraíba': 'PB',
    'Paraná': 'PR',
    'Pernambuco': 'PE',
    'Piauí': 'PI',
    'Rio de Janeiro': 'RJ',
    'Rio Grande do Norte': 'RN',
    'Rio Grande do Sul': 'RS',
    'Rondônia': 'RO',
    'Roraima': 'RR',
    'Santa Catarina': 'SC',
    'São Paulo': 'SP',
    'Sergipe': 'SE',
    'Tocantins': 'TO'
}

# Aplicar a substituição de nomes completos pelas siglas dos estados
contagem_teste_uf_sim['uf_sigla'] = contagem_teste_uf_sim['uf'].map(mapeamento_estados_siglas)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [None]:
# Dicionário de mapeamento de estados para regiões
mapeamento_regioes = {
    'Norte': ['Acre', 'Amapá', 'Amazonas', 'Pará', 'Rondônia', 'Roraima', 'Tocantins'],
    'Nordeste': ['Alagoas', 'Bahia', 'Ceará', 'Maranhão', 'Paraíba', 'Pernambuco', 'Piauí', 'Rio Grande do Norte', 'Sergipe'],
    'Centro-Oeste': ['Distrito Federal', 'Goiás', 'Mato Grosso', 'Mato Grosso do Sul'],
    'Sudeste': ['Espírito Santo', 'Minas Gerais', 'Rio de Janeiro', 'São Paulo'],
    'Sul': ['Paraná', 'Rio Grande do Sul', 'Santa Catarina']
}

# Função para mapear os estados para as regiões
def mapear_regiao(estado):
    for regiao, estados_regiao in mapeamento_regioes.items():
        if estado in estados_regiao:
            return regiao

# Aplicar a função mapear_regiao para criar a coluna 'regiao'
contagem_teste_uf_sim['regiao'] = contagem_teste_uf_sim['uf'].apply(mapear_regiao)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [None]:
# Criar um DataFrame com os dados de contagem_teste_uf_sim
df_contagem_teste_uf_sim = pd.DataFrame(contagem_teste_uf_sim)

# Ordenar o DataFrame por 'count' em ordem crescente
df_contagem_teste_uf_sim = df_contagem_teste_uf_sim.sort_values(by='count', ascending=True)

# Criar um gráfico de barras com Plotly Express
fig = px.bar(df_contagem_teste_uf_sim, x='uf_sigla', y='count',
             title='Contagem de Testes por Estado',
             labels={'uf_sigla': 'Estados', 'count': 'Quantidade de Testes'},
            #  color='count',  color_continuous_scale= 'Blues'
             color_discrete_sequence=['steelblue'])

# Atualizar o layout do gráfico
fig.update_layout(xaxis={'categoryorder': 'total ascending'}, font=dict(size=15))

# Mostrar o gráfico
fig.show()


# Resultados dos testes

In [None]:
df_resultado = df[['uf','resultado_swab', 'resultado_sangue_coleta', 'resultado_sangue_dedo']]
df_resultado.head()

Unnamed: 0,uf,resultado_swab,resultado_sangue_coleta,resultado_sangue_dedo
0,rondonia,nao aplicavel,nao aplicavel,nao aplicavel
1,rondonia,nao aplicavel,nao aplicavel,nao aplicavel
2,rondonia,nao aplicavel,nao aplicavel,nao aplicavel
3,rondonia,nao aplicavel,nao aplicavel,nao aplicavel
4,rondonia,nao aplicavel,nao aplicavel,nao aplicavel


In [None]:
print(df_resultado['resultado_swab'].unique())

['nao aplicavel' 'positivo' 'negativo' 'inconclusivo'
 'nao recebeu o resultado']


In [None]:
# Dicionário de mapeamento de nomes - para a criação do mara os nomes dos estado devem estar corretos
mapeamento_estados = {
    'acre': 'Acre',
    'alagoas': 'Alagoas',
    'amapa': 'Amapá',
    'amazonas': 'Amazonas',
    'bahia': 'Bahia',
    'ceara': 'Ceará',
    'distrito federal': 'Distrito Federal',
    'espirito santo': 'Espírito Santo',
    'goias': 'Goiás',
    'maranhao': 'Maranhão',
    'mato grosso': 'Mato Grosso',
    'mato grosso do sul': 'Mato Grosso do Sul',
    'minas gerais': 'Minas Gerais',
    'para': 'Pará',
    'paraiba': 'Paraíba',
    'parana': 'Paraná',
    'pernambuco': 'Pernambuco',
    'piaui': 'Piauí',
    'rio de janeiro': 'Rio de Janeiro',
    'rio grande do norte': 'Rio Grande do Norte',
    'rio grande do sul': 'Rio Grande do Sul',
    'rondonia': 'Rondônia',
    'roraima': 'Roraima',
    'santa catarina': 'Santa Catarina',
    'sao paulo': 'São Paulo',
    'sergipe': 'Sergipe',
    'tocantins': 'Tocantins'
}

# Aplicar a substituição de nomes
df_resultado['uf'] = df_resultado['uf'].replace(mapeamento_estados)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [None]:
# Verifica se pelo menos uma das três colunas tem resultado positivo
def verificar_positivo(row):
    if row['resultado_swab'] == 'positivo' or row['resultado_sangue_coleta'] == 'positivo' or row['resultado_sangue_dedo'] == 'positivo':
        return 1
    else:
        return 0

# Aplica a função verificar_positivo para cada linha do DataFrame
df_resultado['total_positivos'] = df_resultado.apply(verificar_positivo, axis=1)

# Agrupa os dados por UF e soma o total de positivos
df_positivos_por_uf = df_resultado.groupby('uf')['total_positivos'].sum().reset_index()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [None]:
df_positivos_por_uf.head()

Unnamed: 0,uf,total_positivos
0,Acre,687
1,Alagoas,997
2,Amapá,535
3,Amazonas,1491
4,Bahia,1098


In [None]:
# Carregar o arquivo GeoJSON com os limites dos estados brasileiros
with urlopen('https://raw.githubusercontent.com/codeforamerica/click_that_hood/master/public/data/brazil-states.geojson') as response:
    brazil_states = json.load(response)

# Mapear os estados do Brasil
fig = px.choropleth(df_positivos_por_uf,
                    geojson=brazil_states,
                    locations='uf',
                    featureidkey='properties.name',
                    color='total_positivos',
                    hover_name='uf',
                    color_continuous_scale='blues')

# Atualizar o layout do mapa
fig.update_geos(projection_type="mercator", visible=False)

# Definir limites de visualização para o Brasil
fig.update_geos(projection_type="mercator", lataxis_range=[-35, 6], lonaxis_range=[-75, -30])
# Atualizar o layout do mapa
fig.update_layout(title='Casos Positivos de COVID-19 por Estado no Brasil', coloraxis_colorbar_title='Total de positivos', height=900)

# Mostrar o mapa
fig.show()

In [None]:
df_resultado_contato = df[['resultado_swab', 'resultado_sangue_coleta', 'resultado_sangue_dedo', 'restringiu_contato_fisico']]
df_resultado_contato.head()

Unnamed: 0,resultado_swab,resultado_sangue_coleta,resultado_sangue_dedo,restringiu_contato_fisico
0,nao aplicavel,nao aplicavel,nao aplicavel,reduziu o contato
1,nao aplicavel,nao aplicavel,nao aplicavel,reduziu o contato
2,nao aplicavel,nao aplicavel,nao aplicavel,ficou somente em casa
3,nao aplicavel,nao aplicavel,nao aplicavel,ficou somente em casa
4,nao aplicavel,nao aplicavel,nao aplicavel,reduziu o contato


In [None]:
# Verifica se pelo menos uma das três colunas tem resultado positivo
def verificar_positivo_contato(row):
    if row['resultado_swab'] == 'positivo' or row['resultado_sangue_coleta'] == 'positivo' or row['resultado_sangue_dedo'] == 'positivo':
        return 1
    else:
        return 0

# Aplica a função verificar_positivo para cada linha do DataFrame
df_resultado_contato['total_positivos'] = df_resultado_contato.apply(verificar_positivo_contato, axis=1)

# Verifica se pelo menos uma das três colunas tem resultado negativo
def verificar_negativo_contato(row):
    if row['resultado_swab'] == 'negativo' or row['resultado_sangue_coleta'] == 'negativo' or row['resultado_sangue_dedo'] == 'negativo':
        return 1
    else:
        return 0

# Aplica a função verificar_negativo para cada linha do DataFrame
df_resultado_contato['total_negativos'] = df_resultado_contato.apply(verificar_negativo_contato, axis=1)

# Agrupa os dados por UF e soma o total de positivos e negativos
df_contato_positivo_negativo = df_resultado_contato.groupby('restringiu_contato_fisico').agg({'total_positivos': 'sum', 'total_negativos': 'sum'}).reset_index()




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [None]:
df_contato_positivo_negativo

Unnamed: 0,restringiu_contato_fisico,total_positivos,total_negativos
0,ficou somente em casa,3586,8178
1,nao aplicavel,68,221
2,reduziu o contato,16947,54776
3,saiu para necessidade basica,10123,31134
4,sem restricao,2198,4709


In [None]:
# Ordenar o DataFrame por 'restringiu_contato_fisico' em ordem crescente
df_contato_positivo_negativo = df_contato_positivo_negativo.sort_values(by='total_negativos', ascending=False)

fig = px.bar(df_contato_positivo_negativo, x='restringiu_contato_fisico', y=['total_positivos', 'total_negativos'],
             title='Relação de Restrição de Contato Físico e Resultados de Testes',
             labels={'restringiu_contato_fisico': 'Restrição de Contato Físico', 'value': 'Quantidade', 'variable': 'Resultado'},
             color_discrete_map={'total_positivos': 'steelblue', 'total_negativos': 'skyblue'},
             barmode='group')

# Atualizar o layout do gráfico
fig.update_layout(font=dict(size=15))

# Atualizar a legenda
fig.update_traces(
    name='Positivo',
    selector=dict(name='total_positivos')
)

fig.update_traces(
    name='Negativo',
    selector=dict(name='total_negativos')
)

# Mostrar o gráfico
fig.show()


# Hospital

In [None]:
# Reunir as tabelas de sintomas
df_hospital = df[['hospital_publico', 'hospital_privado', 'pronto_socorro_publico', 'pronto_socorro_privado', 'posto_publico' , 'ambulatorio_privado']]
df_hospital.head()

Unnamed: 0,hospital_publico,hospital_privado,pronto_socorro_publico,pronto_socorro_privado,posto_publico,ambulatorio_privado
0,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel
1,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel
2,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel
3,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel
4,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel,nao aplicavel


In [None]:
contagem_hospitais = lambda col: col.value_counts()
# Aplicar a função em cada coluna
total_coluna = df_hospital.apply(contagem_hospitais)

total_coluna
# inverter coluna
# total_por_coluna_t = total_por_coluna.T
# total_por_coluna_t.head()

Unnamed: 0,hospital_publico,hospital_privado,pronto_socorro_publico,pronto_socorro_privado,posto_publico,ambulatorio_privado
nao aplicavel,1137505,1137499,1137490,1137505,1137471,1137509
nao,9568,10518,9288,11215,6135,10603
sim,2124,1180,2419,477,5591,1085


In [None]:
print(df_hospital['hospital_privado'].unique())

['nao aplicavel' 'nao' 'sim']


In [None]:
# Renomear as colunas
renomear = {
    'hospital_publico': 'Hospital Público',
    'hospital_privado': 'Hospital Privado',
    'pronto_socorro_publico': 'Pronto Socorro Público',
    'pronto_socorro_privado': 'Pronto Socorro Privado',
    'posto_publico': 'Posto Público',
    'ambulatorio_privado': 'Ambulatório Privado'
}
df_hospital = df_hospital.rename(columns=renomear)

In [None]:
df_hospital_plot = pd.DataFrame(df_hospital)

# Função para contar o número de 'sim' em uma coluna
count_sim = lambda col: col[col == 'sim'].count()

# Aplicar a função em cada coluna
total_sim_por_coluna = df_hospital_plot.apply(count_sim)

# Calcular percentual de 'sim' em relação ao total
total_respostas = len(df_hospital_plot)
percentual_sim = (total_sim_por_coluna / total_respostas) * 100

# Ordenar por ordem crescente
percentual_sim = percentual_sim.sort_values(ascending=False)

# Criar DataFrame com os resultados
df_plot = percentual_sim.reset_index()
df_plot.columns = ['Tipo de Atendimento', 'Percentual']

# Criar gráfico de barras horizontal com Plotly
fig = px.bar(df_plot, x='Tipo de Atendimento', y='Percentual',
             title='Local onde as pessoas mais buscaram atendimento medico',
             labels={'Tipo de Atendimento': 'Tipo de Atendimento', 'Percentual': 'Percentual'},
             color_discrete_sequence=['steelblue'])

# Adicionar rótulos aos gráficos de barras
for i in range(len(df_plot)):
    fig.add_annotation(y=df_plot['Percentual'][i], x=df_plot['Tipo de Atendimento'][i],
                       text=f"{df_plot['Percentual'][i]:.2f}%",
                       showarrow=False, font=dict(color='black', size=14),
                       yshift=10)

fig.update_layout(yaxis={'categoryorder':'total ascending'})
fig.show()
