# Problema

Imagine agora que você foi contratado(a) como Expert em Data Analytics por um grande hospital para entender como foi o comportamento da população na época da pandemia da COVID-19 e quais indicadores seriam importantes para o planejamento, caso haja um novo surto da doença.

Apesar de ser contratado(a) agora, a sua área observou que a utilização do estudo do PNAD-COVID 19 do
IBGE seria uma ótima base para termos boas respostas ao problema proposto, pois são dados confiáveis.
Porém, não será necessário utilizar todas as perguntas realizadas na pesquisa para enxergar todas as oportunidades ali postas.

É sempre bom ressaltar que há dados triviais que precisam estar no projeto, pois auxiliam muito na análise
dos dados:

* Características clínicas dos sintomas;
* Características da população;
* Características econômicas da sociedade.

PNAD-COVlD-19 do IBGE
O Head de Dados pediu para que você entrasse na base de dados do [PNAD-COVlD-19 do IBGE](https://covid19.ibge.gov.br/pnad-covid/) e organizasse esta base para análise, utilizando Banco de Dados em Nuvem e trazendo as seguintes características:

1. Utilização de no máximo 20 questionamentos realizados na
pesquisa;
2. Utilizar 3 meses para construção da solução;
3. Caracterização dos sintomas clínicos da população;
4. Comportamento da população na época da COVID-19;
5. Características econômicas da Sociedade;

Seu objetivo será trazer uma breve análise dessas informações, como foi a organização do banco, as perguntas selecionadas para a resposta do problema e quais seriam as principais ações que o hospital deverá tomar em caso de um novo surto de COVID-19.

**Dica:** Leiam com atenção a base de dados e toda a documentação que o site o PNAD - Covid 19 traz, principalmente os dicionários, que ajudam e muito no entendimento da Base de Dados.

**Dica 2:** Utilizem o que já foi ensinado e consolidado nas outras fases para apresentar a resolução do projeto.

[PNAD COVID19 - Downloads](https://www.ibge.gov.br/estatisticas/sociais/trabalho/27946-divulgacao-semanal-pnadcovid1.html?=&t=downloads)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

In [None]:
df = pd.read_csv('/content/drive/MyDrive/PosTech_Analise_de_dados/FASE3/tech_challenge_3/dados/df_covid.csv')

In [None]:
df.shape

(1149197, 53)

In [None]:
df.head()

Unnamed: 0,uf,situacao_domiciliar,mes,idade,sexo,cor,escolaridade,trabalhou_semana_passada,tipo_moradia,febre,...,mais_de_um_trabalho,tipo_trabalho,horas_trabalho_normal,horas_trabalho_semana_passada,trabalho_remoto_semana_passada,valor_recebido_seguro_desemprego,auxilios_emergenciais_coronavirus,valor_recebido_auxilios_emergenciais,seguro_desemprego,solicitou_emprestimo
0,Rondônia,Urbana,9,36,Homem,Parda,Médio completo,Sim,Próprio - já pago,Não,...,Não / Não aplicável,Empregado do setor privado,48.0,48.0,Ignorado / Não aplicável,0.0,Sim,1200.0,Não,Não solicitou
1,Rondônia,Urbana,9,30,Mulher,Parda,Superior completo,Sim,Próprio - já pago,Não,...,Não / Não aplicável,Conta própria,36.0,36.0,Ignorado / Não aplicável,0.0,Sim,1200.0,Não,Não solicitou
2,Rondônia,Urbana,9,13,Homem,Parda,Fundamental incompleto,Ignorado / Não aplicável,Próprio - já pago,Não,...,Ignorado / Não aplicável,Não aplicável,0.0,0.0,Ignorado / Não aplicável,0.0,Sim,1200.0,Não,Não solicitou
3,Rondônia,Urbana,9,11,Homem,Parda,Fundamental incompleto,Ignorado / Não aplicável,Próprio - já pago,Não,...,Ignorado / Não aplicável,Não aplicável,0.0,0.0,Ignorado / Não aplicável,0.0,Sim,1200.0,Não,Não solicitou
4,Rondônia,Urbana,9,57,Mulher,Branca,Fundamental incompleto,Não / Não aplicável,Próprio - já pago,Não,...,Ignorado / Não aplicável,Não aplicável,0.0,0.0,Ignorado / Não aplicável,0.0,Não,0.0,Não,Não solicitou


In [None]:
print(df.columns.to_list())

['uf', 'situacao_domiciliar', 'mes', 'idade', 'sexo', 'cor', 'escolaridade', 'trabalhou_semana_passada', 'tipo_moradia', 'febre', 'tosse', 'dor_garganta', 'dificuldade_respirar', 'dor_cabeca', 'dor_peito', 'nausea', 'nariz_entupido', 'fadiga', 'dor_olhos', 'perda_olfato_paladar', 'dor_muscular', 'diarreia', 'ida_unidade_saude', 'posto_publico', 'pronto_socorro_publico', 'hospital_publico', 'ambulatorio_privado', 'pronto_socorro_privado', 'hospital_privado', 'fez_teste', 'teste_swab', 'resultado_swab', 'teste_sangue_dedo', 'resultado_sangue_dedo', 'teste_sangue_coleta', 'resultado_sangue_coleta', 'diagnostico_diabetes', 'diagnostico_hipertensao', 'diagnostico_doenca_pulmao', 'diagnostico_doenca_cardiaca', 'diagnostico_depressao', 'diagnostico_cancer', 'contato_restricao', 'mais_de_um_trabalho', 'tipo_trabalho', 'horas_trabalho_normal', 'horas_trabalho_semana_passada', 'trabalho_remoto_semana_passada', 'valor_recebido_seguro_desemprego', 'auxilios_emergenciais_coronavirus', 'valor_recebi

## Média da idade

In [None]:
idade_media = round(df['idade'].mean())
print(f"A média de idade é {idade_media}")

A média de idade é 37


## Média da idade das Mulheres

In [None]:
df_mulher = df[df['sexo'] == 'Mulher']
idade_media_mulher = round(df_mulher['idade'].mean())
print(f"A média de idade das mulheres é {idade_media_mulher}")

A média de idade das mulheres é 38


## Média da idade dos Homens


In [None]:
df_homem = df[df['sexo'] == 'Homem']
idade_media_homem = round(df_homem['idade'].mean())
print(f"A média de idade das homem é {idade_media_homem}")

A média de idade das homem é 36


In [None]:
# Calcular a contagem de valores únicos na coluna 'sexo'
df_sexo = df['sexo'].value_counts().reset_index()
df_sexo.columns = ['sexo', 'quantidade']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_sexo, x='sexo', y='quantidade',
             labels={'sexo': 'Sexo', 'quantidade': 'Quantidade'},
             title='Distribuição de Sexo',
             color='sexo', # Colore as barras de acordo com o sexo
             color_discrete_sequence=['steelblue', 'darksalmon'], # Define as cores para cada sexo
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Sexo',
                  legend=dict(orientation='h', # Orientação horizontal
                              y=1, # Posição vertical
                              x=0.5, # Posição horizontal
                              xanchor='center', # Ancoragem horizontal
                              yanchor='bottom' # Ancoragem vertical
                             )
                 )

# Mostrar o gráfico
fig.show()


In [None]:
df_sexo = df['sexo'].value_counts()

labels = ['Mulher', 'Homem']
colors = ['darksalmon', 'steelblue']

fig = go.Figure(data=[go.Pie(labels=labels, values=df_sexo, hole=.35, marker_colors=colors)])

fig.update_layout(
    title='Proporção de Homens e Mulheres',
    legend_title="Sexo",
    font=dict(
        size=15
    )
)

fig.show()


In [None]:
# Agrupar os dados por idade e sexo
df_idade_sexo = df.groupby(['idade', 'sexo']).size().unstack()

# Criar a figura
fig = go.Figure()

# Adicionar as barras ao gráfico
fig.add_trace(go.Bar(x=df_idade_sexo.index, y=df_idade_sexo['Mulher'], name='Mulher', offset=0, marker_color='darksalmon'))
fig.add_trace(go.Bar(x=df_idade_sexo.index, y=df_idade_sexo['Homem'], name='Homem', offset=0, opacity=0.7, marker_color='steelblue'))

# Atualizar layout do gráfico
fig.update_layout(
    barmode='overlay', # Sobrepor as barras
    xaxis_title='Idade',
    yaxis_title='Quantidade',
    title='Distribuição de Idade por Sexo'
)

# Exibir o gráfico
fig.show()


In [None]:
# Ordenar as UF por quantidade decrescente
df_sexo_uf_sorted = df_sexo_uf.sort_values('Homem', ascending=False)

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_sexo_uf_sorted, x=df_sexo_uf_sorted.index, y=['Mulher', 'Homem'],
             labels={'x': 'UF', 'y': 'Quantidade', 'variable': 'Sexo'},
             title='Distribuição de Sexo por UF',
             color_discrete_sequence=['darksalmon', 'steelblue'], # Define as cores para cada sexo
             barmode='group' # Agrupar as barras
            )

# Atualizar o layout do gráfico
fig.update_layout(
    legend_title='Sexo',
    legend=dict(orientation='h', # Orientação horizontal
                y=1.02, # Posição vertical
                x=0.5, # Posição horizontal
                xanchor='center', # Ancoragem horizontal
                yanchor='bottom' # Ancoragem vertical
               ),
    xaxis_title='UF',
    yaxis_title='Quantidade'
)

# Mostrar o gráfico
fig.show()


In [None]:
df_situacao_domiciliar = df['situacao_domiciliar'].value_counts().reset_index()
df_situacao_domiciliar.columns = ['situacao_domiciliar', 'quantidade']

fig = px.bar(df_situacao_domiciliar, x='situacao_domiciliar', y='quantidade',
             labels={'situacao_domiciliar': 'Situação Domiciliar', 'quantidade': 'Quantidade'},
             title='Distribuição da Situação Domiciliar',
             color='situacao_domiciliar', # Colore as barras de acordo com a situação domiciliar
             color_discrete_sequence=['steelblue', 'darksalmon', 'lightgreen', 'orange'], # Define as cores para cada situação domiciliar
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Situação Domiciliar',
                  legend=dict(orientation='h', # Orientação horizontal
                              y=1, # Posição vertical
                              x=0.5, # Posição horizontal
                              xanchor='center', # Ancoragem horizontal
                              yanchor='bottom' # Ancoragem vertical
                             )
                 )

# Mostrar o gráfico
fig.show()


In [None]:
# Calcular a contagem de valores únicos na coluna 'cor_raca'
df_cor_raca = df['cor'].value_counts().reset_index()
df_cor_raca.columns = ['cor', 'quantidade']

# Calcular o percentual de cada cor/raça
total_registros = df_cor_raca['quantidade'].sum()
df_cor_raca['percentual'] = round(df_cor_raca['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
df_cor_raca = df_cor_raca[df_cor_raca['cor'] != 'Ignorado']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_cor_raca, x='cor', y='percentual', text='percentual',
             labels={'cor': 'Cor/Raça', 'percentual': 'Percentual'},
             title='Distribuição por Cor/Raça',
             color='cor', # Colore as barras de acordo com a cor/raca
             color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada cor/raca
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Cor/Raça', showlegend=False)

# Mostrar o gráfico
fig.show()

In [None]:
# Calcular a contagem de valores únicos na coluna 'escolaridade'
df_escolaridade = df['escolaridade'].value_counts().reset_index()
df_escolaridade.columns = ['escolaridade', 'quantidade']

# Calcular o percentual de cada escolaridade
total_registros = df_escolaridade['quantidade'].sum()
df_escolaridade['percentual'] = round(df_escolaridade['quantidade'] / total_registros * 100, 2)

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_escolaridade, x='escolaridade', y='percentual', text='percentual',
             labels={'escolaridade': 'Escolaridade', 'percentual': 'Percentual'},
             title='Distribuição por Escolaridade',
             color='escolaridade', # Colore as barras de acordo com a escolaridade
             color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada escolaridade
            )

# Atualizar o layout para remover a legenda
fig.update_layout(
    legend_title='Escolaridade',
    showlegend=False
)

# Mostrar o gráfico
fig.show()


In [None]:
# Calcular a contagem de valores únicos na coluna 'tipo_moradia'
df_tipo_moradia = df['tipo_moradia'].value_counts().reset_index()
df_tipo_moradia.columns = ['tipo_moradia', 'quantidade']

# Calcular o percentual de cada tipo de moradia
total_registros = df_tipo_moradia['quantidade'].sum()
df_tipo_moradia['percentual'] = round(df_tipo_moradia['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
df_tipo_moradia = df_tipo_moradia[df_tipo_moradia['tipo_moradia'] != 'Ignorado']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_tipo_moradia, x='tipo_moradia', y='percentual', text='percentual',
             labels={'tipo_moradia': 'Tipo de Moradia', 'percentual': 'Percentual'},
             title='Distribuição por Tipo de Moradia',
             color='tipo_moradia', # Colore as barras de acordo com o tipo de moradia
             color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada tipo de moradia
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Tipo de Moradia', showlegend=False)

# Mostrar o gráfico
fig.show()


In [None]:
# Calcular a contagem de valores únicos na coluna 'tipo_trabalho'
df_tipo_trabalho = df['tipo_trabalho'].value_counts().reset_index()
df_tipo_trabalho.columns = ['tipo_trabalho', 'quantidade']

# Calcular o percentual de cada tipo de trabalho
total_registros = df_tipo_trabalho['quantidade'].sum()
df_tipo_trabalho['percentual'] = round(df_tipo_trabalho['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
df_tipo_trabalho = df_tipo_trabalho[df_tipo_trabalho['tipo_trabalho'] != 'Ignorado']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_tipo_trabalho, x='tipo_trabalho', y='percentual', text='percentual',
             labels={'tipo_trabalho': 'Tipo de Trabalho', 'percentual': 'Percentual'},
             title='Distribuição por Tipo de Trabalho',
             color='tipo_trabalho', # Colore as barras de acordo com o tipo de trabalho
             color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada tipo de trabalho
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Tipo de Trabalho', showlegend=False)

# Mostrar o gráfico
fig.show()


In [None]:
# Calcular a contagem de valores únicos na coluna 'restricao_contrato'
df_restricao_contrato = df['contato_restricao'].value_counts().reset_index()
df_restricao_contrato.columns = ['contato_restricao', 'quantidade']

# Calcular o percentual de cada tipo de restrição de contrato
total_registros = df_restricao_contrato['quantidade'].sum()
df_restricao_contrato['percentual'] = round(df_restricao_contrato['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
df_restricao_contrato = df_restricao_contrato[df_restricao_contrato['contato_restricao'] != 'Ignorado']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_restricao_contrato, x='contato_restricao', y='percentual', text='percentual',
             labels={'contato_restricao': 'Restrição de Contrato', 'percentual': 'Percentual'},
             title='Distribuição por Restrição de Contrato',
             color='contato_restricao', # Colore as barras de acordo com a restrição de contrato
             color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada restrição de contrato
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Restrição de Contrato', showlegend=False)

# Mostrar o gráfico
fig.show()

In [None]:
# Calcular a contagem de valores únicos na coluna 'solicitou_emprestimo'
df_emprestimo = df['solicitou_emprestimo'].value_counts().reset_index()
df_emprestimo.columns = ['solicitou_emprestimo', 'quantidade']

# Calcular o percentual de cada tipo de emprestimo
total_registros = df_emprestimo['quantidade'].sum()
df_emprestimo['percentual'] = round(df_emprestimo['quantidade'] / total_registros * 100, 2)

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_emprestimo, x='solicitou_emprestimo', y='percentual', text='percentual',
             labels={'solicitou_emprestimo': 'Solicitou Empréstimo', 'percentual': 'Percentual'},
             title='Distribuição de Solicitação de Empréstimo',
             color='solicitou_emprestimo', # Colore as barras de acordo com a solicitação de emprestimo
             color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada solicitação de emprestimo
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Solicitação de Empréstimo', showlegend=False)

# Mostrar o gráfico
fig.show()


In [None]:
df_seguro_desemprego = df['seguro_desemprego'].value_counts().reset_index()
df_seguro_desemprego.columns = ['seguro_desemprego', 'quantidade']

# Calcular o percentual de cada tipo de seguro_desemprego
total_registros = df_seguro_desemprego['quantidade'].sum()
df_seguro_desemprego['percentual'] = round(df_seguro_desemprego['quantidade'] / total_registros * 100, 2)

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_seguro_desemprego, x='seguro_desemprego', y='percentual', text='percentual',
             labels={'seguro_desemprego': 'Seguro Desemprego', 'percentual': 'Percentual'},
             title='Distribuição de Seguro Desemprego',
             color='seguro_desemprego', # Colore as barras de acordo com o seguro_desemprego
             color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada seguro_desemprego
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Seguro Desemprego', showlegend=False)

# Mostrar o gráfico
fig.show()
