# Problema

Imagine agora que você foi contratado(a) como Expert em Data Analytics por um grande hospital para entender como foi o comportamento da população na época da pandemia da COVID-19 e quais indicadores seriam importantes para o planejamento, caso haja um novo surto da doença.

Apesar de ser contratado(a) agora, a sua área observou que a utilização do estudo do PNAD-COVID 19 do
IBGE seria uma ótima base para termos boas respostas ao problema proposto, pois são dados confiáveis.
Porém, não será necessário utilizar todas as perguntas realizadas na pesquisa para enxergar todas as oportunidades ali postas.

É sempre bom ressaltar que há dados triviais que precisam estar no projeto, pois auxiliam muito na análise
dos dados:

* Características clínicas dos sintomas;
* Características da população;
* Características econômicas da sociedade.

PNAD-COVlD-19 do IBGE
O Head de Dados pediu para que você entrasse na base de dados do [PNAD-COVlD-19 do IBGE](https://covid19.ibge.gov.br/pnad-covid/) e organizasse esta base para análise, utilizando Banco de Dados em Nuvem e trazendo as seguintes características:

1. Utilização de no máximo 20 questionamentos realizados na
pesquisa;
2. Utilizar 3 meses para construção da solução;
3. Caracterização dos sintomas clínicos da população;
4. Comportamento da população na época da COVID-19;
5. Características econômicas da Sociedade;

Seu objetivo será trazer uma breve análise dessas informações, como foi a organização do banco, as perguntas selecionadas para a resposta do problema e quais seriam as principais ações que o hospital deverá tomar em caso de um novo surto de COVID-19.

**Dica:** Leiam com atenção a base de dados e toda a documentação que o site o PNAD - Covid 19 traz, principalmente os dicionários, que ajudam e muito no entendimento da Base de Dados.

**Dica 2:** Utilizem o que já foi ensinado e consolidado nas outras fases para apresentar a resolução do projeto.

[PNAD COVID19 - Downloads](https://www.ibge.gov.br/estatisticas/sociais/trabalho/27946-divulgacao-semanal-pnadcovid1.html?=&t=downloads)

In [175]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

In [176]:
df = pd.read_csv('/content/drive/MyDrive/PosTech_Analise_de_dados/FASE3/tech_challenge_3/dados/df_covid.csv')

In [179]:
df.shape

(1149197, 52)

In [180]:
df.head()

Unnamed: 0,uf,idade,sexo,cor,escolaridade,ensino_publico_privado,frequentou_escola,tipo_moradia,situacao_domiciliar,rendimento,...,diagnostico_depressao,diagnostico_cancer,afastado_trabalho,motivo_do_afastamento,remunerado_continua,mais_de_um_trabalho,tipo_trabalho,horas_trabalho_normal,trabalho_remoto_semana_passada,regiao
0,rondônia,36,homem,parda,médio completo,não aplicável,não aplicável,próprio - já pago,urbana,801 - 1.600,...,não,não,não aplicável,não aplicável,não aplicável,não,empregado do setor privado,48.0,não aplicável,Norte
1,rondônia,30,mulher,parda,superior completo,não aplicável,não aplicável,próprio - já pago,urbana,801 - 1.600,...,não,não,não aplicável,não aplicável,não aplicável,não,conta propria,36.0,não aplicável,Norte
2,rondônia,13,homem,parda,fundamental incompleto,não aplicável,sim,próprio - já pago,urbana,não aplicável,...,não,não,não aplicável,não aplicável,não aplicável,não aplicável,não aplicável,0.0,não aplicável,Norte
3,rondônia,11,homem,parda,fundamental incompleto,não aplicável,sim,próprio - já pago,urbana,não aplicável,...,não,não,não aplicável,não aplicável,não aplicável,não aplicável,não aplicável,0.0,não aplicável,Norte
4,rondônia,57,mulher,branca,fundamental incompleto,não aplicável,não aplicável,próprio - já pago,urbana,não aplicável,...,não,não,não,não aplicável,não aplicável,não aplicável,não aplicável,0.0,não aplicável,Norte


In [181]:
print(df.columns.to_list())

['uf', 'idade', 'sexo', 'cor', 'escolaridade', 'ensino_publico_privado', 'frequentou_escola', 'tipo_moradia', 'situacao_domiciliar', 'rendimento', 'restringiu_contato_fisico', 'febre', 'tosse', 'dor_garganta', 'dificuldade_respirar', 'dor_cabeca', 'dor_peito', 'nausea', 'nariz_entupido', 'fadiga', 'dor_olhos', 'perda_olfato_paladar', 'dor_muscular', 'diarreia', 'ida_unidade_saude', 'hospital_publico', 'hospital_privado', 'posto_publico', 'ambulatorio_privado', 'pronto_socorro_publico', 'pronto_socorro_privado', 'fez_teste', 'teste_swab', 'resultado_swab', 'teste_sangue_dedo', 'resultado_sangue_dedo', 'teste_sangue_coleta', 'resultado_sangue_coleta', 'diagnostico_diabetes', 'diagnostico_hipertensao', 'diagnostico_doenca_pulmao', 'diagnostico_doenca_cardiaca', 'diagnostico_depressao', 'diagnostico_cancer', 'afastado_trabalho', 'motivo_do_afastamento', 'remunerado_continua', 'mais_de_um_trabalho', 'tipo_trabalho', 'horas_trabalho_normal', 'trabalho_remoto_semana_passada', 'regiao']


## Média da idade

In [182]:
idade_media = round(df['idade'].mean())
print(f"A média de idade é {idade_media}")

A média de idade é 37


## Média da idade das Mulheres

In [159]:
df_mulher = df[df['sexo'] == 'mulher']
idade_media_mulher = round(df_mulher['idade'].mean())
print(f"A média de idade das mulheres é {idade_media_mulher}")

A média de idade das mulheres é 38


## Média da idade dos Homens


In [160]:
df_homem = df[df['sexo'] == 'homem']
idade_media_homem = round(df_homem['idade'].mean())
print(f"A média de idade das homem é {idade_media_homem}")

A média de idade das homem é 36


In [183]:
df_sexo = df['sexo'].value_counts()

labels = ['Mulher', 'Homem']
colors = ['skyblue', 'steelblue']

fig = go.Figure(data=[go.Pie(labels=labels, values=df_sexo, hole=.35, marker_colors=colors)])

fig.update_layout(
    title='Proporção entre Homens e Mulheres',
    font=dict(size=14),
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="center",
        x=0.5
    )
)

fig.show()

In [184]:
# Agrupar por região e sexo
df_sexo_regiao = df.groupby(['regiao', 'sexo']).size().unstack()

# Criar gráfico de barras
fig = go.Figure(data=[
    go.Bar(name='Mulher', x=df_sexo_regiao.index, y=df_sexo_regiao['mulher'], marker_color='skyblue'),
    go.Bar(name='Homem', x=df_sexo_regiao.index, y=df_sexo_regiao['homem'], marker_color='steelblue')
])

# Configurar layout
fig.update_layout(
    title='Homens e Mulheres por Região',
    xaxis_title='Região',
    yaxis_title='Quantidade',
    barmode='group'
)

# Exibir gráfico
fig.show()


In [163]:
# Agrupar os dados por idade e sexo
df_idade_sexo = df.groupby(['idade', 'sexo']).size().unstack()

# Criar a figura
fig = go.Figure()

# Adicionar as barras ao gráfico
fig.add_trace(go.Bar(x=df_idade_sexo.index, y=df_idade_sexo['mulher'], name='Mulher', offset=0, marker_color='skyblue'))
fig.add_trace(go.Bar(x=df_idade_sexo.index, y=df_idade_sexo['homem'], name='Homem', offset=0, opacity=0.7, marker_color='steelblue'))

# Atualizar layout do gráfico
fig.update_layout(
    barmode='overlay', # Sobrepor as barras
    xaxis_title='Idade',
    yaxis_title='Quantidade',
    title='Distribuição de Idade por Sexo'
)

# Exibir o gráfico
fig.show()


In [164]:
df_uf_sexo = df.groupby(['uf', 'sexo']).size().unstack()

df_uf_sexo = df_uf_sexo.sort_values(by='mulher', ascending=False)

fig = go.Figure()

fig.add_trace(go.Bar(x=df_uf_sexo.index, y=df_uf_sexo['mulher'], name='Mulher', marker_color='skyblue'))
fig.add_trace(go.Bar(x=df_uf_sexo.index, y=df_uf_sexo['homem'], name='Homem', opacity=0.7, marker_color='steelblue'))

fig.update_layout(
    xaxis_title='Estados',
    yaxis_title='Quantidade',
    title='Quantidade de Homens e Mulheres por Estado (uf)'
)


fig.show()

In [165]:
df_situacao_domiciliar = df['situacao_domiciliar'].value_counts().reset_index()
df_situacao_domiciliar.columns = ['situacao_domiciliar', 'quantidade']

fig = px.bar(df_situacao_domiciliar, x='situacao_domiciliar', y='quantidade',
             labels={'situacao_domiciliar': 'Situação Domiciliar', 'quantidade': 'Quantidade'},
            #  title='Distribuição da Situação Domiciliar',
             color='situacao_domiciliar', # Colore as barras de acordo com a situação domiciliar
             color_discrete_sequence=['steelblue', 'skyblue', 'lightgreen', 'orange'], # Define as cores para cada situação domiciliar
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Situação Domiciliar',
                  legend=dict(orientation='v', # Orientação horizontal
                              # y=1, # Posição vertical
                              # x=0.5, # Posição horizontal
                              # xanchor='center', # Ancoragem horizontal
                              # yanchor='bottom' # Ancoragem vertical
                             )
                 )

# Mostrar o gráfico
fig.show()


In [166]:
df_situacao_domiciliar = df['situacao_domiciliar'].value_counts()

labels = df_situacao_domiciliar.index.to_list()
colors = ['steelblue', 'skyblue', 'lightgreen', 'orange']

fig = go.Figure(data=[go.Pie(labels=labels, values=df_situacao_domiciliar, hole=.35, marker_colors=colors)])

fig.update_layout(
    title='Proporção da Situação Domiciliar',
    legend_title="Situação Domiciliar",
    font=dict(
        size=15
    )
)

fig.show()


In [167]:
# Calcular a contagem de valores únicos na coluna 'cor_raca'
df_cor_raca = df['cor'].value_counts().reset_index()
df_cor_raca.columns = ['cor', 'quantidade']

# Calcular o percentual de cada cor/raça
total_registros = df_cor_raca['quantidade'].sum()
df_cor_raca['percentual'] = round(df_cor_raca['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
df_cor_raca = df_cor_raca[df_cor_raca['cor'] != 'Ignorado']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_cor_raca, x='cor', y='percentual', text='percentual',
             labels={'cor': 'Cor/Raça', 'percentual': 'Percentual'},
             title='Distribuição por Cor/Raça',
             color='cor', # Colore as barras de acordo com a cor/raca
            #  color_discrete_sequence=px.colors.sequential.Blues_r # Define as cores para cada cor/raca
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Cor/Raça', showlegend=False)

# Mostrar o gráfico
fig.show()

In [168]:
# Calcular a contagem de valores únicos na coluna 'escolaridade'
df_escolaridade = df['escolaridade'].value_counts().reset_index()
df_escolaridade.columns = ['escolaridade', 'quantidade']

# Calcular o percentual de cada escolaridade
total_registros = df_escolaridade['quantidade'].sum()
df_escolaridade['percentual'] = round(df_escolaridade['quantidade'] / total_registros * 100, 2)

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_escolaridade, x='escolaridade', y='percentual', text='percentual',
             labels={'escolaridade': 'Escolaridade', 'percentual': 'Percentual'},
             title='Distribuição por Escolaridade',
             color='escolaridade', # Colore as barras de acordo com a escolaridade
            #  color_discrete_sequence=px.colors.sequential.Blues_r # Define as cores para cada escolaridade
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para remover a legenda
fig.update_layout(
    legend_title='Escolaridade',
    showlegend=False
)

# Mostrar o gráfico
fig.show()


In [169]:
# Calcular a contagem de valores únicos na coluna 'tipo_moradia'
df_tipo_moradia = df['tipo_moradia'].value_counts().reset_index()
df_tipo_moradia.columns = ['tipo_moradia', 'quantidade']

# Calcular o percentual de cada tipo de moradia
total_registros = df_tipo_moradia['quantidade'].sum()
df_tipo_moradia['percentual'] = round(df_tipo_moradia['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
df_tipo_moradia = df_tipo_moradia[df_tipo_moradia['tipo_moradia'] != 'Ignorado']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_tipo_moradia, x='tipo_moradia', y='percentual', text='percentual',
             labels={'tipo_moradia': 'Tipo de Moradia', 'percentual': 'Percentual'},
             title='Distribuição por Tipo de Moradia',
             color='tipo_moradia', # Colore as barras de acordo com o tipo de moradia
            #  color_discrete_sequence=px.colors.sequential.Blues_r # Define as cores para cada tipo de moradia
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Tipo de Moradia', showlegend=False)

# Mostrar o gráfico
fig.show()


In [170]:
# Calcular a contagem de valores únicos na coluna 'tipo_trabalho'
df_tipo_trabalho = df['tipo_trabalho'].value_counts().reset_index()
df_tipo_trabalho.columns = ['tipo_trabalho', 'quantidade']

# Calcular o percentual de cada tipo de trabalho
total_registros = df_tipo_trabalho['quantidade'].sum()
df_tipo_trabalho['percentual'] = round(df_tipo_trabalho['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'nao aplicavel' dos dados
df_tipo_trabalho = df_tipo_trabalho[df_tipo_trabalho['tipo_trabalho'] != 'não aplicável']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_tipo_trabalho, x='tipo_trabalho', y='percentual', text='percentual',
             labels={'tipo_trabalho': 'Tipo de Trabalho', 'percentual': 'Percentual'},
             title='Distribuição por Tipo de Trabalho',
             color='tipo_trabalho', # Colore as barras de acordo com o tipo de trabalho
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Tipo de Trabalho', showlegend=False)

# Mostrar o gráfico
fig.show()


In [171]:
# Calcular a contagem de valores únicos na coluna 'restricao_contrato'
df_restricao_contrato = df['restringiu_contato_fisico'].value_counts().reset_index()
df_restricao_contrato.columns = ['restringiu_contato_fisico', 'quantidade']

# Calcular o percentual de cada tipo de restrição de contrato
total_registros = df_restricao_contrato['quantidade'].sum()
df_restricao_contrato['percentual'] = round(df_restricao_contrato['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
df_restricao_contrato = df_restricao_contrato[df_restricao_contrato['restringiu_contato_fisico'] != 'não aplicável']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_restricao_contrato, x='restringiu_contato_fisico', y='percentual', text='percentual',
             labels={'restringiu_contato_fisico': 'Restrição de Contrato', 'percentual': 'Percentual'},
             title='Distribuição por Restrição de Contrato',
             color='restringiu_contato_fisico', # Colore as barras de acordo com a restrição de contrato
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Restrição de Contrato', showlegend=False)

# Mostrar o gráfico
fig.show()

In [172]:
# Calcular a contagem de valores únicos na coluna 'solicitou_emprestimo'
df_emprestimo = df['rendimento'].value_counts().reset_index()
df_emprestimo.columns = ['rendimento', 'quantidade']

# Calcular o percentual de cada tipo de emprestimo
total_registros = df_emprestimo['quantidade'].sum()
df_emprestimo['percentual'] = round(df_emprestimo['quantidade'] / total_registros * 100, 2)

# Remover a categoria 'Ignorado' dos dados
df_emprestimo = df_emprestimo[df_emprestimo['rendimento'] != 'não aplicável']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_emprestimo, x='rendimento', y='percentual', text='percentual',
             labels={'rendimento': 'Rendimento', 'percentual': 'Percentual'},
             title='Rendimento',
             color='rendimento', # Colore as barras de acordo com a solicitação de emprestimo
            #  color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada solicitação de emprestimo
             color_discrete_sequence=['steelblue']

            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title='Rendimento', showlegend=False)

# Mostrar o gráfico
fig.show()


In [173]:
df_ensino_publico_privado = df['ensino_publico_privado'].value_counts().reset_index()
df_ensino_publico_privado.columns = ['ensino_publico_privado', 'quantidade']

# Calcular o percentual de cada tipo de ensino_publico_privado
total_registros = df_ensino_publico_privado['quantidade'].sum()
df_ensino_publico_privado['percentual'] = round(df_ensino_publico_privado['quantidade'] / total_registros * 100, 2)


# Remover a categoria 'Ignorado' dos dados
df_ensino_publico_privado = df_ensino_publico_privado[df_ensino_publico_privado['ensino_publico_privado'] != 'não aplicável']

# Criar o gráfico de barras com Plotly Express
fig = px.bar(df_ensino_publico_privado, x='ensino_publico_privado', y='percentual', text='percentual',
             labels={'ensino_publico_privado': 'Ensino', 'percentual': 'Percentual'},
             title='Estudou ou estuda em Escola/Faculdade publica ou privada',
             color='ensino_publico_privado', # Colore as barras de acordo com o seguro_desemprego
            #  color_discrete_sequence=px.colors.sequential.Bluyl_r # Define as cores para cada seguro_desemprego
             color_discrete_sequence=['steelblue']
            )

# Atualizar o layout para colocar a legenda na parte de baixo
fig.update_layout(legend_title=' ', showlegend=False)

# Mostrar o gráfico
fig.show()
