# Introdução

Neste notebook, consta análise feita para a reportagem [Covid-19: Uma criança de 0 a 4 anos de idade morreu por semana no Ceará](https://mais.opovo.com.br/jornal/reportagem/2022/07/07/covid-19-uma-crianca-de-0-a-4-anos-de-idade-morreu-por-semana-no-ceara.html), publicada no [O POVO+](https://mais.opovo.com.br/home) no dia xx de julho de 2022. O material é fruto de uma colaboração entre a Central de Jornalismo de Dados (DATADOC) e o núcleo de Cotidiano do Jornal O POVO. O texto é assinado pelo repórter [Gabriel Borges](https://www.opovo.com.br/noticias/autor/?autor=gabriel-borges).

Os dados foram levantados a partir do Boletim Covid-19, disponível no IntegraSUS, plataforma da Secretaria da Saúde do Estado do Ceará (Sesa) no dia 18 de julho de 2022.

Inicialmente, foram raspados os dados de óbitos por Covid-19 no Ceará, por faixa etária, desde o início de 2020 até a data da coleta. Em seguida, foram filtrados os óbitos entre crianças de 0 a 2 anos e de 3 a 4 anos de idade.

Com esse filtro, foram calculados os óbitos nessas idades por ano (2020, 2021 e 2022 — nesse último caso, até 18 de julho) e no período de 1º de janeiro a 18 de julho de cada um desses anos, além do percentual representado pelas faixas etárias (0 a 2 anos e 3 a 4 anos) nesses óbitos pela doença até o momento da análise.

## Índice
[Parte 1. Coleta de dados](#parte1)

[Parte 2. Análise de dados](#parte2)

*   [Contextualizando as mortes de crianças de 0 a 4 anos desde o primeiro óbito por Covid-19 confirmado no Ceará](#contextualizando);
*   [Como os óbitos de crianças de 0 a 4 anos comportaram-se por ano, considerando o período total de 2020 a 2022? E comparando o intervalo de 1º de janeiro a 18 de julho para os três anos?](#comportamento);
*   [O que cada faixa etária (0 a 2 / 3 a 4) representou, percentualmente, no total de óbitos por Covid-19 entre essas crianças?](#percentual)



**EXPEDIENTE**

**Edição DATADOC**

Thays Lavor

**Análise e visualização de dados**

Gabriela Custódio

In [57]:
import pandas as pd
import numpy as np
from datetime import datetime

# Parte 1. Coleta de dados <a name="parte1"></a>

Para refazer a análise com os dados utilizados na matéria, **não executar** este passo

In [None]:
#  criando a função consultaIntegra

def consultaIntegraObitos(data):
  url = 'https://integrasus.saude.ce.gov.br/api/coronavirus/qtd-por-faixa-etaria?dataInicio=2020-01-01&dataFim={}&minDate=2020-01-01&maxDate=2022-07-10&tipo=%C3%93bitos&idMunicipio=&idRegiaoSaude=&idMacrorregiao=&casosHospitalizados=false&casosProfissionais=false&casosIndigenas=false&casosEstudante=false'.format(data)
  df = pd.read_json(url)
  df['data'] = data
  return df;

In [None]:
# criando série com dias entre duas datas

pdRange = pd.date_range(start=pd.to_datetime('2020-01-01'), end=datetime.today()).to_series()
print(datetime.today())
print(f'Número de dias: {pdRange.shape[0]}')

2022-07-19 02:12:32.115915
Número de dias: 931


In [None]:
# fazendo uma consulta para cada data e concatenando tudo em um único dataset;

dados_obitos = pd.concat([consultaIntegraObitos(x.strftime("%Y-%m-%d")) for x,y in pdRange.iteritems()], ignore_index=True)

In [None]:
print('Última Atualização 18/07/2022 08:29:46')

Última Atualização 18/07/2022 08:29:46


In [None]:
dados_obitos.to_csv('20220718_df_obitos_por_idade.csv', index=False)

# Parte 2. Análise de dados <a name="parte2"></a>

Para reproduzir a análise da reportagem, executar **a partir daqui**

In [58]:
obitos_idade = 'arquivos_gerados/20220718_df_obitos_por_idade.csv'
df_obitos_idade = pd.read_csv(obitos_idade)

In [59]:
df_obitos_faixaEtaria = df_obitos_idade[['data', 'faixaEtaria', 'quantidade']]

In [60]:
df_obitos_faixaEtaria

Unnamed: 0,data,faixaEtaria,quantidade
0,2020-01-01,00-02,0
1,2020-01-01,03-04,0
2,2020-01-01,05-11,0
3,2020-01-01,12-17,0
4,2020-01-01,18-30,0
...,...,...,...
11904,2022-07-19,61-70,5403
11905,2022-07-19,71-79,5957
11906,2022-07-19,80 ou mais,7878
11907,2022-07-19,Não informado,0


In [61]:
pivot_obitos = pd.pivot_table(df_obitos_faixaEtaria, index='data', columns='faixaEtaria')
pivot_obitos = pivot_obitos.sort_values(by='data')

In [62]:
pivot_obitos.head(15)

Unnamed: 0_level_0,quantidade,quantidade,quantidade,quantidade,quantidade,quantidade,quantidade,quantidade,quantidade,quantidade,quantidade,quantidade,quantidade
faixaEtaria,00-02,03-04,05-11,12-17,18-30,31-40,41-50,51-60,61-70,71-79,80 ou mais,Não Informado,Não informado
data,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
2020-01-01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-02,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-03,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-04,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-05,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-06,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-07,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-08,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-09,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,
2020-01-10,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,


In [63]:
faixa_etaria = df_obitos_idade['faixaEtaria'].drop_duplicates().to_list()

lista_df_diff = []
for idade in faixa_etaria:
  df_diff = pivot_obitos['quantidade'][idade].diff()
  lista_df_diff.append(df_diff)

df_lista_diff = pd.DataFrame(lista_df_diff).T.reset_index()
df_lista_diff.fillna(0.0, inplace=True)

In [64]:
df_lista_diff.tail()

Unnamed: 0,data,00-02,03-04,05-11,12-17,18-30,31-40,41-50,51-60,61-70,71-79,80 ou mais,Não Informado,Não informado
926,2022-07-15,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
927,2022-07-16,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
928,2022-07-17,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
929,2022-07-18,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
930,2022-07-19,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [65]:
# transformando em formato tidy data

df_diff_tidy = pd.melt(df_lista_diff, id_vars=['data']).rename(columns={'variable': 'faixaEtaria', 'value': 'quantidade'})
df_diff_tidy['faixaEtaria'] = df_diff_tidy['faixaEtaria'].str.replace('Não informado', 'Não Informado')
df_diff_tidy.sort_values(by=['data', 'faixaEtaria'], inplace=True)

In [66]:
df_diff_tidy.tail()

Unnamed: 0,data,faixaEtaria,quantidade
8378,2022-07-19,61-70,0.0
9309,2022-07-19,71-79,0.0
10240,2022-07-19,80 ou mais,0.0
11171,2022-07-19,Não Informado,0.0
12102,2022-07-19,Não Informado,0.0


In [67]:
# criar colunas 'mes/ano', 'ano' e 'acumulado'

obitos_00_04 = df_diff_tidy[df_diff_tidy['faixaEtaria'].isin(['00-02', '03-04'])]
obitos_00_04 = obitos_00_04.sort_values(by='data')
obitos_00_04['mes/ano'] = obitos_00_04['data'].str.slice(start=0, stop=7)
obitos_00_04['ano'] = obitos_00_04['data'].str.slice(start=0, stop=4)
obitos_00_04['acumulado'] = obitos_00_04['quantidade'].cumsum()

In [68]:
# arquivo para gráfico de área com óbitos acumulados

obitos_00_04.to_csv('arquivos_gerados/20220718_df_obitos_00_04_acumulados_grafico.csv', index=False)

> **Contextualizando as mortes de crianças de 0 a 4 anos desde o primeiro óbito por Covid-19 confirmado no Ceará:** <a name="contextualizando"></a>

In [69]:
obitos_00_04['date'] = pd.to_datetime(obitos_00_04['data'], format = '%Y-%m-%d')
obitos_00_04['ano_semana'] = pd.to_datetime(obitos_00_04['data'], format = '%Y-%m-%d').dt.strftime('%Y-%W')

In [70]:
# cálculo de data desde 26 de março de 2020

primeiro_obito = pd.date_range(start=pd.to_datetime('2020-03-26'), end=pd.to_datetime('2022-07-18')).to_series()
print(f'Total de dias desde o primeiro óbito por Covid-19 no Estado: {primeiro_obito.shape[0]}')

Total de dias desde o primeiro óbito por Covid-19 no Estado: 845


In [71]:
semanas = obitos_00_04[(obitos_00_04['date'] > '2020-03-26') & (obitos_00_04['date'] <= '2022-07-18')]['ano_semana'].nunique()
print('Total de semanas:', semanas)

Total de semanas: 124


In [72]:
total_de_obitos = int(obitos_00_04[obitos_00_04['date'] >= '2020-03-26']['quantidade'].sum())
print('Total de óbitos de crianças de 0 a 4 anos por Covid-19 no CE:', total_de_obitos)

Total de óbitos de crianças de 0 a 4 anos por Covid-19 no CE: 151


In [73]:
print(f'Dias desde o primeiro óbito, em 26 de março de 2020: {primeiro_obito.shape[0]}')
print('Total de óbitos por Covid-19 em crianças de 00 a 04 anos no CE:', total_de_obitos)
print('Assim, foram', round(obitos_00_04['quantidade'].sum()/ 830,3), 'óbitos por dia ou', round(total_de_obitos/semanas,1), 'óbito por semana')

Dias desde o primeiro óbito, em 26 de março de 2020: 845
Total de óbitos por Covid-19 em crianças de 00 a 04 anos no CE: 151
Assim, foram 0.182 óbitos por dia ou 1.2 óbito por semana


> **Como os óbitos de crianças de 0 a 4 anos comportaram-se por ano, considerando o período total de 2020 a 2022? E comparando o intervalo de 1º de janeiro a 18 de julho para os três anos?** <a name="comportamento"></a>



In [74]:
obitos_00_04.head()

Unnamed: 0,data,faixaEtaria,quantidade,mes/ano,ano,acumulado,date,ano_semana
0,2020-01-01,00-02,0.0,2020-01,2020,0.0,2020-01-01,2020-00
931,2020-01-01,03-04,0.0,2020-01,2020,0.0,2020-01-01,2020-00
1,2020-01-02,00-02,0.0,2020-01,2020,0.0,2020-01-02,2020-00
932,2020-01-02,03-04,0.0,2020-01,2020,0.0,2020-01-02,2020-00
2,2020-01-03,00-02,0.0,2020-01,2020,0.0,2020-01-03,2020-00


In [75]:
# considerando todos os meses de todos os anos

obitos_00_04_total = obitos_00_04[['ano', 'faixaEtaria', 'quantidade']].groupby(by=['ano', 'faixaEtaria']).sum().reset_index()
obitos_00_04_total['periodo'] = 'Total'
obitos_00_04_total

Unnamed: 0,ano,faixaEtaria,quantidade,periodo
0,2020,00-02,28.0,Total
1,2020,03-04,2.0,Total
2,2021,00-02,80.0,Total
3,2021,03-04,9.0,Total
4,2022,00-02,30.0,Total
5,2022,03-04,2.0,Total


In [76]:
# criando filtros de datas

jan_18_jul_2020 = (obitos_00_04['date'] >= '2020-01-01') & (obitos_00_04['date'] <= '2020-07-18')
jan_18_jul_2021 = (obitos_00_04['date'] >= '2021-01-01') & (obitos_00_04['date'] <= '2021-07-18')
jan_18_jul_2022 = (obitos_00_04['date'] >= '2022-01-01') & (obitos_00_04['date'] <= '2022-07-18')

obitos_00_04_mesmo_periodo = obitos_00_04[jan_18_jul_2020 | jan_18_jul_2021 | jan_18_jul_2022]

In [77]:
# considerando o período de 1º de janeiro a 18 de julho de cada ano

obitos_00_04_mesmo_periodo = obitos_00_04_mesmo_periodo[['ano', 'faixaEtaria', 'quantidade']].groupby(by=['ano', 'faixaEtaria']).sum().reset_index()
obitos_00_04_mesmo_periodo['periodo'] = '1º/jan a 18/jul'
obitos_00_04_mesmo_periodo

Unnamed: 0,ano,faixaEtaria,quantidade,periodo
0,2020,00-02,20.0,1º/jan a 18/jul
1,2020,03-04,2.0,1º/jan a 18/jul
2,2021,00-02,74.0,1º/jan a 18/jul
3,2021,03-04,8.0,1º/jan a 18/jul
4,2022,00-02,30.0,1º/jan a 18/jul
5,2022,03-04,2.0,1º/jan a 18/jul


In [78]:
# concatenar

df_obitos_00_04_comp_anos = pd.concat([obitos_00_04_total, obitos_00_04_mesmo_periodo])
df_obitos_00_04_comp_anos

Unnamed: 0,ano,faixaEtaria,quantidade,periodo
0,2020,00-02,28.0,Total
1,2020,03-04,2.0,Total
2,2021,00-02,80.0,Total
3,2021,03-04,9.0,Total
4,2022,00-02,30.0,Total
5,2022,03-04,2.0,Total
0,2020,00-02,20.0,1º/jan a 18/jul
1,2020,03-04,2.0,1º/jan a 18/jul
2,2021,00-02,74.0,1º/jan a 18/jul
3,2021,03-04,8.0,1º/jan a 18/jul


In [80]:
df_obitos_00_04_comp_anos.to_csv('arquivos_gerados/20220718_df_obitos_00_04_comp_anos.csv', index=False)

> **O que cada faixa etária (0 a 2 / 3 a 4) representou, percentualmente, no total de óbitos por Covid-19 entre essas crianças?** <a name="percentual"></a>



In [81]:
# total

pivot_table_idade = pd.pivot_table(obitos_00_04_total, values='quantidade', index='faixaEtaria', aggfunc='sum').reset_index()
pivot_table_idade['percentual'] = round(pivot_table_idade['quantidade']/pivot_table_idade['quantidade'].sum()*100,1)
pivot_table_idade

Unnamed: 0,faixaEtaria,quantidade,percentual
0,00-02,138.0,91.4
1,03-04,13.0,8.6


In [82]:
# por ano
pivot_table_idade_ano = pd.pivot_table(obitos_00_04_total, values='quantidade', index=['faixaEtaria', 'ano'], aggfunc='sum').reset_index()
pivot_table_idade_2020 = pivot_table_idade_ano[pivot_table_idade_ano['ano'] == '2020']
pivot_table_idade_2021 = pivot_table_idade_ano[pivot_table_idade_ano['ano'] == '2021']
pivot_table_idade_2022 = pivot_table_idade_ano[pivot_table_idade_ano['ano'] == '2022']

In [83]:
# percentual em 2020
pivot_table_idade_2020['percentual'] = round(pivot_table_idade_2020['quantidade']/pivot_table_idade_2020['quantidade'].sum()*100,1)
pivot_table_idade_2020

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pivot_table_idade_2020['percentual'] = round(pivot_table_idade_2020['quantidade']/pivot_table_idade_2020['quantidade'].sum()*100,1)


Unnamed: 0,faixaEtaria,ano,quantidade,percentual
0,00-02,2020,28.0,93.3
3,03-04,2020,2.0,6.7


In [84]:
# percentual em 2021
pivot_table_idade_2021['percentual'] = round(pivot_table_idade_2021['quantidade']/pivot_table_idade_2021['quantidade'].sum()*100,1)
pivot_table_idade_2021

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pivot_table_idade_2021['percentual'] = round(pivot_table_idade_2021['quantidade']/pivot_table_idade_2021['quantidade'].sum()*100,1)


Unnamed: 0,faixaEtaria,ano,quantidade,percentual
1,00-02,2021,80.0,89.9
4,03-04,2021,9.0,10.1


In [85]:
# percentual até 18 de julho de 2022
pivot_table_idade_2022['percentual'] = round(pivot_table_idade_2022['quantidade']/pivot_table_idade_2022['quantidade'].sum()*100,1)
pivot_table_idade_2022

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pivot_table_idade_2022['percentual'] = round(pivot_table_idade_2022['quantidade']/pivot_table_idade_2022['quantidade'].sum()*100,1)


Unnamed: 0,faixaEtaria,ano,quantidade,percentual
2,00-02,2022,30.0,93.8
5,03-04,2022,2.0,6.2
