# Tratamento dos dados relacionados aos casos e óbitos de Hepatite no brasil 

## Importações dos pacotes

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from funcoes import limpa_casos_h, limpa_obitos

## Bases de dados utilizadas

[MonitoramentoHepatites-Brasil.xls](https://github.com/Pedro-correa-almeida/projeto_um_mal_silencioso/blob/main/dados_brutos/MonitoramentoHepatites-Brasil.xls) : arquivo xls com diversas tabelas relacionados aos dados de casos e óbitos de Hepatite no Brasil entre 2007 e 2019<br>
[casos_hepatite_2001-2006_brasil.csv](https://github.com/Pedro-correa-almeida/projeto_um_mal_silencioso/blob/main/dados_brutos/casos_hepatite_2001-2006_brasil.csv) : arquivo csv com dados de casos de Hepatite entre 2001 e 2006<br>
[serie_2001_2020_TCU_populacao.xls](https://github.com/Pedro-correa-almeida/projeto_um_mal_silencioso/blob/main/dados_brutos/serie_2001_2020_TCU_populacao.xls) : arquivo xls com dados com dados da estimativa da população brasileira feita pelo IBGE entre 2001 e 2020<br>

## Leitura dos dados

In [2]:
#Lendo os dados de casos e óbitos Hepatite A, B e C entre 2007 e 2019 
dados_recentes = pd.read_html('../dados_brutos/MonitoramentoHepatites-Brasil.xls', thousands='.')

#Lendo os dados de casos e óbitos de Hepatite A, B e C entre 2001 e 2006
dados_antigos = pd.read_csv('../dados_brutos/casos_hepatite_2001-2006_brasil.csv', encoding='ISO-8859-1', skiprows=4, 
                            skipfooter=13, usecols=[0,1,2,3], sep=';', engine='python')

#Lendo os dados de estimativa populacional feita pelo IBGE e limitando os dados entre 2001 e 2020 e só dados da população do Brasil inteiro
pop_2001_2019 = pd.read_excel('../dados_brutos/serie_2001_2020_TCU_populacao.xls', skiprows=4, index_col=0, 
                              nrows=2, usecols=range(0,20))

## Funções

In [3]:
help(limpa_casos_h)

Help on function limpa_casos_h in module funcoes:

limpa_casos_h(dados: pandas.core.frame.DataFrame, hep: str)
    Função que recebe um dataset com dados sobre casos relacionado à um tipo de hepatite e realiza algumas transformações:
        
        Retira as colunas que agrupam diversos anos, coluna 'Total' e coluna '1999-2006'
        Retira a segunda linha do dataframe que se refere à taxa de incidência e, primeiramente serão usados apenas os dados de casos totais para juntar os dados recentes e mais antigos
        Transforma a disposição da tabela, transformando as colunas em apenas uma coluna('Ano') atribuindo o vírus da hepatite(A,B,C) como nome da coluna de valores numéricos
        Retira a primeira linha que antes se referia ao nome da variável numérica('Casos')
        Transforma o tipo de dados da coluna 'Ano' em inteiro e a coluna com os dados numéricos para float(podem haver valores nulos) para depois facilitar a manipulação e evitar problemas  
        
    Parâmetros:


In [4]:
help(limpa_obitos)

Help on function limpa_obitos in module funcoes:

limpa_obitos(dados: pandas.core.frame.DataFrame, nome_valores: str)
    Função que recebe o DataFrame relacionado aos óbitos de cada virus e realiza algumas transformações:
        
        Retira as colunas que agrupam diversos anos, coluna 'Total' e coluna '2000-2006' 
        Retira a palavra 'Hepatite' antes do vírus(A,B,C)
        Renomeia a coluna Óbitos por virus
        Retira os dados relacionados à Hepatite D
        Transforma as colunas relacionadas aos Anos em apenas uma coluna('Ano') e atribui o 'nome_valores' como nome da coluna com os valores numéricos
        Trasnforma o tipo de dados da coluna 'Ano' em inteiro e a coluna com os dados numéricos para float(podem haver valores nulos) a fim de evitar problemas e facilitar a manipulação
    
    Parâmetros:
    
        dados : DataFrame onde estão os dados mais recentes dos óbitos de hepatite, tipo : pd.DataFrame
        hep : o nome que a coluna com os valores numéricos 

## Tratando os dados

No primeiro momento vou ler as tabelas dos dados recentes que seram utilizadas na análise, a tabela sobre casos da Hepatite A, B e C, e a tabela com os óbitos totais por Hepatite

In [5]:
#Lendo os dados relacionados à Hepatite A
hep_A = dados_recentes[1]

#Lendo os dados relacionados à Hepatite B
hep_B = dados_recentes[3]

#Lendo os dados relacionados à Hepatite C
hep_C = dados_recentes[5]

#Lendo os dados relacionados aos óbitos por Hepatite
hep_obitos = dados_recentes[10]

Submetendo as tabelas relacionadas aos casos de Hepatite para função 'limpa_casos_h' a fim de fazer as devidas transformações, após isso juntando as 3 tabelas relacionadas às Hepatites em apenas uma tabela 'hep'

In [6]:
#Limpando os DataFrames
hep_A = limpa_casos_h(hep_A, 'A')
hep_B = limpa_casos_h(hep_B, 'B')
hep_C = limpa_casos_h(hep_C, 'C')

#Juntando os 3 DataFrames
hep = pd.merge(hep_A,pd.merge(hep_B, hep_C))
hep

Unnamed: 0,Ano,A,B,C
0,2007,13351.0,12406.0,17173.0
1,2008,11680.0,13400.0,20110.0
2,2009,10920.0,15004.0,21854.0
3,2010,6929.0,13711.0,21066.0
4,2011,7468.0,16683.0,24231.0
5,2012,6628.0,16286.0,25450.0
6,2013,6270.0,16720.0,25401.0
7,2014,6424.0,16743.0,24124.0
8,2015,3302.0,16149.0,26946.0
9,2016,1207.0,14829.0,28732.0


Fazendo as devidas transformações na base de dados entre 2001 e 2006 para juntar com os dados mais recentes

In [7]:
#Renomeando os nomes das colunas
dados_antigos = dados_antigos.rename(columns={'Ano Diag/sintomas':'Ano', 'Vírus A':'A', 'Vírus B':'B', 'Vírus C':'C'})

#Ordenando as colunas pra mesma ordem dos dados recentes
dados_antigos = dados_antigos[['Ano', 'A', 'B', 'C']]

#Transformando o tipo de dados da coluna 'Ano' para inteiro
dados_antigos['Ano'] = dados_antigos['Ano'].astype('int64')

#Mostrando as 5 primeiras linhas 
dados_antigos.head()

Unnamed: 0,Ano,A,B,C
0,2001,21011,8344,6713
1,2002,14468,8841,8081
2,2003,14715,11673,10241
3,2004,20585,12835,13285
4,2005,25302,14107,13702


In [8]:
#Juntando os dados antigos com os dados recentes
dados = dados_antigos.append(hep)

#Transformando as colunas A, B e C para uma coluna virus
dados = pd.melt(dados, 'Ano', var_name='virus', value_name='Casos')

dados

Unnamed: 0,Ano,virus,Casos
0,2001,A,21011.0
1,2002,A,14468.0
2,2003,A,14715.0
3,2004,A,20585.0
4,2005,A,25302.0
5,2006,A,19095.0
6,2007,A,13351.0
7,2008,A,11680.0
8,2009,A,10920.0
9,2010,A,6929.0


In [9]:
#Utilizando a função 'limpa_obitos' para realizar as trasnformações necessárias
hep_obitos = limpa_obitos(hep_obitos, 'Obitos')

#Juntando os dados de casos e de óbitos
dados = pd.merge(dados, hep_obitos, on=['Ano', 'virus'], how='left')

dados

Unnamed: 0,Ano,virus,Casos,Obitos
0,2001,A,21011.0,
1,2002,A,14468.0,
2,2003,A,14715.0,
3,2004,A,20585.0,
4,2005,A,25302.0,
5,2006,A,19095.0,
6,2007,A,13351.0,47.0
7,2008,A,11680.0,50.0
8,2009,A,10920.0,45.0
9,2010,A,6929.0,52.0


In [10]:
#Reitando colunas nulas na base de dados de população
pop_2001_2019 = pop_2001_2019.dropna()

#Transformando as colunas relacionadas aos anos em uma coluna 'Ano'
pop_2001_2019 = pd.melt(pop_2001_2019, var_name='Ano', value_name='Pop')

#Transformando o tipo da coluna 'Ano' em inteiro
pop_2001_2019['Ano'] = pop_2001_2019['Ano'].astype('int64')

pop_2001_2019

Unnamed: 0,Ano,Pop
0,2001,172385826.0
1,2002,174632960.0
2,2003,176871437.0
3,2004,181581024.0
4,2005,184184264.0
5,2006,186770562.0
6,2007,183989711.0
7,2008,189612814.0
8,2009,191480630.0
9,2010,190747855.0


In [11]:
#Juntando os dados de casos e óbitos com de população com base na coluna 'Ano'
dados = pd.merge(dados, pop_2001_2019, on='Ano')

#Criando a coluna 'taxa_incid_por100k' representando a quantidade de casos por 100.000 habitantes
dados['taxa_incid_por100k'] = dados['Casos'] * 100000 / dados['Pop']

#Criando a coluna 'taxa_obitos_por100k' representando a quantidade de óbitos por 100.000 habitantes
dados['taxa_obitos_por100k'] = dados['Obitos'] * 100000 / dados['Pop']

dados

Unnamed: 0,Ano,virus,Casos,Obitos,Pop,taxa_incid_por100k,taxa_obitos_por100k
0,2001,A,21011.0,,172385826.0,12.188357,
1,2001,B,8344.0,,172385826.0,4.840305,
2,2001,C,6713.0,,172385826.0,3.894172,
3,2002,A,14468.0,,174632960.0,8.284805,
4,2002,B,8841.0,,174632960.0,5.062618,
5,2002,C,8081.0,,174632960.0,4.62742,
6,2003,A,14715.0,,176871437.0,8.319602,
7,2003,B,11673.0,,176871437.0,6.599709,
8,2003,C,10241.0,,176871437.0,5.790081,
9,2004,A,20585.0,,181581024.0,11.336537,


In [12]:
#Removendo coluna 'Pop' pois não será mais utilizada
dados = dados.drop(columns='Pop')

In [13]:
#Salvando os dados na pasta 'dados_tratados'
dados.set_index('Ano').to_csv('../dados_tratados/casos_obitos_hep')