# Limpeza dos dados relacionados aos casos e óbitos de Hepatite no brasil por região

# Importações dos pacotes

In [22]:
import pandas as pd
from funcoes import limpa_casos_regiao, limpa_obitos

# Bases de dados utilizadas

[casos_hepA_por_regiao.csv](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/casos_hepA_por_regiao.csv) : arquivo csv com os dados de casos e óbitos de Hepatite A por região entre 2001 e 2006
<br>
[casos_hepB_por_regiao.csv](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/casos_hepB_por_regiao.csv) : arquivo csv com os dados de casos e óbitos de Hepatite B por região entre 2001 e 2006
<br>
[casos_hepC_por_regiao.csv](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/casos_hepC_por_regiao.csv) : arquivo csv com os dados de casos e óbitos de Hepatite C por região entre 2001 e 2006
<br>
[MonitoramentoHepatites-Norte.xls](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/MonitoramentoHepatites-Norte.xls) : arquivo xls com várias tabelas relacionadas aos casos e óbitos de Hepatites da região Norte entre 2007 e 2019
<br>
[MonitoramentoHepatites-Nordeste.xls](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/MonitoramentoHepatites-Nordeste.xls) : arquivo xls com várias tabelas relacionadas aos casos e óbitos de Hepatites da região Nordeste entre 2007 e 2019
<br>
[MonitoramentoHepatites-Sul.xls](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/MonitoramentoHepatites-Sul.xls) : arquivo xls com várias tabelas relacionadas aos casos e óbitos de Hepatites da região Sul entre 2007 e 2019
<br>
[MonitoramentoHepatites-Sudeste.xls](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/MonitoramentoHepatites-Sudeste.xls) : arquivo xls com várias tabelas relacionadas aos casos e óbitos de Hepatites da região Sudeste entre 2007 e 2019
<br>
[MonitoramentoHepatites-Centro-Oeste.xls](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/MonitoramentoHepatites-Centro-Oeste.xls) : arquivo xls com várias tabelas relacionadas aos casos e óbitos de Hepatites da região Centro-Oeste entre 2007 e 2019
<br>
[serie_2001_2020_TCU_populacao.xls](https://github.com/PedroHCAlmeida/projeto_um_mal_silencioso/blob/main/dados_brutos/serie_2001_2020_TCU_populacao.xls) : arquivo xls com dados com dados da estimativa da população brasileira feita pelo IBGE entre 2001 e 2020

# Leitura dos dados

In [37]:
#Leitura dos dados relacionados aos casos por região de cada Hepatatite entre 2001 e 2006
casos_A = pd.read_csv('../dados_brutos/casos_hepA_por_regiao.csv', encoding='ISO-8859-1', skiprows=4, 
                            skipfooter=13, sep=';', usecols=[0,1,2,3,4,5], engine='python', na_values='-')
casos_B = pd.read_csv('../dados_brutos/casos_hepB_por_regiao.csv', encoding='ISO-8859-1', skiprows=4, 
                            skipfooter=13, sep=';', usecols=[0,1,2,3,4,5], engine='python', na_values='-')
casos_C = pd.read_csv('../dados_brutos/casos_hepC_por_regiao.csv', encoding='ISO-8859-1', skiprows=4, 
                            skipfooter=13, sep=';', usecols=[0,1,2,3,4,5], engine='python', na_values='-')

#Leitura dos dados relacionados aos casos por Hepatite de cada região entre 2007 e 2019
casos_norte_recentes = pd.read_html('../dados_brutos/MonitoramentoHepatites-Norte.xls', thousands='.', na_values='-')
casos_nordeste_recentes = pd.read_html('../dados_brutos/MonitoramentoHepatites-Nordeste.xls', thousands='.', na_values='-')
casos_sudeste_recentes = pd.read_html('../dados_brutos/MonitoramentoHepatites-Sul.xls', thousands='.', na_values='-')
casos_sul_recentes = pd.read_html('../dados_brutos/MonitoramentoHepatites-Sudeste.xls', thousands='.', na_values='-')
casos_centro_recentes = pd.read_html('../dados_brutos/MonitoramentoHepatites-Centro-Oeste.xls', thousands='.', na_values='-')

#Leitura dos dados de estimativa populacional por estado e por ano e limitando entre 2001 e 2019 
pop_2001_2019 = pd.read_excel('../dados_brutos/serie_2001_2020_TCU_populacao.xls', skiprows=4,
                              skipfooter=10, usecols=range(0,20))

# Funções

In [38]:
help(limpa_casos_regiao)

Help on function limpa_casos_regiao in module funcoes:

limpa_casos_regiao(dados_hep_A: pandas.core.frame.DataFrame, dados_hep_B: pandas.core.frame.DataFrame, dados_hep_C: pandas.core.frame.DataFrame, regiao: str)
    Função que recebe os DataFrames relacionados à cada virus de uma região especifíca e realiza algumas transformações:
        
        Chama a função 'limpa_casos_h' para cada tipo de vírus para realizar uma limpeza em cada DataFrame 
        Junta os dados de todas os vírus(A, B, C)
        Transforma as colunas relacionadas ao vírus em apenas uma coluna('virus') e atribui a 'regiao' como nome da coluna com os valore numéricos
    
    Parâmetros:
    
        dados_hep_A : DataFrame onde estão os dados mais recentes dos casos de hepatite A, tipo : pd.DataFrame
        dados_hep_B : DataFrame onde estão os dados mais recentes dos casos de hepatite B, tipo : pd.DataFrame
        dados_hep_C : DataFrame onde estão os dados mais recentes dos casos de hepatite C, tipo : pd.Da

In [39]:
help(limpa_obitos)

Help on function limpa_obitos in module funcoes:

limpa_obitos(dados, nome_valores)
    Função que recebe o DataFrame relacionado aos óbitos de cada virus e realiza algumas transformações:
        
        Retira as colunas que agrupam diversos anos, coluna 'Total' e coluna '2000-2006' 
        Retira a palavra 'Hepatite' antes do vírus(A,B,C)
        Renomeia a coluna Óbitos por virus
        Retira os dados relacionados à Hepatite D
        Transforma as colunas relacionadas aos Anos em apenas uma coluna('Ano') e atribui o 'nome_valores' como nome da coluna com os valores numéricos
        Trasnforma o tipo de dados da coluna 'Ano' em inteiro e a coluna com os dados numéricos para float(podem haver valores nulos) a fim de evitar problemas e facilitar a manipulação
    
    Parâmetros:
    
        dados : DataFrame onde estão os dados mais recentes dos óbitos de hepatite, tipo : pd.DataFrame
        hep : o nome que a coluna com os valores numéricos vai se referir, podendo ser a regi

# Tratando os dados

In [40]:
#Dividindo as tabelas entre hepatite A, B e C e óbitos por hepatite da região Norte entre 2007 e 2019
casos_norte_recentes_A = casos_norte_recentes[1]
casos_norte_recentes_B = casos_norte_recentes[3]
casos_norte_recentes_C = casos_norte_recentes[5]
obitos_norte = casos_norte_recentes[10]

#Dividindo as tabelas entre hepatite A, B e C e óbitos por hepatite da região Nordeste entre 2007 e 2019
casos_nordeste_recentes_A = casos_nordeste_recentes[1]
casos_nordeste_recentes_B = casos_nordeste_recentes[3]
casos_nordeste_recentes_C = casos_nordeste_recentes[5]
obitos_nordeste = casos_nordeste_recentes[10]

#Dividindo as tabelas entre hepatite A, B e C e óbitos por hepatite da região Sudeste entre 2007 e 2019
casos_sudeste_recentes_A = casos_sudeste_recentes[1]
casos_sudeste_recentes_B = casos_sudeste_recentes[3]
casos_sudeste_recentes_C = casos_sudeste_recentes[5]
obitos_sudeste = casos_sudeste_recentes[10]

#Dividindo as tabelas entre hepatite A, B e C e óbitos por hepatite da região Sul entre 2007 e 2019
casos_sul_recentes_A = casos_sul_recentes[1]
casos_sul_recentes_B = casos_sul_recentes[3]
casos_sul_recentes_C = casos_sul_recentes[5]
obitos_sul = casos_sul_recentes[10]

#Dividindo as tabelas entre hepatite A, B e C e óbitos por hepatite da região Centro-Oeste entre 2007 e 2019
casos_centro_recentes_A = casos_centro_recentes[1]
casos_centro_recentes_B = casos_centro_recentes[3]
casos_centro_recentes_C = casos_centro_recentes[5]
obitos_centro = casos_centro_recentes[10]

Agora que as tabelas estão divididas devidamente utilizarei a função 'limpa_casos_regiao' que irá realizar todas as transformações necessárias e unir os dados de Hepatite por região

In [41]:
casos_norte_recentes = limpa_casos_regiao(casos_norte_recentes_A, casos_norte_recentes_B, casos_norte_recentes_C, 'Norte')
casos_nordeste_recentes = limpa_casos_regiao(casos_nordeste_recentes_A, casos_nordeste_recentes_B, casos_nordeste_recentes_C, 'Nordeste')
casos_sudeste_recentes = limpa_casos_regiao(casos_sudeste_recentes_A, casos_sudeste_recentes_B, casos_sudeste_recentes_C, 'Sudeste')
casos_sul_recentes = limpa_casos_regiao(casos_sul_recentes_A, casos_sul_recentes_B, casos_sul_recentes_C, 'Sul')
casos_centro_recentes = limpa_casos_regiao(casos_centro_recentes_A, casos_centro_recentes_B, casos_centro_recentes_C, 'Centro-Oeste')

Agora que todas as tabelas relacionados os dados mais recentes estão no mesmo formato irei juntar todas em apenas uma tabela

In [42]:
casos_reg_recentes = pd.merge(casos_norte_recentes, 
                              pd.merge(casos_nordeste_recentes, 
                                                             pd.merge(casos_sudeste_recentes, 
                                                                      pd.merge(casos_sul_recentes,casos_centro_recentes, 
                                                                               on=['Ano', 'virus']),
                                                             on=['Ano', 'virus']),
                                      on=['Ano', 'virus']),
                              on=['Ano', 'virus'])
casos_reg_recentes.head()

Unnamed: 0,Ano,virus,Norte,Nordeste,Sudeste,Sul,Centro-Oeste
0,2007,A,2548.0,4459.0,2052.0,3132.0,1155.0
1,2008,A,2440.0,4467.0,1388.0,2139.0,1243.0
2,2009,A,2569.0,4061.0,1266.0,1618.0,1405.0
3,2010,A,1902.0,2312.0,1093.0,1093.0,526.0
4,2011,A,2733.0,2288.0,581.0,1263.0,599.0


Agora que os dados recentes estão todos tratados vou colocar os dados mais antigos entre 2001 e 2006 no mesmo formato

In [43]:
#Renomenando as colunas 
casos_A.columns = ['Ano', 'Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste']    
casos_B.columns = ['Ano', 'Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste']    
casos_C.columns = ['Ano', 'Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste']    

#Cirando a coluna 'virus' para indicar o vírus da Hepatite correspondente da tabela
casos_A['virus'] = 'A'
casos_B['virus'] = 'B'
casos_C['virus'] = 'C'

#Juntando todas as tabelas
casos_reg = casos_A.append(casos_B.append(casos_C))

#Ordenando as colunas para mesma ordem dos dados mais recentes
casos_reg = casos_reg[['Ano', 'virus', 'Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste']]

casos_reg.head()

Unnamed: 0,Ano,virus,Norte,Nordeste,Sudeste,Sul,Centro-Oeste
0,2001,A,2868,4135,3662,7928,2398
1,2002,A,2755,4892,1693,3706,1412
2,2003,A,2832,5325,2187,2595,1770
3,2004,A,5038,7071,2785,3295,2393
4,2005,A,4104,9400,3639,4278,3879


In [44]:
#Juntando os dados mais antigos com mais recentes
casos_reg = casos_reg.append(casos_reg_recentes)

#Transformando as colunas relacionadas às regiões em uma coluna só 'Regiao'
casos_reg = pd.melt(casos_reg , id_vars=['Ano', 'virus'], var_name='Regiao', value_name='Casos')
casos_reg

Unnamed: 0,Ano,virus,Regiao,Casos
0,2001,A,Norte,2868.0
1,2002,A,Norte,2755.0
2,2003,A,Norte,2832.0
3,2004,A,Norte,5038.0
4,2005,A,Norte,4104.0
...,...,...,...,...
280,2015,C,Centro-Oeste,846.0
281,2016,C,Centro-Oeste,1164.0
282,2017,C,Centro-Oeste,1071.0
283,2018,C,Centro-Oeste,959.0


Agora irei usar a função 'limpa_obitos' para realizar as transformações nas bases de dados relacionadas aos óbitos por Hepatite de cada região

In [45]:
obitos_norte = limpa_obitos(obitos_norte, 'Norte')
obitos_nordeste = limpa_obitos(obitos_nordeste, 'Nordeste')
obitos_sudeste = limpa_obitos(obitos_sudeste, 'Sudeste')
obitos_sul = limpa_obitos(obitos_sul, 'Sul')
obitos_centro = limpa_obitos(obitos_centro, 'Centro-Oeste')

Agora vou juntar os dados relacionados aos óbitos em uma tabela só

In [46]:
obitos_reg = pd.merge(obitos_norte, 
                      pd.merge(obitos_nordeste, 
                               pd.merge(obitos_sudeste,  
                                        pd.merge(obitos_sul,obitos_centro, 
                                                 on=['Ano', 'virus']),
                                        on=['Ano', 'virus']),
                               on=['Ano', 'virus']),
                      on=['Ano', 'virus'])
#Transformando as colunas relacionadas às regiões em uma coluna só 'Regiao'
obitos_reg = pd.melt(obitos_reg , id_vars=['Ano', 'virus'], var_name='Regiao', value_name='Obitos')
obitos_reg

Unnamed: 0,Ano,virus,Regiao,Obitos
0,2007,A,Norte,9.0
1,2007,B,Norte,72.0
2,2007,C,Norte,69.0
3,2008,A,Norte,11.0
4,2008,B,Norte,83.0
...,...,...,...,...
175,2017,B,Centro-Oeste,37.0
176,2017,C,Centro-Oeste,79.0
177,2018,A,Centro-Oeste,2.0
178,2018,B,Centro-Oeste,32.0


In [47]:
#Juntando os dados de casos e óbitos
dados_reg = pd.merge(casos_reg, obitos_reg, on=['Ano', 'virus', 'Regiao'], how='left')
dados_reg

Unnamed: 0,Ano,virus,Regiao,Casos,Obitos
0,2001,A,Norte,2868.0,
1,2002,A,Norte,2755.0,
2,2003,A,Norte,2832.0,
3,2004,A,Norte,5038.0,
4,2005,A,Norte,4104.0,
...,...,...,...,...,...
280,2015,C,Centro-Oeste,846.0,91.0
281,2016,C,Centro-Oeste,1164.0,98.0
282,2017,C,Centro-Oeste,1071.0,79.0
283,2018,C,Centro-Oeste,959.0,97.0


Agora que os dados de casos e óbitos em apenas uma tabela vou tratar os dados relacionados à população para criar taxas relativas às populações

In [48]:
#Eliminando as linhas nulas dos dados de população
pop_2001_2019 = pop_2001_2019.dropna()

#Filtrando os dados onde a coluna 'Unidades da Federação' está relacionada à alguma região usando regular expressions
pop_2001_2019 = pop_2001_2019[pop_2001_2019['Unidades da Federação'].str.match(r'Região\s.*')]

#Renomenando a coluna 'Unidades da Federação' para 'Regiao' 
pop_2001_2019 = pop_2001_2019.rename(columns={'Unidades da Federação':'Regiao'})

#Eliminando a Palavra 'Região' antes do nome da região
pop_2001_2019['Regiao'] = pop_2001_2019['Regiao'].str.replace(r'Região\s', '')

#Transformando as colunas relacionadas aos anos em uma coluna só 'Ano'
pop_2001_2019 = pd.melt(pop_2001_2019, 'Regiao', var_name='Ano', value_name='Pop')

#Tranformando à coluna 'Ano' para o tipo inteiro
pop_2001_2019['Ano'] = pop_2001_2019['Ano'].astype('int64')
pop_2001_2019

Unnamed: 0,Regiao,Ano,Pop
0,Norte,2001,13245084.0
1,Nordeste,2001,48331186.0
2,Sudeste,2001,73470763.0
3,Sul,2001,25453264.0
4,Centro-Oeste,2001,11885529.0
...,...,...,...
90,Norte,2019,18430980.0
91,Nordeste,2019,57071654.0
92,Sudeste,2019,88371433.0
93,Sul,2019,29975984.0


In [49]:
#Juntando os dados de casos e óbitos com dados de estimativa populacional
dados_reg = pd.merge(dados_reg, pop_2001_2019, on=['Regiao','Ano'])

#Criando a coluna 'taxa_incid_por100k' que indica a taxa de incidência das Hepatites a cada 100.000 habitantes
dados_reg['taxa_incid_por100k'] = dados_reg['Casos'] * 100000 / dados_reg['Pop']

#Criando a coluna 'taxa_obitos_por100k' que indica a taxa de óbitos por Hepatites a cada 100.000 habitantes
dados_reg['taxa_obitos_por100k'] = dados_reg['Obitos'] * 100000 / dados_reg['Pop']
dados_reg

Unnamed: 0,Ano,virus,Regiao,Casos,Obitos,Pop,taxa_incid_por100k,taxa_obitos_por100k
0,2001,A,Norte,2868.0,,13245084.0,21.653317,
1,2001,B,Norte,820.0,,13245084.0,6.190976,
2,2001,C,Norte,287.0,,13245084.0,2.166842,
3,2002,A,Norte,2755.0,,13504599.0,20.400458,
4,2002,B,Norte,1032.0,,13504599.0,7.641841,
...,...,...,...,...,...,...,...,...
280,2018,B,Centro-Oeste,1108.0,32.0,16085885.0,6.888026,0.198932
281,2018,C,Centro-Oeste,959.0,97.0,16085885.0,5.961748,0.603013
282,2019,A,Centro-Oeste,54.0,,16297074.0,0.331348,
283,2019,B,Centro-Oeste,1081.0,,16297074.0,6.633093,


In [50]:
#Salvando todos os dados na pasta 'dados_tratados'
dados_reg.set_index('Ano').to_csv('../dados_tratados/casos_obitos_por_regiao')