# Projeto Módulo 1 
---

# Resumo

---

# Pontos Principais

---

## Pre processamento
---


## Importações de Bibliotecas

In [1]:
from matplotlib import pyplot as plt
import pandas as pd 
import seaborn as sns 

---

## O TabNet

Os dados utilizados neste projeto foram obtidos através da ferramenta TabNet do DataSUS, que esta disponível em: 

* https://datasus.saude.gov.br/informacoes-de-saude-tabnet/

<img src='./images/TabNet.png' width=90%>

Esta é a interface da ferramenta. Nela estão disponíveis vários dados, inclusive dados que não pertencem diretamente ao DataSUS, como dados Demograficos do IBGE. Os dados que vou utilizar são:

1. AIH aprovadas por Ano/Mês processamento segundo Unidade da Federação.

2. Taxa mortalidade por Ano/Mês processamento segundo Unidade da Federação

3. Valor total por Ano/Mês processamento segundo Unidade da Federação

4. Domicílios por Abastecimento de água, Coleta de lixo e Instalações Sanitárias segundo Unidade da Federação.

5. Media Moradores por domicilios segundo Unidade da Federação

6. Populacao residente segundo Unidade da Federação
    
    **Nota sobre itens 1, 2 e 3:** A partir do processamento de junho de 2012, houve mudança na classificação da natureza e esfera dos estabelecimentos. Com isso, temos que:
      
    1. Até maio de 2012 estas informações estão disponíveis como "Natureza" e "Esfera Administrativa".

    2. De junho de 2012 a outubro de 2015, estão disponíveis tanto como "Natureza" e "Esfera Administrativa", como "Natureza Jurídica" e "Esfera Jurídica".
      
    3. A partir de novembro de 2015, estão disponíveis como "Natureza Jurídica" e "Esfera Jurídica".
    

### Fontes 

* Ministério da Saúde - Sistema de Informações Hospitalares do SUS (SIH/SUS)

* IBGE - Censos Demográfico 2010

Estes dados podem ser obtidos nas seguintes caregorias sublinhadas em vermelho no TabNet: 

<img src='./images/Dados_disponiveis_tabnet.png' width=90%>

## Importações dos Dados

Vou importar os dados que estão dentro da pasta `./dados_datasus/`:

In [2]:
AIH_aprovadas = pd.read_csv('./dados_datasus/AIH aprovadas por AnoMês processamento segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python', skiprows=4,skipfooter=12)
taxa_mortalidade = pd.read_csv('./dados_datasus/Taxa mortalidade por AnoMês processamento segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python', decimal=',', skiprows=4,skipfooter=12)
valor_total = pd.read_csv('./dados_datasus/Valor total por AnoMês processamento segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python', decimal=',', skiprows=4,skipfooter=12)
internacoes = pd.read_csv('./dados_datasus/Internacoes por AnoMês processamento segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python', skiprows=3,skipfooter=12)
instalacoes_sanitarias_domicilio = pd.read_csv('./dados_datasus/Domicilios por Instalacoes sanitarias segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python', skiprows=3,skipfooter=2)
abastecimento_agua_domicilio = pd.read_csv('./dados_datasus/Domicílios por Abastecimento de água segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python', skiprows=3,skipfooter=2)
coleta_lixo_domicilio = pd.read_csv('./dados_datasus/Domicílios por Coleta de lixo segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python', skiprows=3,skipfooter=2)
media_moradores_domicilio = pd.read_csv('./dados_datasus/Media MoradoresDomicilios segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python',decimal=',', skiprows=3,skipfooter=8)
populacao_residente = pd.read_csv('./dados_datasus/Populacao residente segundo Unidade da Federacao.csv', encoding='ISO-8859-1', sep=';', engine='python', skiprows=3,skipfooter=17)

---
## Tratando os dados

Como o dataset `populacao_residente` do IBGE não tem os números nos índices das macrorregiões, vou adicionar esta series em todos os dataframes no lugar da coluna `Unidade da Federação`, isso vai ser feito criando um dicionário para automatizar a reatribuição das colunas.

Alguns desses dataframes tem séries temporais (`AIH_aprovadas`,`taxa_mortalidade`, `valor_total` e `internacoes`) onde uma pequena parte dos registros estão no tipo `object`, mas são numéricos, então vou transforma-los.

Outros dataframes que armazenam os dados de abastecimento de agua, instalações sanitarias e coleta de lixo são divididas em varios grupos. O tratamento que será feito é dividir cada dataframe em duas categorias: `Rede geral` e `Rede alternativa`.

Vou considerar uma `Rede Geral` os domicílios que tem abastecimento de água por uma rede de canalização, instalação sanitaria por meio de uma rede geral de esgoto ou pluvial e coleta de lixo feita por caçamba ou serviço de limpeza.

Já os domicílios que tem abastecimento de água por meio de poço, nascente, carro-pipa, cisterna, rio, açude, lago ou igarapé. Que usam instalações sanitarias como fossa séptica ou rudimendar, vala, rio, lago ou mar ou outro escoadouro, inclusive quem não tem instalação sanitária. E que descarta o lixo através da queima ou enterrando na propriedade, em terreno baldio ou logradouro, jogado em rio, lago, mar, ou outro destino, como a categoria `Rede Alternativa`.

In [3]:
Unidades_Federacao = populacao_residente['Unidade da Federação']

datasets = {'AIH_aprovadas': AIH_aprovadas,'taxa_mortalidade': taxa_mortalidade,'valor_total': valor_total,'internacoes': internacoes,'abastecimento_agua_domicilio' : abastecimento_agua_domicilio,'instalacoes_sanitarias_domicilio' : instalacoes_sanitarias_domicilio,'coleta_lixo_domicilio' : coleta_lixo_domicilio,'media_moradores_domicilio': media_moradores_domicilio,'populacao_residente': populacao_residente}

for dataset, conteudo in datasets.items():    
    #  Substituindo index
    conteudo['Unidade da Federação'] = Unidades_Federacao
    
    #  Substituindo registros com hífen
    datasets[dataset] = conteudo.replace('-', 'NaN')
    
    #  Referenciando novo conteudo.
    datasets[dataset] = conteudo.set_index('Unidade da Federação')
    
#  Reatribuindo referência as variáveis SIH
AIH_aprovadas = datasets['AIH_aprovadas'].replace('-','NaN').astype(float).fillna(method='ffill').astype(int)
taxa_mortalidade = datasets['taxa_mortalidade'].replace('-','NaN').replace('...','NaN').astype(float).fillna(method='ffill')
valor_total = datasets['valor_total'].replace('-','NaN').astype(float).fillna(method='ffill')
internacoes = datasets['internacoes'].replace('-','NaN').astype(float).fillna(method='ffill').astype(int)

#  Reatribuindo referência as variáveis
instalacoes_sanitarias_domicilio = datasets['instalacoes_sanitarias_domicilio'].replace('-','NaN').astype(float).fillna(0)
abastecimento_agua_domicilio = datasets['abastecimento_agua_domicilio'].replace('-','NaN').astype(float).fillna(0)
coleta_lixo_domicilio = datasets['coleta_lixo_domicilio'].replace('-','NaN').astype(float).fillna(0).astype(int)

#  Instalações sanitarias
instalacoes_sanitarias_domicilio['Rede Geral'] = instalacoes_sanitarias_domicilio[instalacoes_sanitarias_domicilio.columns[0]]
instalacoes_sanitarias_domicilio['Rede Alternativa'] = instalacoes_sanitarias_domicilio[instalacoes_sanitarias_domicilio.columns[1:7]].sum(axis=1)
instalacoes_sanitarias_domicilio = instalacoes_sanitarias_domicilio[['Rede Geral', 'Rede Alternativa']]

#  Abastecimento de agua em duas categorias
abastecimento_agua_domicilio['Rede Geral'] = abastecimento_agua_domicilio[abastecimento_agua_domicilio.columns[0]]
abastecimento_agua_domicilio['Rede Alternativa'] = abastecimento_agua_domicilio[abastecimento_agua_domicilio.columns[1:10]].sum(axis=1)
abastecimento_agua_domicilio = abastecimento_agua_domicilio[['Rede Geral', 'Rede Alternativa']]

#  Coleta de Lixo 
coleta_lixo_domicilio['Rede Geral'] = coleta_lixo_domicilio[coleta_lixo_domicilio.columns[:2]].sum(axis=1)
coleta_lixo_domicilio['Rede Alternativa'] = coleta_lixo_domicilio[coleta_lixo_domicilio.columns[2:-2]].sum(axis=1)
coleta_lixo_domicilio = coleta_lixo_domicilio[['Rede Geral','Rede Alternativa']]    

# Dados populacionais do IBGE
media_moradores_domicilio = datasets['media_moradores_domicilio'][['Média_moradores/domicílios']]
populacao_residente = datasets['populacao_residente'][['População_residente']]

datasets = {'AIH_aprovadas': AIH_aprovadas,'taxa_mortalidade': taxa_mortalidade,'valor_total': valor_total,'internacoes': internacoes,'abastecimento_agua_domicilio' : abastecimento_agua_domicilio,'instalacoes_sanitarias_domicilio' : instalacoes_sanitarias_domicilio,'coleta_lixo_domicilio' : coleta_lixo_domicilio,'media_moradores_domicilio': media_moradores_domicilio,'populacao_residente': populacao_residente}

for dataset, conteudo in datasets.items():    
#  Exibindo informações
    print(50*'-')
    print(5*'=', f'> Dataset: {dataset} <', 5*'=')
    print(50*'-')
    display(conteudo.sample(5))
    conteudo.info()
    print('\n')

--------------------------------------------------
===== > Dataset: AIH_aprovadas < =====
--------------------------------------------------


Unnamed: 0_level_0,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,2008/Out,...,2019/Dez,2020/Jan,2020/Fev,2020/Mar,2020/Abr,2020/Mai,2020/Jun,2020/Jul,2020/Ago,Total
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Mato Grosso,8720,12469,12900,13487,13006,14734,13974,13937,12928,14148,...,13607,13342,13594,13187,11731,11945,11222,11346,10712,1990840
Bahia,33542,39976,47930,60957,65203,70367,63804,62940,61490,60821,...,50929,53421,52654,53703,47228,45766,45180,47227,44078,8573450
Rio Grande do Norte,8194,10169,11457,11641,12472,11585,11531,10838,10889,10354,...,10251,10604,10145,10328,9667,9214,9989,10477,9149,1552395
Rio de Janeiro,24432,29550,43093,41988,45288,47403,45349,46041,45598,43608,...,43619,46198,42644,42159,38095,44079,43471,46447,44434,6559937
Rondônia,3475,6650,4016,3988,4232,3630,6908,6987,6962,6202,...,8138,9516,7818,8027,6347,6491,5443,6761,5361,1124858


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Columns: 153 entries, 2008/Jan to Total
dtypes: int64(153)
memory usage: 32.5+ KB


--------------------------------------------------
===== > Dataset: taxa_mortalidade < =====
--------------------------------------------------


Unnamed: 0_level_0,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,2008/Out,...,2019/Dez,2020/Jan,2020/Fev,2020/Mar,2020/Abr,2020/Mai,2020/Jun,2020/Jul,2020/Ago,Total
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Minas Gerais,3.85,4.36,4.48,4.23,4.36,4.77,5.0,5.01,4.83,4.7,...,5.28,5.46,5.27,5.43,5.66,5.74,6.13,6.55,7.03,5.19
São Paulo,4.27,5.2,5.2,4.79,5.15,5.39,5.69,5.76,5.41,5.52,...,6.54,6.84,6.6,6.64,7.68,8.59,9.12,9.34,8.96,6.22
Tocantins,2.36,3.12,3.04,2.62,2.29,2.84,2.92,2.58,2.44,2.17,...,3.48,4.17,4.01,4.53,3.8,4.07,4.85,5.6,5.55,3.05
Santa Catarina,3.69,4.03,3.95,4.0,3.73,3.69,4.22,4.26,4.04,3.98,...,4.95,5.18,5.07,5.11,5.64,5.1,5.72,6.52,7.35,4.71
Rio de Janeiro,3.41,4.55,4.73,4.31,5.15,4.95,4.94,5.15,5.42,5.34,...,7.79,7.89,7.58,7.83,8.33,10.91,10.3,10.15,9.49,6.9


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Columns: 153 entries, 2008/Jan to Total
dtypes: float64(153)
memory usage: 32.5+ KB


--------------------------------------------------
===== > Dataset: valor_total < =====
--------------------------------------------------


Unnamed: 0_level_0,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,2008/Out,...,2019/Dez,2020/Jan,2020/Fev,2020/Mar,2020/Abr,2020/Mai,2020/Jun,2020/Jul,2020/Ago,Total
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Pernambuco,8170403.63,14165632.56,18813760.0,23652990.0,21080230.0,20736650.0,20462750.0,22630170.0,22183400.0,20282530.0,...,48794670.0,52539130.0,48585250.0,50093210.0,39340820.0,49567330.0,55383360.0,60972580.0,63612520.0,5755434000.0
São Paulo,60231006.43,89772592.29,100354800.0,101864100.0,120197100.0,118531600.0,124491900.0,119389100.0,120541000.0,115038600.0,...,190597700.0,206311000.0,193981800.0,201898500.0,187484700.0,214563100.0,244337200.0,298763100.0,278052000.0,25514040000.0
Amazonas,3050952.62,4975768.98,5533058.0,5429587.0,5306026.0,5608979.0,5908766.0,6153176.0,6036511.0,5480818.0,...,10370320.0,11476170.0,10674900.0,11672520.0,10486990.0,16324610.0,17927970.0,15512450.0,11361430.0,1240089000.0
Rondônia,1174894.42,2674786.39,1437230.0,1430983.0,1553378.0,1322756.0,2776968.0,2959981.0,2885503.0,2721037.0,...,6601820.0,7705111.0,6060272.0,6768042.0,5952436.0,6473705.0,7377576.0,9615253.0,8820804.0,777889700.0
Minas Gerais,37507273.95,56846019.16,64615610.0,63167350.0,66097610.0,77850840.0,69926660.0,69500810.0,68920590.0,70196320.0,...,126546400.0,133898900.0,124597900.0,119732700.0,116799900.0,117508100.0,123778500.0,149002300.0,152587000.0,15810260000.0


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Columns: 153 entries, 2008/Jan to Total
dtypes: float64(153)
memory usage: 32.5+ KB


--------------------------------------------------
===== > Dataset: internacoes < =====
--------------------------------------------------


Unnamed: 0_level_0,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,2008/Out,...,2019/Dez,2020/Jan,2020/Fev,2020/Mar,2020/Abr,2020/Mai,2020/Jun,2020/Jul,2020/Ago,Total
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Bahia,41659,51637,59728,74525,79931,85057,79247,78254,76724,74851,...,65871,66184,64971,65683,54049,51552,50870,53749,51133,10482687
Amapá,2386,2650,2262,2259,1555,2611,2733,2808,3154,3502,...,3135,3119,3213,2420,2017,2118,2350,2998,3055,458440
Sergipe,5832,7015,8804,9035,8635,9356,10002,8858,9323,8367,...,7143,8183,7962,7965,6639,6387,5981,6638,7066,1171874
Tocantins,6665,7638,9491,8330,8627,8166,8706,8315,8621,8050,...,7136,7518,6854,6886,6244,6301,6006,6674,6116,1162153
Mato Grosso,9975,14329,14124,14822,14620,16373,15433,15374,14070,16011,...,15740,15190,15497,14950,12786,13256,12070,12199,11863,2322143


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Columns: 153 entries, 2008/Jan to Total
dtypes: int64(153)
memory usage: 32.5+ KB


--------------------------------------------------
===== > Dataset: abastecimento_agua_domicilio < =====
--------------------------------------------------


Unnamed: 0_level_0,Rede Geral,Rede Alternativa
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1
Goiás,1495932.0,390332.0
Pernambuco,1936160.0,610712.0
Santa Catarina,1624058.0,369039.0
Rondônia,175418.0,280181.0
Tocantins,313277.0,85090.0


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Rede Geral        27 non-null     float64
 1   Rede Alternativa  27 non-null     float64
dtypes: float64(2)
memory usage: 648.0+ bytes


--------------------------------------------------
===== > Dataset: instalacoes_sanitarias_domicilio < =====
--------------------------------------------------


Unnamed: 0_level_0,Rede Geral,Rede Alternativa
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1
Paraíba,431659.0,649013.0
Rio de Janeiro,4015702.0,1227309.0
Acre,46550.0,144095.0
São Paulo,11124904.0,1702249.0
Rio Grande do Sul,1731575.0,1868029.0


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Rede Geral        27 non-null     float64
 1   Rede Alternativa  27 non-null     float64
dtypes: float64(2)
memory usage: 648.0+ bytes


--------------------------------------------------
===== > Dataset: coleta_lixo_domicilio < =====
--------------------------------------------------


Unnamed: 0_level_0,Rede Geral,Rede Alternativa
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1
Rio Grande do Norte,759920,139593
Espírito Santo,971709,129685
Mato Grosso,756245,158844
Amazonas,630055,169574
Goiás,1716886,169378


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype
---  ------            --------------  -----
 0   Rede Geral        27 non-null     int64
 1   Rede Alternativa  27 non-null     int64
dtypes: int64(2)
memory usage: 648.0+ bytes


--------------------------------------------------
===== > Dataset: media_moradores_domicilio < =====
--------------------------------------------------


Unnamed: 0_level_0,Média_moradores/domicílios
Unidade da Federação,Unnamed: 1_level_1
Bahia,3.2
Roraima,3.7
Mato Grosso,2.9
Amapá,4.0
Piauí,3.4


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Data columns (total 1 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Média_moradores/domicílios  27 non-null     float64
dtypes: float64(1)
memory usage: 432.0+ bytes


--------------------------------------------------
===== > Dataset: populacao_residente < =====
--------------------------------------------------


Unnamed: 0_level_0,População_residente
Unidade da Federação,Unnamed: 1_level_1
Alagoas,3173421
Maranhão,6400012
Mato Grosso do Sul,2371865
Amapá,625650
Rio Grande do Norte,3153359


<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, Rondônia to Distrito Federal
Data columns (total 1 columns):
 #   Column               Non-Null Count  Dtype
---  ------               --------------  -----
 0   População_residente  27 non-null     int64
dtypes: int64(1)
memory usage: 432.0+ bytes




# Análise dos Dados
---