<a href="https://colab.research.google.com/github/gcochlar/Bootcamp_DataScience/blob/main/Modulo_02/Bootcamp_SD_Modulo02_Importa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://drive.google.com/uc?id=16O9eMrtSeRDnDpZgmneXj34eIClCntvg">

# **Análise da Evolução da Vacinação e Casos de Tuberculose no Brasil**
---

Este é um trabalho de análise da evolução dos casos de tuberculose nas diferentes Unidades Federativas (UFs) do Brasil ao longo dos últimos 13 anos.

Esse notebook é parte integrante do trabalho de análise a respeito da evolução dos casos de tuberculose no Brasil e os efeitos da vacinação.

Aqui temos a parte dedicada à importação das diversas bases de dados que foram obtidas através de consultas ao DataSUS, via [TabNet](http://www2.datasus.gov.br/DATASUS/index.php?area=02).

Todos os *DataFrames* são importados, passam pelo processo de **```melt```** para tornar possível a consolidação em uma base única que vai servir para o estudo posteriormente.

## **1. Importação de Bibliotecas**
---

In [1]:
import pandas as pd


## **2. Arquivos a Serem Importados**
---

Aqui estabelecemos as variáveis com os nomes e URLs dos diversos arquivos que serão importados para compor nossa base de estudo.

Todos os arquivos foram obtidos a partir do TabNet e depois colocados dentro do repositórtio do ***GitHub*** para possibilitar a importação e a garantia de que teremos as mesmas informações em caso de rodarmos novamente os códigos de importação, uma vez que os dados do DataSUS são constantemente atualizados.

In [2]:
notif = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/tuberculose-casos%20notif.csv'
cura = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/tuberculose-casos%20notif%20-%20cura.csv'
obito = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/tuberculose-casos%20notif%20-%20obito.csv'

vacinas = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/bcg%20e%20bcg%20hans%20-%20doses.csv'

gastos = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/gastoshospit_tuberculoseS.csv'
intern = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/intern_tuberculoseS.csv'
dias_perman = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/diasperman_tuberculoses.csv'

populacao = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/DataSUS%20-%20Proj_Populacao2008-2021.csv'
pop_0a4 = 'https://github.com/gcochlar/Bootcamp_DataScience/raw/main/dados/popul_0a4.csv'

## **3. Importação de Casos Notificados**
---
Esses são os dados referentes aos casos de tuberculose notificados no DataSUS, no período de 2008-2020.
Tivemos um caso único de origem ignorada que foi descartado.


In [3]:
df_notif = pd.read_csv(notif,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=3, skipfooter=19,
                       sep=';',thousands='.', decimal=',',
                       index_col=0).drop(['2001','2002','2003','2004','2005','2006','2007','Total'], axis=1)

df_notif.drop('00 Ignorado/exterior',inplace=True)

df_notif

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
UF de notificação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,564,680,572,685,692,711,686,665,775,780,678,740,573
12 Acre,314,364,347,392,409,406,462,361,450,484,483,582,537
13 Amazonas,2688,2606,2764,2686,2842,3060,3143,3404,3259,3693,3803,3955,3500
14 Roraima,155,145,152,171,137,167,148,174,160,205,265,324,286
15 Pará,3790,4106,4104,4334,4048,4119,3940,3991,4224,4511,4678,5542,4437
16 Amapá,266,253,221,259,253,220,211,225,287,298,284,357,274
17 Tocantins,207,223,216,215,185,194,186,193,210,187,233,234,200
21 Maranhão,2464,2462,2414,2505,2185,2278,2111,2238,2442,2469,2647,2666,2332
22 Piauí,1224,1108,994,1002,921,908,813,754,812,791,884,877,758
23 Ceará,4473,4664,4315,4398,4236,4052,3879,4012,4045,4289,4555,4544,3696


In [4]:
df_notif_m = df_notif.reset_index().melt(id_vars = 'UF de notificação',
                                         value_vars = df_notif.columns)

df_notif_m.columns = ['UF','Ano','Casos Notif']
df_notif_m = df_notif_m.astype({'Casos Notif':'int64'})
df_notif_m

Unnamed: 0,UF,Ano,Casos Notif
0,11 Rondônia,2008,564
1,12 Acre,2008,314
2,13 Amazonas,2008,2688
3,14 Roraima,2008,155
4,15 Pará,2008,3790
...,...,...,...
346,43 Rio Grande do Sul,2020,6327
347,50 Mato Grosso do Sul,2020,1171
348,51 Mato Grosso,2020,1188
349,52 Goiás,2020,952


## **4. Importação Casos Curados**
---
Dentro dos casos notificados, temos a informação do modo de finalização do tratamento, onde temos vários históricos.

Os que vão nos interessar para o processo de análise são os casos em que a cura foi atingida e os que terminaram com o óbito do paciente em decorrência da tuberculose.

Aqui estamos importando os dados referentes aos pacientes curados.

In [5]:
df_cura = pd.read_csv(cura,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=4, skipfooter=19,
                       sep=';',thousands='.', decimal=',',
                       index_col=0).drop(['2001','2002','2003','2004','2005','2006','2007','Total'], axis=1)

df_cura.drop('00 Ignorado/exterior',inplace=True)
df_cura.replace('-',0,inplace=True)
df_cura

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
UF de notificação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,428,467,403,470,484,469,445,448,548,566,490,503,96
12 Acre,266,320,287,349,363,364,423,308,403,451,438,503,168
13 Amazonas,1952,1973,2085,2041,2068,2252,2269,2362,2354,2610,2567,2680,887
14 Roraima,127,118,126,135,107,118,117,124,108,144,189,218,65
15 Pará,2711,2953,2960,3189,2823,3054,2900,2565,2844,3132,3301,3515,741
16 Amapá,179,177,163,195,193,175,157,155,182,240,206,240,21
17 Tocantins,154,159,150,156,131,141,144,139,148,134,158,156,33
21 Maranhão,1935,1843,1803,1883,1541,1692,1535,1569,1678,1731,1892,1774,519
22 Piauí,774,699,682,712,606,666,603,534,576,580,600,496,160
23 Ceará,3357,3340,3107,3093,2925,2792,2536,2623,2707,2852,2925,2497,654


In [6]:
df_cura_m = df_cura.reset_index().melt(id_vars = 'UF de notificação',
                                         value_vars = df_cura.columns)

df_cura_m.columns = ['UF','Ano','Curados']
df_cura_m = df_cura_m.astype({'Curados':'int64'})
df_cura_m

Unnamed: 0,UF,Ano,Curados
0,11 Rondônia,2008,428
1,12 Acre,2008,266
2,13 Amazonas,2008,1952
3,14 Roraima,2008,127
4,15 Pará,2008,2711
...,...,...,...
346,43 Rio Grande do Sul,2020,1174
347,50 Mato Grosso do Sul,2020,141
348,51 Mato Grosso,2020,254
349,52 Goiás,2020,166


## **5. Importação Casos com Óbitos**
---
Complementando a informação anterior, aqui estamos importando os dados referentes aos casos finalizados com o óbito do paciente, desde que decorrente da tuberculose. Casos em que houve o falecimento por outras morbidades são desconsiderados.

In [7]:
df_obito = pd.read_csv(obito,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=4, skipfooter=19,
                       sep=';',thousands='.', decimal=',',
                       index_col=0).drop(['2001','2002','2003','2004','2005','2006','2007','Total'], axis=1)
df_obito.replace('-',0,inplace=True)
df_obito

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
UF de notificação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,8,4,12,10,5,16,12,4,10,10,5,4,9
12 Acre,9,4,10,6,8,13,10,14,8,7,6,8,9
13 Amazonas,89,131,127,84,98,137,90,95,96,147,145,143,128
14 Roraima,5,4,5,7,5,5,3,2,3,5,8,16,11
15 Pará,106,87,102,107,101,96,69,62,57,83,86,124,71
16 Amapá,6,3,5,6,8,5,5,4,2,4,3,6,5
17 Tocantins,3,13,8,12,6,8,8,5,2,6,9,6,7
21 Maranhão,64,77,73,71,105,89,66,76,81,76,112,130,90
22 Piauí,38,38,24,38,34,47,37,22,41,31,33,29,26
23 Ceará,142,171,121,92,133,109,115,96,102,151,151,129,89


In [8]:
df_obito_m = df_obito.reset_index().melt(id_vars = 'UF de notificação',
                                         value_vars = df_obito.columns)

df_obito_m.columns = ['UF','Ano','Óbitos']
df_obito_m = df_obito_m.astype({'Óbitos':'int64'})
df_obito_m

Unnamed: 0,UF,Ano,Óbitos
0,11 Rondônia,2008,8
1,12 Acre,2008,9
2,13 Amazonas,2008,89
3,14 Roraima,2008,5
4,15 Pará,2008,106
...,...,...,...
346,43 Rio Grande do Sul,2020,150
347,50 Mato Grosso do Sul,2020,40
348,51 Mato Grosso,2020,23
349,52 Goiás,2020,24


## **6. Importação de Vacinação**
---
Aqui temos a informação referente às doses de vacinas BCG aplicadas na população.

In [9]:
df_vacinas = pd.read_csv(vacinas,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=0, skipfooter=1,
                       sep=';',thousands='.', decimal=',',
                       index_col=0).drop(' Total', axis=1)

cols_apagar = df_vacinas.iloc[:,0:58].columns
cols_apagar = cols_apagar.append(df_vacinas.iloc[:,-6:].columns)
df_vacinas.drop(cols_apagar,axis=1,inplace=True)

for i in range(2008,2021):
    i_inicial=f'{i}/Jan'
    i_final=f'{i}/Dez'
    df_vacinas[str(i)]=df_vacinas.loc[:,i_inicial:i_final].sum(axis=1)

df_vacinas = df_vacinas.loc[:,'2008':'2020']

df_vacinas

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,29397,28393,26927,27688,27641,31310,30520,30723,29633,28456,25729,24835,19783
12 Acre,22433,20855,21910,20406,18297,19306,17874,18662,17344,16926,16223,15925,11699
13 Amazonas,94189,93854,90944,90439,94974,90809,94561,88151,78652,77423,75455,73531,69641
14 Roraima,10498,9854,10704,11188,11440,9559,11145,12043,12087,13196,15377,13719,11599
15 Pará,211870,199115,187145,179486,169550,177110,165996,136610,121902,128232,124966,117825,96679
16 Amapá,18521,17563,17081,16451,15497,17225,17955,19220,18696,16222,17129,16687,11610
17 Tocantins,27181,25843,25031,27544,27034,24205,26758,26676,26112,27711,26090,29164,22933
21 Maranhão,184137,172826,159049,154277,141013,147846,134507,123938,110671,129208,120993,98496,73849
22 Piauí,56886,53757,52054,51537,49809,50050,48731,41616,41711,47546,48552,41800,38392
23 Ceará,148855,145938,143579,142710,137360,144689,143597,150258,146269,147779,137885,112720,85597


In [10]:
df_vacinas_m = df_vacinas.reset_index().melt(id_vars = 'Unidade da Federação',
                                         value_vars = df_vacinas.columns)

df_vacinas_m.columns = ['UF','Ano','Vacinas']
df_vacinas_m

Unnamed: 0,UF,Ano,Vacinas
0,11 Rondônia,2008,29397
1,12 Acre,2008,22433
2,13 Amazonas,2008,94189
3,14 Roraima,2008,10498
4,15 Pará,2008,211870
...,...,...,...
346,43 Rio Grande do Sul,2020,116193
347,50 Mato Grosso do Sul,2020,27631
348,51 Mato Grosso,2020,48561
349,52 Goiás,2020,76032


## **7. Importação de Quantidades de Internações**
---
Agora, para avaliar o custo dos casos de tuberculose para o sistema público de saúde, vamos importar a quantidade de internações hospitalares que tiveram como causa principal a tuberculose.

In [11]:
df_intern = pd.read_csv(intern,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=4, skipfooter=7,
                       sep=';',thousands='.', decimal=',',
                       index_col=0).drop(['2007','2021','Total'], axis=1)

df_intern

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,65,94,128,181,173,147,99,124,138,182,198,180,126
12 Acre,112,117,81,63,77,59,70,63,66,60,77,67,55
13 Amazonas,295,339,444,347,244,281,223,254,209,230,216,223,136
14 Roraima,37,27,52,54,24,36,30,38,45,78,63,138,146
15 Pará,430,470,392,397,252,349,416,415,418,429,407,454,380
16 Amapá,71,47,53,65,80,53,28,36,33,18,29,31,5
17 Tocantins,122,96,115,74,76,72,84,59,76,54,61,68,60
21 Maranhão,276,135,159,188,124,155,158,215,222,276,300,305,284
22 Piauí,177,171,165,106,69,61,45,105,149,115,165,122,104
23 Ceará,662,710,668,633,628,659,624,599,618,593,656,731,539


In [12]:
df_intern_m = df_intern.reset_index().melt(id_vars = 'Unidade da Federação',
                                         value_vars = df_intern.columns)

df_intern_m.columns = ['UF','Ano','Internações']
df_intern_m

Unnamed: 0,UF,Ano,Internações
0,11 Rondônia,2008,65
1,12 Acre,2008,112
2,13 Amazonas,2008,295
3,14 Roraima,2008,37
4,15 Pará,2008,430
...,...,...,...
346,43 Rio Grande do Sul,2020,1194
347,50 Mato Grosso do Sul,2020,345
348,51 Mato Grosso,2020,124
349,52 Goiás,2020,299


## **8. Importação de Gastos com Internações**
---
Continuando a avaliação do impacto das internações hospitalares em decorrência da tuberculose, aqui estamos importando o custo em Reais das internações importadas anteriormente.

In [13]:
df_gastos = pd.read_csv(gastos,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=4, skipfooter=7,
                       sep=';',thousands='.', decimal=',',
                       index_col=0).drop(['2007','2021','Total'], axis=1)

df_gastos

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,6302.72,22078.19,10999.98,28285.64,24163.9,42227.01,30993.1,28384.98,58125.61,115182.75,92641.11,59881.24,45363.38
12 Acre,33934.63,35523.99,34203.9,37794.57,82213.8,35349.26,56167.53,63174.42,62584.78,49001.55,66599.2,55117.73,48876.41
13 Amazonas,177027.78,229299.61,692380.58,538788.74,393075.64,410172.7,246327.67,204862.93,73333.46,164288.53,138335.57,178595.55,97270.95
14 Roraima,8248.71,6927.23,22386.59,8928.53,6460.36,8857.01,5949.21,3899.37,12755.59,21913.71,55527.37,71274.57,48297.84
15 Pará,341201.2,586937.67,487268.9,394460.06,244432.4,328078.06,444281.85,394581.57,440515.75,426994.0,366610.76,463449.11,416119.77
16 Amapá,8932.76,4869.76,8653.04,9784.13,9703.48,10951.45,4232.39,10900.9,6561.03,2045.4,3511.28,6685.83,2199.48
17 Tocantins,63508.7,103246.74,111572.67,54759.32,79555.42,76187.74,79689.29,67490.42,83474.15,62989.05,56635.77,63362.48,45140.65
21 Maranhão,120668.35,24503.17,97800.65,179022.94,146590.05,120168.52,125295.66,176585.02,168914.44,227002.34,250816.91,270752.72,280086.93
22 Piauí,94573.81,122555.28,131254.47,81227.84,44901.77,35419.43,51161.56,214329.6,206811.77,232095.45,271026.2,187645.66,235483.06
23 Ceará,1053825.8,980643.62,813400.58,710657.09,712489.36,846379.92,885619.27,803102.78,877335.02,768256.29,728010.36,965371.68,913669.69


In [14]:
df_gastos_m = df_gastos.reset_index().melt(id_vars = 'Unidade da Federação',
                                         value_vars = df_gastos.columns)

df_gastos_m.columns = ['UF','Ano','Gastos']
df_gastos_m

Unnamed: 0,UF,Ano,Gastos
0,11 Rondônia,2008,6302.72
1,12 Acre,2008,33934.63
2,13 Amazonas,2008,177027.78
3,14 Roraima,2008,8248.71
4,15 Pará,2008,341201.20
...,...,...,...
346,43 Rio Grande do Sul,2020,2487620.40
347,50 Mato Grosso do Sul,2020,744445.50
348,51 Mato Grosso,2020,133764.26
349,52 Goiás,2020,450336.51


## **9. Importação de Dias de Permanência**
---
Agora que já temos quantas internações foram feitas e quanto custaram, vamos importar quantos dias de permanência em internação hospitalar esses pacientes tiveram.

In [15]:
df_perman = pd.read_csv(dias_perman,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=4, skipfooter=7,
                       sep=';',thousands='.', decimal=',',
                       index_col=0).drop(['2007','2021','Total'], axis=1)

df_perman

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,876,1082,1487,2195,2132,1742,794,1322,1827,2412,2866,2236,1289
12 Acre,1298,1042,726,765,1096,797,1070,828,773,715,753,673,411
13 Amazonas,3035,4579,5845,5072,4343,4654,2984,2875,1752,1798,2034,2318,1433
14 Roraima,381,299,579,873,282,436,297,466,640,879,951,1898,2870
15 Pará,6069,7342,5871,4872,3085,4519,5814,5280,5508,5428,4717,5307,4512
16 Amapá,947,658,576,630,676,677,292,488,442,223,335,264,46
17 Tocantins,1056,1088,1243,523,688,634,799,550,735,553,597,653,562
21 Maranhão,3817,2408,2329,2516,2188,2097,1984,2684,2813,3040,3424,3508,3487
22 Piauí,1497,1325,1409,913,594,521,371,1450,1672,1614,2189,1342,973
23 Ceará,7455,9007,8339,8026,8137,9073,8617,8566,9087,8134,8574,10119,6718


In [16]:
df_perman_m = df_perman.reset_index().melt(id_vars = 'Unidade da Federação',
                                         value_vars = df_perman.columns)

df_perman_m.columns = ['UF','Ano','Permanência']
df_perman_m

Unnamed: 0,UF,Ano,Permanência
0,11 Rondônia,2008,876
1,12 Acre,2008,1298
2,13 Amazonas,2008,3035
3,14 Roraima,2008,381
4,15 Pará,2008,6069
...,...,...,...
346,43 Rio Grande do Sul,2020,19216
347,50 Mato Grosso do Sul,2020,5430
348,51 Mato Grosso,2020,1031
349,52 Goiás,2020,2395


## **10. Importação de População**
---
Para poder calcular a proporcionalidade dos casos e seus custos, vamos importar os dados demográficos referentes à população total no mesmo período analisado.

Além disso, considerando que a vacinação tem como público alvo os recém nascidos (durante o primeiro mês de vida, o quanto antes), também importamos os dados demográficos referentes à população entre 0 e 4 anos de idade (menor divisão encontrada), no mesmo período.

In [17]:
df_popul = pd.read_csv(populacao,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=3, skipfooter=6,
                       sep=';',thousands='.', decimal=',',
                       index_col=0).drop('2021', axis=1)

df_popul

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,1616992,1640607,1663490,1685697,1707272,1728214,1748531,1768204,1787279,1805788,1823741,1841142,1857992
12 Acre,705635,720132,734447,748616,762631,776463,790101,803513,816687,829619,842290,854691,866811
13 Amazonas,3463562,3534456,3604165,3672969,3740976,3807921,3873743,3938336,4001667,4063614,4124033,4182899,4240210
14 Roraima,440533,450969,460678,469943,479073,488072,496936,505665,514229,522636,530879,538963,546891
15 Pará,7402515,7521656,7638340,7751993,7862333,7969654,8073924,8175113,8272724,8366628,8457229,8544639,8628901
16 Amapá,651977,669360,686189,702638,718906,734996,750912,766679,782295,797722,812961,828028,842914
17 Tocantins,1376898,1398334,1419100,1439275,1458965,1478164,1496880,1515126,1532902,1550194,1567016,1583391,1599316
21 Maranhão,6458789,6533027,6603880,6670977,6734353,6794301,6850884,6904241,6954036,7000229,7043339,7083578,7121156
22 Piauí,3106597,3125918,3142946,3158000,3171456,3183404,3193956,3203262,3211411,3218485,3224536,3229651,3233891
23 Ceará,8412055,8493155,8569783,8642630,8712413,8779338,8843553,8905225,8964432,9021232,9075744,9128090,9178363


In [18]:
df_popul_m = df_popul.reset_index().melt(id_vars = 'Unidade da Federação',
                           value_vars = df_popul.columns)

df_popul_m.columns = ['UF','Ano','População']
df_popul_m

Unnamed: 0,UF,Ano,População
0,11 Rondônia,2008,1616992
1,12 Acre,2008,705635
2,13 Amazonas,2008,3463562
3,14 Roraima,2008,440533
4,15 Pará,2008,7402515
...,...,...,...
346,43 Rio Grande do Sul,2020,11416895
347,50 Mato Grosso do Sul,2020,2800704
348,51 Mato Grosso,2020,3455092
349,52 Goiás,2020,7017496


In [19]:
df_pop0a4 = pd.read_csv(pop_0a4,
                       encoding='ISO-8859-1', engine='python',
                       skiprows=4, skipfooter=6,
                       sep=';',thousands='.', decimal=',',
                       index_col=0)

df_pop0a4

Unnamed: 0_level_0,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
Unidade da Federação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11 Rondônia,157101,154445,151892,149458,147144,144943,142826,140771,138798,136935,135197,133580,132095
12 Acre,89775,89420,88960,88426,87845,87220,86554,85849,85089,84259,83368,82425,81446
13 Amazonas,420024,418820,417019,414748,412122,409194,405980,402454,398509,394089,389272,384132,378749
14 Roraima,54297,53903,53396,52833,52272,51728,51200,50684,50165,49630,49079,48514,47945
15 Pará,838448,831347,823194,814180,804490,794380,783993,773411,762492,751214,739766,728275,716840
16 Amapá,84275,83669,82889,82002,81085,80177,79310,78505,77764,77056,76379,75718,75070
17 Tocantins,144724,142948,141037,139050,137037,135028,133055,131141,129286,127485,125747,124085,122499
21 Maranhão,760173,753035,743677,732403,719528,705496,690776,675876,660953,646128,631676,617737,604347
22 Piauí,303665,296465,288922,281159,273293,265505,258000,251014,244664,238949,233828,229224,225016
23 Ceará,781383,766911,752833,739224,726141,713659,701860,690831,680505,670786,661640,653031,644888


In [20]:
df_pop0a4_m = df_pop0a4.reset_index().melt(id_vars = 'Unidade da Federação',
                           value_vars = df_pop0a4.columns)

df_pop0a4_m.columns = ['UF','Ano','Popul 0 à 4']
df_pop0a4_m

Unnamed: 0,UF,Ano,Popul 0 à 4
0,11 Rondônia,2008,157101
1,12 Acre,2008,89775
2,13 Amazonas,2008,420024
3,14 Roraima,2008,54297
4,15 Pará,2008,838448
...,...,...,...
346,43 Rio Grande do Sul,2020,640270
347,50 Mato Grosso do Sul,2020,195897
348,51 Mato Grosso,2020,244387
349,52 Goiás,2020,445741


## **11. Concatena Bases em** ***DataFrame*** **Único**
---
Agora que temos todos os *DataFrames* importados e devidamente tratados, vamos consolidá-los em um único arquivo CSV para ser importado pelo caderno de análise.

Dentro desse processo vamos calcular também os casos que tiveram finalizações diferentes de cura ou óbito, colocando o resultado em uma coluna denominada 'Outros Fins'.

In [21]:
def concat_df(df_origem, df_destino):
    df_destino = pd.merge(df_destino, df_origem,
                          on = ['UF','Ano'])
    return df_destino
    
df_completo = pd.merge(df_notif_m, df_cura_m,
                       on = ['UF','Ano'])

df_completo = concat_df(df_obito_m,df_completo)

## Calcula os casos que não foram encerrados como 'Curados'
## e nem como 'Óbitos' e coloca em 'Outros Fins'
df_completo['Outros Fins'] = df_completo['Casos Notif'] - df_completo['Curados'] - df_completo['Óbitos']

df_completo = concat_df(df_popul_m,  df_completo)
df_completo = concat_df(df_pop0a4_m, df_completo)
df_completo = concat_df(df_vacinas_m,df_completo)
df_completo = concat_df(df_intern_m, df_completo)
df_completo = concat_df(df_perman_m, df_completo)
df_completo = concat_df(df_gastos_m, df_completo)

df_completo

Unnamed: 0,UF,Ano,Casos Notif,Curados,Óbitos,Outros Fins,População,Popul 0 à 4,Vacinas,Internações,Permanência,Gastos
0,11 Rondônia,2008,564,428,8,128,1616992,157101,29397,65,876,6302.72
1,12 Acre,2008,314,266,9,39,705635,89775,22433,112,1298,33934.63
2,13 Amazonas,2008,2688,1952,89,647,3463562,420024,94189,295,3035,177027.78
3,14 Roraima,2008,155,127,5,23,440533,54297,10498,37,381,8248.71
4,15 Pará,2008,3790,2711,106,973,7402515,838448,211870,430,6069,341201.20
...,...,...,...,...,...,...,...,...,...,...,...,...
346,43 Rio Grande do Sul,2020,6327,1174,150,5003,11416895,640270,116193,1194,19216,2487620.40
347,50 Mato Grosso do Sul,2020,1171,141,40,990,2800704,195897,27631,345,5430,744445.50
348,51 Mato Grosso,2020,1188,254,23,911,3455092,244387,48561,124,1031,133764.26
349,52 Goiás,2020,952,166,24,762,7017496,445741,76032,299,2395,450336.51


## **12. Insere Coluna 'Região'**
---
Para possibilitar a separação da informação em áreas geográficas, vamos inserir a coluna 'Região' em nosso *DataFrame* consolidado, usando para isso a codificação usada pelo DataSUS.

Também aproveitamos para limpar o nome das UFs para conter somente o nome, sem o código.

In [22]:
df_completo[['Código UF','UF']] = pd.DataFrame(
    df_completo['UF'].str.split(' ',1).tolist())

df_completo['Região'] = df_completo['Código UF'].str[0]
df_completo = df_completo.drop('Código UF', axis=1)

dict_regioes = {'1' : 'Norte', '2' : 'Nordeste',
                '3' : 'Sudeste', '4' : 'Sul',
                '5' : 'Centro-Oeste'}

df_completo['Região'] = df_completo['Região'].map(dict_regioes)



In [23]:
df_completo

Unnamed: 0,UF,Ano,Casos Notif,Curados,Óbitos,Outros Fins,População,Popul 0 à 4,Vacinas,Internações,Permanência,Gastos,Região
0,Rondônia,2008,564,428,8,128,1616992,157101,29397,65,876,6302.72,Norte
1,Acre,2008,314,266,9,39,705635,89775,22433,112,1298,33934.63,Norte
2,Amazonas,2008,2688,1952,89,647,3463562,420024,94189,295,3035,177027.78,Norte
3,Roraima,2008,155,127,5,23,440533,54297,10498,37,381,8248.71,Norte
4,Pará,2008,3790,2711,106,973,7402515,838448,211870,430,6069,341201.20,Norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...
346,Rio Grande do Sul,2020,6327,1174,150,5003,11416895,640270,116193,1194,19216,2487620.40,Sul
347,Mato Grosso do Sul,2020,1171,141,40,990,2800704,195897,27631,345,5430,744445.50,Centro-Oeste
348,Mato Grosso,2020,1188,254,23,911,3455092,244387,48561,124,1031,133764.26,Centro-Oeste
349,Goiás,2020,952,166,24,762,7017496,445741,76032,299,2395,450336.51,Centro-Oeste


## **13. Gera o Arquivo CSV Consolidado**
---
Essa instrução gera o arquivo CSV consolidado que será importado pelo notebook de análise.

In [25]:
df_completo.to_csv('df_completo.csv', index = False)