In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [19]:
url_casos_tuberculose = "https://github.com/nicolas-stelatto/projeto_bootcamp_alura_M2/raw/main/dados_brutos/casos_tuberculose.csv"
dados = pd.read_csv(url_casos_tuberculose, encoding="ISO-8859-1", 
                    skiprows = 3, sep=";", skipfooter=18,
                    na_values='-',
                    thousands=".", decimal=",", engine="python")

In [20]:
dados

Unnamed: 0,UF de notificação,1980,1981,1982,1983,1984,1985,1986,1987,1988,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,Total
0,11 Rondônia,,,,,,,,,,...,720.0,690.0,660.0,779.0,772.0,697.0,737,590.0,3.0,13090
1,12 Acre,,,,,,,,,,...,394.0,440.0,389.0,436.0,489.0,484.0,584,553.0,,8081
2,13 Amazonas,,,,,,,,,,...,3066.0,3127.0,3401.0,3284.0,3697.0,3794.0,3958,3520.0,29.0,58327
3,14 Roraima,,,,,,,,,,...,167.0,148.0,170.0,162.0,206.0,262.0,323,293.0,,3674
4,15 Pará,,,,,,,,,,...,4131.0,3944.0,3974.0,4216.0,4512.0,4699.0,5512,4521.0,24.0,82682
5,16 Amapá,,,,,,,,,,...,220.0,210.0,223.0,284.0,306.0,279.0,363,273.0,2.0,5267
6,17 Tocantins,,,,,,,,,,...,190.0,193.0,190.0,208.0,185.0,233.0,239,204.0,3.0,4620
7,21 Maranhão,,,,,,,,,,...,2316.0,2081.0,2277.0,2412.0,2505.0,2659.0,2705,2358.0,33.0,51953
8,22 Piauí,,,,,,,,,,...,903.0,815.0,773.0,794.0,805.0,879.0,874,792.0,13.0,22158
9,23 Ceará,,,,,,,,,,...,4071.0,3884.0,4014.0,4034.0,4316.0,4560.0,4582,3832.0,28.0,85787


In [21]:
dados = dados.rename(columns={'UF de notificação':'UF'})
dados.head()

Unnamed: 0,UF,1980,1981,1982,1983,1984,1985,1986,1987,1988,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,Total
0,11 Rondônia,,,,,,,,,,...,720.0,690.0,660.0,779.0,772.0,697.0,737,590.0,3.0,13090
1,12 Acre,,,,,,,,,,...,394.0,440.0,389.0,436.0,489.0,484.0,584,553.0,,8081
2,13 Amazonas,,,,,,,,,,...,3066.0,3127.0,3401.0,3284.0,3697.0,3794.0,3958,3520.0,29.0,58327
3,14 Roraima,,,,,,,,,,...,167.0,148.0,170.0,162.0,206.0,262.0,323,293.0,,3674
4,15 Pará,,,,,,,,,,...,4131.0,3944.0,3974.0,4216.0,4512.0,4699.0,5512,4521.0,24.0,82682


In [23]:
dict_regiao = {'1':'Norte', '2':'Nordeste', '3':'Sudeste', '4':'Sul','5':'Centro-Oeste'}
dados['regiao'] = [dict_regiao[UF[0]] for UF in dados['UF']]
dados['UF'] = [uf[3:] for uf in dados['UF']]
dados.head()

KeyError: '0'

In [18]:
dados = pd.melt(dados, id_vars=['UF', 'regiao'],var_name='data', value_name=nome)

Unnamed: 0,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,Total
0,662.0,636.0,648.0,623.0,628.0,518.0,544.0,563.0,665.0,575.0,...,720.0,690.0,660.0,779.0,772.0,697.0,737,590.0,3.0,13090
1,353.0,373.0,370.0,350.0,329.0,383.0,315.0,327.0,364.0,342.0,...,394.0,440.0,389.0,436.0,489.0,484.0,584,553.0,,8081
2,2333.0,2271.0,2333.0,2557.0,2498.0,2442.0,2443.0,2691.0,2604.0,2750.0,...,3066.0,3127.0,3401.0,3284.0,3697.0,3794.0,3958,3520.0,29.0,58327
3,149.0,172.0,200.0,217.0,160.0,149.0,137.0,156.0,145.0,150.0,...,167.0,148.0,170.0,162.0,206.0,262.0,323,293.0,,3674
4,3447.0,3764.0,3936.0,4077.0,3992.0,3819.0,3741.0,3792.0,4091.0,4101.0,...,4131.0,3944.0,3974.0,4216.0,4512.0,4699.0,5512,4521.0,24.0,82682


In [6]:
def limpa_dados(dados, nome):
    '''
    Função que recebe um conjunto de dados dos casos de tuberculose e faz diversas manipulações:
        
        renomeia a coluna Unidade da Federação para UF para simplificar
        cria uma coluna para indicar a região
        elimina os números antes do nome dos estados
        elimina a coluna total
        transforma as colunas relacionadas a data em uma coluna apenas(coluna data)
        transforma a coluna data para o tipo date do python
        restringe a data entre 2001 e 2020
        
    Parâmetros:
        
        dados: dataframe com a base de dados coletado do datasus, tipo=pd.DataFrame
        nome: nome da variável numérica correspondente, tipo="string""
    '''
    #Renomeando a coluna Unidade da Federação para simplificar a manipulação 
    dados = dados.rename(columns={'UF de notificação':'UF'})

    #Criando uma coluna com a região e eliminado os números da coluna UF
    dict_regiao = {'1':'Norte', '2':'Nordeste', '3':'Sudeste', '4':'Sul','5':'Centro-Oeste'}
    dados['regiao'] = [dict_regiao[uf[0]] for uf in dados['UF']]
    dados['UF'] = [uf[3:] for uf in dados['UF']]
    
    #Tirando a coluna Total 
    dados = dados.drop('Total', axis=1)
    
    #Eliminando dados antes de 2001
    dados = dados[dados.columns.to_list()[20:]]

    #Transformando as colunas em uma coluna data
    dados = pd.melt(dados, id_vars=['UF', 'regiao'],var_name='data', value_name=nome)
    
    #Transformando as colunas em tipo data
    dados['data'] = tranforma_date(dados['data'])
    
    #Eliminado dados antes de Fev de 2008 e depois de Dez de 2019
    dez_2019 = date.fromisoformat('2019-12-01')
    rows_drop = dados[dados['data'].dt.date>dez_2019]
        
    #Tirando a coluna Total 
    dados = dados.drop(rows_drop.index)

    return dados

Unnamed: 0,UF de notificação,1980,1981,1982,1983,1984,1985,1986,1987,1988,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,Total
19,35 São Paulo,1,3.0,2.0,3.0,1.0,1.0,1.0,2.0,1.0,...,19840.0,19654.0,20403.0,20395.0,22092.0,22302.0,21954.0,19419.0,263.0,389594.0
28,Total,1,3.0,2.0,3.0,1.0,1.0,1.0,2.0,1.0,...,86851.0,85018.0,85336.0,85900.0,91354.0,95390.0,97871.0,86044.0,943.0,1772254.0
