In [1]:
import pandas as pd
import matplotlib.pyplot as plt

codigos_estados = {35: 'SP', 41: 'PR', 42: 'SC', 43: 'RS', 50: 'MS', 11: 'RO', 12: 'AC', 13: 'AM', 14: 'RR', 15: 'PA', 16: 'AP', 17: 'TO', 21: 'MA', 24: 'RN', 25: 'PB', 26: 'PE', 27: 'AL', 28: 'SE', 29: 'BA', 31: 'MG', 33: 'RJ', 51: 'MT', 52: 'GO', 53: 'DF', 22: 'PI', 23: 'CE', 32: 'ES'}

DATA = "esquistossomose.parquet"

## Questão 2

Para essa questão, foi necessário o uso de apenas um método chamado `value_counts`, que automaticamente agrupa os dados, no nosso caso, por município, e contabiliza quantos casos da doença ocorreram em cada município. Assim, o resultado foi este:

In [2]:
def questao_2(datapath = DATA):
    tabela = pd.read_parquet(datapath)
    return tabela.value_counts("ID_MUNICIP")

questao_2()

ID_MUNICIP
313130    419
310620    353
355030    173
310050    166
312270    127
         ... 
310900      1
310690      1
310510      1
310040      1
313220      1
Name: count, Length: 598, dtype: int64

# Questão 4

Para responder a essa pergunta, foi preciso apenas um método denominado `mean`, que retorna a média dos dados de uma determinada coluna de uma tabela. Assim, bastou aplicar esse método à coluna "IDADE" no nosso dataset, coluna essa que foi criada ainda antes do download da base por meio da função decodificadora de idade do SINAN.

In [3]:
def questao_4(datapath = DATA):
    tabela = pd.read_parquet(datapath)
    return tabela["IDADE"].mean()

questao_4()

40.20773257745728

Portanto, a média de idade das vítimas de esquistossomose em 2018 foi de aproximadamente 40 anos.

# Questão 5

Primeiramente, mais uma vez, era necessário agrupar os dados e contar suas ocorrências por categoria por meio do `value_counts`, mas agora por estado.

Em seguida, com base em um dicionário já carregado anteriormente que contém os códigos dos estados e as respectivas siglas, foi realizada a substituição dos códigos numéricos pelas siglas de cada estado por meio de um loop `for` e com o método `rename`, que renomeou adequadamente cada código pelo respectivo estado. Vale ressaltar que isso foi efetuado como uma troca de índices, já que os valores dos estados estavam configurados como a coluna "index" da série gerada inicialmente. Além disso, na série, foi preciso converter esses códigos para números com a função `to_numeric`, pois eles estavam classificados como strings, impossibilitando a correspondência entre seus valores e os do dicionário.

Por fim, bastou converter essa série para dicionário com o método `to_dict`.

In [5]:
def questao_5(datapath = DATA):
    tabela = pd.read_parquet(datapath)
    # Agrupando e contando as ocorrências por estado
    tabela_por_estado = tabela.value_counts("SG_UF_NOT")
    # Convertendo os códigos dos estados para números
    tabela_por_estado.index = pd.to_numeric(tabela_por_estado.index)
    # Substituindo os códigos pelas siglas
    for codigo, sigla in codigos_estados.items():
        tabela_por_estado.rename(index = {codigo: sigla}, inplace = True)
    # Convertendo a série para um dicionário
    return tabela_por_estado.to_dict()

questao_5()

{'MG': 2064,
 'SP': 573,
 'ES': 437,
 'BA': 341,
 'PE': 177,
 'SE': 130,
 'AL': 102,
 'RO': 66,
 'MA': 54,
 'PR': 49,
 'PB': 46,
 'RJ': 44,
 'CE': 37,
 'DF': 24,
 'SC': 12,
 'GO': 12,
 'MT': 11,
 'RN': 11,
 'MS': 9,
 'PA': 8,
 'TO': 4,
 'RR': 3,
 'AP': 2,
 'RS': 2,
 'PI': 1}

Portanto, a unidade federativa com mais registros é Minas Gerais, com 2064 casos da doença naquele ano.

# Questão 6

Para essa questão, foram realizados exatamente os mesmos passos da questão anterior, com a única diferença de que foi feita a filtragem dos dados de modo a considerar apenas registros com pessoas do sexo masculino. Assim, a função ficou desta forma:

In [7]:
def questao_6(datapath = DATA):
    tabela = pd.read_parquet(datapath)
    # Filtrando os dados para registros do sexo masculino
    sexo_masculino = tabela[tabela["CS_SEXO"] == "M"]
    sexo_masculino_por_estado = sexo_masculino.value_counts("SG_UF_NOT")
    sexo_masculino_por_estado.index = pd.to_numeric(sexo_masculino_por_estado.index)
    for codigo, sigla in codigos_estados.items():
        sexo_masculino_por_estado.rename(index = {codigo: sigla}, inplace = True)
    return sexo_masculino_por_estado.to_dict()

questao_6()

{'MG': 1276,
 'SP': 312,
 'ES': 307,
 'BA': 191,
 'PE': 100,
 'SE': 78,
 'AL': 50,
 'PR': 41,
 'RO': 36,
 'MA': 35,
 'PB': 27,
 'RJ': 26,
 'CE': 19,
 'SC': 12,
 'DF': 11,
 'GO': 8,
 'RN': 7,
 'MS': 7,
 'MT': 6,
 'PA': 4,
 'TO': 2,
 'RR': 1,
 'AP': 1,
 'RS': 1}

Desse modo, novamente, o estado com mais casos do sexo masculino é Minas Gerais, com 1276 registros.