<a href="https://colab.research.google.com/github/vmaicon/alura-bootcamp-dsa-2/blob/main/modulo-1/Aula_01_Aquisi%C3%A7%C3%A3o_e_leitura_de_dados_reais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Explorando dados do datasus a partir de 2008

# 01. Aquisição e leitura de dados reais

- Selecionado Produção Hospitalar;
- Aqui o link inicial da consulta: https://datasus.saude.gov.br/acesso-a-informacao/producao-hospitalar-sih-sus
- Opção: Dados Consolidados AIH (RD), por **local de internação**, a partir de 2008;
- Na caixa de seleção escolhe: Brasil por Região e Unbidade da Federação

## Faremos uma análise por Estado

- Será analisado o total gasto por Estado

### Em Procedimentos hospitalares do SUS - por local de internação - Brasil

Tem as caixinhas:

*   **Linha**: "Unidade da Federação"
*   **Coluna**: "Ano/mês processamento" (para evitar alterações dos números em outras colunas)
*   **Conteúdo**: "Valor Total"

### Em Períodos disponíveis

- Seleciona todas as opções.

Após o carregamento dos dados, clica no botão para **COPIAR COMO .CSV**

In [None]:
import pandas as pd

arquivo = "https://raw.githubusercontent.com/vmaicon/alura-bootcamp-dsa-2/main/dados/jan-2008-Mar-2021-ano-mes-processamento.csv"

dados = pd.read_csv(arquivo, encoding='ISO-8859-1', skiprows=3, skipfooter=12,
                    thousands='.', decimal=',', sep=';', engine='python')

In [None]:
dados

In [None]:
dados.head() # mostra apenas as 5 primeiras linhas

In [None]:
dados.tail() # mostra as 5 úlitmas linhas

In [None]:
dados.mean() # retorna a média para cadas coluna

In [None]:
dados.info()

- Apresentando os dados formatados com duas casas decimais

In [None]:
pd.options.display.float_format = "{:.2f}".format

In [None]:
dados.mean()

- Selecionando apenas as séries do mês de Agosto: ```"2008/ago"```



In [None]:
dados['2008/Ago']

In [None]:
dados['2008/Ago'].mean()

In [None]:
dados.plot(x='Unidade da Federação',y='2008/Ago')

In [None]:
dados.plot(x='Unidade da Federação',y='2008/Ago',kind='bar', figsize=(9,6))

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

ax = dados.plot(x='Unidade da Federação',y='2008/Ago',kind='bar', figsize=(9,6))

ax.yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.2f}'))

plt.title('Valor por unidade da federação')

plt.show()

---
## Desafio 1: escolher um título mais descritivo, que passe a mensagem adequada.

Achei bem legal ter a flexibildade para alterar o titulo e experimentei também:
- Adicionar uma **label y**: `plt.ylabel('Custo por Estado')` 
- Alterar a **label x** *Unidade da Federação* para: `plt.xlabel('Estados')`;
- Remover os números antes dos nomes dos Estados, no eixo x;
- Ordenação por valores em ordem decrescente em: `dados['2008/Ago']` para um novo DataFrame **df_processamento**

- O trecho de código abaixo vai remover os números antes dos nomes
- Exemplo de `"11 Rondônia"`, vai começar a partir da letra R, 
- O resultado vai ser `"Rondônia"`

In [None]:
df_processamento = dados.copy() #deixo os dados originais para usar uma cópia

df_processamento['Unidade da Federação'] = df_processamento['Unidade da Federação'].str[3:]

- O resultado pode ser conferido abaixo

In [None]:
df_processamento['Unidade da Federação'].tail()

- Uma função para montar o gráfico dos desafios 1 e 2, reaproveitar o código

In [None]:
def monta_grafico(ano_mes, ordenacao):
  # sort_values para ordenar
  df = df_processamento.sort_values(by=ano_mes, ascending=ordenacao)

  ax = df.plot(x='Unidade da Federação',y=ano_mes,
               kind='bar',figsize= (10,6))

  ax.yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.2f}'))

  titulo = 'Custos com procedimentos hospitalares do SUS por local de internação'
  sub_titulo = 'Ano/mês de processamento'

  # Adiciona o título e o subtitulo, na proxima linha
  plt.title(f"{titulo}\n{sub_titulo}")

  plt.xlabel('Estados')
  plt.ylabel('Custo por Estado')

  plt.show()

### Apresentação do gráfico

In [None]:
monta_grafico('2008/Ago',False)

---
## Desafio 2: faça a mesma análise pro mês mais recente.

### Apresentação do gráfico

In [None]:
monta_grafico('2021/Mar',False)

## Referências:

*   https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.html
*   https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.plot.html
*   https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
*   https://www.freecodecamp.org/news/how-to-substring-a-string-in-python/
*   https://cursos.alura.com.br/forum/topico-ordenar-uma-coluna-em-ordem-crescente-e-a-coluna-ao-lado-siga-o-novo-index-94377
*   https://www.storytellingwithdata.com/blog/2020/4/22/alternatives-to-diagonal-axis-labels


