# Download de Internações por Doença Respiratória (CID-10 J) - Rio de Janeiro
Este notebook realiza o download dos dados de internação hospitalar por doenças respiratórias (CID-10 iniciando com a letra **J**) na cidade do Rio de Janeiro, utilizando a biblioteca **PySUS**.

**Observações importantes:**
- O download utilizando a biblioteca **PySUS** só é possível em **Linux** ou no **Google Colab**.


## Instalação de dependências
Instala a biblioteca **PySUS** para acessar os dados do DataSUS.

In [1]:
!pip install pysus

Collecting pysus
  Downloading pysus-1.0.0-py3-none-any.whl.metadata (1.3 kB)
Collecting Unidecode<2.0.0,>=1.3.6 (from pysus)
  Downloading Unidecode-1.4.0-py3-none-any.whl.metadata (13 kB)
Collecting aioftp<0.22.0,>=0.21.4 (from pysus)
  Downloading aioftp-0.21.4-py3-none-any.whl.metadata (6.1 kB)
Collecting bigtree<0.13.0,>=0.12.2 (from pysus)
  Downloading bigtree-0.12.5-py3-none-any.whl.metadata (28 kB)
Collecting dateparser<2.0.0,>=1.1.8 (from pysus)
  Downloading dateparser-1.2.2-py3-none-any.whl.metadata (29 kB)
Collecting dbfread==2.0.7 (from pysus)
  Downloading dbfread-2.0.7-py2.py3-none-any.whl.metadata (3.3 kB)
Collecting elasticsearch==7.16.2 (from elasticsearch[preprocessing]==7.16.2->pysus)
  Downloading elasticsearch-7.16.2-py2.py3-none-any.whl.metadata (5.7 kB)
Collecting fastparquet<=2024.11.0,>=2023.10.1 (from pysus)
  Downloading fastparquet-2024.11.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.2 kB)
Collecting loguru<0.7.0,>=0.6.0 (from p

## Importação de bibliotecas

Carrega as bibliotecas necessárias para manipulação e download dos dados.

In [2]:
from pysus import SIH
import pandas as pd
import os
from zipfile import ZipFile

## Download e filtro dos dados
Esta função automatiza o processo de download, filtragem e organização dos dados de internações hospitalares (SIH) para o Rio de Janeiro.

**Funcionalidades:**

*   **Seleção de Período:** Permite especificar anos e meses para download.
*   **Download de Dados:** Baixa os arquivos de dados do SIH para o período e UF (RJ) especificados.
*   **Filtragem por CID-10:** Filtra os registros, mantendo apenas as internações cujo diagnóstico principal (DIAG_PRINC) inicia com 'J' (doenças respiratórias) e identificador '1'.
*   **Seleção de colunas:** Seleciona as colunas mais relevantes para análise.
*   **Formatação de data:** Converte a data de internação para o formato AAAA-MM-DD e filtra os dados entre 2012 e 2024.
*   **Salvamento Anual:** Salva os dados filtrados de cada ano em um arquivo CSV separado.

In [None]:
def download_and_filter_data(anos, meses=[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]):

    if isinstance(anos, int):
        anos = [anos]

    df_concatenado = pd.DataFrame()

    for ano in anos:
      for mes in meses:
        # Baixar os arquivos para o ano e mês específico
        sih = SIH().load()
        files = sih.get_files("RD", uf="RJ", year=ano, month=[mes])

        # Baixar os dados dos arquivos
        parquet = sih.download(files)

        # Converter os dados para um DataFrame
        df = parquet.to_dataframe()

        # Filtrar a coluna 'DIAG_PRINC' conforme os valores especificados
        df_filtrado = df[(df['DIAG_PRINC'].str.startswith('J')) & (df['IDENT'] == '1')]

        # Selecionando as colunas mais relevantes
        interest_columns = ['UF_ZI', 'ANO_CMPT', 'MES_CMPT', 'MUNIC_RES', 'MUNIC_MOV', 'CEP', 'NASC', 'SEXO', 'DT_INTER', 'DT_SAIDA', 'DIAG_PRINC', 'DIAG_SECUN', 'IDADE', 'COD_IDADE', 'RACA_COR', 'ETNIA', 'DIAS_PERM', 'MORTE', 'CID_MORTE']

        df_filtrado = df_filtrado[interest_columns]

        # Concatenar os dados do mês com os dados já baixados
        df_concatenado = pd.concat([df_concatenado, df_filtrado], ignore_index=True)

        print(f'Dados do ano {ano} - mês {mes} baixados e filtrados.')

      df_concatenado['data_formatada'] = pd.to_datetime(df_concatenado['DT_INTER'], format='%Y%m%d').dt.strftime('%Y-%m-%d')

      df_concatenado.sort_values(by='data_formatada', inplace=True)

      df_concatenado = df_concatenado[(df_concatenado['data_formatada'] >= '2012-01-01') & (df_concatenado['data_formatada'] <= '2024-12-31')]

      df_concatenado.to_csv(f'dados_filtrados_{ano}.csv', index=False)

    print(f'Dados do(s) ano(s) {anos} salvos com sucesso em "dados_filtrados_{anos[0]}_a_{anos[-1]}.csv".')

## Execução do download

Baixa os dados de 2012 até 2024 e aplica o filtro.

In [None]:
download_and_filter_data(anos=list(range(2012, 2025)))

RDRJ1201.parquet: 100%|██████████| 172k/172k [00:09<00:00, 18.4kB/s]


Dados do ano 2012 - mês 1 baixados e filtrados.


RDRJ1202.parquet: 100%|██████████| 168k/168k [00:09<00:00, 18.0kB/s]


Dados do ano 2012 - mês 2 baixados e filtrados.


RDRJ1203.parquet: 100%|██████████| 199k/199k [00:11<00:00, 17.5kB/s]


Dados do ano 2012 - mês 3 baixados e filtrados.


RDRJ1204.parquet: 100%|██████████| 189k/189k [00:10<00:00, 18.2kB/s]


Dados do ano 2012 - mês 4 baixados e filtrados.


RDRJ1205.parquet: 100%|██████████| 199k/199k [00:10<00:00, 18.6kB/s]


Dados do ano 2012 - mês 5 baixados e filtrados.


RDRJ1206.parquet: 100%|██████████| 200k/200k [00:11<00:00, 18.2kB/s]


Dados do ano 2012 - mês 6 baixados e filtrados.


RDRJ1207.parquet: 100%|██████████| 200k/200k [00:10<00:00, 18.7kB/s]


Dados do ano 2012 - mês 7 baixados e filtrados.


RDRJ1208.parquet: 100%|██████████| 199k/199k [00:12<00:00, 16.5kB/s]


Dados do ano 2012 - mês 8 baixados e filtrados.


RDRJ1209.parquet: 100%|██████████| 185k/185k [00:10<00:00, 17.2kB/s]


Dados do ano 2012 - mês 9 baixados e filtrados.


RDRJ1210.parquet: 100%|██████████| 187k/187k [00:10<00:00, 18.2kB/s]


Dados do ano 2012 - mês 10 baixados e filtrados.


RDRJ1211.parquet: 100%|██████████| 171k/171k [00:08<00:00, 20.9kB/s]


Dados do ano 2012 - mês 11 baixados e filtrados.


RDRJ1212.parquet: 100%|██████████| 164k/164k [00:09<00:00, 17.6kB/s]


Dados do ano 2012 - mês 12 baixados e filtrados.


RDRJ1301.parquet: 100%|██████████| 175k/175k [00:09<00:00, 18.2kB/s]


Dados do ano 2013 - mês 1 baixados e filtrados.


RDRJ1302.parquet: 100%|██████████| 168k/168k [00:09<00:00, 16.9kB/s]


Dados do ano 2013 - mês 2 baixados e filtrados.


RDRJ1303.parquet: 100%|██████████| 183k/183k [00:10<00:00, 17.7kB/s]


Dados do ano 2013 - mês 3 baixados e filtrados.


RDRJ1304.parquet: 100%|██████████| 190k/190k [00:10<00:00, 17.7kB/s]


Dados do ano 2013 - mês 4 baixados e filtrados.


RDRJ1305.parquet: 100%|██████████| 194k/194k [00:11<00:00, 17.3kB/s]


Dados do ano 2013 - mês 5 baixados e filtrados.


RDRJ1306.parquet: 100%|██████████| 187k/187k [00:10<00:00, 18.2kB/s]


Dados do ano 2013 - mês 6 baixados e filtrados.


RDRJ1307.parquet: 100%|██████████| 196k/196k [00:10<00:00, 17.9kB/s]


Dados do ano 2013 - mês 7 baixados e filtrados.


RDRJ1308.parquet: 100%|██████████| 197k/197k [00:11<00:00, 17.6kB/s]


Dados do ano 2013 - mês 8 baixados e filtrados.


RDRJ1309.parquet: 100%|██████████| 191k/191k [00:10<00:00, 18.5kB/s]


Dados do ano 2013 - mês 9 baixados e filtrados.


RDRJ1310.parquet: 100%|██████████| 190k/190k [00:10<00:00, 17.6kB/s]


Dados do ano 2013 - mês 10 baixados e filtrados.


RDRJ1311.parquet: 100%|██████████| 180k/180k [00:09<00:00, 18.6kB/s]


Dados do ano 2013 - mês 11 baixados e filtrados.


RDRJ1312.parquet: 100%|██████████| 169k/169k [00:09<00:00, 17.9kB/s]


Dados do ano 2013 - mês 12 baixados e filtrados.


RDRJ1401.parquet: 100%|██████████| 195k/195k [00:11<00:00, 16.6kB/s]


Dados do ano 2014 - mês 1 baixados e filtrados.


RDRJ1402.parquet: 100%|██████████| 193k/193k [00:11<00:00, 17.2kB/s]


Dados do ano 2014 - mês 2 baixados e filtrados.


RDRJ1403.parquet: 100%|██████████| 190k/190k [00:11<00:00, 16.0kB/s]


Dados do ano 2014 - mês 3 baixados e filtrados.


RDRJ1404.parquet: 100%|██████████| 194k/194k [00:11<00:00, 16.7kB/s]


Dados do ano 2014 - mês 4 baixados e filtrados.


RDRJ1405.parquet: 100%|██████████| 200k/200k [00:11<00:00, 17.4kB/s]


Dados do ano 2014 - mês 5 baixados e filtrados.


RDRJ1406.parquet: 100%|██████████| 191k/191k [00:11<00:00, 16.8kB/s]


Dados do ano 2014 - mês 6 baixados e filtrados.


RDRJ1407.parquet: 100%|██████████| 213k/213k [00:12<00:00, 17.4kB/s]


Dados do ano 2014 - mês 7 baixados e filtrados.


RDRJ1408.parquet: 100%|██████████| 211k/211k [00:11<00:00, 17.7kB/s]


Dados do ano 2014 - mês 8 baixados e filtrados.


RDRJ1409.parquet: 100%|██████████| 213k/213k [00:12<00:00, 17.5kB/s]


Dados do ano 2014 - mês 9 baixados e filtrados.


RDRJ1410.parquet: 100%|██████████| 214k/214k [00:12<00:00, 17.3kB/s]


Dados do ano 2014 - mês 10 baixados e filtrados.


RDRJ1411.parquet: 100%|██████████| 201k/201k [00:11<00:00, 17.2kB/s]


Dados do ano 2014 - mês 11 baixados e filtrados.


RDRJ1412.parquet: 100%|██████████| 187k/187k [00:11<00:00, 16.7kB/s]


Dados do ano 2014 - mês 12 baixados e filtrados.


RDRJ1501.parquet: 100%|██████████| 200k/200k [00:11<00:00, 17.9kB/s]


Dados do ano 2015 - mês 1 baixados e filtrados.


RDRJ1502.parquet: 100%|██████████| 193k/193k [00:14<00:00, 13.5kB/s]


Dados do ano 2015 - mês 2 baixados e filtrados.


RDRJ1503.parquet: 100%|██████████| 218k/218k [00:14<00:00, 15.3kB/s]


Dados do ano 2015 - mês 3 baixados e filtrados.


RDRJ1504.parquet: 100%|██████████| 218k/218k [00:13<00:00, 15.8kB/s]


Dados do ano 2015 - mês 4 baixados e filtrados.


RDRJ1505.parquet: 100%|██████████| 217k/217k [00:14<00:00, 14.5kB/s]


Dados do ano 2015 - mês 5 baixados e filtrados.


RDRJ1506.parquet: 100%|██████████| 217k/217k [00:13<00:00, 16.0kB/s]


Dados do ano 2015 - mês 6 baixados e filtrados.


RDRJ1507.parquet: 100%|██████████| 226k/226k [00:14<00:00, 15.5kB/s]


Dados do ano 2015 - mês 7 baixados e filtrados.


RDRJ1508.parquet: 100%|██████████| 217k/217k [00:14<00:00, 15.3kB/s]


Dados do ano 2015 - mês 8 baixados e filtrados.


RDRJ1509.parquet: 100%|██████████| 210k/210k [00:13<00:00, 15.3kB/s]


Dados do ano 2015 - mês 9 baixados e filtrados.


RDRJ1510.parquet: 100%|██████████| 212k/212k [00:15<00:00, 14.0kB/s]


Dados do ano 2015 - mês 10 baixados e filtrados.


RDRJ1511.parquet:   0%|          | 0.00/203k [00:00<?, ?B/s]