# Como ler dados dos datasets do DATASUS

Este jupyter notebook tem a missão de análisar os dados de `Tratamento Oncológica no Brasil` do período de 2013 à 2025.

## Extração dos dados do DataSUS

### Import libraries

In [None]:
import pandas as pd
import numpy as np

# decompactar dados do Datasus
from dbfread import DBF
import datasus_dbc

# Visualização de dadoS
import matplotlib.pyplot as plt
import seaborn as sns
import kuka

# import zlib
# import io
# import os

### Importe dos dados

1. Os dados compactados (tipo ".dbc") foram obtidos diretamento do [DataSUS - Transferência de Arquivos](https://datasus.saude.gov.br/transferencia-de-arquivos/) website.

2. Para descompactar e transformar em um arquivo CSV, eu usei as libs datasus_dbc e dbfread, respectivamente. A primeira (`datasus_dbc`) gera um arquivo com a extensão ".dbf". Já a partir da segunda biblioteca (`dbfread`) é possível ler um arquivo .dbf, converter seu conteúdo em um DataFrame e gerar um arquivo `.csv` a partir do DataFrame.

> Fiz isso para os anos de 2013 a julho de 2025 e coloquei os arquivos `.dbc`, `.dbf` e `.csv` em uma pasta chamada `./datasets`.

In [None]:
# 2013 - 2025 nome dos databases:
files = ['POBR2013', 'POBR2014',
        'POBR2015', 'POBR2016',
        'POBR2017', 'POBR2018', 
        'POBR2019', 'POBR2020',
        'POBR2021', 'POBR2022',
        'POBR2023', 'POBR2024',
        'POBR2025']

def pathnameDBC(name):
    return f'./datasets/{name}.dbc'

def pathnameDBF(name):
    return f'./datasets/dbf/{name}.dbf'

def pathnameCSV(name):
    return f'./datasets/csv/{name}.csv'

### Criação de diretórios

In [None]:
os.makedirs('./datasets/dbf', exist_ok=True)
os.makedirs('./datasets/csv', exist_ok=True)

### Descompacta arquivos DBF

In [None]:
# Unpacking DBC to DBF
for file in files:
    datasus_dbc.decompress(pathnameDBC(file), pathnameDBF(file))

### Gera arquivos CSVs

In [None]:
for file in files:
    # Lê o DBF com encoding para acentos
    dbf = DBF(pathnameDBF(file), encoding="latin1")

    # Converte para DataFrame
    df = pd.DataFrame(iter(dbf))

    # Salva como CSV
    df.to_csv(f'./datasets/csv/{file}.csv', index=False)