<a href="https://colab.research.google.com/github/brodyandre/dados-sus/blob/main/desafio_dados_sus.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Esse notebook tem como finalidade, executarmos algumas operações de manipulação dos dados de um arquivo csv do SUS (Sistema único de Saúde). Como por exemplo: import de bibliotecas, montagem do drive para as manipulações, leitura de arquivos csv, tipos de enconoding cabeçalhos e rodapé.


Importando as Bibliotecas necessárias

In [None]:
from google.colab import drive

import pandas as pd

Montando o Google Drive

In [None]:
# Mount Google Drive
drive.mount('/content/drive')

Mounted at /content/drive


Fazendo a leitura do arquivo csv e verificando o tipo de separador: (nesse caso sep = ' ; ')

In [None]:
# Tentando ler o arquivo CSV com um delimitador diferente e ignorando linhas problemáticas
df = pd.read_csv('/dados_sus.csv', encoding='ISO-8859-1', sep=';', on_bad_lines='skip')

In [None]:
import csv
# Abrindo o arquivo CSV
with open('/dados_sus.csv', 'r', encoding='ISO-8859-1') as f:
    # Lendo uma amostra do arquivo
    sample = f.read(1024)
    # Usando o Sniffer para detectar o delimitador
    dialect = csv.Sniffer().sniff(sample)
    print(f"O separador detectado é: '{dialect.delimiter}'")

O separador detectado é: ';'


Desconsiderando as 3 primeiras linhas do Dataset

In [None]:
# Lendo o arquivo CSV com o delimitador detectado e ajustando o cabeçalho
df = pd.read_csv('/dados_sus.csv', encoding='ISO-8859-1', sep=dialect.delimiter, header=3)

# Exibindo as primeiras linhas do DataFrame
print(df.head())


  Unidade da Federação     2008/Jan     2008/Fev     2008/Mar     2008/Abr  \
0             Rondônia   1388528,39   2931283,42   1541682,52   1525314,96   
1                 Acre    902416,00   1497206,26   1794028,48   1730469,42   
2             Amazonas   4735529,42   7118990,57   8196635,49   8259378,42   
3              Roraima    657889,53    777939,31    718688,03    839994,39   
4                 Pará  18864744,11  19553758,20  21937342,70  20842829,69   

      2008/Mai     2008/Jun     2008/Jul     2008/Ago     2008/Set  ...  \
0   1645953,84   1406150,68   3065279,01   3231494,61   3117178,63  ...   
1   1819443,92   1828496,00   2511754,59   2089107,14   2275708,53  ...   
2   7831399,90   8477273,62   9368858,72   9352532,70   9363099,35  ...   
3    862347,96    832440,66    996693,09    894271,18    910424,17  ...   
4  23249952,88  23240687,56  24002223,56  23341218,03  25172261,32  ...   

      2020/Jul     2020/Ago     2020/Set     2020/Out     2020/Nov  \
0  1182468

Desconsiderando as 9 últimas linhas do dataset

In [None]:
df = pd.read_csv('/dados_sus.csv',
                 encoding='ISO-8859-1',
                 sep=';',                    # use o separador detectado ou correto
                 header=3,                   # ajuste conforme o seu caso
                 skipfooter=9,               # ignora as 9 últimas linhas
                 engine='python')            # necessário para usar skipfooter
print(df.tail())  # verificar as últimas linhas para confirmar que as 9 últimas foram excluídas

   Unidade da Federação      2008/Jan      2008/Fev      2008/Mar  \
23   Mato Grosso do Sul    5377392,11    7002472,61    8423933,19   
24          Mato Grosso    4795299,01    8684882,23    7886243,14   
25                Goiás   15310637,29   22258668,68   21442515,75   
26     Distrito Federal    4745919,19    7632480,67    9647203,26   
27                Total  408424859,23  613174269,21  664043058,38   

        2008/Abr      2008/Mai      2008/Jun      2008/Jul      2008/Ago  \
23    8797487,68    9770421,80   10905392,18   10249299,82    9671553,45   
24    8794109,79    9231645,40   10221763,77    9163314,28    9243148,81   
25   20921212,45   21615970,67   18270043,87   20540517,13   20650730,67   
26   11098732,99   12891719,72   12850125,67   12565646,74   13710857,89   
27  686662861,42  715803639,49  752181563,64  764990284,76  750608648,28   

        2008/Set  ...       2020/Jul       2020/Ago       2020/Set  \
23   10218511,05  ...    18858844,44    19877080,68    192

Salvando arquivo como um DataFrame

In [None]:
 #Salvando o DataFrame como um novo arquivo CSV
df.to_csv('/content/drive/My Drive/dataframe_dados_sus.csv', index=False)  # Ajuste o caminho conforme necessário
print(df.head())

  Unidade da Federação     2008/Jan     2008/Fev     2008/Mar     2008/Abr  \
0             Rondônia   1388528,39   2931283,42   1541682,52   1525314,96   
1                 Acre    902416,00   1497206,26   1794028,48   1730469,42   
2             Amazonas   4735529,42   7118990,57   8196635,49   8259378,42   
3              Roraima    657889,53    777939,31    718688,03    839994,39   
4                 Pará  18864744,11  19553758,20  21937342,70  20842829,69   

      2008/Mai     2008/Jun     2008/Jul     2008/Ago     2008/Set  ...  \
0   1645953,84   1406150,68   3065279,01   3231494,61   3117178,63  ...   
1   1819443,92   1828496,00   2511754,59   2089107,14   2275708,53  ...   
2   7831399,90   8477273,62   9368858,72   9352532,70   9363099,35  ...   
3    862347,96    832440,66    996693,09    894271,18    910424,17  ...   
4  23249952,88  23240687,56  24002223,56  23341218,03  25172261,32  ...   

      2020/Jul     2020/Ago     2020/Set     2020/Out     2020/Nov  \
0  1182468

Exibindo as 5 primeiras linhas do arquivo ja convertido em dataframe

In [None]:
display(df.head())

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229
