In [5]:
import pandas as pd
import chardet

# Desafio: lendo dados com vários parâmetros

Chegou a hora de você testar os conhecimentos desenvolvidos durante a aula. Temos um arquivo no formato CSV, que foi obtido na página Informações de Saúde (TABNET) - DATASUS. Este arquivo contém os gastos hospitalares públicos de cada uma das Unidades da Federação brasileira no período de janeiro de 2008 a março de 2021.

Seu desafio aqui será fazer a leitura desse arquivo utilizando a função read_csv da biblioteca Pandas. Alguns parâmetros devem ser adicionados para que a leitura seja feita corretamente. Então, seguem algumas dicas:

- Verifique se o arquivo CSV está separado por vírgula ou ponto e vírgula.
- A codificação do arquivo é ISO-8859-1.
- As três primeiras linhas linhas do arquivo podem ser desconsideradas, pois o cabeçalho só começa na quarta linha.
- As 9 últimas linhas também podem ser desconsideradas, pois são apenas informações sobre onde os dados foram obtidos.
- Para deletar as últimas linhas é necessário adicionar o parâmetro engine='python'. 

In [3]:
arquivo = r'dados/dados_sus.csv'

Verificando a codificação do arquivo

In [6]:
with open(arquivo, 'rb') as file:
    print(chardet.detect(file.read()))

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


Segundo a documentação do pandas utilizando a engine 'python' e o parâmetro sep=None, a engine será capaz de detectar automáticamente o tipo de separador do arquivo.

Skiprows = 3 para pular às quatro primeiras linhas e skipfooter = 9 para às nove últimas. Percebe-se que para pular as primeiras linhas utilizamos 3 para pular 4, já no footer utilizamos 9 para pular 9.

In [13]:
dados_sus = pd.read_csv(arquivo, sep=None, engine='python', skiprows=3, skipfooter=9, encoding='ISO-8859-1')

In [14]:
dados_sus.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


In [15]:
dados_sus.tail()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
23,Mato Grosso do Sul,537739211,700247261,842393319,879748768,977042180,1090539218,1024929982,967155345,1021851105,...,1885884444,1987708068,1924789451,1949721085,2202312625,1962959155,2169331115,2433729563,2516819534,232452509633
24,Mato Grosso,479529901,868488223,788624314,879410979,923164540,1022176377,916331428,924314881,905235489,...,1683465098,1970491536,2074622760,2272740520,2050603958,1958380346,1912014168,1834937692,1961103261,218011978115
25,Goiás,1531063729,2225866868,2144251575,2092121245,2161597067,1827004387,2054051713,2065073067,2086844356,...,4060622282,4622935710,4488958833,4552949623,4303760045,4414735321,4612776388,4274277393,4559268649,497357361347
26,Distrito Federal,474591919,763248067,964720326,1109873299,1289171972,1285012567,1256564674,1371085789,1316510620,...,2526977334,2652619639,2005659211,2085624930,2045932527,2299156776,2352705029,2276695262,3183191745,259242285356
27,Total,40842485923,61317426921,66404305838,68666286142,71580363949,75218156364,76499028476,75060864828,75296264215,...,148401041762,151416082372,147790446614,148998314621,146419639575,144119960505,151399119649,150061229936,168756213838,17248176013888
