In [1]:
import pandas as pd


## Desafio 1 - Importação de arquivo CSV

Será necessário fazer a leitura desse arquivo CSV, porém ele apresenta alguns padrões diferentes que devem ser tratados.

**Importante: analise cuidadosamente o arquivo a cada etapa para entender o que falta.**

In [4]:
path_dados_sus = 'in/dados_sus.csv'


In [32]:
try:
    pd.read_csv('in/dados_sus.csv')
except UnicodeDecodeError as e:
    print(e)


'utf-8' codec can't decode byte 0xe7 in position 56: invalid continuation byte


Primeiramente, o encoder do arquivo é diferente, usaremos a lib `chardet` para esse trabalho.

In [35]:
from chardet import detect

def get_file_encoding():
    with open(path_dados_sus, 'rb') as file:
        return detect(file.read())['encoding']

encoding = get_file_encoding()


In [41]:
dados_sus = pd.read_csv('in/dados_sus.csv', encoding=encoding, skiprows=5, sep=';', skipfooter=10, engine='python')
dados_sus.head()


Unnamed: 0,Acre,"902416,00","1497206,26","1794028,48","1730469,42","1819443,92","1828496,00","2511754,59","2089107,14","2275708,53",...,"3915193,20","3640142,82","3391242,21","4044321,44","3276590,10","3696997,31","3715723,12","3538427,92","4077045,92","450048530,47"
0,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
1,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
2,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229
3,Amapá,112097334,126874033,97465124,114113732,86634618,144097895,142665948,147555138,165134143,...,325339945,294639844,241601923,220373204,221853226,256691960,280288634,281784931,318821098,30986009259
4,Tocantins,344159269,498568885,620561260,498448209,551100246,492793422,544560228,541371038,559666950,...,915557236,839026772,872963249,777088566,52784046,67527705,41955349,31916087,135775133,102002827264


### Explicação:

* `encoding='ISO-8859-1'`: tipo de codificação dos caracteres do arquivo. Neste caso, é a codificação ISO-8859-1 que é comum em arquivos de língua portuguesa.
* `sep=';'`: separador dos valores no arquivo. Neste caso, é o ponto-e-vírgula (;).
* `skiprows=3`: indica que as três primeiras linhas do arquivo devem ser ignoradas, pois não contêm dados relevantes.
* `skipfooter = 10`: indica que as dez últimas linhas do arquivo devem ser ignoradas, pois não contêm dados relevantes.
* `engine='python'`: o motor usado para ler o arquivo é o Python. Isso é necessário quando se usa o parâmetro skipfooter, pois o motor padrão não suporta essa opção.