# Introdução ao Google Colaboratory
Fazer uma pequena introdução sobre esta plataforma

https://colab.research.google.com/notebooks/intro.ipynb

#Objetivo do curso

A ideia do curso é conseguir abrir arquivos do tipo **DBC**, o formato padrão do SINAN, transformando em uma tabela, convertendo as codificações de acordo com o dicionário de dados.  

Vamos analisar as notificações de Acidentes com Animais Peçonhentos, disponibilizados pelo DATASUS através do link ftp://ftp.datasus.gov.br/dissemin/publicos/SINAN/DADOS/, onde há uma série de bancos de dados disponíveis.

Ao final do curso, teremos um notebook de transformação e análise de dados, que poderá ser adaptado para outros arquivos que estão disponíveis a partir do SINAN.



#Importação de bibliotecas

Após instalada a biblioteca, temos que importar a biblioteca que iremos utilizar neste primeiro momento:
* Pandas - biblioteca padrão para análise de dados no Python

In [None]:
import pandas as pd

---
**OBS: a célula abaixo é necessária para que possamos visualizar toda a tabela na tela**

In [None]:
pd.options.display.max_columns = None 

---









#Buscando e acessando o arquivo dbc do curso

Após baixar o arquivo DBC, utilizaremos o programa TabWin para transformar os dados em CSV, formato mais usual e simples de trabalhar.

O TabWin pode ser baixado através do link: https://datasus.saude.gov.br/transferencia-de-arquivos/

Seleciona-se:
 * Fonte: *Aplicativos - TABWIN/TABNET - Ferrmaentas para tabulação de dados*
 * Modalidade: *Programas*
 * Tipo de arquivo: *TABWIN*

 E clica-se em **Enviar**, assim, um arquivo será disponibilizado e iremos clicar em *Download*. O site irá recarregar e um link chamado *arquivo.zip* https://datasus.saude.gov.br/wp-content/zipupload/Arq_557211626/arquivo.zip 





A biblioteca Pandas será usada para transformarmos o arquivo CSV em uma tabela legível.

#Conversão baseado no Dicionário de Dados do SINAN

Quais colunas vamos manter? Quais colunas vamos tirar?

Para responder estas perguntas, olhamos os dicionários de dados, os quais estão presentes nos seguintes links:

* http://portalsinan.saude.gov.br/acidente-por-animais-peconhentos - site do SINAN para animais peçonhentos


* http://portalsinan.saude.gov.br/images/documentos/Agravos/Notificacao_Individual/DIC_DADOS_NET---Notificao-Individual_rev.pdf - dicionário de dados para notificação individual, que são horizontais em todas as fichas do SINAN

* http://portalsinan.saude.gov.br/images/documentos/Agravos/AAP/DIC_DADOS_Animais_Pedonhentos_v5.pdf - dicionário de dados específico para acidentes com animais peçonhentos

Vamos pegar a lista de colunas que temos na nossa tabela, utilizando o comando **.columns** depois da nossa tabela.

Dentre as colunas acima, devemos escolher quais devemos MANTER, copiando a lista gerada na célula anterior, e apagando o nome daquelas que não queremos.

Assim, utilizamos esta lista entre colchetes, ao lado do nome da nossa tabela, atribuindo um novo nome, ou substituindo a mesma.

##Recodificação dos dados

Um dos grandes problemas dos arquivos *DBF* é a codificação das variáveis. Simplesmente abrir o arquivo não traz informações claras, pois acabamos tendo que recorrer ao Dicionário de Dados daquele arquivo. Com o *Python*, conseguimos recodificar as colunas, escrevendo o dicionário de dados para cada uma. É um trabalho que leva algum tempo, porém, precisamos fazê-lo somente uma vez e depois já estará pronto.


Avaliando o dicionário de dados, percebemos que muitas variáveis apresentam apenas o **SIM** e o **NÃO**. Para essas, faremos apenas um mini dicionário e aplicaremos a função **REPLACE**, que vai substituir os valores encontrados na tabela por aqueles vistos no dicionário.

Utilizaremos uma coluna como exemplo, e depois aplicamos para as demais.

Agora, criaremos uma lista com as colunas que possuem codificação de **SIM/NÃO**, e aplicaremos uma das funções mais úteis do *Python*, o loop de repetição chamado de **FOR**.

Essa função nos permite aplicar diversas vezes a mesma operação, alterando apenas um parâmetro.

Algumas são do tipo DATA, então vamos alterar para este formato

Agora vem a parte mais trabalhosa, onde temos que reescrever todas as codificações do dicionário de dados.

Em outras palavras, criaremos vários dicionários a partir do dicionário do SINAN.

A coluna de **IDADE** é um pouco diferente. O SINAN utiliza uma decodificação neste formato:
A composição da variável
obedece o seguinte critério: primeiro dígito:
1. Hora
2. Dia
3. Mês
4. Ano

*Exemplos*:
 * 3009 – nove meses
 * 4018 – dezoito anos

Assim, como apenas nos interessa a idade em anos, diminuiremos todos os números por 4000. Caso o resultado for negativo, deixamos como zero.

##Código do IBGE para nome de município

Da mesma maneira que utilizamos um dicionário e a função *replace* para alterar elementos no DataFrame, faremos o mesmo para transformar os códigos de IBGE em nomes de municípios, utilizando a função *map*.

Primeiramente, precisamos de uma tabela onde esta conversão já esteja pronta. Por sorte, aquele que vos escreve já o fez e colocou um link no *Github* para baixá-lo. ✌

Porém, para convertê-lo em dicionário, precisamos realizar algumas alterações, como transformar o código do IBGE em tipo *texto* (*string*), deixar apenas duas colunas (IBGE6 e Municipio), e setar a coluna IBGE6 como index.

Agora, basta utilizar a função **to_dict()** e teremos o nosso dicionário

Para transformar os dados, agora vamos utilizar a função *map*. Pode surgir a dúvida: **"Por que aqui utilizamos o map e antes utilizamos o replace? Existe diferença?"**

Respondendo: O map é uma função que, caso o valor não esteja no dicionário, ele se transforma em *NaN*, fazendo com que percamos aquele dado, porém, ela é 60 vezes mais rápida do que o replace, então ganhamos tempo quando o dicionário possui mais de 5000 valores.

Assim, convertemos as duas colunas que onde temos os códigos do IBGE (ID_MUNICIP, ID_MN_RESI e ANT_MUNIC_).

Da mesma maneira, é possível alterar a codificação da OCUPAÇÃO

Chegou a hora de alterar também a codificação da UF para a sua respectiva sigla, da mesma maneira como fizemos para os municípios.

#Renomeando as colunas

Outro problema bastante comum que sentimos ao visualizar um arquivo *DBF* do SINAN é o nome das colunas, que são outras codificações. Por isso, vamos renomeá-las, com uma função muito parecida com o que fizemos antes.

Primeiramente, vamos coletar o nome de todas.

Agora, copiamos e colamos esta lista, e vamos adaptando de maneira a criar um dicionário *(de novo)*.

Agora que temos o dicionário das colunas COMPLETO, utilizamos o comando de RENAME no nosso DataFrame, assim teremos ele organizado de maneira mais adequada.

#Exportação para CSV
Vamos exportar o nosso DataFrame final para o Excel, caso haja a necessidade de visualizar os dados no programa. Esta operação demora um pouco.