<a href="https://colab.research.google.com/github/souzajvp/teaching-python/blob/main/Aula07/Agregando_dados_%C3%A0_nossa_base_Aula07-respostas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importando módulos

In [1]:
import pandas as pd

In [2]:
url = 'https://raw.githubusercontent.com/souzajvp/teaching-python/main/dados_tb_pr_2016_aula05.csv'

In [3]:
dados = pd.read_csv(url)

## Agregando informações ao nosso banco de dados
O diferencial de um pesquisador (ou cientista de dados) é a capacidade de enxergar além dos dados disponíveis. 

Assim, que tal adicionarmos informações dos municípios do PR para auxiliar nas análises?


Usando o [TabNet](https://datasus.saude.gov.br/informacoes-de-saude-tabnet/), coletei informações populacionais do PR obtidas através do Censo Populacional de 2010. Em seguida, fiz o upload do banco no meu [GitHub](https://github.com/souzajvp/teaching-python/blob/main/pop_parana_2010.csv).

In [4]:
url = 'https://raw.githubusercontent.com/souzajvp/teaching-python/main/pop_parana_2010.csv'

Uma característica comum dos bancos de dados extraídos do TabNet é a presença de linhas extras e caracteres incomuns.

Assim, vai ser necessário especificar alguns comandos no momento de ler os dados com o `pd.read_csv()`.

In [5]:
populacao = pd.read_csv(url, skiprows=3, skipfooter=14, sep=';',
                        encoding='ISO-8859-1', )

  


* `skiprows` e `skipfooter` são usados para pular linhas inicias e finais, respectivamente;
* `sep` nos permite especificar qual o separador dos campos utilizado;
* `encoding` permite que o pandas leia arquivos com caracteres diferentes do inglês. De modo geral, teremos que usar o encoding para ler bancos em português.

In [6]:
populacao

Unnamed: 0,Município,2010,Total
0,410010 Abatiá,7764,7764
1,410020 Adrianópolis,6376,6376
2,410030 Agudos do Sul,8270,8270
3,410040 Almirante Tamandaré,103204,103204
4,410045 Altamira do Paraná,4306,4306
...,...,...,...
394,412860 Verê,7878,7878
395,412865 Virmond,3950,3950
396,412870 Vitorino,6513,6513
397,412850 Wenceslau Braz,19298,19298


A coluna `Município` trás uma sequência de 6 dígitos seguida pelo nome da cidade. Este formato não é muito útil para nós.

### Modificando dados de uma coluna

Para facilitar nosso trabalho, podemos selecionar apenas os primeiros 6 dígitos de cada valor na coluna `Município` e criar uma nova variável. Isso pode ser feito usando o método `.str` do pandas, que nos permite trabalhar com o conteúdo de texto dentro de cada coluna.

In [7]:
populacao['Município'].str[:6]

0      410010
1      410020
2      410030
3      410040
4      410045
        ...  
394    412860
395    412865
396    412870
397    412850
398    412880
Name: Município, Length: 399, dtype: object

Criando a variável `ID_MUNICIP`. 

**Obs**: aqui vamos usar o mesmo padrão do banco de dados original.

In [8]:
populacao['ID_MUNICIP'] = populacao['Município'].str[0:6]

Criando a variável `NOME_MUN`.

In [9]:
populacao['Município'].str[6:]

0                    Abatiá
1              Adrianópolis
2             Agudos do Sul
3       Almirante Tamandaré
4        Altamira do Paraná
               ...         
394                    Verê
395                 Virmond
396                Vitorino
397          Wenceslau Braz
398                  Xambrê
Name: Município, Length: 399, dtype: object

In [10]:
populacao['NOME_MUN'] = populacao['Município'].str[7:]

In [11]:
populacao

Unnamed: 0,Município,2010,Total,ID_MUNICIP,NOME_MUN
0,410010 Abatiá,7764,7764,410010,Abatiá
1,410020 Adrianópolis,6376,6376,410020,Adrianópolis
2,410030 Agudos do Sul,8270,8270,410030,Agudos do Sul
3,410040 Almirante Tamandaré,103204,103204,410040,Almirante Tamandaré
4,410045 Altamira do Paraná,4306,4306,410045,Altamira do Paraná
...,...,...,...,...,...
394,412860 Verê,7878,7878,412860,Verê
395,412865 Virmond,3950,3950,412865,Virmond
396,412870 Vitorino,6513,6513,412870,Vitorino
397,412850 Wenceslau Braz,19298,19298,412850,Wenceslau Braz


### Removendo e renomeando variáveis
Após realizar as modificações necessárias, podemos "limpar o nosso banco".

Para remover colunas podemos:
1. Renomear o nosso banco, selecionando apenas as colunas desejadas;
2. Usar o método `.drop()`.

In [12]:
populacao[['NOME_MUN', 'ID_MUNICIP', '2010']]

Unnamed: 0,NOME_MUN,ID_MUNICIP,2010
0,Abatiá,410010,7764
1,Adrianópolis,410020,6376
2,Agudos do Sul,410030,8270
3,Almirante Tamandaré,410040,103204
4,Altamira do Paraná,410045,4306
...,...,...,...
394,Verê,412860,7878
395,Virmond,412865,3950
396,Vitorino,412870,6513
397,Wenceslau Braz,412850,19298


In [13]:
populacao = populacao.drop(['Município', 'Total'], axis =1)

Para a função drop, temos que especificar o *axis* (eixo) pois ela funciona para remoção de linhas e colunas. `axis=0` para linhas e `axis=1` para colunas.

Para renomear colunas, podemos renomear a variável `populacao.columns` com a lista de novos nomes que desejamos. Nesse caso, apenas queremos mudar o nome da primeira variável (2010), assim vamos repetir os nomes das outras e alterar o primeiro para `POP_2010`.

In [14]:
populacao.columns = ['POP_2010', 'ID_MUNICIP', 'NOME_MUN']

### Fundindo os dois bancos
Existem diversos modos de realizar a junção de bancos. Um método bem simples é o `.merge()`.

Para usá-lo, vamos trabalhar da seguinte forma:
`dados.merge(populacao, on ='ID_MUNICIP`)

Antes de realizarmos o merge, precisamos checar o tipo de dado das colunas.

In [15]:
dados['ID_MUNICIP'].dtype

dtype('int64')

In [16]:
populacao['ID_MUNICIP'].dtype

dtype('O')

Mudando o tipo de dados do `ID_MUNICIP` do banco `populacao` para `int`. Isso pode ser feito usando o método `.astype(int)`

In [17]:
populacao['ID_MUNICIP'] = populacao['ID_MUNICIP'].astype(int)

Realizando o merge

In [18]:
dados.merge(populacao, on='ID_MUNICIP')

Unnamed: 0,DT_NOTIFIC,ID_MUNICIP,DT_DIAG,NU_IDADE_N,CS_SEXO,CS_RACA,CS_ESCOL_N,ID_MN_RESI,ID_OCUPA_N,TRATAMENTO,INSTITUCIO,RAIOX_TORA,TESTE_TUBE,FORMA,AGRAVAIDS,AGRAVALCOO,AGRAVDIABE,AGRAVDOENC,AGRAVOUTRA,AGRAVOUTDE,BACILOSC_E,BACILOS_E2,BACILOSC_O,CULTURA_ES,CULTURA_OU,HIV,HISTOPATOL,DT_INIC_TR,RIFAMPICIN,ISONIAZIDA,BACILOSC_1,BACILOSC_2,BACILOSC_3,BACILOSC_4,BACILOSC_5,BACILOSC_6,SITUA_9_M,SITUA_12_M,SITUA_ENCE,DT_ENCERRA,TPUNINOT,POP_LIBER,POP_RUA,POP_SAUDE,POP_IMIG,BENEF_GOV,AGRAVDROGA,AGRAVTABAC,TEST_MOLEC,TEST_SENSI,ANT_RETRO,BAC_APOS_6,POP_2010,NOME_MUN
0,2017-02-10,410690,2016-10-10,4037,M,Branca,9.0,410690,,3,,4.0,,1,9.0,1.0,2.0,2.0,9.0,,1,,,4,,2,5.0,2017-02-10,,,,,,,,,,,2.0,2017-03-06,2.0,2.0,1.0,2.0,2.0,9.0,9.0,9.0,5.0,,,,1751907,Curitiba
1,2016-03-31,410690,2016-03-31,4031,M,Branca,9.0,411840,,1,,2.0,,2,2.0,2.0,2.0,2.0,2.0,,3,,,4,,2,2.0,2016-03-31,,,4.0,4.0,4.0,4.0,4.0,4.0,,,5.0,2016-04-01,5.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,5.0,,,4.0,1751907,Curitiba
2,2016-06-22,410690,2016-06-06,4031,F,Amarela,9.0,410690,,1,,4.0,,1,9.0,9.0,9.0,9.0,9.0,,3,,,4,,4,5.0,,,,2.0,2.0,3.0,3.0,3.0,3.0,,,2.0,2016-11-27,2.0,2.0,1.0,2.0,2.0,9.0,1.0,9.0,1.0,,,,1751907,Curitiba
3,2017-08-21,410690,2016-06-06,4031,M,Branca,9.0,410690,,3,,4.0,,1,2.0,1.0,2.0,2.0,2.0,,3,,,4,,4,5.0,2017-08-28,,,3.0,3.0,3.0,3.0,3.0,3.0,,,2.0,2018-08-01,2.0,2.0,1.0,2.0,2.0,2.0,1.0,2.0,2.0,2.0,,3.0,1751907,Curitiba
4,2016-07-28,410690,2016-07-28,4021,F,Branca,9.0,410690,,1,,1.0,,1,2.0,2.0,2.0,2.0,2.0,,3,,,1,,2,5.0,2016-07-28,,,3.0,3.0,3.0,3.0,3.0,3.0,,,1.0,2017-02-13,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,5.0,6.0,,,1751907,Curitiba
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2526,2016-12-09,410100,2016-12-08,4060,M,Branca,1.0,410100,,1,,1.0,,2,2.0,2.0,2.0,2.0,1.0,HAS,2,,,4,,2,5.0,2016-12-09,,,4.0,4.0,4.0,4.0,4.0,4.0,,,6.0,2018-05-04,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,5.0,,,4.0,17308,Ampére
2527,2016-12-12,412270,2016-12-12,4035,M,Branca,1.0,412270,,1,,1.0,,1,2.0,1.0,2.0,2.0,2.0,,1,,,1,,2,5.0,2016-12-15,,,1.0,2.0,2.0,2.0,2.0,2.0,,,1.0,2017-06-22,73.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,5.0,7.0,,,6096,Sabáudia
2528,2017-06-12,411605,2016-12-12,4032,M,Branca,6.0,411605,,1,,1.0,,1,2.0,2.0,2.0,2.0,2.0,,2,,,2,,2,3.0,,,,,,,,,,,,6.0,2017-08-04,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,5.0,,,,10474,Missal
2529,2016-12-16,410030,2016-12-16,4032,F,Branca,,410030,,1,,1.0,,2,2.0,2.0,2.0,2.0,2.0,,4,,,1,,2,1.0,2016-12-19,,,4.0,4.0,4.0,4.0,4.0,4.0,,,,,73.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,,6.0,,4.0,8270,Agudos do Sul


Atualizando o banco de dados com a nova versão

In [19]:
dados = dados.merge(populacao, on='ID_MUNICIP')

### Quais cidades apresentaram o maior número de casos?

In [20]:
dados['NOME_MUN'].value_counts()

Curitiba               481
Londrina               199
Paranaguá              117
Foz do Iguaçu          112
Pinhais                 95
                      ... 
Marmeleiro               1
Fernandes Pinheiro       1
Borrazópolis             1
Inajá                    1
Ouro Verde do Oeste      1
Name: NOME_MUN, Length: 249, dtype: int64

### E se consideramos o número de habitantes?
Fica pra próxima aula!