### Utilizando a tabela do link abaixo (IFDM) e a base de dados sinasc de Rondônia para criar faixas utilizando o mapping e gerando agrupamentos utilizando essas faixas como chave

 Link usado: https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_IFDM
 
 Este link é uma lista de municípios de Rondônia ordenados por Índice FIRJAN de Desenvolvimento Municipal (IFDM) conforme dados divulgados pelo Sistema FIRJAN em 2015 com base no ano de 2013.
 A base sinasc é sobre o Sistema de Informações sobre Nascidos Vivos (SINASC) da Coordenação-Geral de Informações e Análises Epidemiológicas (CGIAE) do Departamento de Análise em Saúde e Vigilância das Doenças Não Transmissíveis (DASNT/SVS/MS).
 Informações da base de dados: http://svs.aids.gov.br/dantps/cgiae/sinasc/apresentacao/
 O foco neste exercício é o webscraping, assim, não foi realizado uma análise profunda sobre o dados carregados.

In [2]:
# bibliotecas usadas
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [3]:
# carregando a base
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [4]:
# url de acesso
url = " https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_IFDM"

# requisição no site
resposta = requests.get(url)
html = resposta.text

# objeto beatifulsoup com interpretador de HTML
pesquisa = BeautifulSoup(html, 'html.parser')

# lista de municipio e outra de nota
lista_mun = []
lista_nota = []

# pesquisa pela tag 'tr' onde contem os dados 
tag = pesquisa.find_all('tr')

# iterando na tag
for i in tag:
    
    # em cada tag procurando por outra tag 'td' onde estão ranking, municipio e nota
    tag2 = i.find_all('td')
    
    for x in tag2:
        
        # codicional para identificar e salvar as notas como float, estas iniciam com 0 (diferente de ranking e municipio)
        if x.text[0] == '0' and len(lista_nota) <=51:
            
            # na 20 posição do ranking há 2 municipios com a mesma nota, foi adiciona uma condicional para duplicar esta nota
            if len(lista_nota) == 19:
                lista_nota.append(float(x.text.rstrip('\n')))
                
            lista_nota.append(float(x.text.rstrip('\n')))
        
        # dentro de 'td' os municipios estão na classe 'a'
        mun = x.find_all('a')
        
        # iterando na classe e salvando os municipios
        for w in mun:
            
            # como o ranking vai até 52 municipios, a lista adiciona até ter este tamanho, 
            # pois a classe 'a' contem outros dados no final
            if len(lista_mun) <= 51:
                lista_mun.append(w.text)

# dicionario para realizar o mapping
ifdm_mun = {}            
for i in range (len(lista_mun)):
    
    # faixas do indice de cada nota
    if lista_nota[i] >= 0.8:
        nota = 'alto'
    elif lista_nota[i] >= 0.6:
        nota = 'moderado'
    elif lista_nota[i] >= 0.4:
        nota = 'regular'
    else:
        nota = 'baixo'
    # criando a chave (municipio) e adicionando a categoria deste
    ifdm_mun[lista_mun[i]] = nota

ifdm_mun

{'Ariquemes': 'moderado',
 'Vilhena': 'moderado',
 'Pimenta Bueno': 'moderado',
 'Porto Velho': 'moderado',
 'Ji-Paraná': 'moderado',
 'Cacoal': 'moderado',
 "Santa Luzia d'Oeste": 'moderado',
 'Rolim de Moura': 'moderado',
 'Chupinguaia': 'moderado',
 'São Miguel do Guaporé': 'moderado',
 'Pimenteiras do Oeste': 'moderado',
 'Teixeirópolis': 'moderado',
 'Colorado do Oeste': 'moderado',
 'Jaru': 'moderado',
 'Rio Crespo': 'moderado',
 'Primavera de Rondônia': 'moderado',
 "Alta Floresta d'Oeste": 'moderado',
 'Ouro Preto do Oeste': 'moderado',
 'São Francisco do Guaporé': 'moderado',
 'Candeias do Jamari': 'moderado',
 'Buritis': 'moderado',
 "São Felipe d'Oeste": 'moderado',
 'Presidente Médici': 'moderado',
 'Cerejeiras': 'moderado',
 'Monte Negro': 'moderado',
 'Urupá': 'moderado',
 "Espigão d'Oeste": 'regular',
 'Seringueiras': 'regular',
 "Alvorada d'Oeste": 'regular',
 'Itapuã do Oeste': 'regular',
 'Cabixi': 'regular',
 'Novo Horizonte do Oeste': 'regular',
 "Nova Brasilândia d

In [5]:
ifdm = sinasc_raw.set_index('munResNome')

ifdm.groupby(ifdm_mun)["IDADEMAE","ESTCIVMAE", "IDADEPAI"].agg(['mean', 'min', 'max', 'median', 'std'])

  ifdm.groupby(ifdm_mun)["IDADEMAE","ESTCIVMAE", "IDADEPAI"].agg(['mean', 'min', 'max', 'median', 'std'])


Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,ESTCIVMAE,ESTCIVMAE,ESTCIVMAE,ESTCIVMAE,ESTCIVMAE,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mean,min,max,median,std,mean,min,max,median,std,mean,min,max,median,std
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
moderado,26.226921,12,53,26.0,6.388564,2.574134,1.0,9.0,2.0,1.68107,31.145206,15.0,70.0,30.0,7.741017
regular,25.412005,11,52,25.0,6.376854,2.253587,1.0,9.0,2.0,1.573479,31.345297,16.0,73.0,30.0,7.975385


### Utilizando a tabela do link abaixo (PIB) e a base de dados sinasc de Rondônia para criar faixas utilizando o mapping e gerando agrupamentos utilizando essas faixas como chave

link: https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_PIB

Esta é uma lista de municípios de Rondônia por Produto Interno Bruto (PIB) referente ao ano de 2019. Os valores são a preços correntes e agrupados por valores e faixas.

In [6]:
# url de acesso
url = "https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_PIB"

# requisição no site
resposta = requests.get(url)
html = resposta.text

# objeto beatifulsoup com interpretador de HTML
pesquisa = BeautifulSoup(html, 'html.parser')

# lista de municipio e outra de nota
lista_mun = []
lista_pib = []

# pesquisa pela tag 'tr' onde contem os dados 
tag = pesquisa.find_all('tr')
tag_ = pesquisa.find_all('h3')

# iterando na tag do nome municipio (tr)
for i in tag:
    
    # procurando peka tag 'td' onde está o nome do municipio
    tag2 = i.find_all('td')
    
    for x in tag2:
        
        
        # dentro de 'td' os municipios estão na classe 'a'
        mun = x.find_all('a')
        
        # iterando na classe e salvando os municipios
        for w in mun:
            
            # como o ranking vai até 52 municipios, a lista adiciona até ter este tamanho, 
            # pois a classe 'a' contem outros dados no final
            if len(lista_mun) <= 51:
                lista_mun.append(w.text)

                
# webscraping para listar as faixas do pib                
for i in tag_:
    tag_2 = i.find_all('span')
    
    for x in tag_2:
        #print(x.attrs)
        
        if x.text[:1] == 'A':
            lista_pib.append(x.text)
    


# dicionario para realizar o mapping

pib_mun = {}            
for i in range (len(lista_mun)):
    
    # faixas do indice de cada nota
    if i <= 7:
        pib = lista_pib[0]
        
    elif i <= 16:
        pib = lista_pib[1]
        
    elif i <= 23:
        pib = lista_pib[2]
    
    elif i <= 27:
        pib = lista_pib[3]
        
    elif i <= 43:
        pib = lista_pib[4]
        
    else:
        pib = lista_pib[5]
    # criando a chave (municipio) e adicionando a categoria deste
    pib_mun[lista_mun[i]] = pib

pib_mun

{'Porto Velho': 'Acima de 1 Bilhão',
 'Ji-Paraná': 'Acima de 1 Bilhão',
 'Vilhena': 'Acima de 1 Bilhão',
 'Ariquemes': 'Acima de 1 Bilhão',
 'Cacoal': 'Acima de 1 Bilhão',
 'Jaru': 'Acima de 1 Bilhão',
 'Rolim de Moura': 'Acima de 1 Bilhão',
 'Pimenta Bueno': 'Acima de 1 Bilhão',
 'Guajará-Mirim': 'Acima de 500 Milhões',
 'Ouro Preto do Oeste': 'Acima de 500 Milhões',
 'Buritis': 'Acima de 500 Milhões',
 'Machadinho do Oeste': 'Acima de 500 Milhões',
 "Espigão d'Oeste": 'Acima de 500 Milhões',
 'São Miguel do Guaporé': 'Acima de 500 Milhões',
 'Candeias do Jamari': 'Acima de 500 Milhões',
 'Nova Mamoré': 'Acima de 500 Milhões',
 'Cerejeiras': 'Acima de 500 Milhões',
 'Alta Floresta do Oeste': 'Acima de 300 Milhões',
 'Presidente Médici': 'Acima de 300 Milhões',
 'Cujubim': 'Acima de 300 Milhões',
 'Nova Brasilândia do Oeste': 'Acima de 300 Milhões',
 'Alto Paraíso': 'Acima de 300 Milhões',
 'São Francisco do Guaporé': 'Acima de 300 Milhões',
 'Colorado do Oeste': 'Acima de 300 Milhões'

In [7]:
ifdm.groupby(pib_mun)["MESPRENAT","APGAR5", "QTDGESTANT"].agg(['mean', 'min', 'max', 'median', 'std'])

  ifdm.groupby(pib_mun)["MESPRENAT","APGAR5", "QTDGESTANT"].agg(['mean', 'min', 'max', 'median', 'std'])


Unnamed: 0_level_0,MESPRENAT,MESPRENAT,MESPRENAT,MESPRENAT,MESPRENAT,APGAR5,APGAR5,APGAR5,APGAR5,APGAR5,QTDGESTANT,QTDGESTANT,QTDGESTANT,QTDGESTANT,QTDGESTANT
Unnamed: 0_level_1,mean,min,max,median,std,mean,min,max,median,std,mean,min,max,median,std
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
Acima de 1 Bilhão,7.101782,1.0,99.0,2.0,20.464876,9.166223,0.0,10.0,9.0,0.754588,1.268052,0.0,14.0,1.0,1.337509
Acima de 100 Milhões,4.353307,1.0,99.0,2.0,13.323129,9.173984,1.0,10.0,9.0,0.774159,1.233388,0.0,52.0,1.0,1.814443
Acima de 200 Milhões,2.785571,1.0,99.0,2.0,8.73874,9.319846,1.0,10.0,9.0,0.875344,1.145669,0.0,7.0,1.0,1.207489
Acima de 300 Milhões,3.234955,1.0,99.0,2.0,10.063988,9.092,0.0,10.0,9.0,0.799529,1.262651,0.0,9.0,1.0,1.364782
Acima de 500 Milhões,21.325347,1.0,99.0,2.0,38.386096,9.364374,0.0,10.0,9.0,0.796819,1.429716,0.0,14.0,1.0,1.548773
Até 100 Milhões,4.209945,1.0,99.0,2.0,13.382923,9.095491,0.0,10.0,9.0,0.984673,1.171123,0.0,7.0,1.0,1.22425
