# Raspagem de dados e Modelagem de dados

- Nesta página vou realizar a extração de dados da página do IBGE, e posteriormente modelar esses dados em um dataframe do pandas.


In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [4]:
uf_url = f'https://www.ibge.gov.br/cidades-e-estados/sp.html' #site em questão
browsers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \(KHTML, like Gecko) Chrome / 86.0.4240.198Safari / 537.36"} #Mascara
page = requests.get(uf_url, headers = browsers) #Resquisição
    
soup = BeautifulSoup(page.content, 'html.parser') 
indicadores = soup.select('.indicador') #elemento html

In [5]:
indicadores #busca de todos os dados

[<div class="indicador"><div class="ind-label"><p>Governador</p></div><p class="ind-value">RODRIGO GARCIA<small>   [2019]</small></p></div>,
 <div class="indicador"><div class="ind-label"><p>Capital</p></div><p class="ind-value">São Paulo<small>   [2010]</small></p></div>,
 <div class="indicador"><div class="ind-label"><p>Gentílico</p></div><p class="ind-value">paulista</p></div>,
 <div class="indicador"><div class="ind-label"><img alt="Área Territorial" src="/modules/mod_quick_facts/css/images/area.png"><p>Área Territorial</p></img></div><p class="ind-value">248.219,485 <span class="indicador-unidade">km²</span><small>   [2021]</small></p></div>,
 <div class="indicador"><div class="ind-label"><img alt="População estimada" src="/modules/mod_quick_facts/css/images/populacao.png"/><p>População estimada</p></div><p class="ind-value">46.649.132 <span class="indicador-unidade">pessoas</span><small>   [2021]</small></p></div>,
 <div class="indicador"><input class="chart-values" type="hidden"

In [6]:
# Estruturando os dados, a  fim de extrair os dados percebemos que necessitamos da class .indicador  e nas divs 'ind-label' e 'ind-value'

def scraping_uf(uf: str): 
    uf_url = f'https://www.ibge.gov.br/cidades-e-estados/{uf}.html'
    browsers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \(KHTML, like Gecko) Chrome / 86.0.4240.198Safari / 537.36"}
    page = requests.get(uf_url, headers = browsers)
    
    soup = BeautifulSoup(page.content, 'html.parser')
    indicadores = soup.select('.indicador')
    
    uf_dict = {
        dado.select('.ind-label')[0].text: dado.select('.ind-value')[0].text
        for dado in indicadores
    }
    
    return uf_dict

In [7]:
# Utilizaremos este conceito para localizar cada estado
dictionary = {
'Acre':	'AC',	
'Alagoas':	'AL',	
'Amapá':	'AP',
'Amazonas':	'AM',	
'Bahia':	'BA',	
'Ceará': 'CE',	
'Distrito Federal':	'DF',	
'Espírito Santo':	'ES',
'Goiás':	'GO',
'Maranhão':	'MA',	
'Mato Grosso':	'MT',	
'Mato Grosso do Sul':	'MS',
'Minas Gerais':	'MG',	
'Pará':	'PA',	
'Paraíba':	'PB',	
'Paraná':	'PR',	
'Pernambuco':	'PE',	
'Piauí':	'PI',	
'Rio de Janeiro':	'RJ',	
'Rio Grande do Norte':	'RN',	
'Rio Grande do Sul':	'RS',	
'Rondônia':	'RO',	
'Roraima':	'RR',	
'Santa Catarina':	'SC',	
'São Paulo':	'SP',	
'Sergipe':	'SE',	
'Tocantins':	'TO',	
}

In [8]:
lista = [x for x in dictionary.values()]

for i in range(len(lista)):
    lista[i] = lista[i].lower()
print(lista)

# Transformando a lista em palavras minusculas

['ac', 'al', 'ap', 'am', 'ba', 'ce', 'df', 'es', 'go', 'ma', 'mt', 'ms', 'mg', 'pa', 'pb', 'pr', 'pe', 'pi', 'rj', 'rn', 'rs', 'ro', 'rr', 'sc', 'sp', 'se', 'to']


In [9]:
estados_ = []
for x in range(27):
  estado = scraping_uf(lista[x])
  estados_.append(estado)

In [10]:
estados_

[{'Governador': 'GLADSON DE LIMA CAMELI\xa0\xa0\xa0[2019]',
  'Capital': 'Rio Branco\xa0\xa0\xa0[2010]',
  'Gentílico': 'acriano',
  'Área Territorial': '164.173,431 km²\xa0\xa0\xa0[2021]',
  'População estimada': '906.876 pessoas\xa0\xa0\xa0[2021]',
  'Densidade demográfica': '4,47 hab/km²\xa0\xa0\xa0[2010]',
  'Matrículas no ensino fundamental': '153.015 matrículas\xa0\xa0\xa0[2021]',
  'IDH Índice de desenvolvimento humano': '0,663\xa0\xa0\xa0[2010]',
  'Receitas realizadas': '6.632.883,11 R$ (×1000)\xa0\xa0\xa0[2017]',
  'Despesas empenhadas': '6.084.416,81 R$ (×1000)\xa0\xa0\xa0[2017]',
  'Rendimento mensal domiciliar per capita': '888 R$\xa0\xa0\xa0[2021]',
  'Total de veículos': '320.173 veículos\xa0\xa0\xa0[2021]'},
 {'Governador': 'JOSE RENAN VASCONCELOS CALHEIROS FILHO\xa0\xa0\xa0[2019]',
  'Capital': 'Maceió\xa0\xa0\xa0[2010]',
  'Gentílico': 'alagoano',
  'Área Territorial': '27.830,661 km²\xa0\xa0\xa0[2021]',
  'População estimada': '3.365.351 pessoas\xa0\xa0\xa0[2021]',

In [21]:
for x in estados_:
  for y in range(27):
    estado = estados_[y]

    for indicador in estado:
      if ']' in estado[indicador]:
        estado[indicador] = estado[indicador].split(']')[0][:-8]
      else:
        estado[indicador] = estado[indicador]

print(estados_)

[{'Governador': 'GLADSON DE LIMA CAMELI', 'Capital': 'Rio Branco', 'Gentílico': 'acriano', 'Área Territorial': '164.173,431 km²', 'População estimada': '906.876 pessoas', 'Densidade demográfica': '4,47 hab/km²', 'Matrículas no ensino fundamental': '153.015 matrículas', 'IDH Índice de desenvolvimento humano': '0,663', 'Receitas realizadas': '6.632.883,11 R$ (×1000)', 'Despesas empenhadas': '6.084.416,81 R$ (×1000)', 'Rendimento mensal domiciliar per capita': '888 R$', 'Total de veículos': '320.173 veículos'}, {'Governador': 'JOSE RENAN VASCONCELOS CALHEIROS FILHO', 'Capital': 'Maceió', 'Gentílico': 'alagoano', 'Área Territorial': '27.830,661 km²', 'População estimada': '3.365.351 pessoas', 'Densidade demográfica': '112,33 hab/km²', 'Matrículas no ensino fundamental': '458.782 matrículas', 'IDH Índice de desenvolvimento humano': '0,631', 'Receitas realizadas': '11.950.438,46 R$ (×1000)', 'Despesas empenhadas': '10.460.634,92 R$ (×1000)', 'Rendimento mensal domiciliar per capita': '77

In [44]:
keys = []
values = []

for x in estados_:
  values.append(x.values())

for x in estado:
  keys.append(x)

In [49]:
df = pd.DataFrame(values, columns = keys)
df

Unnamed: 0,Governador,Capital,Gentílico,Área Territorial,População estimada,Densidade demográfica,Matrículas no ensino fundamental,IDH Índice de desenvolvimento humano,Receitas realizadas,Despesas empenhadas,Rendimento mensal domiciliar per capita,Total de veículos
0,GLADSON DE LIMA CAMELI,Rio Branco,acriano,"164.173,431 km²",906.876 pessoas,"4,47 hab/km²",153.015 matrículas,663,"6.632.883,11 R$ (×1000)","6.084.416,81 R$ (×1000)",888 R$,320.173 veículos
1,JOSE RENAN VASCONCELOS CALHEIROS FILHO,Maceió,alagoano,"27.830,661 km²",3.365.351 pessoas,"112,33 hab/km²",458.782 matrículas,631,"11.950.438,46 R$ (×1000)","10.460.634,92 R$ (×1000)",777 R$,981.823 veículos
2,ANTONIO WALDEZ GÓES DA SILVA,Macapá,amapaense,"142.470,762 km²",877.613 pessoas,"4,69 hab/km²",133.839 matrículas,708,"5.396.417,14 R$ (×1000)","4.224.464,09 R$ (×1000)",855 R$,224.208 veículos
3,WILSON MIRANDA LIMA,Manaus,amazonense,"1.559.167,878 km²",4.269.995 pessoas,"2,23 hab/km²",702.763 matrículas,674,"17.328.459,43 R$ (×1000)","15.324.896,56 R$ (×1000)",800 R$,1.014.026 veículos
4,RUI COSTA DOS SANTOS,Salvador,baiano,"564.760,429 km²",14.985.284 pessoas,"24,82 hab/km²",1.946.957 matrículas,660,"50.191.003,24 R$ (×1000)","45.570.160,00 R$ (×1000)",843 R$,4.695.972 veículos
5,CAMILO SOBREIRA DE SANTANA,Fortaleza,cearense,"148.894,447 km²",9.240.580 pessoas,"56,76 hab/km²",1.161.434 matrículas,682,"28.420.222,47 R$ (×1000)","24.608.352,18 R$ (×1000)",881 R$,3.513.199 veículos
6,IBANEIS ROCHA BARROS JUNIOR,Brasília,brasiliense,"5.760,784 km²",3.094.325 pessoas,"444,07 hab/km²",369.128 matrículas,824,"23.812.211,27 R$ (×1000)","21.990.464,68 R$ (×1000)",2.513 R$,1.979.698 veículos
7,JOSE RENATO CASAGRANDE,Vitória,capixaba ou espírito-santense,"46.074,448 km²",4.108.508 pessoas,"76,25 hab/km²",503.003 matrículas,740,"19.685.616,74 R$ (×1000)","14.392.338,00 R$ (×1000)",1.295 R$,2.160.432 veículos
8,RONALDO RAMOS CAIADO,Goiânia,goiano,"340.242,856 km²",7.206.589 pessoas,"17,65 hab/km²",855.021 matrículas,735,"37.885.335,17 R$ (×1000)","24.248.380,34 R$ (×1000)",1.276 R$,4.369.349 veículos
9,FLÁVIO DINO DE CASTRO E COSTA,São Luís,maranhense,"329.651,496 km²",7.153.262 pessoas,"19,81 hab/km²",1.112.636 matrículas,639,"18.503.261,35 R$ (×1000)","17.627.170,76 R$ (×1000)",635 R$,1.940.475 veículos


# Termino este parte  com o df construído, posteriormente vou classificar um objetivo teórico(modelagem descritiva, ou modelagem estatitica e tenter realizar uma análise de dados ou a predição de algum valor mediante a base de dados)