## Escopo do projeto

O site do Instituto Brasileiro de Geografia e Estatística - IBGE disponibiliza diversas informações sobre todos os estados brasileiros, mais o distrito federal, dados como área territorial, PIB per capta e etc. Buscando aprimorar minhas habilidades em web scraping, realizarei a "raspagem" desses dados públicos.

Nesta metodologia de web scraping iremos separar nosso processo em quatro etapas:
1) Requisição;
2) Seleção;
3) Limpeza;
4) Exportação.

Na primeira etapa iremos fazer a requisição dos dados disponíveis, para depois selecionarmos aqueles que nos interessam. Após a seleção dos dados cabe a nós os tratarmos e, por fim, exportarmos para nosso sistema de armazenamento no formato que for conveniente.

## Importando as bibliotecas que utilizaremos

In [71]:
import requests
from bs4 import BeautifulSoup
import pandas as pd


## Requisição e Seleção

In [20]:
## Função que realiza o web scrap

## Criada função que recebe como parâmetro um estado tipo string, retornando um dicionário python

def consulta_info_estado(estado: str) -> dict:
    
    ## Exibindo na tela os estados consultados
    print(f"Consultando informações do {estado}...")
    
    ## Salvando nossa url que recebe uma interpolação da sigla do estado a ser consultado
    url_estado = f"https://www.ibge.gov.br/cidades-e-estados/{estado}.html"
    
    ## Com o método get() do requests recebemos a url de cada estado
    paginas = requests.get(url_estado)
    
    
    ## Acessada cada pagina nós transformamos seu conteúdo em um objeto BeautifulSoup e aplicamos um html.parser
    soup = BeautifulSoup(paginas.content, "html.parser")
    
    ## No site do IBGE eu analisei no código HTML que os dados que eu quero são contidos na classe indicador
    ## Então eu utilizo o método select() do BeautifulSoup para pegar as tags que possuem a classe indicador
    indicadores = soup.select(".indicador")
    
    ## Em cada indicador eu tenho duas classes (label e value), então itero com um for para retirar o texto de cada um
    dict_estados = {indicador.select('.ind-label')[0].text: indicador.select('.ind-value')[0].text for indicador in indicadores}
    
    ## Criando uma coluna Estados no meu dict_estados e atribuindo a ele o valor estado
    dict_estados["Estados"] = estado
    
    ## Retornando nosso dict_estados
    return dict_estados
                   

In [21]:
## Criando uma lista com a UF de cada estado brasileiro p/ consultarmos suas informações

estados = ['AC', 'AL', 'AP', 'AM', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MT', 'MS', 'MG', 'PA', 'PB', 'PR', 'PE', 'PI', 'RJ', 'RN', 'RS', 'RO', 'RR', 'SC', 'SP', 'SE', 'TO']

In [23]:
## Criando uma variável que recebe uma lista onde chamamos nossa função e iteramos os parâmetros com nossa lista estados

infos_estados = [consulta_info_estado(estado) for estado in estados]  

Consultando informações do AC...
Consultando informações do AL...
Consultando informações do AP...
Consultando informações do AM...
Consultando informações do BA...
Consultando informações do CE...
Consultando informações do DF...
Consultando informações do ES...
Consultando informações do GO...
Consultando informações do MA...
Consultando informações do MT...
Consultando informações do MS...
Consultando informações do MG...
Consultando informações do PA...
Consultando informações do PB...
Consultando informações do PR...
Consultando informações do PE...
Consultando informações do PI...
Consultando informações do RJ...
Consultando informações do RN...
Consultando informações do RS...
Consultando informações do RO...
Consultando informações do RR...
Consultando informações do SC...
Consultando informações do SP...
Consultando informações do SE...
Consultando informações do TO...


In [32]:
## Transofmrando nossos dados em data frame do tipo pandas para tornar mais fácil sua manipulação

df = pd.DataFrame(data = infos_estados)

In [33]:
## Verificando o tipo de dados do nosso df

type(df)

pandas.core.frame.DataFrame

In [51]:
## Exibindo os cinco primeiros itens do nosso data frame

df.head()

Unnamed: 0,Governador,Capital,Gentílico,Área Territorial,População estimada,Densidade demográfica,Matrículas no ensino fundamental,IDH Índice de desenvolvimento humano,Receitas realizadas,Despesas empenhadas,Rendimento mensal domiciliar per capita,Total de veículos,Estados
0,GLADSON DE LIMA CAMELI [2019],Rio Branco [2010],acriano,"164.173,431 km² [2021]",906.876 pessoas [2021],"4,47 hab/km² [2010]",153.015 matrículas [2021],"0,663 [2010]","6.632.883,11 R$ (×1000) [2017]","6.084.416,81 R$ (×1000) [2017]",888 R$ [2021],320.173 veículos [2021],AC
1,JOSE RENAN VASCONCELOS CALHEIROS FILHO [2019],Maceió [2010],alagoano,"27.830,661 km² [2021]",3.365.351 pessoas [2021],"112,33 hab/km² [2010]",458.782 matrículas [2021],"0,631 [2010]","11.950.438,46 R$ (×1000) [2017]","10.460.634,92 R$ (×1000) [2017]",777 R$ [2021],981.823 veículos [2021],AL
2,ANTONIO WALDEZ GÓES DA SILVA [2019],Macapá [2010],amapaense,"142.470,762 km² [2021]",877.613 pessoas [2021],"4,69 hab/km² [2010]",133.839 matrículas [2021],"0,708 [2010]","5.396.417,14 R$ (×1000) [2017]","4.224.464,09 R$ (×1000) [2017]",855 R$ [2021],224.208 veículos [2021],AP
3,WILSON MIRANDA LIMA [2019],Manaus [2010],amazonense,"1.559.167,878 km² [2021]",4.269.995 pessoas [2021],"2,23 hab/km² [2010]",702.763 matrículas [2021],"0,674 [2010]","17.328.459,43 R$ (×1000) [2017]","15.324.896,56 R$ (×1000) [2017]",800 R$ [2021],1.014.026 veículos [2021],AM
4,RUI COSTA DOS SANTOS [2019],Salvador [2010],baiano,"564.760,429 km² [2021]",14.985.284 pessoas [2021],"24,82 hab/km² [2010]",1.946.957 matrículas [2021],"0,660 [2010]","50.191.003,24 R$ (×1000) [2017]","45.570.160,00 R$ (×1000) [2017]",843 R$ [2021],4.695.972 veículos [2021],BA


In [39]:
## Criado nosso df temos que seus dados são do tipo objeto, logo precisamos transformá-los em números ou strings;

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 13 columns):
 #   Column                                   Non-Null Count  Dtype 
---  ------                                   --------------  ----- 
 0   Governador                               27 non-null     object
 1   Capital                                  27 non-null     object
 2   Gentílico                                27 non-null     object
 3   Área Territorial                         27 non-null     object
 4   População estimada                       27 non-null     object
 5   Densidade demográfica                    27 non-null     object
 6   Matrículas no ensino fundamental        27 non-null     object
 7   IDH Índice de desenvolvimento humano    27 non-null     object
 8   Receitas realizadas                      27 non-null     object
 9   Despesas empenhadas                      27 non-null     object
 10  Rendimento mensal domiciliar per capita  27 non-null     object


## Limpeza

In [41]:
## É uma boa prática criarmos uma cópia do nosso data frame original p/ diminuir a chance de perdermos os dados originais

df_estados = df.copy()

In [62]:
## Renomeando as colunas do data frame adotando as boas práticas (snake_case) e separando as colunas com tipos string e dado

df_estados.columns = ['estado', 'governador', 'populacao', 'area', 'idh', 'pib_per_capta', 'total_veiculos', 'matriculas_ensino_fundamental', 'despesas_empenhadas', 'receitas_realizadas']

In [63]:
## Aplicando um regex com o método replace p/ remover os caractéres que não queremos que sejam exibidos
## Caracteres especiais como . precisam da \ antes p/ que a regex funcione;

df_estados = df_estados.replace({
    '\.': '',
    ',': '.',
    '\[\d+\]': '',
    ' hab/km²': '',
    ' km²': '',
    ' pessoas': '',
    ' matrículas': '',
    'R\$.*': '',
    ' veículos': ''
}, regex = True)

In [64]:
## Verificando se os caracteres foram retirados

df_estados.head()

Unnamed: 0,estado,governador,populacao,area,idh,pib_per_capta,total_veiculos,matriculas_ensino_fundamental,despesas_empenhadas,receitas_realizadas
0,AC,GLADSON DE LIMA CAMELI,906876,164173431,663,888,320173,153015,608441681,663288311
1,AL,JOSE RENAN VASCONCELOS CALHEIROS FILHO,3365351,27830661,631,777,981823,458782,1046063492,1195043846
2,AP,ANTONIO WALDEZ GÓES DA SILVA,877613,142470762,708,855,224208,133839,422446409,539641714
3,AM,WILSON MIRANDA LIMA,4269995,1559167878,674,800,1014026,702763,1532489656,1732845943
4,BA,RUI COSTA DOS SANTOS,14985284,564760429,660,843,4695972,1946957,4557016000,5019100324


In [65]:
## Vou criar uma lista que contenham dados do tipo númerico para depois realizar a conversão destes

colunas_numericas = ['populacao', 'area', 'idh', 'pib_per_capta', 'total_veiculos', 'matriculas_ensino_fundamental', 'despesas_empenhadas', 'receitas_realizadas']

In [66]:
## Retirando todos os possíveis espaços nas colunas_numericas com o método .apply(), lambda, .str e .strip()

df_estados[colunas_numericas] = df_estados[colunas_numericas].apply(lambda x: x.str.strip())

In [67]:
## Convertendo as colunas_numericas de tipo string para numerico

df_estados[colunas_numericas] = df_estados[colunas_numericas].apply(pd.to_numeric)

In [69]:
## Confirmando que as colunas tiveram seus tipos alterados para números

df_estados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 10 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   estado                         27 non-null     object
 1   governador                     27 non-null     object
 2   populacao                      27 non-null     int64 
 3   area                           27 non-null     int64 
 4   idh                            27 non-null     int64 
 5   pib_per_capta                  27 non-null     int64 
 6   total_veiculos                 27 non-null     int64 
 7   matriculas_ensino_fundamental  27 non-null     int64 
 8   despesas_empenhadas            27 non-null     int64 
 9   receitas_realizadas            27 non-null     int64 
dtypes: int64(8), object(2)
memory usage: 2.2+ KB


## Exportação

In [76]:
## Aplicamos o método .to_csv() do pandas e como parâmetro passamos o path que queremos salvar o arquivo

df_estados.to_csv()

',estado,governador,populacao,area,idh,pib_per_capta,total_veiculos,matriculas_ensino_fundamental,despesas_empenhadas,receitas_realizadas\n0,AC,GLADSON DE LIMA CAMELI\xa0\xa0\xa0,906876,164173431,663,888,320173,153015,608441681,663288311\n1,AL,JOSE RENAN VASCONCELOS CALHEIROS FILHO\xa0\xa0\xa0,3365351,27830661,631,777,981823,458782,1046063492,1195043846\n2,AP,ANTONIO WALDEZ GÓES DA SILVA\xa0\xa0\xa0,877613,142470762,708,855,224208,133839,422446409,539641714\n3,AM,WILSON MIRANDA LIMA\xa0\xa0\xa0,4269995,1559167878,674,800,1014026,702763,1532489656,1732845943\n4,BA,RUI COSTA DOS SANTOS\xa0\xa0\xa0,14985284,564760429,660,843,4695972,1946957,4557016000,5019100324\n5,CE,CAMILO SOBREIRA DE SANTANA\xa0\xa0\xa0,9240580,148894447,682,881,3513199,1161434,2460835218,2842022247\n6,DF,IBANEIS ROCHA BARROS JUNIOR\xa0\xa0\xa0,3094325,5760784,824,2513,1979698,369128,2199046468,2381221127\n7,ES,JOSE RENATO CASAGRANDE\xa0\xa0\xa0,4108508,46074448,740,1295,2160432,503003,1439233800,1968561674\n8,GO,RONAL