# üåê Web Scraping: Extraindo Tabelas da Wikip√©dia - Popula√ß√£o dos Estados do Brasil

Neste notebook, vamos realizar **web scraping** para extrair **duas tabelas** da p√°gina da Wikip√©dia sobre popula√ß√£o dos estados brasileiros.  
Usaremos as bibliotecas `requests`, `BeautifulSoup` e `pandas` para extrair, visualizar e salvar os dados.

---

## üì¶ Importando as bibliotecas necess√°rias

In [12]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

## üåç Definindo a URL da p√°gina da Wikip√©dia

In [13]:
url = "https://pt.wikipedia.org/wiki/Lista_de_estados_do_Brasil_por_popula√ß√£o"  # P√°gina-alvo

## üì• Fazendo a requisi√ß√£o da p√°gina

In [14]:
#Vamos agora checar se a p√°gina est√° realmente funcionando

resposta = requests.get(url)
print("C√≥digo de status HTTP:", resposta.status_code)

if resposta.status_code == 200:
    print("‚úÖ Requisi√ß√£o bem-sucedida! P√°gina acessada com sucesso.")
else:
    print(f"‚ùå Erro ao acessar a p√°gina! C√≥digo: {resposta.status_code}")

# 200	OK	A p√°gina foi carregada com sucesso (√© o que queremos) ‚úÖ
# 404	Not Found	A p√°gina n√£o existe ‚ùå
# 403	Forbidden	O acesso foi negado (talvez bloqueado) üö´
# 500	Server Error	O servidor teve um problema üõ†Ô∏è

C√≥digo de status HTTP: 200
‚úÖ Requisi√ß√£o bem-sucedida! P√°gina acessada com sucesso.


In [15]:
resposta.text #vamos checar o que est√° no c√≥digo fonte do HTML

'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="pt" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Lista de unidades federativas do Brasil por popula√ß√£o ‚Äì Wikip√©dia, a enciclop√©dia livre</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-wi

## üß† Interpretando o HTML com BeautifulSoup

In [16]:
soup = BeautifulSoup(resposta.text, "html.parser") #transformando o c√≥digo-fonte em HTML em um formato o qual o python possa entender

## üìä Coletando todas as tabelas da p√°gina

In [17]:
tabelas_html = soup.find_all("table")  # Retorna todas as tabelas encontradas na p√°gina
print(f"üîé Total de tabelas encontradas: {len(tabelas_html)}")

üîé Total de tabelas encontradas: 5


## üßæ Convertendo as tabelas para DataFrames com o pandas

In [18]:
dfs = pd.read_html(str(tabelas_html))  # Converte todas as tabelas HTML em DataFrames pandas

# Exibindo os nomes e as 5 primeiras linhas de cada uma
for i, tabela in enumerate(dfs):
    print(f"\nüßæ Tabela {i+1}")
    display(tabela.head())


üßæ Tabela 1


  dfs = pd.read_html(str(tabelas_html))  # Converte todas as tabelas HTML em DataFrames pandas


Unnamed: 0,0
0,> 20 milh√µes 10 milh√µes ‚Äì 20 milh√µes 5 milh√µes...



üßæ Tabela 2


Unnamed: 0_level_0,Unidade federativa,Popula√ß√£o[3][4],Popula√ß√£o[3][4],Varia√ß√£o (2010-2022)[3],Varia√ß√£o (2010-2022)[3],% do total (2024)[4],Pa√≠s compar√°vel (habitantes)[5][a]
Unnamed: 0_level_1,Unidade federativa,2024 (est.),2022,%,Abs.,% do total (2024)[4],Pa√≠s compar√°vel (habitantes)[5][a]
0,S√£o Paulo,45¬†973¬†194,44¬†411¬†238,"7,63%",3¬†149¬†039,"21,63%",Iraque (46¬†042¬†015)
1,Minas Gerais,21¬†322¬†691,20¬†539¬†989,"4,81%",942¬†659,"10,03%",Z√¢mbia (21¬†314¬†956)
2,Rio de Janeiro,17¬†219¬†679,16¬†055¬†174,"0,41%",65¬†245,"8,10%",Camboja (17¬†638¬†801)
3,Bahia,14¬†850¬†513,14¬†141¬†626,"0,89%",124¬†720,"6,99%",Guin√© (14¬†754¬†785)
4,Paran√°,11¬†824¬†665,11¬†444¬†380,"9,57%",999¬†854,"5,56%",Haiti (11¬†772¬†557)



üßæ Tabela 3


Unnamed: 0_level_0,Regi√£o,Popula√ß√£o[3][4],Popula√ß√£o[3][4],Varia√ß√£o (2010-2022)[3],Varia√ß√£o (2010-2022)[3],% do total (2024)[4],Pa√≠s compar√°vel (habitantes)[5][a]
Unnamed: 0_level_1,Regi√£o,2024 (est.),2022,%,Abs.,% do total (2024)[4],Pa√≠s compar√°vel (habitantes)[5][a]
0,Sudeste,88¬†617¬†693,84¬†840¬†113,"5,57%",4¬†475¬†703,"41,69%",Turquia (87¬†473¬†805)
1,Nordeste,57¬†112¬†096,54¬†658¬†515,"2,97%",1¬†576¬†565,"26,87%",Qu√™nia (56¬†432¬†944)
2,Sul,31¬†113¬†021,29¬†937¬†706,"9,31%",2¬†550¬†815,"14,64%",Costa do Marfim (31¬†934¬†230)
3,Norte,18¬†669¬†345,17¬†354¬†884,"9,39%",1¬†490¬†430,"8,78%",Senegal (18¬†501¬†984)
4,Centro-Oeste,17¬†071¬†595,16¬†289¬†538,"15,87%",2¬†231¬†444,"8,03%",Zimbabwe (16¬†634¬†373)



üßæ Tabela 4


Unnamed: 0,vdeClassifica√ß√µes das unidades federativas do Brasil,vdeClassifica√ß√µes das unidades federativas do Brasil.1
0,Geografia,√Årea Densidade demogr√°fica N√∫mero de munic√≠pio...
1,Demografia,Popula√ß√£o Densidade demogr√°fica Natalidade Fec...
2,Governo,Sedes governamentais Transpar√™ncia Arrecada√ß√£o...
3,Indicadores econ√¥micos e sociais,Educa√ß√£o Alfabetiza√ß√£o Crian√ßas e adolescentes...
4,Educa√ß√£o,Alfabetiza√ß√£o Crian√ßas e adolescentes fora da ...



üßæ Tabela 5


Unnamed: 0,0,1
0,Educa√ß√£o,Alfabetiza√ß√£o Crian√ßas e adolescentes fora da ...
1,Economia,Crescimento Crescimento nominal Participa√ß√£o P...
2,Sa√∫de,Mortalidade infantil √ìbitos infantis Taxa de h...
3,Sociais,GINI IDH segundo cor/ra√ßa IFDM Incid√™ncia da p...
4,Trabalho,Empregados com carteira assinada Desemprego Ap...



üßæ Tabela 6


Unnamed: 0,0,1
0,Educa√ß√£o,Alfabetiza√ß√£o Crian√ßas e adolescentes fora da ...
1,Economia,Crescimento Crescimento nominal Participa√ß√£o P...
2,Sa√∫de,Mortalidade infantil √ìbitos infantis Taxa de h...
3,Sociais,GINI IDH segundo cor/ra√ßa IFDM Incid√™ncia da p...
4,Trabalho,Empregados com carteira assinada Desemprego Ap...


## üíæ Salvando as duas primeiras tabelas em um arquivo Excel com abas separadas

In [26]:
#Como podemos ver, vamos ignorar a primeira tabela (a tabela zero) e ficar com a segunda e a terceira (a 1 e a 2)

# Corrigir formata√ß√£o das tabelas que estamos baixando
dfs[1].columns = [' '.join(col).strip() if isinstance(col, tuple) else col for col in dfs[1].columns]
dfs[2].columns = [' '.join(col).strip() if isinstance(col, tuple) else col for col in dfs[2].columns]

# Salvar as duas tabelas no Excel
caminho = "/content/populacao_estados_brasil.xlsx"
with pd.ExcelWriter(caminho) as writer:
    dfs[1].to_excel(writer, sheet_name="Tabela_1", index=False)
    dfs[2].to_excel(writer, sheet_name="Tabela_2", index=False)

print("‚úÖ Arquivo Excel salvo com sucesso!")
from google.colab import files
files.download("/content/populacao_estados_brasil.xlsx")


‚úÖ Arquivo Excel salvo com sucesso!


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>