# 🌐 Web Scraping: Extraindo Tabelas da Wikipédia - População dos Estados do Brasil

Neste notebook, vamos realizar **web scraping** para extrair **duas tabelas** da página da Wikipédia sobre população dos estados brasileiros.  
Usaremos as bibliotecas `requests`, `BeautifulSoup` e `pandas` para extrair, visualizar e salvar os dados.

---

## 📦 Importando as bibliotecas necessárias

In [12]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

## 🌍 Definindo a URL da página da Wikipédia

In [13]:
url = "https://pt.wikipedia.org/wiki/Lista_de_estados_do_Brasil_por_população"  # Página-alvo

## 📥 Fazendo a requisição da página

In [14]:
#Vamos agora checar se a página está realmente funcionando

resposta = requests.get(url)
print("Código de status HTTP:", resposta.status_code)

if resposta.status_code == 200:
    print("✅ Requisição bem-sucedida! Página acessada com sucesso.")
else:
    print(f"❌ Erro ao acessar a página! Código: {resposta.status_code}")

# 200	OK	A página foi carregada com sucesso (é o que queremos) ✅
# 404	Not Found	A página não existe ❌
# 403	Forbidden	O acesso foi negado (talvez bloqueado) 🚫
# 500	Server Error	O servidor teve um problema 🛠️

Código de status HTTP: 200
✅ Requisição bem-sucedida! Página acessada com sucesso.


In [15]:
resposta.text #vamos checar o que está no código fonte do HTML

'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="pt" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Lista de unidades federativas do Brasil por população – Wikipédia, a enciclopédia livre</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-cl

## 🧠 Interpretando o HTML com BeautifulSoup

In [16]:
soup = BeautifulSoup(resposta.text, "html.parser") #transformando o código-fonte em HTML em um formato o qual o python possa entender

## 📊 Coletando todas as tabelas da página

In [17]:
tabelas_html = soup.find_all("table")  # Retorna todas as tabelas encontradas na página
print(f"🔎 Total de tabelas encontradas: {len(tabelas_html)}")

🔎 Total de tabelas encontradas: 5


## 🧾 Convertendo as tabelas para DataFrames com o pandas

In [18]:
dfs = pd.read_html(str(tabelas_html))  # Converte todas as tabelas HTML em DataFrames pandas

# Exibindo os nomes e as 5 primeiras linhas de cada uma
for i, tabela in enumerate(dfs):
    print(f"\n🧾 Tabela {i+1}")
    display(tabela.head())


🧾 Tabela 1


  dfs = pd.read_html(str(tabelas_html))  # Converte todas as tabelas HTML em DataFrames pandas


Unnamed: 0,0
0,> 20 milhões 10 milhões – 20 milhões 5 milhões...



🧾 Tabela 2


Unnamed: 0_level_0,Unidade federativa,População[3][4],População[3][4],Variação (2010-2022)[3],Variação (2010-2022)[3],% do total (2024)[4],País comparável (habitantes)[5][a]
Unnamed: 0_level_1,Unidade federativa,2024 (est.),2022,%,Abs.,% do total (2024)[4],País comparável (habitantes)[5][a]
0,São Paulo,45 973 194,44 411 238,"7,63%",3 149 039,"21,63%",Iraque (46 042 015)
1,Minas Gerais,21 322 691,20 539 989,"4,81%",942 659,"10,03%",Zâmbia (21 314 956)
2,Rio de Janeiro,17 219 679,16 055 174,"0,41%",65 245,"8,10%",Camboja (17 638 801)
3,Bahia,14 850 513,14 141 626,"0,89%",124 720,"6,99%",Guiné (14 754 785)
4,Paraná,11 824 665,11 444 380,"9,57%",999 854,"5,56%",Haiti (11 772 557)



🧾 Tabela 3


Unnamed: 0_level_0,Região,População[3][4],População[3][4],Variação (2010-2022)[3],Variação (2010-2022)[3],% do total (2024)[4],País comparável (habitantes)[5][a]
Unnamed: 0_level_1,Região,2024 (est.),2022,%,Abs.,% do total (2024)[4],País comparável (habitantes)[5][a]
0,Sudeste,88 617 693,84 840 113,"5,57%",4 475 703,"41,69%",Turquia (87 473 805)
1,Nordeste,57 112 096,54 658 515,"2,97%",1 576 565,"26,87%",Quênia (56 432 944)
2,Sul,31 113 021,29 937 706,"9,31%",2 550 815,"14,64%",Costa do Marfim (31 934 230)
3,Norte,18 669 345,17 354 884,"9,39%",1 490 430,"8,78%",Senegal (18 501 984)
4,Centro-Oeste,17 071 595,16 289 538,"15,87%",2 231 444,"8,03%",Zimbabwe (16 634 373)



🧾 Tabela 4


Unnamed: 0,vdeClassificações das unidades federativas do Brasil,vdeClassificações das unidades federativas do Brasil.1
0,Geografia,Área Densidade demográfica Número de município...
1,Demografia,População Densidade demográfica Natalidade Fec...
2,Governo,Sedes governamentais Transparência Arrecadação...
3,Indicadores econômicos e sociais,Educação Alfabetização Crianças e adolescentes...
4,Educação,Alfabetização Crianças e adolescentes fora da ...



🧾 Tabela 5


Unnamed: 0,0,1
0,Educação,Alfabetização Crianças e adolescentes fora da ...
1,Economia,Crescimento Crescimento nominal Participação P...
2,Saúde,Mortalidade infantil Óbitos infantis Taxa de h...
3,Sociais,GINI IDH segundo cor/raça IFDM Incidência da p...
4,Trabalho,Empregados com carteira assinada Desemprego Ap...



🧾 Tabela 6


Unnamed: 0,0,1
0,Educação,Alfabetização Crianças e adolescentes fora da ...
1,Economia,Crescimento Crescimento nominal Participação P...
2,Saúde,Mortalidade infantil Óbitos infantis Taxa de h...
3,Sociais,GINI IDH segundo cor/raça IFDM Incidência da p...
4,Trabalho,Empregados com carteira assinada Desemprego Ap...


## 💾 Salvando as duas primeiras tabelas em um arquivo Excel com abas separadas

In [26]:
#Como podemos ver, vamos ignorar a primeira tabela (a tabela zero) e ficar com a segunda e a terceira (a 1 e a 2)

# Corrigir formatação das tabelas que estamos baixando
dfs[1].columns = [' '.join(col).strip() if isinstance(col, tuple) else col for col in dfs[1].columns]
dfs[2].columns = [' '.join(col).strip() if isinstance(col, tuple) else col for col in dfs[2].columns]

# Salvar as duas tabelas no Excel
caminho = "/content/populacao_estados_brasil.xlsx"
with pd.ExcelWriter(caminho) as writer:
    dfs[1].to_excel(writer, sheet_name="Tabela_1", index=False)
    dfs[2].to_excel(writer, sheet_name="Tabela_2", index=False)

print("✅ Arquivo Excel salvo com sucesso!")
from google.colab import files
files.download("/content/populacao_estados_brasil.xlsx")


✅ Arquivo Excel salvo com sucesso!


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>