In [6]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_densidade_demogr%C3%A1fica"

response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Localiza a tabela correta pela classe
table = soup.find('table', {'class': 'wikitable sortable'})

data = []

for row in table.find_all('tr')[1:]:
    cols = row.find_all('td')
    if len(cols) >= 7:
        posicao = cols[0].text.strip()
        estado = cols[1].text.strip()

        area = cols[2].text.strip().replace('.', '').replace(',', '.')
        area = float(area) if area else None

        populacao_2010 = cols[3].text.strip().replace('.', '').replace(',', '')
        populacao_2010 = int(populacao_2010) if populacao_2010.isdigit() else None

        densidade_2010 = cols[4].text.strip().replace(',', '.')
        densidade_2010 = float(densidade_2010) if densidade_2010 else None

        populacao_2022 = cols[5].text.strip().replace('.', '').replace(',', '')
        populacao_2022 = int(populacao_2022) if populacao_2022.isdigit() else None

        densidade_2022 = cols[6].text.strip().replace(',', '.')
        densidade_2022 = float(densidade_2022) if densidade_2022 else None

        data.append([
            posicao, estado, area, 
            populacao_2010, densidade_2010, 
            populacao_2022, densidade_2022
        ])

# Cria o dataframe
df = pd.DataFrame(data, columns=[
    'Posição', 'Unidade Federativa', 'Área (km²)',
    'População (2010)', 'Densidade (2010)',
    'População (2022)', 'Densidade (2022)'
])

# Ajusta os tipos das colunas
df['Posição'] = pd.to_numeric(df['Posição'])
df = df.sort_values(by='Posição')


In [7]:
df

Unnamed: 0,Posição,Unidade Federativa,Área (km²),População (2010),Densidade (2010),População (2022),Densidade (2022)
0,1,Distrito Federal,5760.783,2570160,444.66,2923369,507.46
1,2,Rio de Janeiro,43750.423,15989929,365.48,16615526,379.78
2,3,São Paulo,248219.481,41262199,166.23,46024937,185.42
3,4,Alagoas,27843.295,3120494,112.07,3125254,112.24
4,5,Sergipe,21926.908,2068017,94.31,2211868,100.87
5,6,Pernambuco,98068.021,8796448,89.7,9051113,92.29
6,7,Espírito Santo,46074.444,3514952,76.29,3975100,86.27
7,8,Santa Catarina,95730.921,6248436,65.27,7762154,81.03
8,9,Paraíba,56467.239,3766528,66.7,4030961,71.38
9,10,Rio Grande do Norte,52809.602,3168027,59.99,3303953,62.56


In [8]:
estados_uf = {
    "Acre": "AC",
    "Alagoas": "AL",
    "Amapá": "AP",
    "Amazonas": "AM",
    "Bahia": "BA",
    "Ceará": "CE",
    "Distrito Federal": "DF",
    "Espírito Santo": "ES",
    "Goiás": "GO",
    "Maranhão": "MA",
    "Mato Grosso": "MT",
    "Mato Grosso do Sul": "MS",
    "Minas Gerais": "MG",
    "Pará": "PA",
    "Paraíba": "PB",
    "Paraná": "PR",
    "Pernambuco": "PE",
    "Piauí": "PI",
    "Rio de Janeiro": "RJ",
    "Rio Grande do Norte": "RN",
    "Rio Grande do Sul": "RS",
    "Rondônia": "RO",
    "Roraima": "RR",
    "Santa Catarina": "SC",
    "São Paulo": "SP",
    "Sergipe": "SE",
    "Tocantins": "TO"
}


In [9]:
df["UF"] = df["Unidade Federativa"].map(estados_uf)

In [10]:
df

Unnamed: 0,Posição,Unidade Federativa,Área (km²),População (2010),Densidade (2010),População (2022),Densidade (2022),UF
0,1,Distrito Federal,5760.783,2570160,444.66,2923369,507.46,DF
1,2,Rio de Janeiro,43750.423,15989929,365.48,16615526,379.78,RJ
2,3,São Paulo,248219.481,41262199,166.23,46024937,185.42,SP
3,4,Alagoas,27843.295,3120494,112.07,3125254,112.24,AL
4,5,Sergipe,21926.908,2068017,94.31,2211868,100.87,SE
5,6,Pernambuco,98068.021,8796448,89.7,9051113,92.29,PE
6,7,Espírito Santo,46074.444,3514952,76.29,3975100,86.27,ES
7,8,Santa Catarina,95730.921,6248436,65.27,7762154,81.03,SC
8,9,Paraíba,56467.239,3766528,66.7,4030961,71.38,PB
9,10,Rio Grande do Norte,52809.602,3168027,59.99,3303953,62.56,RN


In [11]:
df.to_csv('./human_density.csv',sep='\t')