In [138]:
import pandas as pd
import requests

url = "https://pt.wikipedia.org/wiki/Unidades_federativas_do_Brasil"

# No Linux, é comum usarmos um User-Agent que simula o Firefox ou Chrome
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

# 1. Pegamos o conteúdo da página com o requests
html_content = requests.get(url, headers=headers).text

# 2. O pandas lê o conteúdo HTML diretamente
ufs = pd.read_html(html_content)

# Para visualizar a tabela principal das UFs:
uf = df = ufs[1]
uf.head()

  ufs = pd.read_html(html_content)


Unnamed: 0,Bandeira,Unidade federativa,Abreviação,Sede de governo,Área (km²),População (Censo 2022),Densidade (2005),PIB (2015),(% total) (2015),PIB per capita (R$) (2015),IDH (2010),Alfabetização (2016),Mortalidade infantil (2016),Expectativa de vida (2016)
0,,Acre,AC,Rio Branco,"164 122,2",830 018,430,13 622 000,2,"16 953,46",663,"86,9%","17,0‰","73,9 anos"
1,,Alagoas,AL,Maceió,"27 767,7",3 127 683,10861,46 364 000,8,"13 877,53",631,"80,6%","19,5‰","71,6 anos"
2,,Amapá,AP,Macapá,"142 814,6",733 759,416,13 861 000,2,"18 079,54",708,95%,"23,2‰","73,9 anos"
3,,Amazonas,AM,Manaus,"1 570 745,7",3 941 613,205,86 560 000,14,"21 978,95",674,"93,1%","18,2‰","71,9 anos"
4,,Bahia,BA,Salvador,"564 692,7",14 141 626,2446,245 025 000,41,"16 115,89",660,87%,"17,3‰","73,5 anos"


In [139]:
uf.dtypes

Bandeira                       float64
Unidade federativa              object
Abreviação                      object
Sede de governo                 object
Área (km²)                      object
População (Censo 2022)          object
Densidade (2005)                 int64
PIB (2015)                      object
(% total) (2015)                 int64
PIB per capita (R$) (2015)      object
IDH (2010)                       int64
Alfabetização (2016)            object
Mortalidade infantil (2016)     object
Expectativa de vida (2016)      object
dtype: object

In [140]:
def str_to_float(area_str: str):
    return float(area_str.replace(' ', '').replace(',', '.').replace('\xa0', ''))

In [141]:
def transform_age_str_to_float(idade: str):
    return float(idade.replace(',', '.').replace(' anos',''))

In [142]:
uf.head()

Unnamed: 0,Bandeira,Unidade federativa,Abreviação,Sede de governo,Área (km²),População (Censo 2022),Densidade (2005),PIB (2015),(% total) (2015),PIB per capita (R$) (2015),IDH (2010),Alfabetização (2016),Mortalidade infantil (2016),Expectativa de vida (2016)
0,,Acre,AC,Rio Branco,"164 122,2",830 018,430,13 622 000,2,"16 953,46",663,"86,9%","17,0‰","73,9 anos"
1,,Alagoas,AL,Maceió,"27 767,7",3 127 683,10861,46 364 000,8,"13 877,53",631,"80,6%","19,5‰","71,6 anos"
2,,Amapá,AP,Macapá,"142 814,6",733 759,416,13 861 000,2,"18 079,54",708,95%,"23,2‰","73,9 anos"
3,,Amazonas,AM,Manaus,"1 570 745,7",3 941 613,205,86 560 000,14,"21 978,95",674,"93,1%","18,2‰","71,9 anos"
4,,Bahia,BA,Salvador,"564 692,7",14 141 626,2446,245 025 000,41,"16 115,89",660,87%,"17,3‰","73,5 anos"


In [143]:
uf['Área (km²)'] = uf['Área (km²)'].apply(str_to_float)
uf['População (Censo 2022)'] = uf['População (Censo 2022)'].apply(str_to_float)
uf['PIB (2015)'] = uf['PIB (2015)'].apply(str_to_float)
uf['PIB per capita (R$) (2015)'] = uf['PIB per capita (R$) (2015)'].apply(str_to_float)
uf['Expectativa de vida (2016)'] = uf['Expectativa de vida (2016)'].apply(transform_age_str_to_float)

In [144]:
uf['Unidade federativa'].unique()

array(['Acre', 'Alagoas', 'Amapá', 'Amazonas', 'Bahia', 'Ceará',
       'Distrito Federal', 'Espírito Santo', 'Goiás', 'Maranhão',
       'Mato Grosso', 'Mato Grosso do Sul', 'Minas Gerais', 'Pará',
       'Paraíba', 'Paraná', 'Pernambuco', 'Piauí', 'Rio de Janeiro',
       'Rio Grande do Norte', 'Rio Grande do Sul', 'Rondônia', 'Roraima',
       'Santa Catarina', 'São Paulo', 'Sergipe', 'Tocantins'],
      dtype=object)

In [145]:
def regios_brasileiras(uf: str):
    if uf in ['Acre', 'Amapá', 'Amazonas', 'Pará', 'Rondônia', 'Roraima', 'Tocantins']:
        return 'Norte'
    elif uf in ['Alagoas', 'Bahia', 'Ceará', 'Maranhão', 'Paraíba', 'Pernambuco', 'Piauí', 'Rio Grande do Norte', 'Sergipe']:
        return 'Nordeste'
    elif uf in ['Distrito Federal', 'Goiás', 'Mato Grosso', 'Mato Grosso do Sul']:
        return 'Centro-Oeste'
    elif uf in ['Espírito Santo', 'Minas Gerais', 'Rio de Janeiro', 'São Paulo']:
        return 'Sudeste'
    elif uf in ['Paraná', 'Rio Grande do Sul', 'Santa Catarina']:
        return 'Sul'
    else:
        return 'Desconhecida'

In [146]:
uf['Unidade federativa'] = uf['Unidade federativa'].apply(regios_brasileiras)

In [147]:
uf.head()

Unnamed: 0,Bandeira,Unidade federativa,Abreviação,Sede de governo,Área (km²),População (Censo 2022),Densidade (2005),PIB (2015),(% total) (2015),PIB per capita (R$) (2015),IDH (2010),Alfabetização (2016),Mortalidade infantil (2016),Expectativa de vida (2016)
0,,Norte,AC,Rio Branco,164122.2,830018.0,430,13622000.0,2,16953.46,663,"86,9%","17,0‰",73.9
1,,Nordeste,AL,Maceió,27767.7,3127683.0,10861,46364000.0,8,13877.53,631,"80,6%","19,5‰",71.6
2,,Norte,AP,Macapá,142814.6,733759.0,416,13861000.0,2,18079.54,708,95%,"23,2‰",73.9
3,,Norte,AM,Manaus,1570745.7,3941613.0,205,86560000.0,14,21978.95,674,"93,1%","18,2‰",71.9
4,,Nordeste,BA,Salvador,564692.7,14141626.0,2446,245025000.0,41,16115.89,660,87%,"17,3‰",73.5


In [148]:
def mortalidade_to_float(mortalidade: str):
    return float(mortalidade.replace(',', '.').replace('‰', ''))

In [149]:
uf['Mortalidade infantil (/1000)'] = uf['Mortalidade infantil (2016)'].apply(mortalidade_to_float)

In [150]:
def classifica_bom(linha):
    return (linha["PIB per capita (R$) (2015)"] > 30000 and
            linha["Mortalidade infantil (/1000)"] < 15 and 
            linha["IDH (2010)"] > 700)

uf.apply(classifica_bom, axis=1)

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7      True
8     False
9     False
10    False
11     True
12    False
13    False
14    False
15     True
16    False
17    False
18     True
19    False
20     True
21    False
22    False
23     True
24     True
25    False
26    False
dtype: bool

In [151]:
uf.dtypes 

Bandeira                        float64
Unidade federativa               object
Abreviação                       object
Sede de governo                  object
Área (km²)                      float64
População (Censo 2022)          float64
Densidade (2005)                  int64
PIB (2015)                      float64
(% total) (2015)                  int64
PIB per capita (R$) (2015)      float64
IDH (2010)                        int64
Alfabetização (2016)             object
Mortalidade infantil (2016)      object
Expectativa de vida (2016)      float64
Mortalidade infantil (/1000)    float64
dtype: object