In [1]:
import pandas as pd
import requests
from io import StringIO

In [2]:
url = 'https://pt.wikipedia.org/wiki/Unidades_federativas_do_Brasil'
header = {
  "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36",
  "X-Requested-With": "XMLHttpRequest"
}

In [3]:
response = requests.get(url, headers=header)

In [4]:
dfs = pd.read_html(StringIO(response.text))

In [5]:
uf = dfs[1] # contém o dataframe com os estado do Brasil

In [6]:
uf.head()

Unnamed: 0,Bandeira,Unidade federativa,Abreviação,Sede de governo,Área (km²),População (Censo 2022),Densidade (2005),PIB (2015),(% total) (2015),PIB per capita (R$) (2015),IDH (2010),Alfabetização (2016),Mortalidade infantil (2016),Expectativa de vida (2016)
0,,Acre,AC,Rio Branco,"164 122,2",830 018,430,13 622 000,2,"16 953,46",663,"86,9%","17,0‰","73,9 anos"
1,,Alagoas,AL,Maceió,"27 767,7",3 127 683,10861,46 364 000,8,"13 877,53",631,"80,6%","19,5‰","71,6 anos"
2,,Amapá,AP,Macapá,"142 814,6",733 759,416,13 861 000,2,"18 079,54",708,95%,"23,2‰","73,9 anos"
3,,Amazonas,AM,Manaus,"1 570 745,7",3 941 613,205,86 560 000,14,"21 978,95",674,"93,1%","18,2‰","71,9 anos"
4,,Bahia,BA,Salvador,"564 692,7",14 141 626,2446,245 025 000,41,"16 115,89",660,87%,"17,3‰","73,5 anos"


In [7]:
uf.dtypes

Bandeira                       float64
Unidade federativa              object
Abreviação                      object
Sede de governo                 object
Área (km²)                      object
População (Censo 2022)          object
Densidade (2005)                 int64
PIB (2015)                      object
(% total) (2015)                 int64
PIB per capita (R$) (2015)      object
IDH (2010)                       int64
Alfabetização (2016)            object
Mortalidade infantil (2016)     object
Expectativa de vida (2016)      object
dtype: object

In [8]:
float('27 767,7	'.strip().replace(',', '.').replace(' ', ''))

27767.7

In [9]:
def convert_str_to_float(x):
    return float(x.replace('\xa0', '').replace(' ', '').replace(',', '.'))

In [10]:
uf['Área (km²)'] = uf['Área (km²)'].apply(convert_str_to_float)

In [11]:
uf['População (Censo 2022)'] = uf['População (Censo 2022)'].apply(convert_str_to_float)

In [12]:
uf['PIB (2015)'] = uf['PIB (2015)'].apply(convert_str_to_float)

In [13]:
uf['PIB per capita (R$) (2015)'] = uf['PIB per capita (R$) (2015)'].apply(convert_str_to_float)

In [14]:
def parse_age_to_float(x):
    return float(x.replace('anos', '').replace(' ', '').replace(',', '.'))

In [15]:
uf['Expectativa de vida (2016)'] = uf['Expectativa de vida (2016)'].apply(parse_age_to_float)

In [16]:
def parse_study_to_percentage(x):
    return float(x.replace(',', '.').replace('%', '')) / 100

In [17]:
uf['Alfabetização (2016)'] = uf['Alfabetização (2016)'].apply(parse_study_to_percentage)

In [18]:
def parse_infant_death(x):
    return float(x.replace(',', '.').replace('‰', ''))

In [19]:
uf['Mortalidade infantil (/1000)'] = uf['Mortalidade infantil (2016)'].apply(parse_infant_death)

In [20]:
uf.head()

Unnamed: 0,Bandeira,Unidade federativa,Abreviação,Sede de governo,Área (km²),População (Censo 2022),Densidade (2005),PIB (2015),(% total) (2015),PIB per capita (R$) (2015),IDH (2010),Alfabetização (2016),Mortalidade infantil (2016),Expectativa de vida (2016),Mortalidade infantil (/1000)
0,,Acre,AC,Rio Branco,164122.2,830018.0,430,13622000.0,2,16953.46,663,0.869,"17,0‰",73.9,17.0
1,,Alagoas,AL,Maceió,27767.7,3127683.0,10861,46364000.0,8,13877.53,631,0.806,"19,5‰",71.6,19.5
2,,Amapá,AP,Macapá,142814.6,733759.0,416,13861000.0,2,18079.54,708,0.95,"23,2‰",73.9,23.2
3,,Amazonas,AM,Manaus,1570745.7,3941613.0,205,86560000.0,14,21978.95,674,0.931,"18,2‰",71.9,18.2
4,,Bahia,BA,Salvador,564692.7,14141626.0,2446,245025000.0,41,16115.89,660,0.87,"17,3‰",73.5,17.3


In [21]:
def uf_to_region(uf):
    if uf in ['Goiás', 'Mato Grosso', 'Mato Grosso do Sul', 'Distrito Federal']:
        return 'Centro-Oeste'
    elif uf in ['Alagoas', 'Bahia', 'Ceará', 'Maranhão', 'Paraíba', 'Pernambuco', 'Piauí', 'Rio Grande do Norte', 'Sergipe']:
        return 'Nordeste'
    elif uf in ['Acre', 'Amapá', 'Amazonas', 'Pará', 'Rondônia', 'Roraima', 'Tocantins']:
        return 'Norte'
    elif uf in ['Espírito Santo', 'Minas Gerais', 'Rio de Janeiro', 'São Paulo']:
        return 'Sudeste'
    elif uf in ['Paraná', 'Rio Grande do Sul', 'Santa Catarina']:
        return 'Sul'
    else:
        return 'Unknow'

In [22]:
uf['Região'] = uf['Unidade federativa'].apply(uf_to_region)

In [23]:
uf.head()

Unnamed: 0,Bandeira,Unidade federativa,Abreviação,Sede de governo,Área (km²),População (Censo 2022),Densidade (2005),PIB (2015),(% total) (2015),PIB per capita (R$) (2015),IDH (2010),Alfabetização (2016),Mortalidade infantil (2016),Expectativa de vida (2016),Mortalidade infantil (/1000),Região
0,,Acre,AC,Rio Branco,164122.2,830018.0,430,13622000.0,2,16953.46,663,0.869,"17,0‰",73.9,17.0,Norte
1,,Alagoas,AL,Maceió,27767.7,3127683.0,10861,46364000.0,8,13877.53,631,0.806,"19,5‰",71.6,19.5,Nordeste
2,,Amapá,AP,Macapá,142814.6,733759.0,416,13861000.0,2,18079.54,708,0.95,"23,2‰",73.9,23.2,Norte
3,,Amazonas,AM,Manaus,1570745.7,3941613.0,205,86560000.0,14,21978.95,674,0.931,"18,2‰",71.9,18.2,Norte
4,,Bahia,BA,Salvador,564692.7,14141626.0,2446,245025000.0,41,16115.89,660,0.87,"17,3‰",73.5,17.3,Nordeste


Se PIB per capita > 30.000 + Mortalidade Infantil < 15 / 1000 + IDH (2016) > 700 **BOM** <br />
Se não **Não parece bom**

In [35]:
def classify(line):
    return line['PIB per capita (R$) (2015)'] > 30000 and line['Mortalidade infantil (/1000)'] and line['IDH (2010)'] > 700

In [39]:
uf.apply(classify, axis=1) # by default is 0 the means columns, 1 is lines

0     False
1     False
2     False
3     False
4     False
5     False
6      True
7      True
8     False
9     False
10     True
11     True
12    False
13    False
14    False
15     True
16    False
17    False
18     True
19    False
20     True
21    False
22    False
23     True
24     True
25    False
26    False
dtype: bool