# Estados brasileiros

In [14]:
import pandas as pd
from dataclasses import dataclass
import enum
from pathlib import Path

In [18]:
data_path = Path().resolve().parent.joinpath('data_files')
Regiao = enum.Enum('Regiao', 'NORTE NORDESTE CENTROESTE SUDESTE SUL'.split())

@dataclass
class Estado:
    sigla: str
    nome: str
    capital: str
    regiao: Regiao

In [3]:
df1, df2 = pd.read_html('https://mundoeducacao.uol.com.br/geografia/estados-brasil.htm')

In [4]:
df = pd.DataFrame({'sigla': df1[1], 'estado': df1[0], 'capital': df2[1]})
df

Unnamed: 0,sigla,estado,capital
0,Sigla,Estado,Capital
1,AC,Acre,Rio Branco
2,AL,Alagoas,Maceió
3,AP,Amapá,Macapá
4,AM,Amazonas,Manaus
5,BA,Bahia,Salvador
6,CE,Ceará,Fortaleza
7,ES,Espírito Santo,Vitória
8,GO,Goiás,Goiânia
9,MA,Maranhão,São Luís


In [5]:
df.columns = df.columns.str.upper()

In [6]:
df.drop(0, axis=0, inplace=True)

In [7]:
df.loc[27, 'CAPITAL'] = 'Brasília'

In [8]:
display(df.loc[df.SIGLA.str.contains('AC|AP|AM|TO|PA|RR|RO', regex=True)])
df.loc[df.SIGLA.str.contains('AC|AP|AM|TO|PA|RR|RO', regex=True), 'REGIAO'] = Regiao.NORTE.name

Unnamed: 0,SIGLA,ESTADO,CAPITAL
1,AC,Acre,Rio Branco
3,AP,Amapá,Macapá
4,AM,Amazonas,Manaus
13,PA,Pará,Belém
21,RO,Rondônia,Porto Velho
22,RR,Roraima,Boa Vista
26,TO,Tocantins,Palmas


In [9]:
display(df.loc[df.SIGLA.str.contains('CE|AL|BA|MA|PE|PB|PI|RN|SE', regex=True)])
df.loc[df.SIGLA.str.contains('CE|AL|BA|MA|PE|PB|PI|RN|SE', regex=True), 'REGIAO'] = Regiao.NORDESTE.name

Unnamed: 0,SIGLA,ESTADO,CAPITAL,REGIAO
2,AL,Alagoas,Maceió,
5,BA,Bahia,Salvador,
6,CE,Ceará,Fortaleza,
9,MA,Maranhão,São Luís,
14,PB,Paraíba,João Pessoa,
16,PE,Pernambuco,Recife,
17,PI,Piauí,Teresina,
19,RN,Rio Grande do Norte,Natal,
25,SE,Sergipe,Aracaju,


In [10]:
display(df.loc[df.SIGLA.str.contains('DF|GO|MT|MS', regex=True)])
df.loc[df.SIGLA.str.contains('DF|GO|MT|MS', regex=True), 'REGIAO'] = Regiao.CENTROESTE.name

Unnamed: 0,SIGLA,ESTADO,CAPITAL,REGIAO
8,GO,Goiás,Goiânia,
10,MT,Mato Grosso,Cuiabá,
11,MS,Mato Grosso do Sul,Campo Grande,
27,DF,Distrito Federal,Brasília,


In [11]:
display(df.loc[df.SIGLA.str.contains('SP|RJ|ES|MG', regex=True)])
df.loc[df.SIGLA.str.contains('SP|RJ|ES|MG', regex=True), 'REGIAO'] = Regiao.SUDESTE.name

Unnamed: 0,SIGLA,ESTADO,CAPITAL,REGIAO
7,ES,Espírito Santo,Vitória,
12,MG,Minas Gerais,Belo Horizonte,
18,RJ,Rio de Janeiro,Rio de Janeiro,
24,SP,São Paulo,São Paulo,


In [12]:
display(df.loc[df.SIGLA.str.contains('RS|PR|SC', regex=True)])
df.loc[df.SIGLA.str.contains('RS|PR|SC', regex=True), 'REGIAO'] = Regiao.SUL.name

Unnamed: 0,SIGLA,ESTADO,CAPITAL,REGIAO
15,PR,Paraná,Curitiba,
20,RS,Rio Grande do Sul,Porto Alegre,
23,SC,Santa Catarina,Florianópolis,


In [13]:
df

Unnamed: 0,SIGLA,ESTADO,CAPITAL,REGIAO
1,AC,Acre,Rio Branco,NORTE
2,AL,Alagoas,Maceió,NORDESTE
3,AP,Amapá,Macapá,NORTE
4,AM,Amazonas,Manaus,NORTE
5,BA,Bahia,Salvador,NORDESTE
6,CE,Ceará,Fortaleza,NORDESTE
7,ES,Espírito Santo,Vitória,SUDESTE
8,GO,Goiás,Goiânia,CENTROESTE
9,MA,Maranhão,São Luís,NORDESTE
10,MT,Mato Grosso,Cuiabá,CENTROESTE


In [21]:
help(df.to_json)

Help on method to_json in module pandas.core.generic:

to_json(path_or_buf: 'FilePath | WriteBuffer[bytes] | WriteBuffer[str] | None' = None, orient: 'str | None' = None, date_format: 'str | None' = None, double_precision: 'int' = 10, force_ascii: 'bool_t' = True, date_unit: 'str' = 'ms', default_handler: 'Callable[[Any], JSONSerializable] | None' = None, lines: 'bool_t' = False, compression: 'CompressionOptions' = 'infer', index: 'bool_t' = True, indent: 'int | None' = None, storage_options: 'StorageOptions' = None) -> 'str | None' method of pandas.core.frame.DataFrame instance
    Convert the object to a JSON string.
    
    Note NaN's and None will be converted to null and datetime objects
    will be converted to UNIX timestamps.
    
    Parameters
    ----------
    path_or_buf : str, path object, file-like object, or None, default None
        String, path object (implementing os.PathLike[str]), or file-like
        object implementing a write() function. If None, the result is

In [29]:
df.sort_values('ESTADO')

Unnamed: 0,SIGLA,ESTADO,CAPITAL,REGIAO
1,AC,Acre,Rio Branco,NORTE
2,AL,Alagoas,Maceió,NORDESTE
3,AP,Amapá,Macapá,NORTE
4,AM,Amazonas,Manaus,NORTE
5,BA,Bahia,Salvador,NORDESTE
6,CE,Ceará,Fortaleza,NORDESTE
27,DF,Distrito Federal,Brasília,CENTROESTE
7,ES,Espírito Santo,Vitória,SUDESTE
8,GO,Goiás,Goiânia,CENTROESTE
9,MA,Maranhão,São Luís,NORDESTE


In [30]:
df.sort_values('SIGLA')

Unnamed: 0,SIGLA,ESTADO,CAPITAL,REGIAO
1,AC,Acre,Rio Branco,NORTE
2,AL,Alagoas,Maceió,NORDESTE
4,AM,Amazonas,Manaus,NORTE
3,AP,Amapá,Macapá,NORTE
5,BA,Bahia,Salvador,NORDESTE
6,CE,Ceará,Fortaleza,NORDESTE
27,DF,Distrito Federal,Brasília,CENTROESTE
7,ES,Espírito Santo,Vitória,SUDESTE
8,GO,Goiás,Goiânia,CENTROESTE
9,MA,Maranhão,São Luís,NORDESTE


In [31]:
df.sort_values('ESTADO').to_json(data_path/'estados_br.json', indent=2, orient='records')