In [5]:
import pandas as pd

url = 'https://pt.wikipedia.org/wiki/Lista_de_presidentes_do_Brasil'
dfs = pd.read_html(url, header=0)
df = dfs[0]  # tabela principal
df.head()

Unnamed: 0,N°,Presidente,Fotografia,Período do mandato (duração do mandato),Partido,Vice-presidente,Eleição,Notas e referências
0,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...
1,1,Deodoro da Fonseca,,15 de novembro de 1889 – 23 de novembro de 189...,Nenhum,Nenhum,Proclamação de 1889,[nota 1] [1]
2,1,Deodoro da Fonseca,,15 de novembro de 1889 – 23 de novembro de 189...,Nenhum,Floriano Peixoto [nota 2],1891,[nota 1] [1]
3,2,Floriano Peixoto,,23 de novembro de 1891 – 15 de novembro de 189...,Nenhum,Nenhum,–,[nota 3] [2]
4,3,Prudente de Morais,,15 de novembro de 1894 – 15 de novembro de 189...,PR Federal,Manuel Vitorino,1894,[3]


In [6]:
df.columns = ['ordem', 'nome', 'foto', 'periodo', 'partido', 'vice', 'eleicao', 'notas']
df.drop(columns=['foto', 'notas'], inplace=True)
df = df[df['nome'].notna()]
df.head()

Unnamed: 0,ordem,nome,periodo,partido,vice,eleicao
0,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...
1,1,Deodoro da Fonseca,15 de novembro de 1889 – 23 de novembro de 189...,Nenhum,Nenhum,Proclamação de 1889
2,1,Deodoro da Fonseca,15 de novembro de 1889 – 23 de novembro de 189...,Nenhum,Floriano Peixoto [nota 2],1891
3,2,Floriano Peixoto,23 de novembro de 1891 – 15 de novembro de 189...,Nenhum,Nenhum,–
4,3,Prudente de Morais,15 de novembro de 1894 – 15 de novembro de 189...,PR Federal,Manuel Vitorino,1894


In [8]:
import locale
from datetime import datetime

df[['data_inicio', 'data_fim']] = df['periodo'].str.extract(r'(\d{1,2} de \w+ de \d{4})\s*–\s*(\d{1,2} de \w+ de \d{4})')

meses = {
    'janeiro': 1, 'fevereiro': 2, 'março': 3, 'abril': 4, 'maio': 5, 'junho': 6,
    'julho': 7, 'agosto': 8, 'setembro': 9, 'outubro': 10, 'novembro': 11, 'dezembro': 12
}

# Função para converter string de data para datetime
def parse_data(data_str):
    if pd.isna(data_str):
        return pd.NaT
    try:
        # Dividir a string em partes: dia, mês, ano
        partes = data_str.split(' de ')
        dia = int(partes[0])
        mes = meses[partes[1].lower()]
        ano = int(partes[2])
        return datetime(ano, mes, dia)
    except Exception as e:
        print(f"Erro ao parsear data '{data_str}': {e}")
        return pd.NaT

# Aplicar a função de conversão para cada coluna
df['data_inicio'] = df['data_inicio'].map(parse_data)
df['data_fim'] = df['data_fim'].map(parse_data)

df['duracao_dias'] = (df['data_fim'] - df['data_inicio']).dt.days

df.head()

Unnamed: 0,ordem,nome,periodo,partido,vice,eleicao,data_inicio,data_fim,duracao_dias
0,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,NaT,NaT,
1,1,Deodoro da Fonseca,15 de novembro de 1889 – 23 de novembro de 189...,Nenhum,Nenhum,Proclamação de 1889,1889-11-15,1891-11-23,738.0
2,1,Deodoro da Fonseca,15 de novembro de 1889 – 23 de novembro de 189...,Nenhum,Floriano Peixoto [nota 2],1891,1889-11-15,1891-11-23,738.0
3,2,Floriano Peixoto,23 de novembro de 1891 – 15 de novembro de 189...,Nenhum,Nenhum,–,1891-11-23,1894-11-15,1088.0
4,3,Prudente de Morais,15 de novembro de 1894 – 15 de novembro de 189...,PR Federal,Manuel Vitorino,1894,1894-11-15,1898-11-15,1461.0


In [9]:
df['partido'] = df['partido'].str.strip()
df['eleicao'] = df['eleicao'].str.strip().str.lower()

df = df.drop_duplicates(subset=['nome', 'data_inicio'])

df.head()

Unnamed: 0,ordem,nome,periodo,partido,vice,eleicao,data_inicio,data_fim,duracao_dias
0,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,Primeira República (República Velha) (15 de no...,primeira república (república velha) (15 de no...,NaT,NaT,
1,1,Deodoro da Fonseca,15 de novembro de 1889 – 23 de novembro de 189...,Nenhum,Nenhum,proclamação de 1889,1889-11-15,1891-11-23,738.0
3,2,Floriano Peixoto,23 de novembro de 1891 – 15 de novembro de 189...,Nenhum,Nenhum,–,1891-11-23,1894-11-15,1088.0
4,3,Prudente de Morais,15 de novembro de 1894 – 15 de novembro de 189...,PR Federal,Manuel Vitorino,1894,1894-11-15,1898-11-15,1461.0
5,4,Campos Sales,15 de novembro de 1898 – 15 de novembro de 190...,PRP,Rosa e Silva,1898,1898-11-15,1902-11-15,1460.0
