In [1]:
import os
import json
import requests
from bs4 import BeautifulSoup

In [2]:
BASE_URL = "https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/pronunciamentos/pronunciamentos-do-presidente-da-republica"
DATA_DIR = "./pronunciamentos"

In [3]:
resposta = requests.get(BASE_URL)
bs = BeautifulSoup(resposta.text)
articles = bs.find_all("article")

In [4]:
def data_canonica(datestr):
    return "".join(reversed(datestr.split("/")))

In [5]:
class Pronouncement:
    def __init__(self, bs_article=None):

        if bs_article is not None:

            self.url = bs_article.find(class_="summary url")["href"]
            self.tags = [t.text for t in bs_article.find_all(rel="tag")]

            datetime = bs_article.find_all(class_="summary-view-icon")
            self.date = data_canonica(datetime[0].text.strip())
            self.time = datetime[1].text.strip()

            self.text = self._extract_text()

    def _extract_text(self):
        
        r = requests.get(self.url)
        bs =BeautifulSoup(r.text)

        return bs.find(id="parent-fieldname-text").text.strip()

    def save_tojson(p, savedir, name=None):

        if name is None:
            name = f"{p.date}-{p.time}.json"
        path = os.path.join(savedir, name)
        with open(path, "w") as jsonfile:
            json.dump(p.__dict__, jsonfile)

    def load_fromjson(filepath):

        with open(filepath) as jsonfile:
            data = json.load(jsonfile)
            p = Pronouncement()
            p.date = data["date"]
            p.time = data["time"]
            p.tags = data["tags"]
            p.url = data["url"]
            p.text = data["text"]

            return p


In [6]:
pronouncements = [Pronouncement(art) for art in articles]

In [7]:
for p in pronouncements:
    Pronouncement.save_tojson(p, DATA_DIR)

In [8]:
filenames = os.listdir(DATA_DIR)
list_pronoucement = []

In [9]:
for name in filenames:
    path = os.path.join(DATA_DIR, name)
    list_pronoucement.append(Pronouncement.load_fromjson(path))


In [10]:
for i in range (2,8,2):
    print("\n")
    print(list_pronoucement[i].text)
    print("\n")
    print("=======================================================")



Boa noite.
Venho nesse momento importante me dirigir a todos vocês.
Desde o início do governo temos trabalhado em todas as frentes para sanar problemas históricos e melhorar a vida das pessoas. O Brasil avançou muito nestes 15 meses, mas agora estamos diante do maior desafio da nossa geração.
Minha preocupação sempre foi salvar vidas, tanto as que perderemos pela pandemia quanto aquelas que serão atingidas pelo desemprego, violência e fome.
Me coloco no lugar das pessoas e entendo suas angústias. As medidas protetivas devem ser implementadas de forma racional, responsável e coordenada.
Nesse sentido, o Sr. Tedros Adhanom, diretor-geral da Organização Mundial da Saúde, disse saber que “muitas pessoas, de fato, têm que trabalhar todos os dias para ganhar seu pão diário” e que “os governos têm que levar esta população em conta”.
Continua ainda, “se fecharmos ou limitarmos movimentações, o que acontecerá com estas pessoas, que têm que trabalhar todos os dias e que têm que ganhar o pão de

# AREA DE TESTES

In [11]:
resposta = requests.get(BASE_URL)

In [12]:
articles[0]

<article class="tileItem visualIEFloatFix tile-document">
<div class="tileContent">
<h2 class="tileHeadline">
<a class="summary url" href="https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/pronunciamentos/pronunciamentos-do-presidente-da-republica/pronunciamento-do-presidente-da-republica-jair-bolsonaro-em-cadeia-de-radio-e-televisao-brasilia-df" title="Document">Pronunciamento do Senhor Presidente da República, Jair Bolsonaro, em cadeia de rádio e televisão</a>
</h2>
<div class="keywords">
              tags:
              <span>
<a class="link-category" href="https://www.gov.br/planalto/@@search?Subject:list=Pronunciamento" rel="nofollow tag">Pronunciamento</a>
</span>
<span>
<a class="link-category" href="https://www.gov.br/planalto/@@search?Subject:list=Presidente" rel="nofollow tag">Presidente</a>
</span>
<span>
<a class="link-category" href="https://www.gov.br/planalto/@@search?Subject:list=Nova Previdência" rel="nofollow tag">Nova Previdência</a>
</span>
</div>
</div>
<span

In [13]:
len(articles)

17

In [14]:
article = articles[0]
url = article.find(class_="summary url")
tags = article.find_all(rel="tag")
datetime = article.find_all(class_="summary-view-icon")

In [15]:
tags = [t.text for t in tags]
tags

['Pronunciamento', 'Presidente', 'Nova Previdência']

In [16]:
url["href"]

'https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/pronunciamentos/pronunciamentos-do-presidente-da-republica/pronunciamento-do-presidente-da-republica-jair-bolsonaro-em-cadeia-de-radio-e-televisao-brasilia-df'

In [17]:
date = datetime[0].text.strip()
time = datetime[1].text.strip()
(date, time)

('20/02/2019', '20h53')

In [18]:
(p.date, p.time, p.tags)

('20210323', '20h34', [])

In [19]:
print(p.text)

Boa noite,
Estamos no momento de uma nova variante do coronavírus, que infelizmente tem tirado a vida de muitos brasileiros.
Desde o começo, eu disse que tínhamos dois grandes desafios: o vírus e o desemprego. E, em nenhum momento, o governo deixou de tomar medidas importantes tanto para combater o coronavírus como para combater o caos na economia, que poderia gerar desemprego e fome.
Quero destacar que hoje somos o quinto país que mais vacinou no mundo. Temos mais de 14 milhões de vacinados e mais de 32 milhões de doses de vacina distribuídas para todos os estados da Federação, graças às ações que tomamos logo no início da pandemia.
Em julho de 2020, assinamos um acordo com a Universidade Oxford para a produção, na Fiocruz, de 100 milhões de doses da vacina AstraZeneca e liberamos, em agosto, 1 bilhão e 900 milhões de reais.
Em setembro de 2020, assinamos outro acordo com o consórcio Covax Facility para a produção de 42 milhões de doses. O primeiro lote chegou no domingo passado e já 