In [1]:
import requests
from bs4 import BeautifulSoup

from datetime import datetime
from datetime import timedelta

import json

In [16]:
def get_publications(starting_date, num_days):
    '''
    Busca no Diário Oficial da União todas as RESOLUÇÕES
    da ANVISA publicadas ao longo de [num_days] dias de uma [starting_date].
    
    Retorna um dicionário de datas com listas de publicações. 
    As listas contém as seguintes informações: title, hierarchyList e url.
    
        Ex:  
        publications = {
            datetime(YYYY, mm, dd):[
                {
                'title': 'RESOLUÇÃO-RE Nº 1.341, DE 30 DE ABRIL DE 2020',
                'hierarchyList': ['Ministério da Saúde', 'Agência Nacional de Vigilância Sanitária', 'Terceira Diretoria', 'Gerência de Produtos de Higiene, Perfumes, Cosméticos e Saneantes']
                'url': 'https://www.in.gov.br/en/web/dou/-/resolucao-re-n-1.341-de-30-de-abril-de-2020-254923025'
                }, ...
            ], ...
        }
    
    [num_days] -> int
    [starting_date] -> datetime(Y, m, d) object
        
    '''
    
    url_base = r"https://www.in.gov.br/web/dou/-/"
    
    dates = [(datetime.today() - timedelta(x)).strftime('%d-%m-%Y') for x in range(num_days)]
    
    publications = {}
    for date in dates:
        
        publications[date] = []
        
        html = requests.get(r"https://www.in.gov.br/leiturajornal?data=" + date + r"&secao=do1").content
        soup = BeautifulSoup(html, 'html.parser')
        
        pubs_day = json.loads(soup.find('script', {'id':"params", 'type':'application/json'}).contents[0].replace('\n\t', ''))['jsonArray']
        
        for pub in pubs_day:
            if pub['artType'] == 'Resolução' and 'Agência Nacional de Vigilância Sanitária' in pub['hierarchyList']:
                publications[date].append({
                    'title': pub['title'],
                    'hierarchyList': pub['hierarchyList'],
                    'url': url_base + pub['urlTitle']
                })
                
    return publications

In [38]:
def get_data(key, publications):
    '''
    '''
    for date in publications:
        for pub in publications[date]:
            html = requests.get(pub['url']).content
            soup = BeautifulSoup(html, 'html.parser')
            if key in soup.get_text():
                required_data = soup.find_all('p', {'class':"dou-paragraph"})
                print(required_data)

In [39]:
key = 'Deferir os registros e as petições dos produtos saneantes'
starting_date = datetime(2020,6, 30)
pubs = get_publications(starting_date, 60)
get_data(key, pubs)

[<p class="dou-paragraph">O Gerente de Produtos de Higiene, Cosméticos, Perfumes e Saneantes, no uso das atribuições que lhe confere o art. 164, aliado ao art. 54, I, § 1º do Regimento Interno aprovado pela Resolução de Diretoria Colegiada - RDC nº 255, de 10 de dezembro de 2018, resolve:</p>, <p class="dou-paragraph">Art. 1º Deferir os registros e as petições dos produtos saneantes, conforme anexo.</p>, <p class="dou-paragraph">Art. 2º Esta Resolução entra em vigor na data de sua publicação.</p>, <p class="dou-paragraph">NOME DA EMPRESA: Archote Indústria Química Ltda</p>, <p class="dou-paragraph">AUTORIZAÇÃO: 3.00524-6</p>, <p class="dou-paragraph">NOME DO PRODUTO E MARCA: DIA% DESINFETANTE USO GERAL</p>, <p class="dou-paragraph">VERSÃO: EUCALIPTO</p>, <p class="dou-paragraph">NUMERO DE PROCESSO: 25351.704205/2017-65</p>, <p class="dou-paragraph">NUMERO DE REGISTRO: 3.0524.0040.001-3</p>, <p class="dou-paragraph">VENDA E EMPREGO: PRODUTO DE VENDA LIVRE</p>, <p class="dou-paragraph">V