In [35]:
import requests
from bs4 import BeautifulSoup

from datetime import datetime
from datetime import timedelta
from time import time

import json

import pandas as pd
import numpy as np

# Extraction and Transformation

In [2]:
def get_publications(starting_date, num_days):
    '''
    Busca no Diário Oficial da União todas as RESOLUÇÕES
    da ANVISA publicadas ao longo de [num_days] dias de uma [starting_date].
    
    Retorna um dicionário de datas com listas de publicações. 
    As listas contém as seguintes informações: title, hierarchyList e url.
    
        Ex:  
        publications = {
            datetime(YYYY, mm, dd):[
                {
                'title': 'RESOLUÇÃO-RE Nº 1.341, DE 30 DE ABRIL DE 2020',
                'hierarchyList': ['Ministério da Saúde', 'Agência Nacional de Vigilância Sanitária', 'Terceira Diretoria', 'Gerência de Produtos de Higiene, Perfumes, Cosméticos e Saneantes']
                'url': 'https://www.in.gov.br/en/web/dou/-/resolucao-re-n-1.341-de-30-de-abril-de-2020-254923025'
                }, ...
            ], ...
        }
    
    [num_days] -> int
    [starting_date] -> datetime(Y, m, d) object
        
    '''
    
    url_base = r"https://www.in.gov.br/web/dou/-/"
    
    dates = [(datetime.today() - timedelta(x)).strftime('%d-%m-%Y') for x in range(num_days)]
    
    publications = {}
    for date in dates:
        
        publications[date] = []
        
        html = requests.get(r"https://www.in.gov.br/leiturajornal?data=" + date + r"&secao=do1").content
        soup = BeautifulSoup(html, 'html.parser')
        
        pubs_day = json.loads(soup.find('script', {'id':"params", 'type':'application/json'}).contents[0].replace('\n\t', ''))['jsonArray']
        
        for pub in pubs_day:
            if pub['artType'] == 'Resolução' and 'Agência Nacional de Vigilância Sanitária' in pub['hierarchyList']:
                publications[date].append({
                    'title': pub['title'],
                    'hierarchyList': pub['hierarchyList'],
                    'url': url_base + pub['urlTitle']
                })
                
    return publications

In [3]:
def get_data(key, publications):
    '''
    '''
    raw_data = {}
    data = []
    for date in publications:
        for pub in publications[date]:
            html = requests.get(pub['url']).content
            soup = BeautifulSoup(html, 'html.parser')
            if key in soup.get_text():
                print(pub['url'])
                required_data = soup.find_all('p', {'class':"dou-paragraph"})
                for tags in required_data:
                    data.append(tags)
                    raw_data[pub['title']] = data
    return raw_data

In [53]:
def split_list(lista, x): 
    #Instead of creating multiple ugly loops, I found a beautiful list comprehension.
    #So, thank to our lord and saviour Stackoverflow ༼ つ ◕_◕ ༽つ
    #https://stackoverflow.com/questions/46490348/split-a-list-with-nn-elements-into-n-lists-with-n-elements-in-every-list/46490388#46490388
    return [lista[i:i+x] for i in range(0, len(lista), x)]

def list_to_dict(lista):
    converted = {}
    for item in lista:
        key_value = item.split(': ')
        converted[key_value[0]] = key_value[1]
    return converted

In [54]:
def sort_by_business(lista):
    
    aimed_data = [
        'NOME DO PRODUTO E MARCA',
        'VERSÃO',
        'NUMERO DE PROCESSO',
        'NUMERO DE REGISTRO',
        'VENDA E EMPREGO',
        'VENCIMENTO',
        'APRESENTAÇÃO',
        'VALIDADE DO PRODUTO',
        'CATEGORIA',
        'ASSUNTO DA PETIÇÃO',
        'EXPEDIENTE DA PETIÇÃO'
    ]
    
    business_dict = {}
    for item in lista:
        if 'NOME DA EMPRESA:' in item:
            #Right before I change business I should split the products into separate lists
            #Here I'm also transforming each product list into a dictionary
            # Redoo this part... (ಥ﹏ಥ) Not getting every product information. Some of them are missing... 
            try:
                list_of_products = split_list(business_dict[current_business]['produtos'], 11)
                list_of_products = [list_to_dict(l) for l in list_of_products]
                business_dict[current_business]['produtos'] = list_of_products
            except:
                pass
            current_business = item.replace("NOME DA EMPRESA: ", '')
            business_dict[current_business] = {}
        elif 'AUTORIZAÇÃO' in item:
            current_business_auth = item.replace("AUTORIZAÇÃO: ", '')
            business_dict[current_business]['auth'] = current_business_auth
            business_dict[current_business]['produtos'] = []
        elif any(aimed in item for aimed in aimed_data):
            business_dict[current_business]['produtos'].append(item)
    
    return business_dict

In [4]:
key = 'Deferir os registros e as petições dos produtos saneantes'
starting_date = datetime(2020,6, 30)
num_days = 60

s = time()
print(f"Buscando todas as publicações dos últimos {num_days}")
pubs = get_publications(starting_date, num_days)
print(f"A busca levou {time() - s} segundos")

s = time()
print(f"Selecionando apenas as informações seguem a chave: \n \"{key}\"") 
raw_data = get_data(key, pubs)
print(f"A busca levou {time() - s} segundos")

Buscando todas as publicações dos últimos 60
A busca levou 136.9777934551239 segundos
Selecionando apenas as informações seguem a chave: 
 "Deferir os registros e as petições dos produtos saneantes"
https://www.in.gov.br/web/dou/-/resolucao-re-n-2.821-de-16-de-julho-de-2021-332707038
https://www.in.gov.br/web/dou/-/resolucao-re-n-2.690-de-8-de-julho-de-2021-331313194
https://www.in.gov.br/web/dou/-/resolucao-re-n-2.585-de-1-de-julho-de-2021-329794337
https://www.in.gov.br/web/dou/-/resolucao-re-n-2.495-de-24-de-junho-de-2021-328274955
https://www.in.gov.br/web/dou/-/resolucao-re-n-2.404-de-17-de-junho-de-2021-326852629
https://www.in.gov.br/web/dou/-/resolucao-re-n-2.314-de-10-de-junho-de-2021-325403737
https://www.in.gov.br/web/dou/-/resolucao-re-n-2.186-de-2-de-junho-de-2021-323929762
https://www.in.gov.br/web/dou/-/resolucao-re-n-2.115-de-27-de-maio-de-2021-323007247
A busca levou 477.95988392829895 segundos


#### raw_data contém o corpo de todas as resolução dos meses de maio e junho. Elas ainda estão dentro das tags e em formato de texto.

In [55]:
clean_data = {}
for resolucao in raw_data:
    clean_data[resolucao] = [str(l).replace("</p>", '').replace("<p class=\"dou-paragraph\">", '') for l in raw_data[resolucao]]
    clean_data[resolucao] = sort_by_business(clean_data[resolucao])

## Criando um DataFrame

In [60]:
df = pd.DataFrame(columns = [
        'RESOLUCAO',
        'EMPRESA',
        'AUTORIZACAO',
        'MARCA',
        'PROCESSO',
        'REGISTRO',
        'VENDA E EMPREGO',
        'VENCIMENTO',
        'APRESENTACAO',
        'VALIDADE PRODUTO',
        'CATEGORIA',
        'ASSUNTO PETICAO',
        'EXPEDIENTE PETICAO',
        'VERSAO'
    ])

In [71]:
idx = 0
e_count = 0
for resolucao in clean_data:
    for empresa in clean_data[resolucao]:
        auth = clean_data[resolucao][empresa]['auth']
        for produto in clean_data[resolucao][empresa]['produtos']:
            try:
                df.loc[idx] = [
                    resolucao, 
                    empresa, 
                    auth, 
                    produto['NOME DO PRODUTO E MARCA'],
                    produto['NUMERO DE PROCESSO'],
                    produto['NUMERO DE REGISTRO'],
                    produto['VENDA E EMPREGO'],
                    produto['VENCIMENTO'],
                    produto['APRESENTAÇÃO'],
                    produto['VALIDADE DO PRODUTO'],
                    produto['CATEGORIA'],
                    produto['ASSUNTO DA PETIÇÃO'],
                    produto['EXPEDIENTE DA PETIÇÃO'],
                    produto['VERSÃO']
                ]
                idx += 1
            except Exception as e:
                print(produto)
                e_count += 1
                print(e)
print(e_count)

{'NOME DO PRODUTO E MARCA': 'TEDOX PASTILHA TRICLORO', 'NUMERO DE PROCESSO': '25351.165888/2021-17', 'NUMERO DE REGISTRO': '3.6753.0024.001-1', 'VENDA E EMPREGO': 'PRODUTO DE VENDA LIVRE', 'VENCIMENTO': '06/2031', 'APRESENTAÇÃO': 'TEDOX PASTILHA TRICLORO 200G + SACO PLASTICO OPACO + CAIXA DE PAPELAO', 'VALIDADE DO PRODUTO': '24 Meses', 'CATEGORIA': '3205045 DESINFETANTE PARA PISCINAS', 'ASSUNTO DA PETIÇÃO': '30020 REG. SANEANTES - Registro de produtos saneantes'}
'EXPEDIENTE DA PETIÇÃO'
NOME DO PRODUTO E MARCA: GR 500 MASTER - DESINCRUSTANTE ALCALINO
string indices must be integers
NUMERO DE PROCESSO: 25351.552547/2010-83
string indices must be integers
NUMERO DE REGISTRO: 3.1908.0060.001-9
string indices must be integers
VENDA E EMPREGO: PRODUTO DE USO PROFISSIONAL OU DE VENDA RESTRITA
string indices must be integers
VENCIMENTO: 12/2025
string indices must be integers
APRESENTAÇÃO: BOMBONA PLASTICA + CAIXA DE PAPELAO
string indices must be integers
VALIDADE DO PRODUTO: 12 Meses
string

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



In [70]:
df

Unnamed: 0,RESOLUCAO,EMPRESA,AUTORIZACAO,MARCA,PROCESSO,REGISTRO,VENDA E EMPREGO,VENCIMENTO,APRESENTACAO,VALIDADE PRODUTO,CATEGORIA,ASSUNTO PETICAO,EXPEDIENTE PETICAO,VERSAO
0,"RESOLUÇÃO RE Nº 2.821, DE 16 DE Julho DE 2021",Archote Indústria Química Ltda,3.00524-6,DIA% DESINFETANTE USO GERAL,25351.704205/2017-65,3.0524.0040.001-3,PRODUTO DE VENDA LIVRE,03/2028,FRASCO DE PLASTICO TRANSPARENTE,24 Meses,3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1897959/21-4,EUCALIPTO
1,"RESOLUÇÃO RE Nº 2.821, DE 16 DE Julho DE 2021",Archote Indústria Química Ltda,3.00524-6,DIA% DESINFETANTE USO GERAL,25351.704205/2017-65,3.0524.0040.002-1,PRODUTO DE VENDA LIVRE,03/2028,GALAO PLASTICO,24 Meses,3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1897959/21-4,EUCALIPTO
2,"RESOLUÇÃO RE Nº 2.821, DE 16 DE Julho DE 2021",Archote Indústria Química Ltda,3.00524-6,DIA% DESINFETANTE USO GERAL,25351.704205/2017-65,3.0524.0040.003-1,PRODUTO DE VENDA LIVRE,03/2028,FRASCO DE PLASTICO TRANSPARENTE,24 Meses,3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1897959/21-4,PINHO
3,"RESOLUÇÃO RE Nº 2.821, DE 16 DE Julho DE 2021",Archote Indústria Química Ltda,3.00524-6,DIA% DESINFETANTE USO GERAL,25351.704205/2017-65,3.0524.0040.004-8,PRODUTO DE VENDA LIVRE,03/2028,GALAO PLASTICO,24 Meses,3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1897959/21-4,PINHO
4,"RESOLUÇÃO RE Nº 2.821, DE 16 DE Julho DE 2021",Archote Indústria Química Ltda,3.00524-6,DIA% DESINFETANTE USO GERAL,25351.704205/2017-65,3.0524.0040.005-6,PRODUTO DE VENDA LIVRE,03/2028,FRASCO DE PLASTICO TRANSPARENTE,24 Meses,3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1897959/21-4,LAVANDA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1803,"RESOLUÇÃO RE Nº 2.115, DE 27 DE Maio DE 2021",TEIÚ INDÚSTRIA E COMÉRCIO LTDA,3.01428-1,DESINFETANTE TEIÚ,25351.903336/2016-71,3.1428.0019.014-7,PRODUTO DE VENDA LIVRE,03/2026,FRASCO DE PLASTICO OPACO + CAIXA DE PAPELAO,2 Ano(s),3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1168766/21-4,FLORAL
1804,"RESOLUÇÃO RE Nº 2.115, DE 27 DE Maio DE 2021",TEIÚ INDÚSTRIA E COMÉRCIO LTDA,3.01428-1,DESINFETANTE TEIÚ,25351.903336/2016-71,3.1428.0019.015-5,PRODUTO DE VENDA LIVRE,03/2026,BOMBONA PLASTICA OPACA + CAIXA DE PAPELAO,2 Ano(s),3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1168766/21-4,FLORAL
1805,"RESOLUÇÃO RE Nº 2.115, DE 27 DE Maio DE 2021",TEIÚ INDÚSTRIA E COMÉRCIO LTDA,3.01428-1,DESINFETANTE TEIÚ,25351.903336/2016-71,3.1428.0019.016-3,PRODUTO DE VENDA LIVRE,03/2026,FRASCO DE PLASTICO TRANSPARENTE + CAIXA DE PAP...,2 Ano(s),3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1168766/21-4,PINHO LAVANDA
1806,"RESOLUÇÃO RE Nº 2.115, DE 27 DE Maio DE 2021",TEIÚ INDÚSTRIA E COMÉRCIO LTDA,3.01428-1,DESINFETANTE TEIÚ,25351.903336/2016-71,3.1428.0019.017-1,PRODUTO DE VENDA LIVRE,03/2026,FRASCO DE PLASTICO TRANSPARENTE + CAIXA DE PAP...,2 Ano(s),3205061 DESINFETANTE PARA USO GERAL,389 REG. SANEANTES - Alteração de Rotulagem de...,1168766/21-4,PINHO CITRUS
