In [1]:
import re
import glob
import nltk
from nltk.tokenize import sent_tokenize
import numpy as np
import pandas as pd
from importlib import reload as rl
from itertools import zip_longest

import fitz
import hierarchy
from hierarchy import mount_hierarchy
from hierarchy import post_process_hierarchy
from hierarchy import show_post_hier

In [2]:
def spaced_letters_fix(s):
    mts = re.split(r'((?:[A-ZÀ-Ž]{1,2}\s){3,})', s)
    offset = 0
    lis = [ s[:offset] ]
    for text, spaced in zip_longest(mts[0::2], mts[1::2], fillvalue=''):
        lis.append(text)
        lis.append(spaced.replace(' ', ''))
        lis.append(' ')
    lis.pop()    # last space is extra
    return ''.join(lis)



def drop_parenthesis(s):
    lis = re.split(r'([()])', s)
    ext_lis = lis + ['(']
    acc = 0
    new = []
    for tex, par in zip(ext_lis[0::2], ext_lis[1::2]):
        if tex:
            if not acc:
                new.append(tex)
        acc += (1 if par == '(' else -1)
    return ''.join(new)

def preprocess(s):
    s = drop_parenthesis(s)
    s = spaced_letters_fix(s)
    s = re.sub(r'\s{2,}', ' ', s)
    return s


In [3]:
files = glob.glob('pdf/*.pdf')
# files

In [4]:
doc_pdf = fitz.open(files[5])
h = mount_hierarchy(doc_pdf)
post_process_hierarchy(h);

	[init_hier] first_title of pdf/25_marked.pdf: PODER EXECUTIVO - Size: 12.951430320739746


In [5]:
# show_post_hier(h)

In [6]:
# h['SEÇÃO I'][1]

In [7]:
s = h['SEÇÃO I'][0][1][0][1]
# s

In [8]:
for i in s[:-2]:
    print(i)
    print('\n')

DECRETO Nº 39.635, DE 21 DE JANEIRO DE 2019
Institui o Conselho Permanente de Políticas Públicas e Gestão Governamental do Distrito Federal e dá
outras providências.
O GOVERNADOR DO DISTRITO FEDERAL, no uso das atribuições que lhe confere os incisos VII, X
e XXVI do art. 100 da Lei Orgânica do Distrito Federal, DECRETA:
CAPÍTULO I
DAS DISPOSIÇÕES PRELIMINARES
Art. 1º Fica instituído o Conselho Permanente de Políticas Públicas e Gestão Governamental do Distrito
Federal - CPPGG/DF, órgão de assessoramento direto do Governador do Distrito Federal.
Art. 2º A estrutura e as competências do CPPGG/DF ficam definidas na forma deste Decreto.
CAPÍTULO II
DAS COMPETÊNCIAS
Art. 3º Ao CPPGG/DF compete:
I - assessorar o Governador do Distrito Federal na formulação de políticas públicas;
II - acompanhar a implantação das políticas públicas e a execução dos programas, projetos e ações do
Governo, podendo inclusive coordená-los;
III - debater, orientar e apreciar reformas estruturantes;
IV - sugerir e 

## Tokenização do 'i'

In [9]:

sentences = sent_tokenizer.tokenize(i)

for sent in sentences:
    print(sent, end='\n\n\n')

DECRETO Nº 39.636, DE 21 DE JANEIRO DE 2019
Abre crédito suplementar no valor de R$ 10.560.000,00 (dez milhões, quinhentos e sessenta mil reais),
para reforço de dotações orçamentárias consignadas no vigente orçamento.


O GOVERNADOR DO DISTRITO FEDERAL, no uso da atribuição que lhe confere o art.


100, VII, da
Lei Orgânica do Distrito Federal, combinado com o art.


5º, IV da Lei nº 6.254, de 09 de janeiro de 2019,
e com o art.


41, I, das Normas Gerais de Direito Financeiro, aprovadas pela Lei nº 4.320, de 17 de março
de 1964, e o que consta do processo nº 0052-000.000.95/2019-47, DECRETA:
Art.


1º Fica aberto à Polícia Civil do Distrito Federal, crédito suplementar no valor de R$ 10.560.000,00
(dez milhões, quinhentos e sessenta mil reais), para atender às programações orçamentárias indicadas no
anexo II.


Art.


2º O crédito suplementar de que trata o art.


1º será financiado, nos termos do art.


43, § 1º, III, da Lei
nº 4.320, de 17 de março de 1964, pela anulação de dotaçõe

In [10]:
dic=hierarchy.hierarchy_text(h)
del dic['SEÇÃO 0']
tt = []
for v in dic.values():
    tt.extend(v)
lis = [i for i in tt if not i == i.upper()]
no_break = [i.replace('\n', ' ') for i in lis]
print(*no_break[:2], sep='\n\n\n', 
      end=3*'\n-----------------------\n')
print(*lis[:2], sep='\n\n\n')

DECRETO Nº 39.635, DE 21 DE JANEIRO DE 2019 Institui o Conselho Permanente de Políticas Públicas e Gestão Governamental do Distrito Federal e dá outras providências. O GOVERNADOR DO DISTRITO FEDERAL, no uso das atribuições que lhe confere os incisos VII, X e XXVI do art. 100 da Lei Orgânica do Distrito Federal, DECRETA: CAPÍTULO I DAS DISPOSIÇÕES PRELIMINARES Art. 1º Fica instituído o Conselho Permanente de Políticas Públicas e Gestão Governamental do Distrito Federal - CPPGG/DF, órgão de assessoramento direto do Governador do Distrito Federal. Art. 2º A estrutura e as competências do CPPGG/DF ficam definidas na forma deste Decreto. CAPÍTULO II DAS COMPETÊNCIAS Art. 3º Ao CPPGG/DF compete: I - assessorar o Governador do Distrito Federal na formulação de políticas públicas; II - acompanhar a implantação das políticas públicas e a execução dos programas, projetos e ações do Governo, podendo inclusive coordená-los; III - debater, orientar e apreciar reformas estruturantes; IV - sugerir e 

In [11]:
sent_tokenizer.tokenize(preprocess( no_break[2] ))

['CAPÍTULO V DAS DISPOSIÇÕES FINAIS Art.',
 '18.',
 'O CPPGG/DF poderá requisitar de órgãos e entidades públicas as informações e estudos que se fizerem necessários ao exercício de suas atribuições.',
 'Art.',
 '19.',
 'As dúvidas e os casos omissos deste Decreto serão resolvidos pelo Governador do Distrito Federal ou pelo Secretário-Executivo.',
 'Art.',
 '20.',
 'Este Decreto entra em vigor na data de sua publicação.',
 'Brasília, 21 de janeiro de 2019 131º da República e 59º de Brasília IBANEIS ROCHA']

In [15]:
sent_tokenizer.tokenize(preprocess( no_break[3] ))

['DECRETO Nº 39.636, DE 21 DE JANEIRO DE 2019 Abre crédito suplementar no valor de R$ 10.560.000,00 , para reforço de dotações orçamentárias consignadas no vigente orçamento.',
 'O GOVERNADOR DO DISTRITO FEDERAL, no uso da atribuição que lhe confere o art.',
 '100, VII, da Lei Orgânica do Distrito Federal, combinado com o art.',
 '5º, IV da Lei nº 6.254, de 09 de janeiro de 2019, e com o art.',
 '41, I, das Normas Gerais de Direito Financeiro, aprovadas pela Lei nº 4.320, de 17 de março de 1964, e o que consta do processo nº 0052-000.000.95/2019-47, DECRETA: Art.',
 '1º Fica aberto à Polícia Civil do Distrito Federal, crédito suplementar no valor de R$ 10.560.000,00 , para atender às programações orçamentárias indicadas no anexo II.',
 'Art.',
 '2º O crédito suplementar de que trata o art.',
 '1º será financiado, nos termos do art.',
 '43, § 1º, III, da Lei nº 4.320, de 17 de março de 1964, pela anulação de dotações orçamentárias constantes do anexo I.',
 'Art.',
 '3º Este Decreto entr