# Regras Regex 2 a 6

### Importações

In [366]:
import re
import pandas as pd

from os import listdir
from os.path import isfile, join



### Regras e Padrões a serem extraidos 

In [367]:
df = pd.DataFrame([["Quadro pessoal permanente ou Suplementar", "Após padrão, começa com 'do Quadro'"],
                  ["Fundamento Legal", "Começa com 'nos termos do'"],
                  ["Processo GDF/SEI", "Começa com 'Processo SEI'"],
                  ["Símbolo", "Após 'Símbolo'"],
                  ["Cargo em Comissão", "Após Simbolo"]],
                  index = [2, 3, 4, 5, 6],
                  columns = ["Atributo", "Padrão"])

style_df = pd.DataFrame(df).style.set_properties(**{'text-align': 'left'}).set_table_styles([ dict(selector='th', props=[('text-align','left')] ) ])
style_df

Unnamed: 0,Atributo,Padrão
2,Quadro pessoal permanente ou Suplementar,"Após padrão, começa com 'do Quadro'"
3,Fundamento Legal,Começa com 'nos termos do'
4,Processo GDF/SEI,Começa com 'Processo SEI'
5,Símbolo,Após 'Símbolo'
6,Cargo em Comissão,Após Simbolo


### Funções de Auxilio

In [368]:
def get_txts(path):
    years = [join(path, x) for x in listdir(path) if not isfile(join(path, x))]
    txts = []
    for year in years:
        months = [join(year, x) for x in listdir(year) if not isfile(join(year, x))]
        for month in months:
            txts += [join(month, x) for x in listdir(month) if isfile(join(month, x))]
    return txts

def execute_regex(rule, txt):
    return re.findall(rule, txt)

### Diretórios

In [369]:
dodfs_space_dir = "./data/dodfs_txt_espaco"
dodfs_space_files = get_txts(dodfs_space_dir)

dodfs_n_dir = "./data/dodfs_txt_barra_n"
dodfs_n_files = get_txts(dodfs_n_dir)

output = "./results"

### Regras Regex

In [370]:
quadro_rule = "d?[e|a|o]?(Quadro[\s\S]*?)[,|;|.]"
fundamento_rule = "nos\stermos\sd[o|a|e]s?\s([\s\S]*?)[.|;|,]"
seiproc_rule = "[(Processo|processo|PROCESSO)]\s[S|s][E|e][I|i][:|\s][n|N]?o?\s([\s\S]*?)[;|,|.]"
simbolo_rule = "Simbolo\s([\s\S]*?),"
comission_rule = "Simbolo\s[\s\S]*?,\sd[e|a|o]\s([\s\S]*?),"

rules = [quadro_rule, fundamento_rule, seiproc_rule, simbolo_rule, comission_rule]

#### Extrai todos os atributos da base de dados

In [375]:
res = []
for rule in rules:
    rule_output = []
    for file in dodfs_n_files:
        file_open = open(file, "r")
        txt = file_open.read()
        rule_output += execute_regex(fundamento_rule, test_txt)
        file_open.close()
    res.append(rule_output)
res[3]

[['art',
  'art',
  'art',
  'art',
  'art',
  'art',
  'Art',
  'Art',
  'Lei no 5',
  'Lei no 5',
  'Lei no 5',
  'clausula de inadimplencia do\ncontrato original',
  'clausula de inadimplencia do contrato original',
  'clausula de inadimplencia',
  'voto do Diretor-Relator',
  'voto do Diretor-Relator',
  'voto do Diretor-Relator',
  'voto do Diretor- R e l a t o r',
  'voto do Diretor-Relator',
  '2o',
  'legislacao vigente',
  'art',
  'art',
  'item II',
  'art',
  'Enunciado no 20 das\nSumulas da Jurisprudencia desta Corte de Contas',
  'art',
  'art',
  'item VIII',
  'decidido pelo TJDFT na ADI 2017',
  'item III da Decisao TCDF n',
  'voto proferido pelo Relator deste feito',
  'art',
  'Voto proferido pelo\nRelator',
  'artigos 24',
  'voto proferido pelo Relator',
  'Decisao no 6388/2016 e do\nAcordao no 842/2016',
  'voto proferido pelo Relator deste feito',
  'voto proferido pelo Relator deste feito',
  'voto proferido pelo Relator deste feito',
  'artigos 7o',
  'artigo 

#### Testes Unitários

In [372]:
test_file = open(dodfs_n_files[1], "r")
test_txt = test_file.read()
print(dodfs_n_files[1])
simbolos = execute_regex(fundamento_rule, test_txt)
print(len(simbolos))
simbolos

./data/dodfs_txt_barra_n/2019/07_Julho/DODF 135 19-07-2019 INTEGRA.txt
ANO XLVIII EDICAO No- 135
BRASILIA - DF, SEXTA-FEIRA, 19 DE JULHO DE 2019
Este documento pode ser verificado no endereco eletronico h t t p : / / w w w. i n . g o v. b r / a u t e n t i c i d a d e . h t m l
pelo codigo 50012019071900001
Documento assinado digitalmente conforme MP no 2.200-2 de 24/08/2001, que institui a
Infraestrutura de Chaves Publicas Brasileira - ICP-Brasil.
SECAO I
SUMARIO
SECAO I
PAG.
SECAO II
PAG.
SECAO III
PAG.
Poder Legislativo................................................................................... . 43
Poder Executivo .................................................................................... . 1 30
Casa Civil .............................................................................................. . 8 32
Secretaria de Estado de Governo......................................................... . 8 32 43
Secretaria de Estado de Protecao da Ordem Urbanistica do Distri

['art',
 'art',
 'art',
 'art',
 'art',
 'art',
 'Art',
 'Art',
 'Lei no 5',
 'Lei no 5',
 'Lei no 5',
 'clausula de inadimplencia do\ncontrato original',
 'clausula de inadimplencia do contrato original',
 'clausula de inadimplencia',
 'voto do Diretor-Relator',
 'voto do Diretor-Relator',
 'voto do Diretor-Relator',
 'voto do Diretor- R e l a t o r',
 'voto do Diretor-Relator',
 '2o',
 'legislacao vigente',
 'art',
 'art',
 'item II',
 'art',
 'Enunciado no 20 das\nSumulas da Jurisprudencia desta Corte de Contas',
 'art',
 'art',
 'item VIII',
 'decidido pelo TJDFT na ADI 2017',
 'item III da Decisao TCDF n',
 'voto proferido pelo Relator deste feito',
 'art',
 'Voto proferido pelo\nRelator',
 'artigos 24',
 'voto proferido pelo Relator',
 'Decisao no 6388/2016 e do\nAcordao no 842/2016',
 'voto proferido pelo Relator deste feito',
 'voto proferido pelo Relator deste feito',
 'voto proferido pelo Relator deste feito',
 'artigos 7o',
 'artigo 40',
 'artigo 40',
 'artigo 40',
 'artigo 