# Regras Regex 2 a 6

### Importações

In [8]:
import re
import pandas as pd

from os import listdir
from os.path import isfile, join



### Regras e Padrões a serem extraidos 

In [9]:
df = pd.DataFrame([["Quadro pessoal permanente ou Suplementar", "Após padrão, começa com 'do Quadro'"],
                  ["Fundamento Legal", "Começa com 'nos termos do'"],
                  ["Processo GDF/SEI", "Começa com 'Processo SEI'"],
                  ["Símbolo", "Após 'Símbolo'"],
                  ["Cargo em Comissão", "Após Simbolo"]],
                  index = [2, 3, 4, 5, 6],
                  columns = ["Atributo", "Padrão"])

style_df = pd.DataFrame(df).style.set_properties(**{'text-align': 'left'}).set_table_styles([ dict(selector='th', props=[('text-align','left')] ) ])
style_df

Unnamed: 0,Atributo,Padrão
2,Quadro pessoal permanente ou Suplementar,"Após padrão, começa com 'do Quadro'"
3,Fundamento Legal,Começa com 'nos termos do'
4,Processo GDF/SEI,Começa com 'Processo SEI'
5,Símbolo,Após 'Símbolo'
6,Cargo em Comissão,Após Simbolo


### Funções de Auxilio

In [10]:
def get_txts(path):
    years = [join(path, x) for x in listdir(path) if not isfile(join(path, x))]
    txts = []
    for year in years:
        months = [join(year, x) for x in listdir(year) if not isfile(join(year, x))]
        for month in months:
            txts += [join(month, x) for x in listdir(month) if isfile(join(month, x))]
    return txts

def execute_regex(rule, txt):
    return re.findall(rule, txt)

### Diretórios

In [11]:
dodfs_space_dir = "./data/dodfs_txt_espaco"
dodfs_space_files = get_txts(dodfs_space_dir)

dodfs_n_dir = "./data/dodfs_txt_barra_n"
dodfs_n_files = get_txts(dodfs_n_dir)

output = "./results"

### Regras Regex

In [12]:
quadro_rule = "d?[e|a|o]?(Quadro[\s\S]*?)[,|;|.]"
fundamento_rule = "nos\stermos\sd[o|a|e]s?\s([\s\S]*?)[.|;|,]"
seiproc_rule = "[(Processo|processo|PROCESSO)]\s[S|s][E|e][I|i][:|\s][n|N]?o?\s([\s\S]*?)[;|,|.]"
simbolo_rule = "Simbolo\s([\s\S]*?),"
comission_rule = "Simbolo\s[\s\S]*?,\sd[e|a|o]\s([\s\S]*?),"

rules = [quadro_rule, fundamento_rule, seiproc_rule, simbolo_rule, comission_rule]

#### Extrai todos os atributos da base de dados

In [13]:
res = []
for rule in rules:
    rule_output = []
    for file in dodfs_n_files:
        file_open = open(file, "r")
        txt = file_open.read()
        rule_output += execute_regex(rule, txt)
        file_open.close()
    res.append(rule_output)
res[1]

['que aponta o Relatorio em referencia',
 'art',
 'art',
 'art',
 'art',
 'art',
 'art',
 'art',
 'Art',
 'Art',
 'Lei no 5',
 'Lei no 5',
 'Lei no 5',
 'clausula de inadimplencia do\ncontrato original',
 'clausula de inadimplencia do contrato original',
 'clausula de inadimplencia',
 'voto do Diretor-Relator',
 'voto do Diretor-Relator',
 'voto do Diretor-Relator',
 'voto do Diretor- R e l a t o r',
 'voto do Diretor-Relator',
 '2o',
 'legislacao vigente',
 'art',
 'art',
 'item II',
 'art',
 'Enunciado no 20 das\nSumulas da Jurisprudencia desta Corte de Contas',
 'art',
 'art',
 'item VIII',
 'decidido pelo TJDFT na ADI 2017',
 'item III da Decisao TCDF n',
 'voto proferido pelo Relator deste feito',
 'art',
 'Voto proferido pelo\nRelator',
 'artigos 24',
 'voto proferido pelo Relator',
 'Decisao no 6388/2016 e do\nAcordao no 842/2016',
 'voto proferido pelo Relator deste feito',
 'voto proferido pelo Relator deste feito',
 'voto proferido pelo Relator deste feito',
 'artigos 7o',
 '

#### Testes Unitários

In [14]:
test_file = open(dodfs_n_files[1], "r")
test_txt = test_file.read()
print(dodfs_n_files[1])
simbolos = execute_regex(simbolo_rule, test_txt)
print(len(simbolos))
simbolos

./data/dodfs_txt_barra_n/2019/07_Julho/DODF 135 19-07-2019 INTEGRA.txt
98


['DFA - 1 5 ',
 'DFA-14',
 'DFA-15',
 'DFA-14',
 'DFA-14',
 'D FA -\n14',
 'DFG-14',
 'CNE-07',
 'DFG-14',
 'CNE-06',
 'CNE-06',
 'CNE-07',
 'DFG-\n14',
 'DFA-14',
 'DFA-14',
 'CNE-07',
 'CNE-05',
 'CNE-05',
 'DFA-14',
 'DFA-\n14',
 'DFG-14',
 'DFG-\n14',
 'CNE-02',
 'DFA-12',
 'DFA-12',
 'DFA-12',
 'DFA-12',
 'DFA-14',
 'DFA-14',
 'DFA-12',
 'D FA-12',
 'DFA-12',
 'DFA-12',
 'DFA-14',
 'DFA-14',
 'D FA - 1 7 ',
 'DFA-17',
 'DFA-17',
 'DFA-17',
 'DFA-13',
 'DFA-13',
 'DFA-13',
 'DFG-07',
 'DFG-07',
 'DFG-07',
 'DFG-07',
 'DFG-05',
 'DFG-11',
 'DFG-11',
 'DFG-07',
 'DFG-07',
 'DFG-07',
 'DFG-07',
 'DFG-07',
 'DFG-07',
 'DFG-11',
 'DFG-11',
 'DFG-11',
 'DFG-11',
 'DFG-11',
 'DFG-11',
 'DFA-14',
 'DFA-14',
 'DFA-12',
 'DFG-14',
 'DFA-\n10',
 'DFA-10',
 'DFA-10',
 'DFA-10',
 'DFG-14',
 'DFG-14',
 'DFA-14',
 'DFA-10',
 'DFA-14',
 'DFA-10',
 'DFG-14',
 'FGE-03',
 'FGE-03',
 'FGE-05',
 'FGE-05',
 'FGE-03',
 'FGE-03',
 'FGE-03',
 'FGE-03',
 'FGE-05',
 'FGE-05',
 'FGE-03',
 'CNE-02',
 'CNE-04',