# ***Instalação***

In [1]:
# %pip install dodfminer -q

# ***Importação***

A classe do **dodfminer** responsável pela **extração das entidades nomeadas** dos atos do DODF é a ***ActsExtractor***

In [2]:
from dodfminer import ActsExtractor, ContentExtractor

# ***Extração***

A extração de entidades nomeadas suporta os seguintes atos:

### Atos de Pessoal

*   aposentadoria
*   reversoes
*   nomeacao
*   exoneracao
*   abono
*   retificacoes
*   substituicao
*   efetivos_nome 
*   efetivos_exo
*   sem_efeito_aposentadoria 
*   cessoes  
*   sem_efeito_exo_nom 
*   efetivos_ret
*   comissionados_ret

### Atos de Contratos

*   aditamento
*   licitacao
*   suspensao
*   anulacao_revogacao
*   contrato
*   convenio







## ***Extraindo um tipo específico de ato***

Para extrair um tipo específico de ato basta chamar o método ***get_act_obj*** da classe ***ActsExtractor*** passando como parâmetro o caminho para seu arquivo e a **chave do ato**.

In [3]:
# Extrair texto do pdf
file_pdf = "./DODF 197 19-10-2022 INTEGRA.pdf"
ContentExtractor.extract_text(file_pdf, single=True)

# Extrair entidades do texto
file_txt = "./DODF 197 19-10-2022 INTEGRA.txt"
data_aditamento = ActsExtractor.get_act_obj('nomeacao', file_txt)

### ***Retorno***

O retorno do método que extrai entidades de um ato em específico é um objeto que possui o atributo ***data_frame*** que contém as informações que desejamos.

In [4]:
data_aditamento.data_frame

Unnamed: 0,Tipo do Ato,Nome,Cargo_efetivo,Matricula,Matricula_siape,Simbolo,Cargo_comissionado,Hierarquia_lotacao,Orgao,Cargo,Numero_dodf_resultado_final,Fundamento_legal,Carreira,DODF_Fonte_Arquivo,DODF_Fonte_Data,DODF_Fonte_Numero
0,Nomeação,EDMILTON OLIVEIRA RODRIGUES,,,,CC-05,Assessor,"Diretoria de Projetos, da\nCoordenacao de Form...",Secretaria\nExtraordinaria da Familia do Distr...,,,,,DODF 197 19-10-2022 INTEGRA.pdf,19/10/2022,197
1,Nomeação,CELSO FRANCISCO DE ASSIS,,,,CNE-07,Assessor Especial,Subsecretaria de Desenvolvimento Regional\ne O...,Secretaria de Estado\nde Governo do Distrito F...,,,,,DODF 197 19-10-2022 INTEGRA.pdf,19/10/2022,197
2,Nomeação,UANDERSON DA SILVA DE SOUZA,,,,CC-05,Apoio Operacional,"Superintendencia de Obras, da Presidencia",Departamento de Estradas de Rodagem do Distrit...,,,,,DODF 197 19-10-2022 INTEGRA.pdf,19/10/2022,197
3,Nomeação,HELENA SABINO SILVA TORRES DE MESQUITA,,187.475-6,,CPE-07,Assessor Especial,Assessoria de\nInteligencia e Informacoes Estr...,"Controladoria-Geral do Distrito Federal, sem\n...",,,,,DODF 197 19-10-2022 INTEGRA.pdf,19/10/2022,197
4,Nomeação,ALTAIR CRESCENCIO DA SILVA,,,,CC-08,Assessor,Gabinete,Administracao\nRegional do Gama do Distrito Fe...,,,,,DODF 197 19-10-2022 INTEGRA.pdf,19/10/2022,197
5,Nomeação,OSNI BUENO DE FREITAS,,,,CNE-07,Diretor,Diretoria de Desenvolvimento e\nOrdenamento Te...,Administracao do\nRiacho Fundo II do Distrito ...,,,,,DODF 197 19-10-2022 INTEGRA.pdf,19/10/2022,197
6,Nomeação,WELLINGTON SOARES RIBEIRO JUNIOR,,,,CC-02,Assessor Tecnico,Coordenacao de\nDesenvolvimento,Administracao Regional do Riacho Fundo II do D...,,,,,DODF 197 19-10-2022 INTEGRA.pdf,19/10/2022,197
7,Nomeação,MARIANA DOS SANTOS SILVA,para exercer o Cargo em Comissao,,,DFA-12,Assessor(a) Tecnico(a),Nucleo de Assistencia Juridica do Plantao,Defensoria Publica do Distrito Federal,,,,,DODF 197 19-10-2022 INTEGRA.pdf,19/10/2022,197


## ***Extraindo todos os atos***

Se você tem interesse em vários tipos de ato o método ***get_all_obj*** da classe ***ActsExtractor*** pode ser utilizado, dessa vez passando como parâmetro somente o caminho para seu arquivo.

In [5]:
### Passe o caminho pro seu arquivo
file_json = "./DODF 076 26-04-2022.json"

data_all = ActsExtractor.get_all_obj(file_json)

Foram encontrados 33 atos de contrato/convênio
Foram encontrados 5 atos de aditamento
Foram encontrados 3 atos de licitação
Foram encontrados 2 atos de suspensão
Foram encontrados 0 atos de anulação/revogação
Foram encontrados 27 atos de contrato
Foram encontrados 6 atos de convenio


### ***Retorno***

Dessa vez o retorno é um pouco diferente. Agora você tem um **dicionário** com chaves que representam cada um dos atos. Se precisa dos atos de Aviso de Licitação basta acessar com ***data_all['licitacao'].data_frame***, ou os atos de Extrato de Convênio com ***data_all['convenio'].data_frame***.

In [6]:
data_all['licitacao'].data_frame

Unnamed: 0,numero_dodf,titulo,text,MODALIDADE_LICITACAO,NUM_LICITACAO,OBJ_LICITACAO,VALOR_ESTIMADO,DATA_ABERTURA,PROCESSO,SISTEMA_COMPRAS,ORGAO_LICITANTE
0,76,AVISO DE LICITAÇÃO,AVISO DE LICITAÇÃO PREGÃO ELETRÔNICO Nº 51/202...,PREGÃO ELETRÔNICO,51/2022,Registro de Preços para eventual aquisição de ...,"790.889,26",11/05/2022,00040-00004956/2022-55,www.comprasgovernamentais.gov.br,
1,76,AVISO DE LICITAÇÃO,AVISO DE LICITAÇÃO PREGÃO ELETRÔNICO Nº 52/202...,PREGÃO ELETRÔNICO,52/2022,contratação de empresa especializada para mini...,"21.140,00",16/05/2022,00063-00002654/2021-11,www.comprasgovernamentais.gov.br,Fundação Hemocentro de Brasília
2,76,AVISO DE ABERTURA DE LICITAÇÃO,AVISO DE ABERTURA DE LICITAÇÃO O Presidente da...,Pregão Eletrônico,,Contratação de empresa especializada em serviç...,"11.450,40",,,,


In [7]:
data_all['contrato'].data_frame

Unnamed: 0,numero_dodf,titulo,text,NUM_AJUSTE,OBJ_AJUSTE,CONTRATANTE_ou_CONCEDENTE,CNPJ_CONTRATANTE_ou_CONCEDENTE,CNPJ_CONTRATADA_ou_CONVENENTE,CONTRATADA_ou_CONVENENTE,VIGENCIA,VALOR,PROCESSO,CODIGO_UO,PROGRAMA_TRABALHO,NATUREZA_DESPESA,FONTE_RECURSO,NOTA_EMPENHO,NOME_RESPONSAVEL,DATA_ASSINATURA
0,76,EXTRATO DO CONTRATO DE RATEIO Nº 03/2022,EXTRATO DO CONTRATO DE RATEIO Nº 03/2022 Objet...,03/2022,[Constitui o objeto do presente Contrato de Ra...,Consórcio Interestadual de Desenvolvimento do ...,23.791.169/0001-02,"[00.394.601/0001-26, 00.394.700/0001-08, 06.02...",Fundo Estadual de Saúde do Distrito Federal,"[O, O presente contrato vigerá até 31/12/2022 ...","39.305.595,41",,,,,,,,
1,76,EXTRATO DO CONTRATO DE PRESTAÇÃO DE SERVIÇOS N...,EXTRATO DO CONTRATO DE PRESTAÇÃO DE SERVIÇOS N...,02/2022,Prestação de serviços de fornecimento e entreg...,,,10.719.671/0001-60,ELDEX DISTRIBUIDORA DE JORNAIS E REVISTAS LTDA,"12 ( doze ) meses , a contar da data de assina...","[8.687,64, 8.687,64]","[00014-00000354/2022-28, 20/04/2022]",10101,04.122.8203.8517.0109,3.3.90.39,100,2022NE00121,,
2,76,EXTRATO DE CONTRATO,EXTRATO DE CONTRATO O BRB – Banco de Brasília ...,,,"[BRB, BRB]",,,,330 dias,"370.000,00","[09/02/2022, 0185/2022]",,,,,,,
3,76,EXTRATO DE CONTRATO,EXTRATO DE CONTRATO O BRB – Banco de Brasília ...,,O BRB – Banco de Brasília S.A. torna pública a...,BRB,,,,330 dias,"650.000,00","[09/02/2022, 0185/2022]",,,,,,,
4,76,EXTRATO DO CONTRATO BRB Nº 168/2022,EXTRATO DO CONTRATO BRB Nº 168/2022 Contratada...,168/2022,,"[BRB, BRB]",,,,20/04/2022 à 19/04/2027,"43.125,00",351/2022,,,,,,Bruno Costa Nunes,
5,76,EXTRATO DO CONTRATO BRB Nº 171/2022,EXTRATO DO CONTRATO BRB Nº 171/2022 Contratada...,171/2022,,"[BRB, BRB]",,,,20/04/2022 à 19/04/2027,"42.500,00",239/2022,,,,,,Bruno Costa Nunes,
6,76,EXTRATO DO CONTRATO Nº 43923/2021,EXTRATO DO CONTRATO Nº 43923/2021 Processo: 04...,43923/2021,CREDECIAMENTO DE PESSOAS JURIDICAS PARA PRESTA...,[INSTITUTO DE ASSIST . À SAÚDE DOS SERV . DO D...,,,VIVACE FISIOTERAPIA & amp ; MEDICINA INTEGRADA...,"[12 ( doze ) mês ( es ) consecutivos, 12 ( doz...","[5.000,00, 5.000,00]","[04001-0000000262/2021-67, 15/04/2021]",,10122620361957,,220000000,2022NE0/0255,,
7,76,EXTRATO DO CONTRATO Nº 45788/2021,EXTRATO DO CONTRATO Nº 45788/2021 Processo: 04...,45788/2021,CREDECIAMENTO DE PESSOAS JURIDICAS PARA PRESTA...,[INSTITUTO DE ASSIST . À SAÚDE DOS SERV . DO D...,,,REACTIVE FISIOTERAPIA INTEGRADA LTDA,"[12 ( doze ) mês ( es ) consecutivos, 12 ( doz...","[5.000,00, 5.000,00, 5.000,00]",04001-0000000123/2022-14,,"[10122620361957, 10122620361957]",,"[220000000, 220000000]","[2022NE0/0249, 2022NE0/0142]",,29/07/2021
8,76,EXTRATO DO CONTRATO Nº 46202/2021,EXTRATO DO CONTRATO Nº 46202/2021 Processo: 04...,46202/2021,CREDENCIAMENTO DE PESSOAS JURIDICAS PARA PREST...,[INSTITUTO DE ASSIST . À SAÚDE DOS SERV . DO D...,,,BEM ESTAR CLINICA DE PSICOLOGIA EIRELI,"[12 ( doze ) mês ( es ) consecutivos, 12 ( doz...","[5.000,00, 5.000,00]",04001-0000000783/2021-14,,10122620361957,,220000000,2022NE0/0260,,30/08/2021
9,76,EXTRATO DO CONTRATO Nº 46205/2021,EXTRATO DO CONTRATO Nº 46205/2021 Processo: 04...,46205/2021,CREDENCIAMENTO DE PESSOAS JURIDICAS PARA PREST...,[INSTITUTO DE ASSIST . À SAÚDE DOS SERV . DO D...,,,CLÍNICA CARDIOLÓGICA S/C,"[12 ( doze ) mês ( es ) consecutivos, 12 ( doz...","[5.000,00, 5.000,00]",04001-0000000785/2021-11,,10122620361957,,220000000,2022NE0/0256,,09/09/2021


# ***Utilizando outro Modelo de Extração de Entidades com o DODFMiner***

Caso você venha a ter dados de treinamento mais atualizados ou em maior quantidade, deseja que o modelo seja treinado com mais épocas ou até mesmo com parâmetros diferentes, basta passar seu **pipeline com o modelo treinado** como **parâmetro** para a extração do dodfminer.

## ***Como usar o pipeline do sklearn para treinar seu modelo***

Como exemplo vamos utilizar o mesmo modelo usado no dodfminer, o ***CRF*** do ***sklearn_crfsuite***.

### ***Imports***

Quais são as bibliotecas necessárias para a utilização

In [8]:
#pipeline imports
import pandas as pd
import nltk

#Elementos do pipeline precisam herdar de TransformerMixin, sendo o ultimo (mais da direita) o Modelo que herda de BaseEstimator
from sklearn.base import TransformerMixin, BaseEstimator

#Pipeline precisa ser do sklearn.pipeline
from sklearn.pipeline import Pipeline

#Modelo usado no DODFMiner
from sklearn_crfsuite import CRF

### ***Classes TransformerMixin***

Todo o **pré-processamento**, **extração de características (*feature extraction*)** e **tokenização** devem ser feitos em classes que herdam de ***TransformerMixin*** da biblioteca ***sklearn***.

Alguns métodos como ***fit*** e ***transform*** precisam ser sobrescritos nessas classes para o funcionamento correto do **Pipeline**.

### ***Classe de Pré-Processamento***

A classe ***Processing*** é **obrigatória** no pipeline e é responsável pelo **pré-processamento** (se houver) e ***tokenização*** do input do modelo.



In [9]:
class Processing(TransformerMixin):
  def __init__(self):
    pass

  def tokenize(self, sentence):
    text = nltk.word_tokenize(sentence)
    return text

  def fit(self, X, y = None):
    return self

  def transform(self, X, y = None):
    transformed = []
    for x in X:
      tokens = self.tokenize(x)
      transformed.append(tokens)
    return transformed

### ***Classe de Feature Extraction***

***Feature extraction*** é algo comum em modelos CRF, e como estamos nos baseando no DODFMiner que utiliza esse modelo vamos também implementá-la aqui, mas vale lembrar que **não é obrigatória** caso utilize um modelo diferente.

In [10]:
class FeatureExtractor(TransformerMixin):
  def __init__(self):
    pass

  def get_features(self, sentence):
    sent_features = []
    for i in range(len(sentence)):
      word_feat = {
        # Palavra atual
        'word': sentence[i].lower(),
        'capital_letter': sentence[i][0].isupper(),
        'all_capital': sentence[i].isupper(),
        'isdigit': sentence[i].isdigit(),
        # Uma palavra antes
        'word_before': '' if i == 0 else sentence[i-1].lower(),
        'word_before_isdigit': '' if i == 0 else sentence[i-1].isdigit(),
        'word_before_isupper': '' if i == 0 else sentence[i-1].isupper(),
        'word_before_istitle': '' if i == 0 else sentence[i-1].istitle(),
        # Uma palavra depois
        'word_after': '' if i+1 >= len(sentence) else sentence[i+1].lower(),
        'word_after_isdigit': '' if i+1 >= len(sentence) else sentence[i+1].isdigit(),
        'word_after_isupper': '' if i+1 >= len(sentence) else sentence[i+1].isupper(),
        'word_after_istitle': '' if i+1 >= len(sentence) else sentence[i+1].istitle(),

        'BOS': i == 0,
        'EOS': i == len(sentence)-1
      }
      sent_features.append(word_feat)
    return sent_features

  def fit(self, X, y = None):
    return self

  def transform(self, X, y = None):
    transformed = []
    for x in X:
      features = self.get_features(x)
      transformed.append(features)
    return transformed

### ***Classe BaseEstimator***

Essa classe é **obrigatória** e é nela que o modelo entra. Precisa herdar de ***BaseEstimator*** da biblioteca ***sklearn*** e os métodos ***predict***, ***fit*** e ***transform*** também precisam ser sobrescritos para o funcionamento correto do **Pipeline**.

In [11]:
class Model(BaseEstimator):

    def __init__(self):
        self.crf = CRF(
          algorithm = 'lbfgs',
          c1=0.35,
          c2=0.2,
          max_iterations=60,
          all_possible_transitions=True
        )

    def transform(self, X, y = None):
      return X

    def fit(self, X, y):
        self.crf.fit(X, y)
        return self

    def predict(self, x):
        pred = self.crf.predict(x)
        return pred

### ***Criação do Pipeline***

As classes descritas acima são o que constituem o **pipeline** que é passado para o **dodfminer**. Utilizamos a classe ***Pipeline*** da biblioteca ***sklearn*** para construí-lo. A classe do modelo que herda de ***BaseEstimator*** sempre deve ser a mais à direita na construção do objeto.

Cada uma das classes passadas como parâmetro para o pipeline possuem **chaves**, que são utilizadas pra acessar cada uma delas. A classe ***Processing*** **obrigatóriamente** deve ser passada com a chave ***'pre-processing'***, e a do modelo com a chave ***'model'***.

In [12]:
pipeline_custom = Pipeline([('pre-processing', Processing()), ('feature-extraction', FeatureExtractor()), ('model', Model())])

### ***Treinamento***

Com o objeto do pipeline montado podemos treinar o modelo. Prepare os seus dados de treino X, y e chame o método ***fit***.

#### ***Preparando os dados de treino***

In [13]:
df_aditamento_contratual = pd.read_csv('./treino_aditamento_contratual.csv')

In [14]:
df_aditamento_contratual.head(3)

Unnamed: 0.1,Unnamed: 0,ato,dodf,treated_text,PROCESSO,NUM_AJUSTE,CONTRATANTE,OBJ_ADITIVO,NUM_ADITIVO,NOME_RESPONSAVEL,DATA_ESCRITO,CODIGO_SIGGO,IOB
0,0,EXTRATO_ADITAMENTO_CONTRATUAL,12_22.11.2018,EXTRATO DO SEGUNDO TERMO ADITIVO AO CONTRATO P...,0050-00473/2016,25/2018,SECRETARIA DE ESTADO DA SEGURANCA PUBLICA E DA...,O presente Termo Aditivo tem por objeto a pror...,SEGUNDO,,01 de novembro de 2018,,O O B-NUM_ADITIVO O O O O O O O O O B-NUM_AJUS...
1,1,EXTRATO_ADITAMENTO_CONTRATUAL,12_22.11.2018,EXTRATO TERCEIRO TERMO ADITIVO DO CONTRATO DE ...,0530001247/2015,58/2015,,Prorrogar o prazo de vigencia do contrato por ...,TERCEIRO,,06/11/2018,,O B-NUM_ADITIVO O O O O O O O O O O O O O O O ...
2,2,EXTRATO_ADITAMENTO_CONTRATUAL,12_22.11.2018,EXTRATO SEGUNDO TERMO ADITIVO DO CONTRATO DE P...,053-043005/2016,48/2016,,O presente termo aditivo objetiva: Prorrogar o...,SEGUNDO,,14/11/2018,,O B-NUM_ADITIVO O O O O O O O O O B-NUM_AJUSTE...


In [15]:
X = df_aditamento_contratual['treated_text'].to_list()
y = df_aditamento_contratual['IOB'].to_list()
y = [iob.split() for iob in y]

#### ***Treino***

In [16]:
pipeline_custom.fit(X, y)

Pipeline(steps=[('pre-processing',
                 <__main__.Processing object at 0x7f4cff452e80>),
                ('feature-extraction',
                 <__main__.FeatureExtractor object at 0x7f4cff452e50>),
                ('model', Model())])

## ***Extração com o pipeline***

Vamos utilizar a nossa classe ***ActsExtractor*** junto com o nosso pipeline para extrair as entidades nomeadas. Para isso passamos um parâmetro a mais no método de extração, que é o pipeline.

In [18]:
### Passe o caminho pro seu arquivo
data_aditamento_custom = ActsExtractor.get_act_obj('aditamento', file_json, pipeline = pipeline_custom)

Foram encontrados 5 atos de aditamento


Podemos comparar o resultado dos dois modelos com a extração que fizemos anteriormente e verificar as diferenças.

In [19]:
data_aditamento_custom.data_frame

Unnamed: 0,numero_dodf,titulo,text,NUM_ADITIVO,PROCESSO,OBJ_ADITIVO,NUM_AJUSTE,CONTRATANTE
0,76,EXTRATO DE CONTRATO (1º TERMO ADITIVO),EXTRATO DE CONTRATO (1º TERMO ADITIVO) Process...,1º TERMO ADITIVO,00001-00004093/2021-56,,,
1,76,EXTRATO DE CONTRATO (1º TERMO ADITIVO),EXTRATO DE CONTRATO (1º TERMO ADITIVO) Process...,1º TERMO ADITIVO,00001-00015205/2021-02,"alteração do Contrato-PG nº 46/2021-NPLC , fir...",,
2,76,EXTRATO DO SEGUNDO TERMO ADITIVO AO CONTRATO N...,EXTRATO DO SEGUNDO TERMO ADITIVO AO CONTRATO N...,SEGUNDO TERMO ADITIVO,"[00040-00005988/2020-14, 19/04/2022]",Prorrogar o prazo de vigência do CONTRATO por ...,43189/2021,SECRETARIA DE ESTADO DE ECONOMIA DO DISTRITO F...
3,76,EXTRATO DO QUINTO TERMO ADITIVO AO CONTRATO Nº...,EXTRATO DO QUINTO TERMO ADITIVO AO CONTRATO Nº...,"[QUINTO TERMO ADITIVO, Quinto Termo Aditivo]","[121.0000.5989/2017-55, 20/04/2022]","Prorrogação do contrato nº 06/2018 , em confor...",,Companhia de Planejamento do Distrito Federal ...
4,76,EXTRATO DO PRIMEIRO TERMO ADITIVO AO CONTRATO ...,EXTRATO DO PRIMEIRO TERMO ADITIVO AO CONTRATO ...,PRIMEIRO TERMO ADITIVO,"[00054-00116386/2020-33, 44.90.51, 20/04/2022]","A alteração qualitativa do item malha de aço ,...",29/2021,DF/PMDF


In [21]:
data_all["aditamento"].data_frame

Unnamed: 0,numero_dodf,titulo,text,NUM_ADITIVO,PROCESSO,CONTRATANTE,OBJ_ADITIVO,NUM_AJUSTE
0,76,EXTRATO DE CONTRATO (1º TERMO ADITIVO),EXTRATO DE CONTRATO (1º TERMO ADITIVO) Process...,1º TERMO ADITIVO,00001-00004093/2021-56,Câmara Legislativa do Distrito Federal,acréscimo de 20 ( vinte ) unidades do item úni...,
1,76,EXTRATO DE CONTRATO (1º TERMO ADITIVO),EXTRATO DE CONTRATO (1º TERMO ADITIVO) Process...,1º TERMO ADITIVO,00001-00015205/2021-02,Câmara Legislativa do Distrito Federal,"alteração do Contrato-PG nº 46/2021-NPLC , fir...",
2,76,EXTRATO DO SEGUNDO TERMO ADITIVO AO CONTRATO N...,EXTRATO DO SEGUNDO TERMO ADITIVO AO CONTRATO N...,SEGUNDO TERMO ADITIVO,"[00040-00005988/2020-14, 19/04/2022]",SECRETARIA DE ESTADO DE ECONOMIA DO DISTRITO F...,Prorrogar o prazo de vigência do CONTRATO por ...,43189/2021
3,76,EXTRATO DO QUINTO TERMO ADITIVO AO CONTRATO Nº...,EXTRATO DO QUINTO TERMO ADITIVO AO CONTRATO Nº...,"[QUINTO TERMO ADITIVO, Quinto Termo Aditivo]","[121.0000.5989/2017-55, 20/04/2022]",Companhia de Planejamento do Distrito Federal ...,"Prorrogação do contrato nº 06/2018 , em confor...",06/2018
4,76,EXTRATO DO PRIMEIRO TERMO ADITIVO AO CONTRATO ...,EXTRATO DO PRIMEIRO TERMO ADITIVO AO CONTRATO ...,PRIMEIRO TERMO ADITIVO,"[00054-00116386/2020-33, 20/04/2022]",,"A alteração qualitativa do item malha de aço ,...",29/2021
