# Pré-processamento

In [1]:
import pandas as pd
import numpy as np
import nltk

df = pd.read_csv('atos_2020_nao_anotados.csv', index_col = 0)
df

Unnamed: 0,tipo_ato,ato
0,abono,"ABONO DE PERMANENCIA\nESPECIAL,equivalente ao ..."
1,abono,"Abono de Permanencia aGENIVAN SILVA\nMORAES, m..."
2,abono,Abono de Permanencia equivalenteao valor da re...
3,abono,abono de permanencia aoservidor IZAI JACOBINO ...
4,abono,abono\nde permanencia equivalenteao valor de s...
...,...,...
50322,substituicao,"Designar LUCAS VINICIUS DE ANDRADE, matricula ..."
50323,substituicao,"Designar KEYLLA CRISTINA SILVA LIMA, matricula no"
50324,substituicao,"Designar MICHELLE OLIVEIRA DA SILVA SANTIAGO, ..."
50325,substituicao,"DESIGNAR DANNIEL VARGAS DE SIQUEIRA CAMPOS, ma..."


In [2]:
d = {'substituicao': 'Ato_Substituicao',
    'nomeacao': 'Ato_Nomeacao_Comissionado',
    'exoneracao': 'Ato_Exoneracao_Comissionado',
    'cessoes': 'Ato_Cessao',
    'abono': 'Ato_Abono_Permanencia',
    'efetivos_exo': 'Ato_Exoneracao_Efetivo',
    'sem_efeito_aposentadoria': 'Ato_Tornado_Sem_Efeito_Apo',
    'efetivos_nome': 'Ato_Nomeacao_Efetivo',
    'reversoes': 'Ato_Reversao',
    'aposentadoria': 'Ato_Aposentadoria',
    'retificacoes': 'Ato_Retificacao_Efetivo'}

In [3]:
df.tipo_ato = df.tipo_ato.apply(lambda x: d[x])
df

Unnamed: 0,tipo_ato,ato
0,Ato_Abono_Permanencia,"ABONO DE PERMANENCIA\nESPECIAL,equivalente ao ..."
1,Ato_Abono_Permanencia,"Abono de Permanencia aGENIVAN SILVA\nMORAES, m..."
2,Ato_Abono_Permanencia,Abono de Permanencia equivalenteao valor da re...
3,Ato_Abono_Permanencia,abono de permanencia aoservidor IZAI JACOBINO ...
4,Ato_Abono_Permanencia,abono\nde permanencia equivalenteao valor de s...
...,...,...
50322,Ato_Substituicao,"Designar LUCAS VINICIUS DE ANDRADE, matricula ..."
50323,Ato_Substituicao,"Designar KEYLLA CRISTINA SILVA LIMA, matricula no"
50324,Ato_Substituicao,"Designar MICHELLE OLIVEIRA DA SILVA SANTIAGO, ..."
50325,Ato_Substituicao,"DESIGNAR DANNIEL VARGAS DE SIQUEIRA CAMPOS, ma..."


In [4]:
df['tipo_ato'].value_counts()

Ato_Substituicao               20797
Ato_Nomeacao_Comissionado      13776
Ato_Exoneracao_Comissionado    10658
Ato_Aposentadoria               3399
Ato_Cessao                       625
Ato_Abono_Permanencia            333
Ato_Exoneracao_Efetivo           323
Ato_Tornado_Sem_Efeito_Apo       292
Ato_Nomeacao_Efetivo              99
Ato_Reversao                      17
Ato_Retificacao_Efetivo            8
Name: tipo_ato, dtype: int64

In [5]:
df = df.sample(frac=1)
df = df.reset_index(drop = True)
original = df.copy()

### Retira caracteres não-alfanuméricos ("(", ",", ".", "\n", etc)

In [6]:
df['ato'] = df.ato.str.replace('\W', ' ')
df

Unnamed: 0,tipo_ato,ato
0,Ato_Substituicao,Designar os servidores relacionados abaixo co...
1,Ato_Substituicao,Designar ALEXANDRA GUEDES FUKUCHI CORADO matr...
2,Ato_Aposentadoria,CONCEDER APOSENTADORIA nos termos do artigo 3...
3,Ato_Substituicao,DESIGNAR LUIZ EDUARDO FERNANDES MACHADO matri...
4,Ato_Nomeacao_Comissionado,NOMEAR MANOEL LUIZ CAMILO DE MORAIS ANTUNES A...
...,...,...
50322,Ato_Nomeacao_Comissionado,NOMEAR ADRIANA PEIXOTO GOMES Tecnico de Gesta...
50323,Ato_Nomeacao_Comissionado,NOMEAR MARIO MARQUES FRANCO para exercer o Car...
50324,Ato_Exoneracao_Comissionado,EXONERAR BENILSON BATISTA AMORIM do Cargo em C...
50325,Ato_Exoneracao_Comissionado,EXONERAR por estar sendo nomeada para outro c...


### Remoção de stopwords

In [7]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [8]:
df['ato'] = df['ato'].apply(lambda x: ' '.join([item for item in x.split() if item not in stopwords]))
df

Unnamed: 0,tipo_ato,ato
0,Ato_Substituicao,Designar servidores relacionados abaixo indica...
1,Ato_Substituicao,Designar ALEXANDRA GUEDES FUKUCHI CORADO matri...
2,Ato_Aposentadoria,CONCEDER APOSENTADORIA termos artigo 3o inciso...
3,Ato_Substituicao,DESIGNAR LUIZ EDUARDO FERNANDES MACHADO matric...
4,Ato_Nomeacao_Comissionado,NOMEAR MANOEL LUIZ CAMILO DE MORAIS ANTUNES Au...
...,...,...
50322,Ato_Nomeacao_Comissionado,NOMEAR ADRIANA PEIXOTO GOMES Tecnico Gestao Ed...
50323,Ato_Nomeacao_Comissionado,NOMEAR MARIO MARQUES FRANCO exercer Cargo Publ...
50324,Ato_Exoneracao_Comissionado,EXONERAR BENILSON BATISTA AMORIM Cargo Comissa...
50325,Ato_Exoneracao_Comissionado,EXONERAR estar sendo nomeada outro cargo VERA ...


### Stemming

In [9]:
stemmer = nltk.stem.RSLPStemmer()

In [10]:
df['ato'] = df['ato'].apply(lambda x: ' '.join([stemmer.stem(item) for item in x.split()]))
df

Unnamed: 0,tipo_ato,ato
0,Ato_Substituicao,design serv relacion abaix indicaca respec loc...
1,Ato_Substituicao,design alexandr gued fukuch cor matricul 1 658...
2,Ato_Aposentadoria,conced aposentad term artig 3o incis i ii iii ...
3,Ato_Substituicao,design luiz eduard fernand mach matricul 02244...
4,Ato_Nomeacao_Comissionado,nome manoel luiz camil de moral antun audi con...
...,...,...
50322,Ato_Nomeacao_Comissionado,nome adri peixot gom tecn gesta educac matricu...
50323,Ato_Nomeacao_Comissionado,nome mari marqu franc exerc carg publ natur es...
50324,Ato_Exoneracao_Comissionado,exoner benilson batist amorim carg comissa sim...
50325,Ato_Exoneracao_Comissionado,exoner est send nome outr carg ver eliz mull c...


### Carregando modelos

In [11]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.feature_extraction.text import TfidfVectorizer

In [12]:
import pickle
file = open('classificadores_treinados', 'rb')
clf_rf = pickle.load(file)
clf_dt = pickle.load(file)
clf_sgd = pickle.load(file)
vectorizer = pickle.load(file)
file.close()

In [13]:
clf_rf

RandomForestClassifier(max_features=0.1, n_estimators=500, n_jobs=2,
                       random_state=87)

In [14]:
clf_dt

DecisionTreeClassifier(criterion='entropy', random_state=87)

In [15]:
clf_sgd

SGDClassifier(alpha=5e-05, penalty='elasticnet', random_state=87)

In [16]:
vectorizer

TfidfVectorizer(max_df=0.9, min_df=2,
                stop_words=['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em',
                            'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se',
                            'na', 'por', 'mais', 'as', 'dos', 'como', 'mas',
                            'ao', 'ele', 'das', 'à', 'seu', 'sua', ...])

### Aplicação do tfidf

In [17]:
X = vectorizer.transform(df['ato'])
X

<50327x2767 sparse matrix of type '<class 'numpy.float64'>'
	with 1435901 stored elements in Compressed Sparse Row format>

# Classificação

In [18]:
from sklearn.metrics import classification_report

In [19]:
y = np.array(df['tipo_ato'])

In [20]:
# Random Forest
y_true, y_pred = y, clf_rf.predict(X)
print(classification_report(y_true, y_pred))

  _warn_prf(average, modifier, msg_start, len(result))


                                precision    recall  f1-score   support

         Ato_Abono_Permanencia       0.67      0.43      0.52       333
             Ato_Aposentadoria       1.00      0.97      0.98      3399
                    Ato_Cessao       0.99      0.98      0.98       625
   Ato_Exoneracao_Comissionado       0.94      0.99      0.97     10658
        Ato_Exoneracao_Efetivo       0.12      0.03      0.05       323
     Ato_Nomeacao_Comissionado       0.94      0.97      0.95     13776
          Ato_Nomeacao_Efetivo       0.33      0.76      0.46        99
  Ato_Retificacao_Comissionado       0.00      0.00      0.00         0
       Ato_Retificacao_Efetivo       0.05      0.88      0.09         8
                  Ato_Reversao       0.89      0.47      0.62        17
              Ato_Substituicao       0.99      0.96      0.98     20797
    Ato_Tornado_Sem_Efeito_Apo       0.99      0.50      0.66       292
Ato_Tornado_Sem_Efeito_Exo_Nom       0.00      0.00      0.00  

In [21]:
# Decision Tree Classifier
y_true, y_pred = y, clf_dt.predict(X)
print(classification_report(y_true, y_pred))

  _warn_prf(average, modifier, msg_start, len(result))


                                precision    recall  f1-score   support

         Ato_Abono_Permanencia       0.95      0.12      0.21       333
             Ato_Aposentadoria       0.00      0.00      0.00      3399
                    Ato_Cessao       0.83      0.96      0.89       625
   Ato_Exoneracao_Comissionado       0.91      0.99      0.95     10658
        Ato_Exoneracao_Efetivo       0.17      0.07      0.09       323
     Ato_Nomeacao_Comissionado       0.89      0.96      0.93     13776
          Ato_Nomeacao_Efetivo       0.39      0.95      0.55        99
  Ato_Retificacao_Comissionado       0.00      0.00      0.00         0
       Ato_Retificacao_Efetivo       0.16      0.88      0.27         8
                  Ato_Reversao       1.00      0.35      0.52        17
              Ato_Substituicao       0.98      0.93      0.95     20797
    Ato_Tornado_Sem_Efeito_Apo       0.02      0.18      0.03       292
Ato_Tornado_Sem_Efeito_Exo_Nom       0.00      0.00      0.00  

In [22]:
# SGD
y_true, y_pred = y, clf_sgd.predict(X)
print(classification_report(y_true, y_pred))

                                precision    recall  f1-score   support

         Ato_Abono_Permanencia       0.71      0.70      0.70       333
             Ato_Aposentadoria       0.99      0.94      0.96      3399
                    Ato_Cessao       0.90      1.00      0.95       625
   Ato_Exoneracao_Comissionado       0.93      0.99      0.96     10658
        Ato_Exoneracao_Efetivo       0.03      0.02      0.03       323
     Ato_Nomeacao_Comissionado       0.87      0.99      0.92     13776
          Ato_Nomeacao_Efetivo       0.25      1.00      0.39        99
  Ato_Retificacao_Comissionado       0.00      0.00      0.00         0
       Ato_Retificacao_Efetivo       0.01      1.00      0.02         8
                  Ato_Reversao       0.07      0.12      0.09        17
              Ato_Substituicao       1.00      0.83      0.91     20797
    Ato_Tornado_Sem_Efeito_Apo       0.98      0.14      0.24       292
Ato_Tornado_Sem_Efeito_Exo_Nom       0.00      0.00      0.00  

# Análise dos dados classificados incorretamente

In [23]:
d = {}
for i in np.unique(y):
    d[i] = []
 
d['Ato_Tornado_Sem_Efeito_Exo_Nom'] = []
d['Ato_Retificacao_Comissionado'] = []
d

{'Ato_Abono_Permanencia': [],
 'Ato_Aposentadoria': [],
 'Ato_Cessao': [],
 'Ato_Exoneracao_Comissionado': [],
 'Ato_Exoneracao_Efetivo': [],
 'Ato_Nomeacao_Comissionado': [],
 'Ato_Nomeacao_Efetivo': [],
 'Ato_Retificacao_Efetivo': [],
 'Ato_Reversao': [],
 'Ato_Substituicao': [],
 'Ato_Tornado_Sem_Efeito_Apo': [],
 'Ato_Tornado_Sem_Efeito_Exo_Nom': [],
 'Ato_Retificacao_Comissionado': []}

In [25]:
y_rf = clf_rf.predict(X)
y_dt = clf_dt.predict(X)
y_sgd = clf_sgd.predict(X)

In [26]:
for i in range(0, len(y)):
    acordo = 3
    if y[i] != y_rf[i]:
        acordo -= 1
    if y[i] != y_dt[i]:
        acordo -= 1
    if y[i] != y_sgd[i]:
        acordo -= 1
        
    if acordo < 2:
        d[y[i]].append((i, y[i], [y_rf[i], y_dt[i], y_sgd[i]],
                        original['ato'][i]))

In [27]:
for i in d.keys():
    print("%s: %d" %(i, len(d[i])))

Ato_Abono_Permanencia: 187
Ato_Aposentadoria: 273
Ato_Cessao: 13
Ato_Exoneracao_Comissionado: 94
Ato_Exoneracao_Efetivo: 312
Ato_Nomeacao_Comissionado: 438
Ato_Nomeacao_Efetivo: 3
Ato_Retificacao_Efetivo: 1
Ato_Reversao: 12
Ato_Substituicao: 1450
Ato_Tornado_Sem_Efeito_Apo: 235
Ato_Tornado_Sem_Efeito_Exo_Nom: 0
Ato_Retificacao_Comissionado: 0


In [28]:
def printar_respostas(l):
    if type(l) != list:
        l = [l]
    for i in l:
        print('Índice: %d' %i[0])
        print('Label original: %s' %i[1])
        print()
        print('Label dos classificadores: %s, %s e %s' %(i[2][0], i[2][1], i[2][2]))
        print()
        print('Texto: %s' %i[3])
        print('\n')

In [29]:
df_2020 = pd.DataFrame(columns = ['tipo_ato', 'ato'])
index_list = []

def adicionar(index, label):
    text = original.loc[index]['ato']
    index_list.append(index)
    df_2020.loc[index] = [label, text]

## Aposentadoria

In [30]:
printar_respostas(d['Ato_Aposentadoria'][:50])

Índice: 2
Label original: Ato_Aposentadoria

Label dos classificadores: Ato_Aposentadoria, Ato_Tornado_Sem_Efeito_Apo e Ato_Exoneracao_Efetivo

Texto: CONCEDER APOSENTADORIA, nos termos do artigo 3o, incisos I, II, III, paragrafo 
unico da Emenda Constitucional no 47/2005, combinados com artigo 44 da Lei 
Complementar no 769, de 30/06/2008, a MARINA CONCEICAO OLIVEIRA, 
matricula n 118.789-9, da Carreira de Assistencia Publica a Saude, do Cargo de 
Auxiliar em Saude- AOSD- SERVICOS GERAIS, Classe Unica, Padrao XX do Quadro 
de Pessoal da Secretaria de Estado de Saude do Distrito Federal. Lotacao: SRSNO. 
Processo 00060-00045754/2020-27.


Índice: 147
Label original: Ato_Aposentadoria

Label dos classificadores: Ato_Aposentadoria, Ato_Tornado_Sem_Efeito_Apo e Ato_Exoneracao_Efetivo

Texto: CONCEDER APOSENTADORIA, nos termos do artigo 40,  1o, inciso III, alinea "a", e  3o, 8o
e 17 da Constituicao da Republica Federativa do Brasil, com redacao da Emenda Constitucional no
41/2003, e artig

Regex acertou e ao menos 2 classificadores erraram: 46 
Ao menos 2 classificadores acertaram e regex errou: 0
Atos separados incorretamente: 4

Ato 2188 possui vários atos juntos.  
Ato 3786 não é um ato.  
Ato 5278 não é um ato.  
Ato 9246 é parte de uma retificação.  

In [33]:
ato_nome = 'Ato_Aposentadoria'
index_nao_incluir = [2188, 3786, 5278, 9246]

In [34]:
index_incluir = []
for ato in d['Ato_Aposentadoria'][:50]:
    index = ato[0]
    if index not in index_nao_incluir:
        index_incluir.append(index)
    
len(index_incluir)

46

In [36]:
for index in index_incluir:
    adicionar(index, ato_nome)

# Salvando o dataset criado

In [40]:
atos_anotados = pd.read_csv('atos_2020_anotados.csv', index_col = 0)
atos_anotados

Unnamed: 0,tipo_ato,ato
0,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 3..."
1,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 3..."
2,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 3..."
3,Ato_Aposentadoria,"APOSENTAR, nos termos do artigo 40, 1o, inciso..."
4,Ato_Aposentadoria,DESIGNAR LUCIANA UMBELINO TIEMANN BARRETO para...
5,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 3..."
6,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 3..."
7,Ato_Aposentadoria,CONCEDER APOSENTADORIA nos termos do artigo 3o...
8,Ato_Aposentadoria,"APOSENTAR, a servidora HILDA AUREA TARDIN DE A..."
9,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 3..."


In [41]:
atos = pd.concat([df_2020, atos_anotados])
atos

Unnamed: 0,tipo_ato,ato
2,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 3..."
147,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 4..."
356,Ato_Aposentadoria,CONCEDER aposentadoria a CARLOS EDUARDO VIANA ...
459,Ato_Aposentadoria,CONCEDER aposentadoria a JULIANO GUEDES DE OLI...
619,Ato_Aposentadoria,CONCEDER APOSENTADORIA nos termos do artigo 3o...
...,...,...
29,Ato_Reversao,"REVERTER a atividade nos termos do artigo 34, ..."
30,Ato_Reversao,"REVERTER a atividade nos termos do artigo 34, ..."
31,Ato_Reversao,"REVERTER a atividade nos termos do artigo 34, ..."
32,Ato_Reversao,"REVERTER a atividade nos termos do artigo 34, ..."


In [43]:
atos['tipo_ato'].value_counts()

Ato_Aposentadoria          65
Ato_Reversao               12
Ato_Nomeacao_Efetivo        2
Ato_Retificacao_Efetivo     1
Name: tipo_ato, dtype: int64

In [44]:
atos = atos.reset_index(drop = True)
atos.to_csv('atos_2020_anotados2.csv')

In [47]:
df_new = original.drop(index_list)
df_new = df_new.reset_index(drop = True)
df_new.to_csv('atos_2020_nao_anotados2.csv')

In [49]:
df_new

Unnamed: 0,tipo_ato,ato
0,Ato_Substituicao,"Designar os servidores relacionados abaixo, co..."
1,Ato_Substituicao,"Designar ALEXANDRA GUEDES FUKUCHI CORADO, matr..."
2,Ato_Substituicao,"DESIGNAR LUIZ EDUARDO FERNANDES MACHADO, matri..."
3,Ato_Nomeacao_Comissionado,"NOMEAR MANOEL LUIZ CAMILO DE MORAIS ANTUNES, A..."
4,Ato_Exoneracao_Comissionado,"EXONERAR, por motivo de falecimento, LUDWIK DE..."
...,...,...
50276,Ato_Nomeacao_Comissionado,"NOMEAR ADRIANA PEIXOTO GOMES, Tecnico de Gesta..."
50277,Ato_Nomeacao_Comissionado,NOMEAR MARIO MARQUES FRANCO para exercer o Car...
50278,Ato_Exoneracao_Comissionado,EXONERAR BENILSON BATISTA AMORIM do Cargo em C...
50279,Ato_Exoneracao_Comissionado,"EXONERAR, por estar sendo nomeada para outro c..."


In [50]:
original

Unnamed: 0,tipo_ato,ato
0,Ato_Substituicao,"Designar os servidores relacionados abaixo, co..."
1,Ato_Substituicao,"Designar ALEXANDRA GUEDES FUKUCHI CORADO, matr..."
2,Ato_Aposentadoria,"CONCEDER APOSENTADORIA, nos termos do artigo 3..."
3,Ato_Substituicao,"DESIGNAR LUIZ EDUARDO FERNANDES MACHADO, matri..."
4,Ato_Nomeacao_Comissionado,"NOMEAR MANOEL LUIZ CAMILO DE MORAIS ANTUNES, A..."
...,...,...
50322,Ato_Nomeacao_Comissionado,"NOMEAR ADRIANA PEIXOTO GOMES, Tecnico de Gesta..."
50323,Ato_Nomeacao_Comissionado,NOMEAR MARIO MARQUES FRANCO para exercer o Car...
50324,Ato_Exoneracao_Comissionado,EXONERAR BENILSON BATISTA AMORIM do Cargo em C...
50325,Ato_Exoneracao_Comissionado,"EXONERAR, por estar sendo nomeada para outro c..."
