In [1]:
import sqlite3
import zipfile

import numpy as np
import pandas as pd

from datetime import datetime
from tools import criaChaveAcordao, criaChaveAcordaoPrincipal

## Conhecer a base de dados dos acórdãos do TCU

A base de dados dos acórdãos do TCU foi disponibilizada para download público na plataforma Kaggle. Os dados dizem respeito aos acórdãos proferidos pelo TCU entre os anos de 1992 até 30/08/2019.
Acesse o endereço <https://www.kaggle.com/ferraz/acordaos-tcu> e baixe o arquivo no link Download (4GB) e salve na pasta '/dados'.
github: <https://github.com/netoferraz/acordaos-tcu>

In [None]:
# Remover os comentário das linhas abaixo caso ainda não tenha feito a descompactação
# with zipfile.ZipFile('dados/330881_660826_bundle_archive.zip', 'r') as zip_ref:
#     zip_ref.extractall()

In [None]:
# Cria conexão com a base de datos sqlite
conn = sqlite3.connect('dados/tcu-acordaos.db')

In [None]:
# Cria o dataframe df_acordaos
df_acordaos = pd.read_sql_query('SELECT * from acordaos', conn)

In [None]:
print(df_acordaos.shape, '\n')

# Mostra as colunas da base
print(df_acordaos.columns, '\n')

print(df_acordaos.info(), '\n')

In [None]:
# Transfora em string as colunas ano_acordao
df_acordaos['ano_acordao'] = df_acordaos['ano_acordao'].map(str)

In [None]:
df_acordaos.rename(str.upper, axis='columns', inplace=True)
df_acordaos.info()

In [None]:
# Verifica a quantidade de registros marcados como None
print(df_acordaos[df_acordaos['ACORDAO'].values == None].shape[0])
print(df_acordaos[df_acordaos['RELATORIO'].values == None].shape[0])
print(df_acordaos[df_acordaos['VOTO'].values == None].shape[0])

# Converte os valores None para np.NaN
df_acordaos.loc[df_acordaos['ACORDAO'].values == None, 'ACORDAO'] = np.NaN
df_acordaos.loc[df_acordaos['RELATORIO'].values == None, 'RELATORIO'] = np.NaN
df_acordaos.loc[df_acordaos['VOTO'].values == None, 'VOTO'] = np.NaN

# Confirmação
print(df_acordaos[df_acordaos['ACORDAO'].values == None].shape[0])
print(df_acordaos[df_acordaos['RELATORIO'].values == None].shape[0])
print(df_acordaos[df_acordaos['VOTO'].values == None].shape[0])

In [None]:
# Retira colunas que não interessam para o trabalho
df_acordaos = df_acordaos.drop(['REPRESENTANTE_MP', 'ASSUNTO', 'UNIDADE_TECNICA', 'REPR_LEGAL', 'QUORUM', 
                                'INTERESSADO_REPONSAVEL_RECORRENTE'], axis=1)

In [None]:
def imprime_proc_sigilo():
    print('Qtde de acordãos sem número de processo: ', df_acordaos[df_acordaos.PROCESSO.isnull()].shape[0])
    print('Qtde de acordãos com tipo de processo SIGILOSO: ', df_acordaos[(df_acordaos.TIPO_PROCESSO == 'SIGILOSO')].shape[0])
    print('Qtde de acordãos com acordao SIGILOSO: ', df_acordaos[(df_acordaos.ACORDAO == 'SIGILOSO') | (df_acordaos.ACORDAO == 'None')].shape[0])
    print('Qtde de acordãos com voto SIGILOSO: ', df_acordaos[(df_acordaos.VOTO == 'SIGILOSO')  | (df_acordaos.VOTO == 'None')].shape[0])
    print('Qtde de acordãos com entidade SIGILOSO: ', df_acordaos[(df_acordaos.ENTIDADE == 'SIGILOSO')  | (df_acordaos.ENTIDADE == 'None')].shape[0])
    print('Qtde de acordãos com Número de Acórdão não utilizado: ', df_acordaos[df_acordaos.SUMARIO == 'Número de Acórdão não utilizado'].shape[0], '\n')
    
    qtdeSigiloso = df_acordaos[(df_acordaos['ENTIDADE'] == 'SIGILOSO') | (df_acordaos['TIPO_PROCESSO'].str.upper == 'SIGILOGO')
                               | (df_acordaos['SUMARIO'].str.upper == 'SIGILOGO')
                               | (df_acordaos['ACORDAO'].str.upper == 'SIGILOGO')
                               | (df_acordaos['RELATORIO'].str.upper == 'SIGILOGO')
                               | (df_acordaos['ENTIDADE'].str.upper == 'SIGILOGO')
                               | (df_acordaos['VOTO'].str.upper == 'SIGILOGO')
                               | (df_acordaos.SUMARIO == 'Número de Acórdão não utilizado')].shape[0]

    print('Quantidade de acordãos marcados com sigilo: ', qtdeSigiloso, '\n')
    del qtdeSigiloso

In [None]:
imprime_proc_sigilo()


print('Removendo os registros...')
df_acordaos = df_acordaos[df_acordaos.PROCESSO.notnull()]
print(df_acordaos.shape[0])
df_acordaos = df_acordaos.drop(df_acordaos.index[df_acordaos['TIPO_PROCESSO'] =='SIGILOSO'])
print(df_acordaos.shape[0])
df_acordaos = df_acordaos.drop(df_acordaos.index[(df_acordaos['ACORDAO'] == 'SIGILOSO') | (df_acordaos['ACORDAO'] == 'None')])
print(df_acordaos.shape[0])
df_acordaos = df_acordaos.drop(df_acordaos.index[(df_acordaos['VOTO'] == 'SIGILOSO') | (df_acordaos['VOTO'] == 'None')])
print(df_acordaos.shape[0])
df_acordaos = df_acordaos.drop(df_acordaos.index[(df_acordaos['ENTIDADE'] == 'SIGILOSO') | (df_acordaos['ENTIDADE'] == 'None')])
print(df_acordaos.shape[0])
df_acordaos = df_acordaos.drop(df_acordaos.index[(df_acordaos['SUMARIO'] == 'Número de Acórdão não utilizado')])
print(df_acordaos.shape[0], '\n')


imprime_proc_sigilo()

In [None]:
start_time = datetime.now()

df_acordaos['ID'] = df_acordaos.apply(criaChaveAcordaoPrincipal, axis=1)

print('Duration: {}'.format(datetime.now() - start_time))

In [None]:
df_acordaos[df_acordaos.duplicated(['NUMERO_ACORDAO', 'PROCESSO', 'DATA_SESSAO'])]

In [None]:
# TODO criar function para tratar quando houver mais registros duplicados
df_acordaos = df_acordaos.drop(295941)

In [None]:
print('Quantidade de ACÓRDÃOS nulos: ', df_acordaos[df_acordaos['ACORDAO'].isnull() == True].shape[0])
print('Quantidade de registros repetidos nos campos VOTO e ACÓRDAO:', df_acordaos[df_acordaos['VOTO'].eq(df_acordaos['ACORDAO'])].shape[0])
print('Quantidade de registros repetidos nos campos RELATÓRIO e ACÓRDAO:', df_acordaos[df_acordaos['RELATORIO'].eq(df_acordaos['ACORDAO'])].shape[0])

In [None]:
df_acordaos['DECISAO'] = df_acordaos['ACORDAO'].map(str) + ' ' + df_acordaos['VOTO'].map(str) + ' ' + df_acordaos['RELATORIO'].map(str)

In [None]:
# Retira colunas que não interessam para o trabalho
df_acordaos = df_acordaos.drop(['URN', 'ANO_ACORDAO', 'NUMERO_ACORDAO', 'RELATOR', 'PROCESSO',
                               'DATA_SESSAO', 'NUMERO_ATA', 'ENTIDADE', 'SUMARIO', 'TIPO_PROCESSO',
                               'ACORDAO', 'VOTO', 'RELATORIO'], axis=1)

df_acordaos.info()

In [None]:
# Salva o arquivo em um csv compactado reduzindo o arquivo de 4GB para ~900MB
start_time = datetime.now()

df_acordaos.to_csv('dados/df_acordaos.csv', sep='|', index=False, compression='gzip', encoding='utf-8')

print('Duration: {}'.format(datetime.now() - start_time))

### Testes

In [47]:
df_positivo = pd.read_excel('dados/acordaopositivo.xlsx', sheet_name='Sheet1')
df_positivo.insert(0, 'ID', '')

In [48]:
df_positivo.rename(str.upper, axis='columns', inplace=True)
df_positivo.rename(columns={'LABELCLASSE': 'LABEL_TEMP', 'TÍTULO': 'TITULO', 'SUMÁRIO': 'SUMARIO', 
                            'TIPO DE PROCESSO': 'TIPO_PROCESSO',
                           'INTERESSADO / RESPONSÁVEL / RECORRENTE': 'INTERESSADO', 
                           'REPRESENTANTE DO MINISTÉRIO PÚBLICO': 'REP_MP',
                           'UNIDADE TÉCNICA': 'UNIDADE_TECNICA', 'REPRESENTANTE LEGAL': 'REP_LEGAL',
                           'ENDEREÇO DO ARQUIVO': 'FILE_PATH'}, inplace=True)


In [49]:
# Converte a classe em categorias
for i in range(0,14):
    df_positivo.loc[df_positivo['LABEL_TEMP'] == 'classe' + str(i+1), ['LABEL_TEMP']] = i+1

In [50]:
# Insere o valor do campo ID
for index, row in df_positivo.iterrows():
    df_positivo.iloc[index, 0] = criaChaveAcordao(df_positivo.iloc[index].TITULO)

In [51]:
df_temp = df_positivo.copy()

# Retira colunas que não interessam para o trabalho
df_positivo = df_positivo[['ID']]
df_positivo.insert(1, 'LABEL', '0')
df_positivo.drop_duplicates(subset=['ID'], keep='first', inplace=True)
df_positivo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 479 entries, 0 to 633
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      479 non-null    object
 1   LABEL   479 non-null    object
dtypes: object(2)
memory usage: 11.2+ KB


In [44]:
def criar_multi_labels(df_base, df_compare):
    count = 0
    for index, row in df_base.iterrows():
        for index_comp, row_comp in df_compare.iterrows():
            try:
                if row.ID == row_comp.ID:
                    if row.LABEL == '0':
                        df_base.loc[index]['LABEL'] = str(row_comp.LABEL_TEMP)
                    else:
                        df_base.loc[index]['LABEL'] = df_base.loc[index]['LABEL'] + ';' + str(row_comp.LABEL_TEMP)
            except Exception as ex:
                print(ex.error)
    return df_base

In [45]:
df_positivo = agrupar_multi_labels(df_positivo, df_temp)

In [None]:
# Lê o arquivo de um csv compactado
df_acordaos = pd.read_csv('dados/df_acordaos.csv', sep='|', compression='gzip')