
# **Instalação de dependencias**

In [117]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [118]:
!sudo apt install build-essential libpoppler-cpp-dev pkg-config python3-dev -q

Reading package lists...
Building dependency tree...
Reading state information...
build-essential is already the newest version (12.4ubuntu1).
pkg-config is already the newest version (0.29.1-0ubuntu2).
libpoppler-cpp-dev is already the newest version (0.62.0-2ubuntu2.12).
python3-dev is already the newest version (3.6.7-1~18.04).
The following package was automatically installed and is no longer required:
  libnvidia-common-460
Use 'sudo apt autoremove' to remove it.
0 upgraded, 0 newly installed, 0 to remove and 42 not upgraded.


In [119]:
!pip install pdftotext -q
!pip install wordcloud -q

# **Importando as bibliotecas**

In [120]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import pdftotext
import nltk
import glob

In [121]:
#Instanciando stopwords
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [122]:
# Adicionar mais palavras ao stopwords criado, verificando se já existe
new_stopwords = ['art', 'trf5', 'pje', 'jfpe', 'pje1', 'https', 'jus', 'br', 
                 'pág', 'listView','seam', 'pje1g', 'eletronicamente', 'https', 'http', 'numbr','numbrª']
print(len(stopwords))
for word in new_stopwords:
  if word not in stopwords:
    stopwords.append(word)
print(len(stopwords))

204
220


# **Importando os documentos de petição**

In [123]:
def transforma_dataframe(lista_arquivos, tipo_peticao):
  lista_strings = []
  for peticao in lista_arquivos:
    with open(peticao, "rb") as f:
      pdf = pdftotext.PDF(f)
    lista_strings.append("\n\n".join(pdf))

  classificacao = []
  for i in range(len(lista_arquivos)):
    classificacao.append(tipo_peticao)

  df = cria_dataframe(lista_arquivos, lista_strings, classificacao)
  return df

  


def cria_dataframe(lista_arquivos, lista_strings, classificacao):
  dicionario_peticao = {
    'nome_documento': lista_arquivos,
    'conteudo_peticao': lista_strings,
    'classificacao': classificacao,
  }
  df_peticao_inicial = pd.DataFrame(dicionario_peticao)
  return df_peticao_inicial



In [124]:
lista_arquivos = []
for arquivo in glob.glob(r'/content/drive/MyDrive/residencia/PLN_AM/documentos/*pdf'):
  if arquivo not in lista_arquivos:
    lista_arquivos.append(arquivo)


In [125]:
df1 = transforma_dataframe(lista_arquivos, "Petição Inicial")

In [126]:
df1

Unnamed: 0,nome_documento,conteudo_peticao,classificacao
0,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXMO. SR. DR. JUIZ DA 11ª VAR...,Petição Inicial
1,/content/drive/MyDrive/residencia/PLN_AM/docum...,V...,Petição Inicial
2,/content/drive/MyDrive/residencia/PLN_AM/docum...,...,Petição Inicial
3,/content/drive/MyDrive/residencia/PLN_AM/docum...,Escritório de Advocacia\n.\n DRª. DANIELLY FI...,Petição Inicial
4,/content/drive/MyDrive/residencia/PLN_AM/docum...,Dr. Hebe...,Petição Inicial
5,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXCELENTÍSSIMO(A) SENHOR(A) DOUTOR(A) JUIZ(ÍZA...,Petição Inicial
6,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXMO. SR. DR. JUIZ DA 15ª. VARA FEDERAL SEÇÃO ...,Petição Inicial
7,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXCELENTÍSSIMO SENHOR DOUTOR JUIZ FEDERAL DO J...,Petição Inicial
8,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXCELENTÍSSIMO SENHOR DOUTOR JUIZ DE DIREITO D...,Petição Inicial
9,/content/drive/MyDrive/residencia/PLN_AM/docum...,...,Petição Inicial


In [127]:
lista_arquivos_peticao_nao_inicial = []

for arquivo in glob.glob(r'/content/drive/MyDrive/residencia/PLN_AM/peticao_nao_inicial/*pdf'):
  if arquivo not in lista_arquivos_peticao_nao_inicial:
    lista_arquivos_peticao_nao_inicial.append(arquivo)

In [128]:
df2 = transforma_dataframe(lista_arquivos_peticao_nao_inicial, "Petição Não Inicial")

In [129]:
df2

Unnamed: 0,nome_documento,conteudo_peticao,classificacao
0,/content/drive/MyDrive/residencia/PLN_AM/petic...,Firefox ...,Petição Não Inicial
1,/content/drive/MyDrive/residencia/PLN_AM/petic...,Firefox ...,Petição Não Inicial
2,/content/drive/MyDrive/residencia/PLN_AM/petic...,EXCELENTÍSSIMO SENHOR DOUTOR JUIZ FEDERAL DA 1...,Petição Não Inicial
3,/content/drive/MyDrive/residencia/PLN_AM/petic...,Firefox ...,Petição Não Inicial
4,/content/drive/MyDrive/residencia/PLN_AM/petic...,Firefox ...,Petição Não Inicial
5,/content/drive/MyDrive/residencia/PLN_AM/petic...,Firefox ...,Petição Não Inicial
6,/content/drive/MyDrive/residencia/PLN_AM/petic...,Firefox ...,Petição Não Inicial
7,/content/drive/MyDrive/residencia/PLN_AM/petic...,Firefox ...,Petição Não Inicial
8,/content/drive/MyDrive/residencia/PLN_AM/petic...,ADVOCACIA E...,Petição Não Inicial
9,/content/drive/MyDrive/residencia/PLN_AM/petic...,Firefox ...,Petição Não Inicial


In [130]:
# Concatenando os dataframes
dados_peticoes = pd.concat([df1, df2])

In [131]:
dados_peticoes

Unnamed: 0,nome_documento,conteudo_peticao,classificacao
0,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXMO. SR. DR. JUIZ DA 11ª VAR...,Petição Inicial
1,/content/drive/MyDrive/residencia/PLN_AM/docum...,V...,Petição Inicial
2,/content/drive/MyDrive/residencia/PLN_AM/docum...,...,Petição Inicial
3,/content/drive/MyDrive/residencia/PLN_AM/docum...,Escritório de Advocacia\n.\n DRª. DANIELLY FI...,Petição Inicial
4,/content/drive/MyDrive/residencia/PLN_AM/docum...,Dr. Hebe...,Petição Inicial
5,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXCELENTÍSSIMO(A) SENHOR(A) DOUTOR(A) JUIZ(ÍZA...,Petição Inicial
6,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXMO. SR. DR. JUIZ DA 15ª. VARA FEDERAL SEÇÃO ...,Petição Inicial
7,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXCELENTÍSSIMO SENHOR DOUTOR JUIZ FEDERAL DO J...,Petição Inicial
8,/content/drive/MyDrive/residencia/PLN_AM/docum...,EXCELENTÍSSIMO SENHOR DOUTOR JUIZ DE DIREITO D...,Petição Inicial
9,/content/drive/MyDrive/residencia/PLN_AM/docum...,...,Petição Inicial


In [132]:
# Verificando a distribuição de classe

print(dados_peticoes['classificacao'].value_counts())

Petição Inicial        27
Petição Não Inicial    27
Name: classificacao, dtype: int64


# **PLN:** Pré-processamento dos dados

O pré-processamento dos dados é um passo essencial no processo de linguagem natural. Nas células seguintes, iremos converter as nossas etiquetas de classe em valores binários usando o LabelEncoder do sklearn, substituir endereços de e-mail, URLs, números de telefone e outros símbolos usando expressões regulares, remover stop words, e extrair radicais de palavras.

In [242]:
from sklearn.preprocessing import LabelEncoder

# converte rótulos de classe em valores binários, 0 = Petição Inicial e 1 = Petição Não Inicial
classes = dados_peticoes['classificacao']
encoder = LabelEncoder()
Y = encoder.fit_transform(classes)

print(Y[:50])

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1]


In [179]:
# Dados do texto das petições
content_of_petitions = dados_peticoes['conteudo_peticao']
print(content_of_petitions[:10])


0                     EXMO. SR. DR. JUIZ DA 11ª VAR...
1                                                 V...
2                                                  ...
3    Escritório de Advocacia\n.\n  DRª. DANIELLY FI...
4                                          Dr. Hebe...
5    EXCELENTÍSSIMO(A) SENHOR(A) DOUTOR(A) JUIZ(ÍZA...
6    EXMO. SR. DR. JUIZ DA 15ª. VARA FEDERAL SEÇÃO ...
7    EXCELENTÍSSIMO SENHOR DOUTOR JUIZ FEDERAL DO J...
8    EXCELENTÍSSIMO SENHOR DOUTOR JUIZ DE DIREITO D...
9                                                  ...
Name: conteudo_peticao, dtype: object


In [180]:
# usando expressões regulares para tratar endereços de e-mail, URLs, números de telefone, outros números

# Substitui os endereços de e-mail por 'emailaddress'
processed = content_of_petitions.str.replace(r'^.+@[^\.].*\.[a-z]{2,}$', 'emailaddress')

# Substitui URLs por 'webdress'
processed = processed.str.replace(r'^http\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(/\S*)?$', 'webaddress')

# Substitui os símbolos de dinheiro por 'moneysymb' 
processed = processed.str.replace(r'£|\$|R\$', 'moneysymb')

# Substitui números de telefone de 10 dígitos (os formatos incluem parênteses, espaços, sem espaços, traços) por 'phonenumber'
processed = processed.str.replace(r'^\(?[\d]{2}\)?[\s-]?[\d]{3}[\s-]?[\d]{4}$', 'phonenumbr')

# Substitua os números por 'numbr'
processed = processed.str.replace(r'\d+(\.\d+)?', 'numbr')

# Substitua os '_' por ' '
processed = processed.str.replace(r'_{1,}', ' ')

  after removing the cwd from sys.path.
  import sys
  # Remove the CWD from sys.path while we load stuff.
  del sys.path[0]
  app.launch_new_instance()


In [181]:
#Remover pontuação
processed = processed.str.replace(r'[^\w\d\s]', ' ')

# Substitui o espaço em branco entre os termos por um único espaço
processed = processed.str.replace(r'\s+', ' ')

# Remova os espaços em branco iniciais e finais
processed = processed.str.replace(r'^\s+|\s+?$', '')


  
  """
  


In [182]:
# altera as palavras para minúsculas - Olá, OLÁ, olá são todas a mesma palavra
processed = processed.str.lower()
print(processed)

0     exmo sr dr juiz da numbrª vara federal juizado...
1     vieira advocacia excelentíssimo senhor doutor ...
2     advocacia assessoria consultoria giuliherme ma...
3     escritório de advocacia drª danielly figueired...
4     dr heberth langbehn dr josé jocerlan excelentí...
5     excelentíssimo a senhor a doutor a juiz íza fe...
6     exmo sr dr juiz da numbrª vara federal seção j...
7     excelentíssimo senhor doutor juiz federal do j...
8     excelentíssimo senhor doutor juiz de direito d...
9     helainy cristina pereira araújo dantas advogad...
10    l r galvão advocacia previdenciária excelentís...
11    excelentíssimo senhor doutor juiz federal da n...
12    excelentíssimo a senhor a juiz a federal da va...
13    exmo a sr a dr a juiz a federal do juizado esp...
14    excelentíssimo a doutor a juiz a federal da va...
15    justiça federal da numbrª região pje processo ...
16    justiça federal da numbrª região pje processo ...
17    justiça federal da numbrª região pje proce

In [183]:
# remover as stopwords do conteudo das petições

processed = processed.apply(lambda x: ' '.join(term for term in x.split() if term not in stopwords))


In [184]:
print(processed)

0     exmo sr dr juiz vara federal juizado especial ...
1     vieira advocacia excelentíssimo senhor doutor ...
2     advocacia assessoria consultoria giuliherme ma...
3     escritório advocacia drª danielly figueiredo x...
4     dr heberth langbehn dr josé jocerlan excelentí...
5     excelentíssimo senhor doutor juiz íza federal ...
6     exmo sr dr juiz vara federal seção judiciária ...
7     excelentíssimo senhor doutor juiz federal juiz...
8     excelentíssimo senhor doutor juiz direito juiz...
9     helainy cristina pereira araújo dantas advogad...
10    l r galvão advocacia previdenciária excelentís...
11    excelentíssimo senhor doutor juiz federal vara...
12    excelentíssimo senhor juiz federal vara juizad...
13    exmo sr dr juiz federal juizado especial feder...
14    excelentíssimo doutor juiz federal vara juizad...
15    justiça federal região processo judicial eletr...
16    justiça federal região processo judicial eletr...
17    justiça federal região processo judicial e

# **Gerando as Features**
A engenharia de Features é o processo de utilização do conhecimento de domínio dos dados para criar características para algoritmos de aprendizagem de máquinas. Neste projeto, as palavras em nas Petições serão as nossas características. Para este fim, será necessário assinalar cada palavra. Utilizaremos as 1500 palavras mais comuns como características.




In [185]:
from nltk.tokenize import word_tokenize
nltk.download('punkt')

# Criando bag-of-words
all_words = []

for peticao in processed:
    words = word_tokenize(peticao)
    for w in words:
        all_words.append(w)
# all_words é uma lista que contem todas as palavras encontradas em todas petições. As palavras podem aparecer mais de uma vez nessa lista

# nltk.FreqDist(lista) é uma função que retorna um dicionário com a informação da frequencia daquela palavra
all_words = nltk.FreqDist(all_words)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [186]:
# imprimir o número total de palavras e as 15 palavras mais comuns
print(f'Numero de palavras: {len(all_words)}.')
print(f'Palavras mais comuns: {all_words.most_common(15)}')

Numero de palavras: 8510.
Palavras mais comuns: [('federal', 416), ('lei', 400), ('ser', 354), ('benefício', 341), ('autora', 336), ('parte', 325), ('nº', 320), ('numbrº', 310), ('processo', 309), ('direito', 300), ('valor', 299), ('data', 288), ('caso', 287), ('pe', 245), ('civil', 218)]


In [187]:
# use as 1500 palavras mais comuns como features
word_features = list(all_words.keys())[:1500]

In [188]:
# A função find_features determinará quais dos recursos de 1500 palavras estão contidos na revisão
def find_features(peticao):
    words = word_tokenize(peticao)
    features = {}
    for word in word_features:
        features[word] = (word in words)

    return features

In [None]:
processed

In [190]:
# empacotando o texto tratado com os rótulos em formato binario
peticao = list(zip(processed, Y))

# embaralhando os dados aleatoriamente
seed = 1
np.random.seed = seed
np.random.shuffle(peticao)

# chamando a função find_features para cada petição
featuresets = [(find_features(text), label) for (text, label) in peticao]

In [191]:
featuresets[0]

({'exmo': False,
  'sr': False,
  'dr': False,
  'juiz': False,
  'vara': False,
  'federal': False,
  'juizado': False,
  'especial': False,
  'seção': False,
  'judiciária': False,
  'rio': False,
  'grande': False,
  'norte': False,
  'rosa': False,
  'maria': False,
  'costa': False,
  'tavares': False,
  'conhecida': False,
  'popularmente': False,
  'brasileira': False,
  'casada': False,
  'agricultora': False,
  'inscrita': False,
  'cpf': False,
  'sob': False,
  'nº': False,
  'residente': False,
  'domiciliada': False,
  'rua': False,
  'manoel': False,
  'corcino': False,
  'filho': False,
  'bairro': False,
  'dom': False,
  'elizeu': False,
  'próximo': False,
  'bar': False,
  'pedro': False,
  'munícipio': False,
  'assú': False,
  'rn': False,
  'cep': False,
  'via': False,
  'advogados': False,
  'formalmente': False,
  'constituídos': False,
  'escritório': False,
  'profissional': False,
  'localizado': False,
  'francisca': False,
  'moura': False,
  'centro': Fal

In [192]:
# podemos dividir os conjuntos de recursos em conjuntos de dados de treinamento e teste usando sklearn
from sklearn import model_selection

# dividir os dados em conjuntos de dados de treinamento e teste
training, testing = model_selection.train_test_split(featuresets, test_size = 0.25, random_state=seed)

In [193]:
print(f'Treino: {len(training)}')
print(f'Teste: {len(testing)}')

Treino: 40
Teste: 14


# **Aprendizado de Máquina:** Classificadores Scikit-Learn com NLTK

Agora que temos o nosso conjunto de dados, podemos começar a construir algoritmos! Vamos começar com um simples classificador vectorial de suporte linear, depois expandir para outros algoritmos. Vamos precisar de importar cada algoritmo que planeamos utilizar a partir do sklearn. Também precisamos de importar algumas métricas de desempenho, tais como accuracy_score e classification_report.

In [194]:
# Podemos usar algoritmos de limpeza no NLTK
from nltk.classify.scikitlearn import SklearnClassifier
from sklearn.svm import SVC

model = SklearnClassifier(SVC(kernel = 'linear'))

# treinar o modelo nos dados de treinamento
model.train(training)

# e teste no conjunto de dados de teste!
accuracy = nltk.classify.accuracy(model, testing)*100
print(f"SVC Accuracy: {accuracy}")

SVC Accuracy: 100.0


In [195]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix


# Define modelos(Técnica de AM) para treino
names = ["K-vizinhos mais próximos", "Árvores de Decisão", "Random Forest", "Regressão Logística", "SGD Classifier",
         "Naive Bayes", "SVM Linear(Máquinas de Vetores de Suporte)"]

classifiers = [
    KNeighborsClassifier(),
    DecisionTreeClassifier(),
    RandomForestClassifier(),
    LogisticRegression(),
    SGDClassifier(max_iter = 100),
    MultinomialNB(),
    SVC(kernel = 'linear')
]

models = zip(names, classifiers)

for name, model in models:
    nltk_model = SklearnClassifier(model)
    nltk_model.train(training)
    accuracy = nltk.classify.accuracy(nltk_model, testing)*100
    print(f"{name} Accuracy: {accuracy} %")

K-vizinhos mais próximos Accuracy: 85.71428571428571 %
Árvores de Decisão Accuracy: 100.0 %
Random Forest Accuracy: 100.0 %
Regressão Logística Accuracy: 100.0 %
SGD Classifier Accuracy: 100.0 %
Naive Bayes Accuracy: 100.0 %
SVM Linear(Máquinas de Vetores de Suporte) Accuracy: 100.0 %


In [196]:
# Métodos Ensemble - Classificador de votação
from sklearn.ensemble import VotingClassifier


models = list(zip(names, classifiers))

nltk_ensemble = SklearnClassifier(VotingClassifier(estimators = models, voting = 'hard', n_jobs = -1))
nltk_ensemble.train(training)
print(nltk_model)
accuracy = nltk.classify.accuracy(nltk_model, testing)*100
print(f"Classificador de votação: Accuracy: {accuracy} %")

<SklearnClassifier(SVC(kernel='linear'))>
Classificador de votação: Accuracy: 100.0 %


In [197]:
# fazer previsão de rótulo de classe para conjunto de teste
txt_features, labels = zip(*testing)

prediction = nltk_ensemble.classify_many(txt_features)

In [198]:
print(txt_features[0].keys())
print(txt_features[0].values())

dict_keys(['exmo', 'sr', 'dr', 'juiz', 'vara', 'federal', 'juizado', 'especial', 'seção', 'judiciária', 'rio', 'grande', 'norte', 'rosa', 'maria', 'costa', 'tavares', 'conhecida', 'popularmente', 'brasileira', 'casada', 'agricultora', 'inscrita', 'cpf', 'sob', 'nº', 'residente', 'domiciliada', 'rua', 'manoel', 'corcino', 'filho', 'bairro', 'dom', 'elizeu', 'próximo', 'bar', 'pedro', 'munícipio', 'assú', 'rn', 'cep', 'via', 'advogados', 'formalmente', 'constituídos', 'escritório', 'profissional', 'localizado', 'francisca', 'moura', 'centro', 'joão', 'pessoa', 'estado', 'paraíba', 'tel', 'onde', 'recebem', 'intimações', 'correspondências', 'vem', 'presença', 'v', 'exa', 'propor', 'presente', 'ação', 'restabelecimento', 'benefício', 'previdenciário', 'auxílio', 'doença', 'c', 'conversão', 'aposentadoria', 'invalidez', 'segurada', 'face', 'instituto', 'nacional', 'seguro', 'social', 'inss', 'autarquia', 'sede', 'brasília', 'df', 'representação', 'legnumbral', 'local', 'através', 'gerência'

In [199]:
# imprimir uma matriz de confusão e um relatório de classificação
print(classification_report(labels, prediction))

pd.DataFrame(
    confusion_matrix(labels, prediction),
    index = [['Amostra', 'Amostra'], ['Petição inicial', 'Petição não inicial']],
    columns = [['Previsto', 'Previsto'], ['Petição inicial', 'Petição não inicial']])

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         8
           1       1.00      1.00      1.00         6

    accuracy                           1.00        14
   macro avg       1.00      1.00      1.00        14
weighted avg       1.00      1.00      1.00        14



Unnamed: 0_level_0,Unnamed: 1_level_0,Previsto,Previsto
Unnamed: 0_level_1,Unnamed: 1_level_1,Petição inicial,Petição não inicial
Amostra,Petição inicial,8,0
Amostra,Petição não inicial,0,6


# **Fazendo Upload de arquivos e realizando predição**

In [250]:
# Fazer upload de petição
from google.colab import files
import io, pdftotext
upload = files.upload()
filename = list(upload.keys())[0]
print(filename)

with open(filename, "rb") as f:
    pdf = pdftotext.PDF(f)

texto_documento = "\n\n".join(pdf)


texto_documento = texto_documento.lower()

# tokenizando texto
texto_tokenizado = word_tokenize(texto_documento)

# cria dicionario com informação de palavras do texto submetido, true caso tiver na bag of words, falso caso contrário
dicionario_palavras = {}
for word in texto_tokenizado:
  # só vai entrar no dicionario palavras que já foram definidas na lista de todas as palavras
  if word in all_words:
    dicionario_palavras[word] = (word in word_features)

# nltk_ensemble.classify_many prediz se é 0 ou 1
prediction_teste = nltk_ensemble.classify_many(dicionario_palavras)
print(prediction_teste)
if prediction_teste == [0]:
  print('Seu documento é uma petição inicial.')
else:
  print('Seu documento não é petição inicial.')

Saving 0500789-10.2019.4.05.8403.pdf to 0500789-10.2019.4.05.8403 (7).pdf
0500789-10.2019.4.05.8403.pdf
[0]
Seu documento é uma petição inicial.
