# 1.0 Um problema de classificação de ponta-a-ponta usando NLP


## 1.1 Descrição do dataset

O dataset contém informações gerais de 5.000 processos julgados
nos Juizados Especiais Federais dentro das Seções Judiciárias do Tribunal Regional Federal da 5a Região (https://www.trf5.jus.br). Os dados são oriundos da raspagem da consulta pública processual. Além disso, ele possui 46 colunas, das quais duas possuem texto livre:
"conteudo_sentenca" e "conteudo_acordao".

O dataset pode ser baixado no link a seguir: https://jacob.al/dataset_juizados 

Ao longo dos notebooks, vão ser realizados os seguintes passos:

1. Importação do dataset
2. Análise exploratória dos dados
3. Pré-processamento
4. Verificação dos dados
5. Segregação dos dados
6. Treinamento
7. Teste

<center><img width="600" src="https://drive.google.com/uc?export=view&id=1fKGuR5U5ECf7On6Zo1UWzAIWZrMmZnGc"></center>


## 1.2 Instalação e carregamento das bilbiotecas

In [None]:
!pip install wandb

In [None]:
import wandb
import pandas as pd

## 1.3 Importação dos dados

### 1.3.1 Criação do artefato raw_data

OBS.: Importe o arquivo 'sample.parquet' para o colab

In [None]:
# importing the dataset
df = pd.read_parquet("sample.parquet");
df.head()

Unnamed: 0,num_processo,data_ajuizamento,data_primeira_movimentacao_processual,data_ultima_movimentacao,autor,reu,tutela_antecipada,vara,titular_substituto,classe_atual,...,resultado_1_grau,conteudo_sentenca,n_dias_ate_sentenca,n_tokens_sentenca,relator_acordao,data_sessao_tr,data_acordao,conteudo_acordao,resultado_2_grau,n_tokens_acordao
0,0500454-62.2017.4.05.8402,2017-03-06,2017-03-06 11:01:00,2017-10-30 10:07:00,Lourival Francisco da Silva (027.173.384-54)\n...,Fazenda Nacional (00.394.460/0239-40)\nMunicíp...,N,9-RN,Titular,Execução de Título Judicial,...,PROCEDENTE,SENTENÇA 1. Relatório Cuida-se de ação propost...,76.307593,1309,Almiro José da Rocha Lemos,2017-08-09 09:00:00,2017-08-14 10:46:34,PROCESSO 0500454-62.2017.4.05.8402 EMENTA:DIR...,NÃO PROVIMENTO,381.0
1,0517700-16.2013.4.05.8013,2013-10-09,2013-10-09 20:54:00,NaT,MARIA LUCIA CARDOSO (382.242.084-00)\nEmanuel ...,Caixa Econômica Federal (00.360.305/0001-04),N,9-AL,Titular,Procedimento do Juizado Especial Cível,...,EXTINTO SEM MÉRITO,"SENTENÇA Trata-se de ação especial cível, em c...",20.844491,263,,NaT,NaT,,,0.1
2,0502388-07.2007.4.05.8305,2007-07-13,2007-07-13 13:51:00,NaT,QUITÉRIA BARBOSA DA SILVA NASCIMENTO (062.819....,Instituto Nacional do Seguro Social - INSS (29...,N,23-PE,Titular,Procedimento do Juizado Especial Cível,...,EXTINTO SEM MÉRITO,SENTENÇA Vistos etc. Trata-se de ação especial...,143.822245,956,,NaT,NaT,,,0.1
3,0503551-02.2014.4.05.8103,2014-04-02,2014-04-02 11:02:00,NaT,Emanuela Carneiro Tabosa (777.839.723-49)\nBru...,UNIÃO (FAZENDA NACIONAL) - Procuradoria da Faz...,N,19-CE,Titular,Procedimento do Juizado Especial Cível,...,PROCEDENTE,SENTENÇA I - RELATÓRIO Cuida-se de ação em que...,21.360567,3037,CÍNTIA MENEZES BRUNETTA,2014-06-25 13:30:00,2014-06-27 16:14:43,"VOTO Relatório dispensado, nos termos do art. ...",NÃO PROVIMENTO,1214.0
4,0503488-94.2016.4.05.8300,2016-03-21,2016-03-21 11:04:00,2019-02-19 13:16:00,Lúcio Flavio de Lima Albuquerque (095.403.004-...,ANGELA MARIA DO NASCIMENTO SILVA (157.771.544-...,N,19-PE,Substituto,Procedimento do Juizado Especial Cível,...,IMPROCEDENTE,SENTENÇA Tipo A I – RELATÓRIO Dispensado o rel...,784.066493,2099,Joaquim Lustosa Filho,2018-06-19 10:00:00,2018-06-19 15:01:56,EMENTA PREVIDENCIÁRIO. PENSÃO POR MORTE. PROVA...,NÃO PROVIMENTO,1962.0


In [None]:
df.to_csv("raw_data.csv",index=False)

In [None]:
# Login no Weights & Biases
!wandb login --relogin

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter, or press ctrl+c to quit: 
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


In [None]:
# Enviar o artefato raw_data.csv para o Wandb
!wandb artifact put \
      --name nlp_bolsa/raw_data.csv \
      --type raw_data \
      --description "Artefato com o dado bruto do dataset jurídico" raw_data.csv

[34m[1mwandb[0m: Uploading file raw_data.csv to: "morsinaldo/nlp_bolsa/raw_data.csv:latest" (raw_data)
[34m[1mwandb[0m: Currently logged in as: [33mmorsinaldo[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Tracking run with wandb version 0.12.21
[34m[1mwandb[0m: Run data is saved locally in [35m[1m/content/wandb/run-20220716_203743-oy52fdnf[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
[34m[1mwandb[0m: Syncing run [33mabsurd-music-1[0m
[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/morsinaldo/nlp_bolsa[0m
[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/morsinaldo/nlp_bolsa/runs/oy52fdnf[0m
Artifact uploaded, use this artifact in a run by adding:

    artifact = run.use_artifact("morsinaldo/nlp_bolsa/raw_data.csv:latest")

[34m[1mwandb[0m: Waiting for W&B process to finish... [32m(success).[0m
[34m[1mwandb[0m:                                                                 