In [1]:
import pandas as pd

# Nome do arquivo de origem e destino
arquivo_entrada = "./data/despacho_saneador/treino_amostras_revisao3_231224.csv"   # Arquivo original (CSV, XLSX, JSON, etc.)
arquivo_saida = "tabela_filtrada.jsonl"  # Arquivo de saída JSONL

# Carregar o arquivo (ajuste o método se for Excel ou JSON)
df = pd.read_csv(arquivo_entrada)  # Para CSV
# df = pd.read_excel(arquivo_entrada)  # Para Excel
# df = pd.read_json(arquivo_entrada)  # Para JSON

# Selecionar as colunas desejadas
colunas_desejadas = ["texto", "label_revisada"]  # Modifique conforme necessário
df_filtrado = df[colunas_desejadas]


In [2]:
df_filtrado

Unnamed: 0,texto,label_revisada
0,TRIBUNAL DE JUSTIÇA DO ESTADO DO CEARÁ VARA ÚN...,Despacho ou decisão saneador(a)
1,Processo n 3000725-98.2019.8.06.0075 EXEQUENTE...,Outro
2,ESTADO DO CEARÁ PODER JUDICIÁRIO 9a. UNIDADE D...,Outro
3,DECISÃO Para o fim de prevenir eventual alegaç...,Outro
4,Processo n 3000660-06.2019.8.06.0075 EXEQUENTE...,Outro
...,...,...
83,ks PEREIRA GIONÉDIS fre qr PJ 359714 EXCELENTÍ...,Outro
84,EXMO. SR. DR. JUIZ DE DIREITO DA 22 UNIDADE DO...,Outro
85,1 Erionaldo Otávio Advogados Associados Franci...,Outro
86,EXMO(A). SR(A). JUIZ(A) DE DIREITO DA 18 UNIDA...,Outro


In [6]:
df.label_revisada.value_counts()

label_revisada
Outro                              53
Despacho ou decisão saneador(a)    22
Name: count, dtype: int64

In [4]:
df = df[df["label_revisada"].isin(["Despacho ou decisão saneador(a)", "Outro"])]


In [7]:
df

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,id,tipo_documento_especialista,texto,label,subset,label_revisada,tipo_documento_especialista_3
0,150,150,150,,TRIBUNAL DE JUSTIÇA DO ESTADO DO CEARÁ VARA ÚN...,Despacho ou decisão saneador(a),test,Despacho ou decisão saneador(a),Despacho ou decisão saneador(a)
1,151,151,151,,Processo n 3000725-98.2019.8.06.0075 EXEQUENTE...,Despacho ou decisão saneador(a),test,Outro,Outro
2,152,152,152,,ESTADO DO CEARÁ PODER JUDICIÁRIO 9a. UNIDADE D...,Despacho ou decisão saneador(a),test,Outro,Outro
3,153,153,153,Despacho ou decisão saneador(a),DECISÃO Para o fim de prevenir eventual alegaç...,Despacho ou decisão saneador(a),test,Outro,Outro
4,155,155,155,Despacho ou decisão saneador(a),Processo n 3000660-06.2019.8.06.0075 EXEQUENTE...,Despacho ou decisão saneador(a),test,Outro,Outro
...,...,...,...,...,...,...,...,...,...
83,57,57,57,,ks PEREIRA GIONÉDIS fre qr PJ 359714 EXCELENTÍ...,Contestação,test,Outro,Outro
84,92,92,92,,EXMO. SR. DR. JUIZ DE DIREITO DA 22 UNIDADE DO...,Contestação,test,Outro,Outro
85,77,77,77,,1 Erionaldo Otávio Advogados Associados Franci...,Contestação,test,Outro,Outro
86,298,298,298,,EXMO(A). SR(A). JUIZ(A) DE DIREITO DA 18 UNIDA...,Réplica,test,Outro,Outro


# Training data

In [3]:
import pandas as pd

# Nome do arquivo de origem e destino
arquivo_entrada = "./data/despacho_saneador/treino_amostras_revisao3_231224.csv"
arquivo_saida = "./data/despacho_saneador/dados_json/training_data.jsonl"

# Carregar o arquivo (ajuste o método se for Excel ou JSON)
df = pd.read_csv(arquivo_entrada)  # Para CSV

# Selecionar as colunas desejadas
colunas_desejadas = ["texto", "label_revisada"]
df_filtrado = df[colunas_desejadas]

# Filtrar apenas os rótulos desejados
df_filtrado = df_filtrado[df_filtrado["label_revisada"].isin(["Despacho ou decisão saneador(a)", "Outro"])]

# Substituir valores
df_filtrado["label_revisada"] = df_filtrado["label_revisada"].replace({
    "Despacho ou decisão saneador(a)": 1,
    "Outro": 0
})

# Renomear a coluna
df_filtrado = df_filtrado.rename(columns={"label_revisada": "label"})
df_filtrado = df_filtrado.rename(columns={"texto": "text"})

# Salvar no formato JSONL
df_filtrado.to_json(arquivo_saida, orient="records", lines=True, force_ascii=False)

print(f"Arquivo salvo como {arquivo_saida}")


Arquivo salvo como ./data/despacho_saneador/dados_json/training_data.jsonl


  df_filtrado["label_revisada"] = df_filtrado["label_revisada"].replace({


In [2]:
df_filtrado.label.value_counts()

label
0    53
1    22
Name: count, dtype: int64

# Teste data

In [6]:
import pandas as pd

# Nome do arquivo de origem e destino
arquivo_entrada = "./data/despacho_saneador/teste_despacho_saneador-v6.csv"   # Arquivo original (CSV, XLSX, JSON, etc.)
arquivo_saida = "./data/despacho_saneador/dados_json/test_data.jsonl"  # Arquivo de saída JSONL

# Carregar o arquivo (ajuste o método se for Excel ou JSON)
df = pd.read_csv(arquivo_entrada)  # Para CSV
# df = pd.read_excel(arquivo_entrada)  # Para Excel
# df = pd.read_json(arquivo_entrada)  # Para JSON

# Selecionar as colunas desejadas
colunas_desejadas = ["texto", "label"]  # Modifique conforme necessário
df_filtrado = df[colunas_desejadas]
df_filtrado = df_filtrado[df_filtrado["label"].isin(["Despacho ou decisão saneador(a)", "Outro"])]
df_filtrado["label"] = df_filtrado["label"].replace({
    "Despacho ou decisão saneador(a)": 1,
    "Outro": 0
})
df_filtrado = df_filtrado.rename(columns={"texto": "text"})

# Salvar no formato JSONL
df_filtrado.to_json(arquivo_saida, orient="records", lines=True, force_ascii=False)

print(f"Arquivo salvo como {arquivo_saida}")


Arquivo salvo como ./data/despacho_saneador/dados_json/test_data.jsonl


  df_filtrado["label"] = df_filtrado["label"].replace({


In [3]:
df

Unnamed: 0.1,Unnamed: 0,texto,label,subset,id
0,31,Processo n 3000077-84.2020.8.06.0075 EXEQUENTE...,Despacho ou decisão saneador(a),test,14409
1,5,PODER JUDICIÁRIO DO ESTADO DO CEARÁ Comarca de...,Despacho ou decisão saneador(a),test,14045
2,32,"Vistos e etc., Decisão Saneadora (Art. 357 do ...",Despacho ou decisão saneador(a),test,16180
3,13,DESPACHO/DECISÃO Observo que a parte autora re...,Despacho ou decisão saneador(a),test,21098
4,19,PODER JUDICIÁRIO DO ESTADO DO CEARÁ Comarca de...,Despacho ou decisão saneador(a),test,13560
...,...,...,...,...,...
245,83,ks PEREIRA GIONÉDIS fre qr PJ 359714 EXCELENTÍ...,Outro,,A83
246,84,EXMO. SR. DR. JUIZ DE DIREITO DA 22 UNIDADE DO...,Outro,,A84
247,85,1 Erionaldo Otávio Advogados Associados Franci...,Outro,,A85
248,86,EXMO(A). SR(A). JUIZ(A) DE DIREITO DA 18 UNIDA...,Outro,,A86


In [9]:
df_filtrado.label.value_counts()

label
0    53
1    50
Name: count, dtype: int64