In [144]:
import os

In [145]:
data_dir_path = './data'
data_files = os.listdir(data_dir_path)
data_files = [os.path.join(data_dir_path, f) for f in data_files]
data_files = [f for f in data_files if f.endswith('.json')]

In [146]:
data_files

['./data/train.json', './data/test.json', './data/dev.json']

In [147]:
import numpy as np
import pandas as pd

In [148]:
train_path = [d for d in data_files if 'train' in d][0]
dev_path = [d for d in data_files if 'dev' in d][0]
test_path = [d for d in data_files if 'test' in d][0]

In [149]:
train_df = pd.read_json(train_path, lines=False)
dev_df = pd.read_json(dev_path, lines=False)
test_df = pd.read_json(test_path, lines=False)

In [150]:
tokens, ners = train_df[['tokens', 'ner_tokens']].sum()

tokens = [t for t, n in zip(tokens, ners) if n != 'O']
ners = [n for n in ners if n != 'O']

df_tn = pd.DataFrame({'tokens': tokens, 'ners': ners})

In [151]:
df_tn.groupby('ners').agg(['count', 'nunique'])

Unnamed: 0_level_0,tokens,tokens
Unnamed: 0_level_1,count,nunique
ners,Unnamed: 1_level_2,Unnamed: 2_level_2
B-DATA,259,71
B-EVENTO,9,7
B-FUNDAMENTO,418,45
B-LOCAL,354,163
B-ORGANIZACAO,373,117
B-PESSOA,522,209
B-PRODUTODELEI,193,66
I-DATA,168,35
I-EVENTO,16,13
I-FUNDAMENTO,3535,455


In [152]:
df_tn[df_tn.ners == 'I-PESSOA']

Unnamed: 0,tokens,ners
4,dziedricki,I-PESSOA
55,sampaio,I-PESSOA
59,furlan,I-PESSOA
184,câmara,I-PESSOA
186,carvalho,I-PESSOA
...,...,...
8173,portella,I-PESSOA
8175,faria,I-PESSOA
8176,de,I-PESSOA
8177,sá,I-PESSOA


In [153]:
def filter_ner_tokens(ner, ner_tokens):
    return ['O' if n != ner else ner for n in ner_tokens]

In [154]:
train_df.ner_tokens = train_df.ner_tokens.apply(lambda x: filter_ner_tokens('B-PESSOA', x))
dev_df.ner_tokens = dev_df.ner_tokens.apply(lambda x: filter_ner_tokens('B-PESSOA', x))
test_df.ner_tokens = test_df.ner_tokens.apply(lambda x: filter_ner_tokens('B-PESSOA', x))

In [155]:
train_df.head()

Unnamed: 0,sentences,tokens,ner_tokens
0,"sala das sessões , em de de 2019 .","[sala, das, sessões, ,, em, de, de, 2019, .]","[O, O, O, O, O, O, O, O, O]"
1,da decisão de que trata o § 12 deste artigo ca...,"[da, decisão, de, que, trata, o, §, 12, deste,...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
2,"projeto de lei n.º , de 2017 ( do sr .","[projeto, de, lei, n.º, ,, de, 2017, (, do, sr...","[O, O, O, O, O, O, O, O, O, O, O]"
3,deputado maurício dziedricki p l n .4 6 1 5 / ...,"[deputado, maurício, dziedricki, p, l, n, .4, ...","[B-PESSOA, B-PESSOA, O, O, O, O, O, O, O, O, O..."
4,art . 4º esta lei entra em vigor na data de su...,"[art, ., 4º, esta, lei, entra, em, vigor, na, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O]"


In [156]:
dev_df.head()

Unnamed: 0,sentences,tokens,ner_tokens
0,art . 3º esta lei entra em vigor na data de su...,"[art, ., 3º, esta, lei, entra, em, vigor, na, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O]"
1,o estatuto da juventude votado em outubro de 2...,"[o, estatuto, da, juventude, votado, em, outub...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
2,§ 2º o número telefônico mencionado no caput d...,"[§, 2º, o, número, telefônico, mencionado, no,...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
3,parágrafo único - o exercício da atividade de ...,"[parágrafo, único, -, o, exercício, da, ativid...","[O, O, O, O, O, O, O, O, B-PESSOA, O, O, O, O,..."
4,o chocolate é um alimento altamente energético...,"[o, chocolate, é, um, alimento, altamente, ene...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."


In [157]:
test_df.head()

Unnamed: 0,sentences,tokens,ner_tokens
0,"cremos que estes avisos , afixados em qualquer...","[cremos, que, estes, avisos, ,, afixados, em, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
1,iracema portella ) dispõe sobre os fundamentos...,"[iracema, portella, ), dispõe, sobre, os, fund...","[B-PESSOA, O, O, O, O, O, O, O, O, O, O, O, O,..."
2,deputado hildo rocha,"[deputado, hildo, rocha]","[B-PESSOA, B-PESSOA, O]"
3,"por um lado , há o programa escola aberta do g...","[por, um, lado, ,, há, o, programa, escola, ab...","[O, O, O, O, O, O, O, O, O, O, O, O, O]"
4,esta lei entra em vigor na data de sua publica...,"[esta, lei, entra, em, vigor, na, data, de, su...","[O, O, O, O, O, O, O, O, O, O, O]"


In [158]:
train_df.to_parquet(train_path.replace('.json', '.parquet'), index=False)
dev_df.to_parquet(dev_path.replace('.json', '.parquet'), index=False)
test_df.to_parquet(test_path.replace('.json', '.parquet'), index=False)