# AILAB + LeNER-BR
This jupyter notebook is being develop to integrate the leNER-BR model described in this [article](https://cic.unb.br/~teodecampos/LeNER-Br/luz_etal_propor2018.pdf) with the AILAB text classification pipeline.  

In [7]:
from ailab_ner.lenerbr.ner_model import NERModel
from ailab_ner.lenerbr.config import Config
from ailab_ner.preprocessing import generate_freq_dist_plot, generate_wordcloud
import pandas as pd
from nltk import word_tokenize
from nltk import data
from nltk.tokenize.punkt import PunktSentenceTokenizer
import sys

### Constants

In [8]:
RELATIVE_PATH_TO_FOLDER = "./assets/datasets/"
DATA_FILENAME = "judicial_data"

## Loading raw data

In [9]:
excel_filename = RELATIVE_PATH_TO_FOLDER + DATA_FILENAME + ".csv"
df_raw_data = pd.read_csv(excel_filename)

print(df_raw_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 661 entries, 0 to 660
Data columns (total 24 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Unnamed: 0    661 non-null    int64 
 1   id_documento  661 non-null    int64 
 2   area1         661 non-null    object
 3   tema1         661 non-null    object
 4   subtema1      661 non-null    object
 5   area2         140 non-null    object
 6   tema2         140 non-null    object
 7   subtema2      140 non-null    object
 8   area3         36 non-null     object
 9   tema3         36 non-null     object
 10  subtema3      36 non-null     object
 11  area4         16 non-null     object
 12  tema4         16 non-null     object
 13  subtema4      16 non-null     object
 14  area5         4 non-null      object
 15  tema5         4 non-null      object
 16  subtema5      4 non-null      object
 17  area6         1 non-null      object
 18  tema6         1 non-null      object
 19  subtema6

### Treating data

In [10]:
df_data = pd.DataFrame(data=df_raw_data['body'])
print(df_data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 661 entries, 0 to 660
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   body    661 non-null    object
dtypes: object(1)
memory usage: 5.3+ KB
None


### Sampling data

In [23]:
df_sample = df_data.sample(n=10)
print(df_sample.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 80 to 399
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   body    10 non-null     object
dtypes: object(1)
memory usage: 160.0+ bytes
None


### Data Visualization

In [24]:
print(df_sample.info())
print("Comprimento médio:", df_sample['body'].str.len().mean())
print("Desvio padrão dos comprimentos das peças:", df_sample['body'].str.len().std())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 80 to 399
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   body    10 non-null     object
dtypes: object(1)
memory usage: 160.0+ bytes
None
Comprimento médio: 130101.5
Desvio padrão dos comprimentos das peças: 136650.4691192094


## leNER-BR model

In [26]:
# create instance of config
config = Config()

# build model
if not model:
    model = NERModel(config)
    model.build()
    model.restore_session(config.dir_model)

tokenizer = PunktSentenceTokenizer()

### Listing entities types and preparing variables

In [14]:
TIPOS_ENTIDADES = ['PESSOA', 'TEMPO', 'LOCAL', 'ORGANIZACAO', 'JURISPRUDENCIA', 'LEGISLACAO']
entities_docs_per_sentence_per_type = dict()
person_docs, jurisprudence_docs, time_docs = [], [], []
legislation_docs, organizations_docs, localizations_docs = [], [], []
count_entidades = dict()

for tipo in TIPOS_ENTIDADES:
    count_entidades[tipo] = 0

docs = df_sample['body'].values
tokenizer.train(docs)
print()




### Splicing documents sentences and tokenizing words

In [21]:
%%time
docs_tokenized = []
for doc in docs:
    entitities_in_doc = dict()
    doc_sentences = tokenizer.tokenize(doc)
    tokenized_sentences = []
    for sentence in doc_sentences:
        words = word_tokenize(sentence, language='portuguese')
        tokenized_sentences.append(words)
    docs_tokenized.append(tokenized_sentences)

print("Sentenças dividas em tokens")
print(docs_tokenized[0])

Sentenças dividas em tokens
[['UNICO', 'DOC', ';', "'PRM-JFA-MG", '_61~L/J', ',', 'QJ,3', 'ENV', 'jPRM-JFA-MG', '.J', '!', '1', '!', 'LQ.', ',', 'j', '_r2', '&', 'J3', 'MINISTÉRIO', 'PÚBLICO', "'", 'FEDERAL', '.PROCURADORIA', 'DA', 'REPÚBLICA', 'NO', 'MUNICÍPIO', 'DE', 'JUIZ', 'DE', 'FORA', '-', 'MINAS', 'GERAIS', 'Oficio', 'i50iL', '/2013-', 'MPF/PRM/JF/GAB/OFM', 'Juiz', 'de', 'Fora', ',', '03', 'de', 'outubro', 'de', '2013.', 'l1ustIÍssimo', 'Senhor', 'TRIBUNAL', 'DE', 'CONTAS', 'DA', 'LJI\\IIAO', '~', 'SECRETARIA', 'DE', 'CONTROLE', 'EXTERI', "'", 'W.MG', '!'], ['RUA', 'üAMP', ',', 'NA', "'/ERDE", ',', '~~3', "'", 'I', 'José', 'Reinaldo', 'da', 'Motta', 'SALGADO', 'FILHO', '-', 'CEP', ':', '30550-340', 'PROTOCOLO', 'Secretário', 'de', 'Controle', 'Externo', 'de', 'Minas', 'Gerais', '1', "'", 'I', 'OUT', '.'], ['2013', 'Tribunal', 'de', 'Contas', 'da', 'União', 'em', 'Minas', 'Gerais', 'BELO', 'HORIZONTE', '.'], ['MG', 'Rua', 'Campina', 'Verde', ',', '593', '-', 'Salgado', 'Filho', '

### Using model to identify entities

In [16]:
%%time
docs_labels = []
for doc in docs_tokenized:
    entitities_in_doc = dict()
    label_doc = []
    for token_sentence in doc:
        preds = model.predict(token_sentence)
        label_doc.append(preds)
        for i, word in enumerate(token_sentence):
            ''' Removendo sufixo de tipo de entidades'''
            if preds[i][0:2] in ['B-', 'I-', 'E-', 'S-']:
                preds[i] = preds[i][2:]
            if preds[i] != 'O':
                ent_type = preds[i]
                count_entidades[ent_type] += 1
                if ent_type not in entitities_in_doc.keys():
                    entitities_in_doc[ent_type] = [word]
                else:
                    entitities_in_doc[ent_type].append(word)
        
    ''' Separando cada bolsa de palavras por tipo de entididade '''
    if 'PESSOA' in entitities_in_doc.keys():
        person_docs.append(" ".join(entitities_in_doc['PESSOA']))
    else:
        person_docs.append(" ")

    if 'JURISPRUDENCIA'  in entitities_in_doc.keys():
        jurisprudence_docs.append(" ".join(entitities_in_doc['JURISPRUDENCIA']))
    else:
        jurisprudence_docs.append(" ")

    if 'TEMPO' in entitities_in_doc.keys():
        time_docs.append(" ".join(entitities_in_doc['TEMPO']))
    else:
        time_docs.append(" ")

    if 'LEGISLACAO'  in entitities_in_doc.keys():
        legislation_docs.append(" ".join(entitities_in_doc['LEGISLACAO']))
    else:
        legislation_docs.append(" ")

    if 'ORGANIZACAO'  in entitities_in_doc.keys():
        organizations_docs.append(" ".join(entitities_in_doc['ORGANIZACAO']))
    else:
        organizations_docs.append(" ")

    if 'LOCAL'  in entitities_in_doc.keys():
        localizations_docs.append(" ".join(entitities_in_doc['LOCAL']))
    else:
        localizations_docs.append(" ")

    docs_labels.append(label_doc)
print("Identificação de entidades")

Identificação de entidades
CPU times: user 9min 39s, sys: 23.6 s, total: 10min 3s
Wall time: 4min 53s


### Printing text with entities

In [22]:
bcolors = {
    "PESSOA": '\033[94m',
    "TEMPO": '\033[92m',
    "LOCAL": '\033[93m',
    "ORGANIZACAO": '\033[91m',
    "JURISPRUDENCIA": '\033[35m',
    "LEGISLACAO": '\033[36m',
    "ENDC": '\033[0m',
    "O": ""
}

for entities_sentences, sentences in zip(docs_labels[:2], docs_tokenized[:2]):
    for preds, sentence in zip(entities_sentences[:100], sentences[:100]):
        for index, word in enumerate(sentence):
            print(bcolors[preds[index]] +
                word + bcolors["ENDC"], end=' ')
        print()
    print()

UNICO[0m DOC[0m ;[0m 'PRM-JFA-MG[0m _61~L/J[0m ,[0m QJ,3[0m ENV[0m jPRM-JFA-MG[0m .J[0m ![0m 1[0m ![0m LQ.[0m ,[0m j[0m _r2[0m &[0m J3[0m [91mMINISTÉRIO[0m [91mPÚBLICO[0m '[0m FEDERAL[0m .PROCURADORIA[0m DA[0m REPÚBLICA[0m NO[0m MUNICÍPIO[0m DE[0m JUIZ[0m DE[0m FORA[0m -[0m [93mMINAS[0m [93mGERAIS[0m Oficio[0m i50iL[0m /2013-[0m MPF/PRM/JF/GAB/OFM[0m Juiz[0m de[0m [93mFora[0m ,[0m [92m03[0m [92mde[0m [92moutubro[0m [92mde[0m [92m2013.[0m l1ustIÍssimo[0m Senhor[0m TRIBUNAL[0m DE[0m CONTAS[0m DA[0m LJI\IIAO[0m ~[0m [91mSECRETARIA[0m [91mDE[0m [91mCONTROLE[0m [91mEXTERI[0m '[0m W.MG[0m ![0m 
[93mRUA[0m [93müAMP[0m ,[0m NA[0m '/ERDE[0m ,[0m ~~3[0m '[0m I[0m [94mJosé[0m [94mReinaldo[0m [94mda[0m [94mMotta[0m [94mSALGADO[0m [94mFILHO[0m -[0m CEP[0m :[0m 30550-340[0m PROTOCOLO[0m Secretário[0m de[0m Controle[0m Externo[0m de[0m [93mMinas[0m [93mGerais[0m 1[0m '[0m I[0m OUT[0m 

Mozart[0m [94mGeraldo[0m [94mTeixeira[0m ,[0m nesta[0m cidade[0m ,[0m assumindo[0m o[0m cargo[0m comissionado[0m em[0m [92m05/11/2010[0m ,[0m tendo[0m saído[0m de[0m tal[0m função[0m em[0m data[0m de[0m [92m18/02/2011[0m ;[0m que[0m durante[0m o[0m período[0m em[0m que[0m o[0m declarante[0m permaneceu[0m à[0m frente[0m da[0m gestão[0m do[0m [91mHPS[0m ,[0m percebeu[0m a[0m existência[0m de[0m uma[0m situação[0m ``[0m institucionalizada[0m ''[0m ,[0m em[0m que[0m diversos[0m profissionais[0m médicos[0m cumpriam[0m suas[0m obrigações[0m perante[0m a[0m '[0m [91mSecretaria[0m [91mde[0m [91mSaúde[0m em[0m regime[0m de[0m sobreaviso[0m ,[0m consoante[0m escalas[0m apresentadas[0m ,[0m comparecendo[0m ao[0m nosocômio[0m quando[0m '[0m eram[0m chamados[0m em[0m virtude[0m de[0m emergências[0m ou[0m para[0m formulação[0m de[0m pareceres[0m ;[0m que[0m o[0m HPSsomente[0m possuía[0m o[0m regist

Como[0m o[0m único[0m motivo[0m daquela[0m inabilitação[0m superveniente[0m da[0m [91mCBEMI[0m seria[0m a[0m referida[0m penalidade[0m suspensa[0m pela[0m decisão[0m liminar[0m proferida[0m no[0m [35mMS[0m [35mn°[0m [35m0037924-[0m [35m74.2014.4.01.3400[0m da[0m [91m7a[0m [91mVara[0m [91mFederal[0m [91mdo[0m [91mDistrito[0m [91mFederal[0m ,[0m caberia[0m 5[0m Para[0m verificar[0m as[0m assinaturas[0m ,[0m acesse[0m www.tcu.gov.br/autenticidade[0m ,[0m informando[0m o[0m [36mcódigo[0m [36m51893814.[0m aos[0m agentes[0m do[0m DNIT[0m o[0m restabelecimento[0m da[0m habilitação[0m da[0m [91mCBEMI[0m no[0m RDC[0m Eletrônico[0m n°[0m 612/2013[0m .[0m 
Mas[0m ,[0m curiosamente[0m ,[0m não[0m foi[0m isso[0m que[0m ocorreu[0m .[0m 
O[0m DNIT[0m desconsiderou[0m a[0m decisão[0m judicial[0m e[0m deixou[0m de[0m reintegrar[0m a[0m CBEMI[0m ao[0m certame[0m .[0m 
Por[0m conta[0m desse[0m absurdo[

A[0m questão[0m levantada[0m na[0m presente[0m representação[0m diz[0m respeito[0m a[0m possível[0m irregularidade[0m na[0m desclassificação[0m da[0m licitante[0m pelo[0m órgão[0m ,[0m sob[0m o[0m fundamento[0m de[0m que[0m a[0m mencionada[0m empresa[0m estar[0m ia[0m impedida[0m de[0m licitar[0m com[0m toda[0m a[0m Administração[0m Pública[0m ,[0m em[0m razão[0m de[0m ter[0m sido[0m anteriormente[0m penalizada[0m pela[0m [91mAgência[0m [91mN[0m acionai[0m de[0m Energia[0m Elétrica[0m ~[0m ([0m [91mANEEL[0m )[0m ,[0m suspendendo-[0m a[0m de[0m licitar[0m e[0m contratar[0m com[0m a~[0m 12[0m Para[0m verificar[0m as[0m assinaturas[0m ,[0m acesse[0m www.tcu.gov.br/autenticidade[0m ,[0m informando[0m o[0m código[0m 51893814[0m .[0m 
Administração[0m pelo[0m período[0m de[0m dois[0m anos[0m ,[0m nos[0m termos[0m do[0m art[0m .[0m 
[36m87[0m [36m,[0m [36minciso[0m [36mIII[0m [36m,[0m [36md

## Analysing entities found

In [None]:
df_sample['PESSOA'] = person_docs
df_sample['TEMPO'] = time_docs
df_sample['LOCAL'] = localizations_docs
df_sample['ORGANIZACAO'] = organizations_docs
df_sample['JURISPRUDENCIA'] = jurisprudence_docs
df_sample['LEGISLACAO'] = legislation_docs

In [None]:
for tipo in TIPOS_ENTIDADES:
    print("Quantidade de entidades encontradas do tipo: " + tipo + " - " + str(count_entidades[tipo]))

In [None]:
for column in df_sample.columns:
    print("Entidades do tipo: " + column)
    print(generate_freq_dist_plot(df_sample[column]))
    generate_wordcloud(df_sample[column])

### Storing entities found

In [None]:
"""  Let"s store the data """
excel_filename = RELATIVE_PATH_TO_FOLDER + DATA_FILENAME + "_treated.xlsx"

In [None]:
"""  Convert the dataframe to an xlsx file """
df_sample.to_excel(excel_filename)

print("Stored tread dataset on ", excel_filename)