In [1]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score, confusion_matrix
from bi_lstm_crf.app import WordsTagger
from pymongo import MongoClient
from decouple import config
import glob
import os
import re
%reload_ext dotenv
%dotenv

## Load the letters from TXT Files

In [2]:
folder_path = ''.join([os.getcwd(), '/corpus'])
file_path = glob.glob(''.join([folder_path, '/*.txt']))
files = []
for file in file_path:
    with open(file, 'r', encoding='UTF-8') as f:
        files.append(f.read())
files[0]

'\n|:| Corpus Eletrônico de Documento Históricos do Sertão [ CE-DOHS ]\n|:| Zenaide de Oliveira Novais Carneiro\n\n|:| Carta 105-1JJTJ-04-07-1874\n|:| Autor: J. J.Teixeira Junior [Joaquim José Teixeira Junior]\n|:| Destinatário: Excelentissimo Amigo Senhor Conselheiro Martim Francisco Ribeiro de Andrada\n|:| Data: 4 de julho de 1874\n|:| Versão modernizada\n|:| Encoding: UTF-8\n\n Carta 105\n\n AIGHBA . Ant. pasta 38 . Documento contendo três fólios . Papel almaço pardo sem pautas . Monograma impresso no centro da margem superior onde constam três letras “ JJT ” sobrepostas sobre as quais repousa uma flama e , em cima , um pequeno globo . Corrosão por inseto nas margens superior esquerda dos três fólios . Anotação do arquivo na margem superior direita , “ 38 / 16 / 7 / 5580 ” .\n\n Côrte , 4 de Julho de 1874\n\n Excelentíssimo amigo senhor Conselheiro Martim Franco Ribeiro de Andrada\n\n Quando recebi a sua obsequiosa carta por intermédio do senhor doutor Estevão José de Siqueira , tra

## Convert and preprocessing every letter into a dict

In [3]:
dicts = []
for file in files:
    lines  = file.splitlines()
    dicts.append({
        'corpus': lines[1].replace('|:|', '').strip(),
        'author': lines[2].replace('|:|', '').strip(),
        'source': lines[4].replace('|:|', '').strip(),
        'sender': lines[5].replace('|:| Autor: ', '').strip(),
        'recipient': lines[6].replace('|:| Destinatário: ', '').strip(),
        'datetime': lines[7].replace('|:| Data: ', '').strip(),
        'version': lines[8].replace('|:|', '').strip(),
        'encoding': lines[9].replace('|:| Encoding: ', '').strip(),
        'letter': lines[11].replace('Carta ', '').strip(),
        'letter condition': lines[13].strip(),
        'text': ''.join(lines[15:]),
        'preprocessed text': re.sub('\[.+?\]', '', ''.join(lines[15:]))
    })
dicts[0]

{'corpus': 'Corpus Eletrônico de Documento Históricos do Sertão [ CE-DOHS ]',
 'author': 'Zenaide de Oliveira Novais Carneiro',
 'source': 'Carta 105-1JJTJ-04-07-1874',
 'sender': 'J. J.Teixeira Junior [Joaquim José Teixeira Junior]',
 'recipient': 'Excelentissimo Amigo Senhor Conselheiro Martim Francisco Ribeiro de Andrada',
 'datetime': '4 de julho de 1874',
 'version': 'Versão modernizada',
 'encoding': 'UTF-8',
 'letter': '105',
 'letter condition': 'AIGHBA . Ant. pasta 38 . Documento contendo três fólios . Papel almaço pardo sem pautas . Monograma impresso no centro da margem superior onde constam três letras “ JJT ” sobrepostas sobre as quais repousa uma flama e , em cima , um pequeno globo . Corrosão por inseto nas margens superior esquerda dos três fólios . Anotação do arquivo na margem superior direita , “ 38 / 16 / 7 / 5580 ” .',
 'text': ' Côrte , 4 de Julho de 1874 Excelentíssimo amigo senhor Conselheiro Martim Franco Ribeiro de Andrada Quando recebi a sua obsequiosa carta 

## Write the preprocessed letter to be loaded into label studio

In [4]:
for dict_ in dicts:
    with open (f'preprocessed-corpus/{dict_.get("_id")}.txt', 'w', encoding='UTF-8') as f:
        f.write(dict_.get('preprocessed text'))

## The data was previously annotated using label studio and the annotations file was saved using CONLL2003 format. The next step separate the tokens and the tags and add to the dicts

In [5]:
text = []
text_list = []
tags = []
tag_list = []

with open('annotated-corpus/annotated-corpus.conll', 'r', encoding='UTF-8') as f:
    full_text = f.readlines()

for line in full_text[1:]:
    if line != '\n':
        words = line.split()
        tags.append(f'{words[3]}')
        if words[0] == '"':
            text.append(f'\\{words[0]}')
        elif words[0] == '\\':
            text.append(f'\\{words[0]}')
        else:
            text.append(f'{words[0]}')
    else:
            text_list.append(text)
            tag_list.append(tags)
            text = []
            tags = []

for i, dict_ in enumerate(dicts):
    preprop_array = dict_.get('preprocessed text').split()
    #print(preprop_array)
    for j, text in enumerate(text_list):
        if preprop_array[:5] == text[:5]:
            dicts[i]['tokens'] = text_list[j]
            dicts[i]['tags'] = tag_list[j]
dicts[0]          

{'corpus': 'Corpus Eletrônico de Documento Históricos do Sertão [ CE-DOHS ]',
 'author': 'Zenaide de Oliveira Novais Carneiro',
 'source': 'Carta 105-1JJTJ-04-07-1874',
 'sender': 'J. J.Teixeira Junior [Joaquim José Teixeira Junior]',
 'recipient': 'Excelentissimo Amigo Senhor Conselheiro Martim Francisco Ribeiro de Andrada',
 'datetime': '4 de julho de 1874',
 'version': 'Versão modernizada',
 'encoding': 'UTF-8',
 'letter': '105',
 'letter condition': 'AIGHBA . Ant. pasta 38 . Documento contendo três fólios . Papel almaço pardo sem pautas . Monograma impresso no centro da margem superior onde constam três letras “ JJT ” sobrepostas sobre as quais repousa uma flama e , em cima , um pequeno globo . Corrosão por inseto nas margens superior esquerda dos três fólios . Anotação do arquivo na margem superior direita , “ 38 / 16 / 7 / 5580 ” .',
 'text': ' Côrte , 4 de Julho de 1874 Excelentíssimo amigo senhor Conselheiro Martim Franco Ribeiro de Andrada Quando recebi a sua obsequiosa carta 

## Ingesting the Dicts into a Database

In [80]:
username = config('MONGO_USERNAME', default='')
password = config('MONGO_PASSWORD', default='')
client = MongoClient(f"mongodb+srv://{username}:{password}@cluster0.ap5wg.mongodb.net/Letters?retryWrites=true&w=majority")
db = client['Letters']
collection = db['cartasdosertao']
collection.insert_many(dicts)

<pymongo.results.InsertManyResult at 0x7fdbb532bc80>

In [81]:
collection.find_one()

{'_id': ObjectId('614cd2b117a09132a34b15f0'),
 'corpus': 'Corpus Eletrônico de Documento Históricos do Sertão [ CE-DOHS ]',
 'author': 'Zenaide de Oliveira Novais Carneiro',
 'source': 'Carta 105-1JJTJ-04-07-1874',
 'sender': 'J. J.Teixeira Junior [Joaquim José Teixeira Junior]',
 'recipient': 'Excelentissimo Amigo Senhor Conselheiro Martim Francisco Ribeiro de Andrada',
 'datetime': '4 de julho de 1874',
 'version': 'Versão modernizada',
 'encoding': 'UTF-8',
 'letter': '105',
 'letter condition': 'AIGHBA . Ant. pasta 38 . Documento contendo três fólios . Papel almaço pardo sem pautas . Monograma impresso no centro da margem superior onde constam três letras “ JJT ” sobrepostas sobre as quais repousa uma flama e , em cima , um pequeno globo . Corrosão por inseto nas margens superior esquerda dos três fólios . Anotação do arquivo na margem superior direita , “ 38 / 16 / 7 / 5580 ” .',
 'text': ' Côrte , 4 de Julho de 1874 Excelentíssimo amigo senhor Conselheiro Martim Franco Ribeiro de

## Split the data into Train and Test datasets and save them into a format radable by the BILSTM Library

In [6]:
X_train, X_test = train_test_split(dicts, test_size=0.20, random_state=42)

# bilstm-crf library requires the train dataset to be named as dataset.txt
with open ('BILSTM data/dataset.txt', 'w', encoding='UTF-8') as f:
        for document in X_train:
            f.write('[%s]\t[%s]\n' % (', '.join(f'"{token}"' for token in document.get('tokens')),
                                      ', '.join(f'"{tag}"' for tag in document.get('tags'))))

with open ('BILSTM data/test.txt', 'w', encoding='UTF-8') as f:
        for document in X_test:
            f.write('[%s]\t[%s]\n' % (', '.join(f'"{token}"' for token in document.get('tokens')),
                                      ', '.join(f'"{tag}"' for tag in document.get('tags'))))


## Building vocab.json and tags.json, two necessary components for bilstm-crf library

In [7]:
tags = ('B-PER', 'I-PER', 'O')
with open('BILSTM data/tags.json', 'w', encoding='UTF-8') as f:
    f.write('[%s]' % (', '.join(f'"{tag}"' for tag in tags)) )
    
vocab = []
for doc in X_train:
    vocab.extend(doc.get('tokens'))
vocab = list(dict.fromkeys(vocab))
with open('BILSTM data/vocab.json', 'w', encoding='UTF-8') as f:
    f.write('[%s]' % (', '.join(f'"{token}"' for token in vocab)) )

## Run BILSTM Learner

In [13]:
! python -m bi_lstm_crf "BILSTM data" --model_dir "cartas_anon" --num_epoch 500 >> training.txt

parsing BILSTM data/dataset.txt: 166it [00:00, 9510.11it/s]
 1/500 loss: 222.33, val_loss:  0.00: 100%|███████| 1/1 [00:01<00:00,  1.00s/it]
eval: 100%|███████████████████████████████████████| 1/1 [00:00<00:00, 31.15it/s]
 2/500 loss: 216.20, val_loss: 223.34: 100%|██████| 1/1 [00:01<00:00,  1.12s/it]
eval: 100%|███████████████████████████████████████| 1/1 [00:00<00:00, 32.09it/s]
 3/500 loss: 210.05, val_loss: 217.03: 100%|██████| 1/1 [00:01<00:00,  1.08s/it]
eval: 100%|███████████████████████████████████████| 1/1 [00:00<00:00, 34.57it/s]
 4/500 loss: 203.82, val_loss: 210.63: 100%|██████| 1/1 [00:01<00:00,  1.07s/it]
eval: 100%|███████████████████████████████████████| 1/1 [00:00<00:00, 35.68it/s]
 5/500 loss: 197.45, val_loss: 204.09: 100%|██████| 1/1 [00:00<00:00,  1.25it/s]
eval: 100%|███████████████████████████████████████| 1/1 [00:00<00:00, 29.90it/s]
 6/500 loss: 190.85, val_loss: 197.33: 100%|██████| 1/1 [00:01<00:00,  1.11s/it]
eval: 100%|██████████████████████████████████████

## Testing the model

In [14]:
def tags_to_numbers(taglist, tags):
    res = []
    for tag in tags:
        for i, t in enumerate(taglist):
            if t == tag:
                res.append(i)
    return res

In [15]:
test_tokens = []
test_tags = []

for doc in X_test:
    test_tokens.append(doc.get('tokens'))
    test_tags.append(doc.get('tags'))

y_true = []
y_pred = []
for i, token in enumerate(test_tokens):
    true_tags = tags_to_numbers(tags, test_tags[i])
    y_true += true_tags
    model = WordsTagger(model_dir='cartas_anon')
    pred_tags, _ = model([token])
    pred_tokens = tags_to_numbers(tags, pred_tags[0])
    y_pred += pred_tokens

In [16]:
f1 = f1_score(y_true, y_pred, average='micro')
print('Total tokens: ',len(y_true))
print('Total B-NOME: ',y_true.count(0))
print('Total I-NOME: ',y_true.count(1))
print('Total O: ',y_true.count(2))
print('F-Score = ', f1)

Total tokens:  8915
Total B-NOME:  185
Total I-NOME:  173
Total O:  8557
F-Score =  0.9698261357263039


In [17]:
matrix  = confusion_matrix(y_true, y_pred)
matrix

array([[  86,    8,   91],
       [  18,  106,   49],
       [  30,   73, 8454]])