In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
!pip install transformers
!pip install datasets

In [None]:
VERSION = "1.8.1"
!curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
!python pytorch-xla-env-setup.py --version $VERSION

In [None]:
squad_v2 = False
model_checkpoint = "neuralmind/bert-base-portuguese-cased"
batch_size = 4

In [None]:
from datasets import load_dataset, load_metric

In [None]:
# Get dataset SQUAD in Portuguese
!wget --load-cookies /tmp/cookies.txt "https://docs.google.com/uc?export=download&confirm=$(wget --quiet --save-cookies /tmp/cookies.txt --keep-session-cookies --no-check-certificate 'https://docs.google.com/uc?export=download&id=1Q0IaIlv2h2BC468MwUFmUST0EyN7gNkn' -O- | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1\n/p')&id=1Q0IaIlv2h2BC468MwUFmUST0EyN7gNkn" -O squad-pt.tar.gz && rm -rf /tmp/cookies.txt


In [None]:
!tar -xvf squad-pt.tar.gz

In [None]:
%%time
# new

# Get the train and validation json file in the HF script format
# inspiration: file squad.py at https://github.com/huggingface/datasets/tree/master/datasets/squad

import json

files = ['squad-train-v1.1.json','squad-dev-v1.1.json']

for file in files:

    # Opening JSON file & returns JSON object as a dictionary
    f = open(file, encoding="utf-8")
    data = json.load(f)

    # Iterating through the json list
    entry_list = list()
    id_list = list()

    for row in data['data']:
        title = row['title']

        for paragraph in row['paragraphs']:
            context = paragraph['context']

            for qa in paragraph['qas']:
                entry = {}

                qa_id = qa['id']
                question = qa['question']
                answers = qa['answers']

                entry['id'] = qa_id
                entry['title'] = title.strip()
                entry['context'] = context.strip()
                entry['question'] = question.strip()

                answer_starts = [answer["answer_start"] for answer in answers]
                answer_texts = [answer["text"].strip() for answer in answers]
                entry['answers'] = {}
                entry['answers']['answer_start'] = answer_starts
                entry['answers']['text'] = answer_texts

                entry_list.append(entry)

    reverse_entry_list = entry_list[::-1]

    # for entries with same id, keep only last one (corrected texts by he group Deep Learning Brasil)
    unique_ids_list = list()
    unique_entry_list = list()
    for entry in reverse_entry_list:
        qa_id = entry['id']
        if qa_id not in unique_ids_list:
            unique_ids_list.append(qa_id)
            unique_entry_list.append(entry)

    # Closing file
    f.close()

    new_dict = {}
    new_dict['data'] = unique_entry_list

    file_name = 'pt_' + str(file)
    with open(file_name, 'w') as json_file:
        json.dump(new_dict, json_file)

In [None]:
from datasets import load_dataset, load_metric
datasets = load_dataset('json',
                        data_files={'train': 'pt_squad-train-v1.1.json', 'validation': 'pt_squad-dev-v1.1.json'},
                        field='data')

In [None]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=5):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)

    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [None]:
show_random_elements(datasets["train"])

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

In [None]:
max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.

for i, example in enumerate(datasets["train"]):
    if len(tokenizer(example["question"], example["context"])["input_ids"]) > max_length:
        break
example = datasets["train"][i]

print(example)

len(tokenizer(example["question"], example["context"])["input_ids"])

In [None]:
pad_on_right = tokenizer.padding_side == "right"

In [None]:
def prepare_train_features(examples):
    # Tokenize our examples with truncation and padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")
    # The offset mappings will give us a map from token to character position in the original context. This will
    # help us compute the start_positions and end_positions.
    offset_mapping = tokenized_examples.pop("offset_mapping")

    # Let's label those examples!
    tokenized_examples["start_positions"] = []
    tokenized_examples["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        # We will label impossible answers with the index of the CLS token.
        input_ids = tokenized_examples["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        answers = examples["answers"][sample_index]
        # If no answers are given, set the cls_index as answer.
        if len(answers["answer_start"]) == 0:
            tokenized_examples["start_positions"].append(cls_index)
            tokenized_examples["end_positions"].append(cls_index)
        else:
            # Start/end character index of the answer in the text.
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])

            # Start token index of the current span in the text.
            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            # End token index of the current span in the text.
            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            # Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_examples["start_positions"].append(cls_index)
                tokenized_examples["end_positions"].append(cls_index)
            else:
                # Otherwise move the token_start_index and token_end_index to the two ends of the answer.
                # Note: we could go after the last offset if the answer is the last word (edge case).
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_examples["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_examples["end_positions"].append(token_end_index + 1)

    return tokenized_examples

In [None]:
tokenized_datasets = datasets.map(prepare_train_features, batched=True, remove_columns=datasets["train"].column_names)

In [None]:
file_name = str(model_checkpoint).replace('/','-') + '-ric_finetuned-squad-v1.1-pt'

In [None]:
import transformers
from transformers import AutoModelForQuestionAnswering, TrainingArguments, Trainer
import torch_xla.distributed.xla_multiprocessing as xmp

model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

WRAPPED_MODEL = xmp.MpModelWrapper(model)

In [None]:
from transformers import default_data_collator

data_collator = default_data_collator

In [None]:
def training(model):
    args = TrainingArguments(
        f"{file_name}",
        num_train_epochs=4.0,
        evaluation_strategy = "epoch",
        save_strategy = "epoch",
        weight_decay=0.001,
        learning_rate=2e-5,
        per_device_train_batch_size=batch_size,
        per_device_eval_batch_size=batch_size,
        load_best_model_at_end=True,
        metric_for_best_model="eval_loss",
        #save_total_limit=1
    )
    trainer = Trainer(
        model=model,
        args=args,
        train_dataset=tokenized_datasets["train"],
        eval_dataset=tokenized_datasets["validation"],
        data_collator=data_collator,
        tokenizer=tokenizer,
    )
    trainer.place_model_on_device = False
    trainer.train()
    trainer.save_model("model_trained/")
    tokenizer.save_pretrained("model_trained/")

In [None]:
import torch_xla.core.xla_model as xm
import torch_xla.distributed.parallel_loader as pl
import torch_xla.distributed.xla_multiprocessing as xmp
import warnings

warnings.filterwarnings("ignore")

def _mp_fn(index):
    device = xm.xla_device()

    model = WRAPPED_MODEL.to(device)

    training(model)

xmp.spawn(_mp_fn, nprocs=8, start_method="fork")

In [None]:
import pathlib
from pathlib import Path

dest = pathlib.Path.cwd()
fname_HF = 'model_trained'

path_to_model = dest/fname_HF

In [None]:
from transformers import pipeline

model_qa = str(path_to_model)
nlp = pipeline("question-answering", model=model_qa)

In [None]:
context = r"""
Integralização de um curso é quando o estudante cumpre todas as exigências fixadas no Catálogos de cursos.
O sistema de integralização adotado pela Universidade é o de crédito e matrícula por disciplina.
O relatório de Integralização Curricular é publicado na web semestralmente, constando a relação de disciplinas cursadas com suas respectivas informações - se é obrigatória, eletiva ou extracurricular, créditos e nota obtida -, as disciplinas em que o estudante está matriculado atualmente, as disciplinas que ainda precisam ser cursadas e o prazo máximo para conclusão do curso, dentre outras informações.
O estudante pode consultar esse documento no site da DAC, em Integralização Curricular, após logar em Serviços Acadêmicos.
Prazo mínimo e máximo são os tempos mínimo e máximo que o estudante dispõe para a conclusão do curso. O tempo mínimo é igual ao número de períodos fixados pelas Unidades de Ensino na proposta para o cumprimento do Currículo Pleno. O tempo máximo corresponde à soma do tempo mínimo e mais 50% desse período (exemplo: para um curso de 08 semestres de período mínimo, o prazo máximo seria de 12 semestres).
Do tempo máximo de integralização deve ser subtraído o tempo referente a aproveitamento de estudos, dispensas de disciplinas e teste de proficiência. Isso quer dizer que o período máximo pode ser menor do que o estipulado inicialmente quando o estudante solicitar aproveitamento e/ou teste de proficiência.
Caso o estudante solicite trancamento de semestre, o prazo máximo de integralização será acrescido do mesmo número de períodos letivos em que a matrícula esteve trancada. Isso quer dizer que o período máximo será maior que o estipulado inicialmente quando o estudante solicitar trancamento de semestre.
O estudante pode verificar seu prazo de integralização no site da DAC, em Integralização Curricular, após logar em Serviços Acadêmicos.
"""

In [None]:
question = "O que tem no relatório de integralização?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

In [None]:
context = r"""
Certificado de Estudos é o documento que atesta a conclusão de um elenco de disciplinas integrantes de um ramo específico do conhecimento.
O oferecimento de Certificados de Estudos bem como a definição do elenco de disciplinas que os compõem ficam a critério da Coordenadoria de Curso responsável pelas disciplinas envolvidas.
Os Certificados de Estudos são emitidos pela Diretoria Acadêmica (DAC) quando solicitados pelos estudantes regulares ou especiais que forem aprovados em todas as disciplinas exigidas.
Mais informações podem ser obtidas no Regimento Geral dos cursos de Graduação.
Procedimentos: Para solicitar o Certificado de Estudos, o estudante deve protocolar seu pedido pelo sistema e-DAC, utilizando o assunto 'Certificado de Estudos' e citando, no campo de texto, o nome do certificado, o catalogo do qual o certificado faz parte(curso/ano) e as disciplinas foram cursadas para este fim.
Caso seja necessário, a Diretoria Acadêmica(DAC) irá solicitar que a Coordenadoria de Graduação responsável emita um ofício, validando o cumprimento das exigidas. Constatando o cumprimento das exigências, a DAC emitirá o Certificado e avisará quando o mesmo estiver disponível para a retirada.
"""

In [None]:
question = "Como faço para pedir um certificado de estudos?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

In [None]:
context = r"""
Para efeito de cálculo de carga horária, serão atribuídas a cada disciplina unidades de crédito, sendo que cada unidade de crédito corresponde a 15 (quinze) horas/aula, com duração de 15 (quinze) semanas, para as disciplinas semestrais.
O total de créditos a ser cumprido pelo estudante para conclusão do curso será estabelecido pelo Catálogo dos Cursos de Graduação.
Pré-requisitos são condições consideradas indispensáveis para matrícula em disciplinas, podendo ser classificado como:
Pré-requisito pleno: disciplina ou o conjunto de disciplinas em que o estudante deve obter aprovação para matricular-se em outra disciplina.
Pré-requisito parcial: a disciplina ou o conjunto de disciplinas em que o estudante deve obter frequência mínima e média final maior ou igual a 3,0 (três) para matricular-se em outra disciplina.
Pré-requisito especial: condição não atrelada a disciplinas específicas, podendo ser AA4nn - (pela exigência de Coeficiente de Progressão maior ou igual a 0,xx) ou AA200 (por autorização da Coordenadoria que a oferece).
Não é autorizada a utilização da AA200 para disciplinas obrigatórias, devendo os casos excepcionais ser devidamente justificados e remetidos à CCG para apreciação Todos os pré-requisitos exigidos para as disciplinas do curso de graduação constam no Currículo Pleno seguido pelo estudante.
"""

In [None]:
question = "O que é um pré requisito parcial?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

In [None]:
!cp -r model_trained/ drive/MyDrive/model_trained_v30/