In [1]:
import os
import json
from pathlib import Path

from transformers import TFGPT2LMHeadModel, GPT2Tokenizer

2021-07-18 18:24:49.641478: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.11.0


## Generate text of news

In [2]:
def generate_paragraph(path_model: str, path_tokenizer: str, index_news: int, path_log: str) -> None:
    path_dataset_test = '../../dataset/digi24/split/test.json'
    tokenizer = GPT2Tokenizer.from_pretrained(path_tokenizer)
    model = TFGPT2LMHeadModel.from_pretrained(path_model)

    with open(path_dataset_test, 'r') as input_file:
        data = json.load(input_file)

    if index_news > len(data) - 1:
        print(f'Error, max index is: {len(data) - 1}')
        return

    example = data[index_news]
    title = example['title']
    text = ' '.join(example['text'][:-1])
    original_text = example['text'][-1]
    inputs_text = f'Text: {title} {text} Continuation:'

    tokens_input = tokenizer.encode(inputs_text, return_tensors='tf')
    tokens_predict = model.generate(tokens_input, max_length=1024, no_repeat_ngram_size=2)[0][len(tokens_input[0]):]
    predict_text = tokenizer.decode(tokens_predict)

    Path(os.path.dirname(path_log)).mkdir(parents=True, exist_ok=True)
    with open(path_log, 'w+') as output_file:
        output_file.write(f"Input:\t{inputs_text}\n")
        output_file.write(f"Predict:\t{predict_text}\n")
        output_file.write(f"Original:\t{original_text}\n")

    print(f"Input:\t{inputs_text}\n")
    print(f"Predict:\t{predict_text}\n")
    print(f"Original:\t{original_text}\n")

Examples

In [4]:
generate_paragraph('../../model/news/paragraph/large', '../../model/tokenizer', 1150, '../../log/news/1150.txt')

All model checkpoint layers were used when initializing TFGPT2LMHeadModel.

All the layers of TFGPT2LMHeadModel were initialized from the model checkpoint at ../../model/news/paragraph/large.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2LMHeadModel for predictions without further training.
Setting `pad_token_id` to 0 (first `eos_token_id`) to generate sequence


Input:	Text: Victor Ponta: Traian Băsescu se joacă cu prestigiul României Sunt acţiuni total nepotrivite în acest context, spune şeful statului. "Este o minciună electorală", a fost replica premierului. De asemenea, Traian Băsescu îl acuză pe Victor Ponta că nu a avut niciun fel de reacţie în faţa abuzurilor Rusiei la adresa Ucrainei. Traian Băsescu respinge declaraţia ministrului de Externe, Titus Corlăţean, care a spus că şi preşedintele ar pregăti o întâlnire cu Vladimir Putin. Şeful statului susţine că o întâlnire cu Vladimir Putin nu este oportună, atâta vreme cât la nivelul statelor Uniunii Europene s-a luat o decizie în acest sens. „Este luată o decizie să nu mai existe discuţii politice la nivel înalt şi la cel mai înalt nivel. Ar fi nepotrivită. Sper să nu se materializeze, măcar şi din motive de oportunitate”, a afirmat Traian Băsescu. Premierul Victor Ponta a infirmat, în cadrul unei emisiuni televizate, că ar avea vreo intenţie să îi facă o vizită liderului de la Kremlin şi

In [5]:
generate_paragraph('../../model/news/paragraph/large', '../../model/tokenizer', 231, '../../log/news/231.txt')

All model checkpoint layers were used when initializing TFGPT2LMHeadModel.

All the layers of TFGPT2LMHeadModel were initialized from the model checkpoint at ../../model/news/paragraph/large.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2LMHeadModel for predictions without further training.
Setting `pad_token_id` to 0 (first `eos_token_id`) to generate sequence


Input:	Text: Poliția Română: 12 tone de articole pirotehnice au fost ridicate în urma perchezițiilor de dimineață din Prahova Foto: Agerpres „La data de 24 decembrie a.c., polițiștii Inspectoratului de Poliție Județean Prahova au desfășurat 8 percheziţii domiciliare și la sediul unei societăți comerciale, în județul Prahova. Din cercetări, a reieșit că reprezentanții unei societăți comerciale, cu sediul social în Târgșoru Vechi, ar fi importat legal articole pirotehnice din Bulgaria, pe care le-ar fi depozitat într-un spațiu neautorizat. Ulterior, aceste produse ar fi fost comercializate unor persoane fizice neautorizate din municipiul București și județele Prahova, Brăila, Ilfov și Iași. Actele de comerț nu ar fi fost evidențiate în contabilitate, reprezentanții firmei sustrăgându-se, în acest mod, de la plata impozitelor și taxelor datorate bugetului statului. În urma perchezițiilor, au fost ridicate în vederea continuării cercetărilor 12 tone de articole pirotehnice, din categoriile

In [6]:
generate_paragraph('../../model/news/paragraph/large', '../../model/tokenizer', 444, '../../log/news/444.txt')

All model checkpoint layers were used when initializing TFGPT2LMHeadModel.

All the layers of TFGPT2LMHeadModel were initialized from the model checkpoint at ../../model/news/paragraph/large.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2LMHeadModel for predictions without further training.
Setting `pad_token_id` to 0 (first `eos_token_id`) to generate sequence


Input:	Text: Adrian Năstase ia în calcul renunţarea la cetăţenia română „Am discutat în familie aceste aspecte, se pare că ar fi o ultimă soluţie de a renunţa la cetăţenia română. Considerăm că asta s-a urmărit prin acea pedeapsă complementară, eliminarea lui din viaţa politică. Cred că i-am urma exemplul, eu şi fratele meu”, a spus Andrei Năstase. Continuation:

Predict:	 „În momentul în care voi avea o decizie definitivă, voi face demersurile legale pentru a solicita cetăţenia. Nu am renunţat la cetăţenie, nu renunţ la nimic. Consider că este o chestiune de principiu, o problemă de moralitate. Am fost condamnat pentru o faptă de corupţie, iar acest lucru nu mă împiedică să îmi exercit drepturile cetăţeneşti. Dacă voi fi declarat incompatibil, îmi voi pierde mandatul de parlamentar”, este opinia lui Andrei Nastase. <|endoftext|>

Original:	Vorbind despre tatăl său, Andrei Năstase l-a descris ca fiind drept „un om care şi-a dedicat viaţa pentru ţara lui punând în planul doi familia, pr