In [None]:
#Importovanje neophodnih modula iz biblioteke Transformers

from transformers import GPT2LMHeadModel , GPT2Tokenizer 

#Importovanje modula Translator

from googletrans import Translator

In [None]:
#Inicijalizacija GPT-2 tokenizatora sa 'gpt2-large' obučenim modelom

tokenizer = GPT2Tokenizer.from_pretrained('gpt2-large') 

#Inicijalizacija GPT-2 jezičkog modela sa 'gpt2-large' obučenim modelom 

model = GPT2LMHeadModel.from_pretrained('gpt2-large' , pad_token_id = tokenizer.eos_token_id)

In [None]:
#Definisanje teme/pitanja za generisanja novog teksta

input_text = 'What is programming language Python?' 
source_language = 'en'  

In [None]:
# Model efikasno generise tekst na engleskom jeziku, aко је rečenica napisana u nekom drugom jeziku, prevodi se

if source_language != 'en':
    translator = Translator()
    translated_text = translator.translate(input_text, src=source_language, dest='en')
    input_text = translated_text.text

In [None]:
#Enkodiranje unesene rečenice u PyTorch tenzore (niz cijelih brojeva)

input_ids = tokenizer.encode(input_text, return_tensors='pt') 

print(input_ids)
# primjer: 'tensor([[ 2061,   318,  8300,  3303, 11361]])'

In [None]:
#Generisanje novog teksta koristeći GPT-2 model

#Parametri metode generate:

# max_length - maksimalan broj rijeci,
# num_beams - genrise se 5 uzastopnih rijeci sa najvecim prioritetom,
# no_repeat_ngram_size - ista sekvenca se ne ponavlja vise od 2 puta,
# early_stopping - ukoliko dodje do ponavljanja sekvence, generisanje se prekida

output = model.generate(input_ids, max_length = 100, num_beams = 5,no_repeat_ngram_size = 2,early_stopping = True)

In [None]:
#Dekodiranje generisanog izlaza

decoded_output = tokenizer.decode(output[0], skip_special_tokens=True)

In [None]:
# Ukoliko tekst ne završаva tačkom, radi ljepšeg ispisa

if decoded_output.endswith('.'):
    pass
else:
    # Ako posljednja rečenica ne sadrži tačku, briše se
    last_period_index = decoded_output.rfind('.')
    if last_period_index != -1:
        decoded_output = decoded_output[:last_period_index + 1]   

In [None]:
# Prevodjenje teksta u počеtni jezik 

if source_language != 'en':
    translator = Translator()
    translated_text = translator.translate(decoded_output, src='en', dest=source_language)
    decoded_output = translated_text.text

In [None]:
# Ispisivanje generisanog teksta

# Može se desiti greška: 'QUERY LENGTH LIMIT EXCEEDED', kada je dužina ispisa veća od maksimalne dužine koju je naveo API
# Zbog toga, dijenje teksta u manje cjeline
if(len(decoded_output) >= 500):
    parts = [decoded_output[i:i+500] for i in range(0, len(decoded_output), 500)]
    for part in parts:
        print(part, end = '')
else:
    print(decoded_output)