In [1]:
from google.colab import drive

drive.mount('/content/gdrive')

Mounted at /content/gdrive


## install the necessary libraries

In [2]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.15.0-py3-none-any.whl (3.4 MB)
[K     |████████████████████████████████| 3.4 MB 5.4 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.47-py2.py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 52.4 MB/s 
Collecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 46.4 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 55.1 MB/s 
Collecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.4.0-py3-none-any.whl (67 kB)
[K     |████████████████████████████████| 67 kB 4.4 MB/s 
Installing collected packages: pyyaml, tokenizers, sacremoses, huggingface-hub, transformers
  Attempt

## import the libraries

In [3]:
import tensorflow as tf
import os

from transformers import TFGPT2LMHeadModel, GPT2Tokenizer


## set the filepath of the model

In [4]:
save_path = 'gdrive/MyDrive/project/model'

## load the trained model 

In [5]:
# loading tokenizer from the saved model path
tokenizer = GPT2Tokenizer.from_pretrained(save_path)
tokenizer.add_special_tokens({
  "eos_token": "</s>",
  "bos_token": "<s>",
  "unk_token": "<unk>",
  "pad_token": "<pad>",
  "mask_token": "<mask>"
})

# loading pretrained model
model = TFGPT2LMHeadModel.from_pretrained(save_path)

All model checkpoint layers were used when initializing TFGPT2LMHeadModel.

All the layers of TFGPT2LMHeadModel were initialized from the model checkpoint at gdrive/MyDrive/project/model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2LMHeadModel for predictions without further training.


## generate short stories

In [6]:
text = "Μια φορά και έναν καιρό, "
# encoding the input text
input_ids = tokenizer.encode(text, return_tensors='tf')

# getting out output
beam_output = model.generate(
  input_ids,
  max_length = 100,
  num_beams = 10,
  temperature = 0.7,
  no_repeat_ngram_size=1,
  num_return_sequences=10,
  repetition_penalty=1.5,
  skip_special_tokens = True,
  clean_up_tokenization = True,
  early_stopping = True
)

print(tokenizer.decode(beam_output[0]))

Setting `pad_token_id` to 2 (first `eos_token_id`) to generate sequence


Μια φορά και έναν καιρό,  σε ένα κουνελάκι που έκανε την πρώτη μέρα ήτανε πολύ έξυπνο. Το κοριτσάκι χτύπησε με ανοιχτό το κεφάλι της στον μπαμπά του: Τι λες; Θέλεις να μου πεις πως είναι έτσι πραγματικά ωραία εδώ μέσα;, ρώτησε η αρκουδίτσα μας!, είπε κάπως πιο όμορφα!Και ζήσαν αυτοί καλά κι εμείς καλύτερα...Η κατσίκα αυτή στην κορυφήτης δεν είχε ακούσει τόσα χρόνια όταν ήρθε μια βραδιάυε καθόλου όμορφη ζωή τους τον κόσμο από τα ποντίκια χωρίς έκαναν παρέα σήμερα μάλιστα κατάλαβαν τι κάνει για τη μαμά
