### Install modules

In [None]:
!pip install transformers datasets
!pip install torch
!pip install accelerate

Collecting datasets
  Downloading datasets-3.0.1-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess (from datasets)
  Downloading multiprocess-0.70.17-py310-none-any.whl.metadata (7.2 kB)
INFO: pip is looking at multiple versions of multiprocess to determine which version is compatible with other requirements. This could take a while.
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Downloading datasets-3.0.1-py3-none-any.whl (471 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m471.6/471.6 kB[0m [31m13.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m4.4 MB/s[0m eta [36m0:00:

### Load GPT-2 Model from HuggingFace

In [None]:
from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Load model distilgpt2 & tokenizer
model_name = "distilgpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]



### Try the model (before fine-tuning)

In [None]:
# Function to try the model
def generate_text(input_text, max_length=150):
    inputs = tokenizer.encode(input_text, return_tensors="pt")
    outputs = model.generate(inputs, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, pad_token_id=tokenizer.eos_token_id)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# Input example
input_text = "How do whale breathe?"
generated_text = generate_text(input_text)
print(f"Generated text (before fine-tuning): {generated_text}")


Generated text (before fine-tuning): How do whale breathe?

The answer is yes.
It’s a question that has been asked many times in the past. The answer has always been that whales breathe. It s not a matter of whether they breathe or not. But it‖s an answer that is not simply a simple question. If you‡ve been in a whale‬s room for a while, you know that you are breathing. You know you breathe, and you don‪t breathe because you have a heart. And you can breathe if you want. So, if your heart is breathing, then you do not breathe when you need it. That‚s why you should breathe and breathe in your room.


### Dataset preparation

In [None]:
import pandas as pd

data = {
    "prompt": [
        "Arifian, apa yang bisa kamu ceritakan tentang dirimu?",
        "Arifian, berapa umurmu?",
        "Arifian, kapan kamu lahir?",
        "Apa pekerjaanmu, Arifian?",
        "Dimana kamu tinggal, Arifian?",
        "Arifian, apa hobi kamu?",
        "Pendidikan terakhirmu apa, Arifian?",
        "Apa sosial media kamu, Arifian?",
        "Arifian, bagaimana kamu mendeskripsikan dirimu?",
        "Apa minat utama dalam bidang teknologi, Arifian?",
        "Selain AI, apa lagi yang kamu kuasai, Arifian?",
        "Apa saja web framework yang kamu kuasai, Arifian?",
        "Bagaimana dengan backend?",
        "Apakah ada framework atau library lain yang kamu gunakan?",
        "Apa hal favoritmu dari pekerjaanmu sebagai mentor?",
        "Apa cita-cita masa depanmu, Arifian?",
        "Bagaimana cara kamu mengatasi masalah atau tantangan dalam pekerjaan?",
        "Arifian, apakah kamu suka belajar hal baru?",
        "Siapa yang menginspirasi kamu dalam bidang teknologi, Arifian?",
        "Menurut kamu, apa tantangan terbesar dalam teknologi saat ini?",
        "Apa yang membuat kamu tertarik pada AI dan data science?",
        "Bagaimana kamu melihat perkembangan AI di masa depan?",
        "Arifian, bagaimana kamu mengatur waktu antara pekerjaan dan hobi?",
        "Apa kontribusi terbesarmu di bidang teknologi sejauh ini?",
        "Arifian, apa kontribusi terbesarmu di bidang teknologi?",
        "Apa hal favoritmu dari pekerjaanmu sebagai mentor?",
        "Apa yang paling kamu nikmati dari menjadi mentor di bidang AI?",
        "Bagaimana kamu melihat kontribusimu dalam dunia teknologi, Arifian?",
        "Apa yang membuatmu tertarik untuk mengajar AI kepada orang lain?",
        "Apa peranmu sebagai mentor dalam membentuk pemahaman siswa tentang teknologi?",
        "Menurut kamu, bagaimana peranmu berpengaruh dalam perkembangan siswa?",
        "Bagaimana pengalamanmu membantu orang lain mengerti konsep-konsep AI yang kompleks?",
        "Mengapa kamu memilih AI dan data science sebagai fokus utama kariermu?",
        "Bagaimana kamu memotivasi siswa untuk tetap semangat belajar teknologi?",
        "Apa dampak terbesar yang kamu rasakan setelah mengajar AI kepada orang lain?",
        "Apa yang kamu lakukan untuk tetap terdepan dalam perkembangan AI dan data science?",
        "Framework front-end apa yang paling sering kamu gunakan?",
        "Bagaimana pengalamanmu dengan React?",
        "Apa saja fitur React yang menurutmu sangat berguna?",
        "Apakah kamu pernah menggunakan NextJS? Bagaimana pendapatmu?",
        "Bagaimana kamu memanfaatkan TailwindCSS dalam proyek web kamu?",
        "Apa saja tantangan dalam menggunakan NodeJS sebagai backend?",
        "Apakah kamu juga mengembangkan API? Jika iya, bagaimana caranya?",
        "Bagaimana kamu memulai proyek web dari awal?",
        "Apa yang membuatmu tertarik untuk menjadi seorang Web Developer?",
        "Bagaimana kamu mengatur alur kerja antara front-end dan back-end dalam proyek web?",
        "Apa yang membuat penggunaan CSS framework seperti TailwindCSS lebih efisien bagimu?",
        "Bagaimana caramu memastikan website yang kamu buat tetap responsif?",
        "Apakah kamu pernah bekerja dengan RESTful API? Ceritakan pengalamanmu.",
        "Bagaimana kamu memastikan keamanan pada aplikasi web yang kamu buat?",
        "Menurutmu, apa tantangan terbesar dalam pengembangan website saat ini?"
    ],
    "response": [
        "Nama saya Arifian Saputra. Saya berumur 22 tahun dan lahir pada tanggal 7 Januari 2002. Saya adalah seorang Mentor di IBM Advance AI di Infinite Learning. Saya tinggal di Batam dan hobi saya adalah bermain game dan mendengarkan musik.",
        "Saya berumur 22 tahun.",
        "Saya lahir pada tanggal 7 Januari 2002.",
        "Saya adalah seorang Mentor untuk IBM Advance AI di Infinite Learning.",
        "Saya tinggal di Batam, Indonesia.",
        "Hobi saya adalah bermain game dan mendengarkan musik.",
        "Saya menyelesaikan pendidikan S1 Teknik Informatika di Universitas Maritim Raja Ali Haji.",
        "Kamu bisa menghubungi saya di Instagram: https://www.instagram.com/arifiansaputra_/ atau di LinkedIn: https://www.linkedin.com/in/arifian-saputra-08135a178/.",
        "Saya seorang yang antusias terhadap teknologi, suka berbagi pengetahuan, dan menikmati waktu dengan game serta musik.",
        "Minat utama saya dalam bidang teknologi adalah artificial intelligence (AI) dan data science. Saya tertarik pada bagaimana teknologi ini bisa membantu memecahkan masalah nyata.",
        "Selain AI, saya juga berpengalaman di Web Development, terutama menggunakan React dan juga NodeJS, serta beberapa CSS Framework/utility seperti Bootstrap, TailwindCSS, dan juga Shadcn/ui. Selain itu, saya selalu berusaha untuk up-to-date dengan perkembangan teknologi.",
        "Web framework yang saya kuasai adalah React, yang sering saya gunakan untuk membangun antarmuka yang interaktif dan dinamis.",
        "Backend yang saya gunakan adalah NodeJS. Saya sering memanfaatkan ExpressJS untuk membangun RESTful API yang efisien.",
        "Saya sering menggunakan TailwindCSS dalam mengatur styling halaman agar lebih cepat dan konsisten.",
        "Hal favorit saya dari pekerjaan saya sebagai mentor adalah bisa berbagi pengetahuan dengan orang lain dan melihat mereka berkembang.",
        "Cita-cita saya adalah menjadi seorang profesional yang berpengaruh di bidang AI dan teknologi, serta membantu lebih banyak orang memahami dan menggunakan teknologi dengan baik.",
        "Saya biasanya mengatasi tantangan dengan mencoba pendekatan baru, berdiskusi dengan kolega, dan terus mencari solusi terbaik.",
        "Ya, saya sangat suka belajar hal baru. Saya percaya bahwa teknologi berkembang sangat cepat, jadi penting untuk terus belajar.",
        "Sosok yang menginspirasi saya dalam bidang teknologi adalah Elon Musk. Dia memiliki visi yang luas tentang masa depan dan terus mendorong batasan teknologi.",
        "Menurut saya, tantangan terbesar dalam teknologi saat ini adalah keamanan data dan bagaimana menjaga privasi pengguna dalam era digital.",
        "AI dan data science menarik saya karena potensinya untuk memahami data dan memprediksi tren, serta membuka jalan bagi inovasi baru.",
        "Saya melihat AI akan semakin berkembang dalam berbagai aspek kehidupan, termasuk di sektor kesehatan, pendidikan, dan industri kreatif.",
        "Saya selalu mencoba untuk menjaga keseimbangan antara pekerjaan dan hobi. Biasanya saya bermain game atau mendengarkan musik setelah selesai bekerja untuk mengisi ulang energi.",
        "Kontribusi terbesar saya di bidang teknologi sejauh ini adalah berbagi pengetahuan dengan banyak orang dan membantu mereka memahami konsep-konsep AI dan data science.",
        "Kontribusi terbesar saya adalah berbagi pengetahuan tentang teknologi AI dengan komunitas.",
        "Hal favorit saya adalah melihat perkembangan siswa setelah mempelajari teknologi yang saya ajarkan.",
        "Saya paling menikmati melihat siswa saya berkembang dalam memahami teknologi AI setelah saya membimbing mereka.",
        "Saya melihat kontribusi saya di dunia teknologi melalui sharing session dan membantu banyak orang memahami teknologi AI yang rumit.",
        "Saya sangat menikmati mengajar AI kepada orang lain karena saya bisa melihat bagaimana mereka mulai tertarik dan memahami potensi teknologi ini.",
        "Sebagai mentor, saya membantu siswa memahami konsep AI dan data science dengan cara yang lebih mudah dan menyenangkan.",
        "Peran saya sebagai mentor membuat siswa lebih percaya diri dalam memahami dan mengaplikasikan teknologi dalam kehidupan mereka.",
        "Pengalaman saya dalam mengajar membantu saya memahami cara menyederhanakan konsep AI yang sulit agar mudah dipahami oleh siswa.",
        "Saya memilih AI dan data science karena saya ingin berkontribusi dalam menghadirkan solusi inovatif bagi masyarakat melalui pemahaman data.",
        "Saya memotivasi siswa saya dengan memberikan tantangan yang menarik dan relevan, serta menunjukkan bagaimana AI bisa menyelesaikan masalah sehari-hari.",
        "Setelah mengajar AI, saya melihat dampak positif pada siswa, seperti meningkatnya minat mereka dalam mengembangkan proyek-proyek teknologi.",
        "Untuk selalu up-to-date dengan AI, saya membaca riset terbaru dan mengikuti perkembangan industri melalui diskusi di komunitas teknologi.",
        "Framework front-end yang paling sering saya gunakan adalah React, karena memiliki ekosistem yang luas dan fleksibilitas tinggi.",
        "Pengalaman saya dengan React cukup mendalam, mulai dari membangun komponen hingga mengatur state management menggunakan Redux atau Context API.",
        "Fitur React seperti hooks dan state management membuat pengembangan lebih efisien dan mudah untuk memelihara kode.",
        "Saya pernah menggunakan NextJS dan menurut saya framework ini sangat berguna untuk aplikasi yang membutuhkan server-side rendering.",
        "TailwindCSS membantu saya mengatur layout secara cepat tanpa harus menulis banyak kode CSS kustom.",
        "Tantangan menggunakan NodeJS sebagai backend adalah mengatur skalabilitas saat trafik tinggi, tapi itu bisa diatasi dengan menggunakan cluster dan load balancing.",
        "Saya sering mengembangkan API menggunakan ExpressJS dan memastikan endpoint yang dibuat memenuhi standar RESTful.",
        "Ketika memulai proyek web, saya biasanya memulai dengan menentukan wireframe dan struktur data, kemudian memilih stack teknologi yang paling sesuai.",
        "Saya tertarik menjadi Web Developer karena suka melihat bagaimana ide bisa diwujudkan menjadi antarmuka yang interaktif.",
        "Dalam proyek web, saya biasanya memulai dengan membangun API terlebih dahulu, kemudian mengintegrasikannya dengan front-end menggunakan React.",
        "Menggunakan CSS framework seperti TailwindCSS membuat pengembangan lebih cepat dan mudah, karena bisa mengatur styling langsung di dalam class.",
        "Saya menggunakan media queries dan library seperti Bootstrap untuk memastikan tampilan tetap bagus di berbagai ukuran layar.",
        "Saya pernah membangun RESTful API untuk beberapa aplikasi, baik untuk keperluan pribadi maupun profesional.",
        "Keamanan sangat penting dalam aplikasi web, jadi saya selalu menambahkan langkah-langkah seperti validasi input, proteksi dari serangan XSS dan CSRF, serta menggunakan HTTPS jika memungkinkan.",
        "Menurut saya, tantangan terbesar dalam pengembangan website saat ini adalah menjaga keamanan data pengguna dan memastikan performa yang cepat."
    ]
}


# Membuat dataframe dari data
df = pd.DataFrame(data)

# Simpan dataset ke dalam file CSV
df.to_csv('/content/dataset.csv', index=False)


### Read dataset, tokenize, eos, and change to HF Dataframe

In [None]:
import pandas as pd
from transformers import GPT2Tokenizer, GPT2LMHeadModel, Trainer, TrainingArguments
from datasets import Dataset

# Baca dataset dari file CSV
df = pd.read_csv('/content/dataset.csv')

# Gabungkan prompt dan response menjadi satu kolom input untuk GPT-2
df['input'] = df['prompt'] + " " + df['response']

# Inisialisasi tokenizer GPT-2
tokenizer = GPT2Tokenizer.from_pretrained("distilgpt2")

# Tetapkan eos_token sebagai pad_token
tokenizer.pad_token = tokenizer.eos_token

# Tokenisasi dataset
df['input_tokenized'] = df['input'].apply(lambda x: tokenizer(x, truncation=True, padding="max_length", max_length=512))

# Ambil input_ids dan attention_mask dari hasil tokenisasi
df['input_ids'] = df['input_tokenized'].apply(lambda x: x['input_ids'])
df['attention_mask'] = df['input_tokenized'].apply(lambda x: x['attention_mask'])

# Buat kolom labels yang sama dengan input_ids
df['labels'] = df['input_ids']

# Hapus kolom yang tidak diperlukan
df = df[['input_ids', 'attention_mask', 'labels']]

# Ubah dataframe menjadi dataset HuggingFace
hf_dataset = Dataset.from_pandas(df)



### Split dataset to train and validation

In [None]:
# Bagi dataset menjadi train dan validation (misalnya 90% train, 10% validation)
train_test_split = hf_dataset.train_test_split(test_size=0.1)
train_dataset = train_test_split['train']
eval_dataset = train_test_split['test']

### Fine-tuning config

In [None]:
from transformers import GPT2LMHeadModel, Trainer, TrainingArguments, DataCollatorForLanguageModeling

# Inisialisasi model GPT-2
model = GPT2LMHeadModel.from_pretrained("distilgpt2")

# Tentukan argumen training
training_args = TrainingArguments(
    output_dir="./distilgpt2-finetuned",
    learning_rate=3e-4,  # Learning rate
    per_device_train_batch_size=20,  # Batch size per device
    gradient_accumulation_steps=8,  # Mengakumulasi gradien untuk memperbanyak ukuran batch efektif
    num_train_epochs=7,  # Jumlah epoch
    warmup_steps=500,  # Warmup steps untuk learning rate scheduling
    weight_decay=0.01,  # Weight decay untuk regularisasi
    logging_dir="./logs",  # Direktori untuk log
    logging_steps=100,  # Frekuensi log
    evaluation_strategy="steps",  # Strategi evaluasi
    eval_steps=500,  # Frekuensi evaluasi
    save_steps=1000,  # Frekuensi save model
    save_total_limit=2,  # Batas jumlah model yang disimpan
    fp16=True,  # Mixed precision training (jika GPU mendukung)
    report_to="none",  # Untuk mencegah laporan ke luar jika tidak diinginkan
    load_best_model_at_end=True,  # Load model terbaik pada akhir training
)

# Menggunakan DataCollator untuk language modeling
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,  # Karena ini adalah GPT-2, kita tidak menggunakan Masked Language Modeling (MLM)
)

# Trainer initialization
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,  # Dataset training
    eval_dataset=eval_dataset,  # Dataset evaluasi
    data_collator=data_collator,  # Data collator untuk batching
    tokenizer=tokenizer,  # Tokenizer
)

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


### Start Fine-Tuning

In [None]:
# Start the fine-tuning!
trainer.train()

Step,Training Loss,Validation Loss


TrainOutput(global_step=7, training_loss=1.815781729561942, metrics={'train_runtime': 13.7262, 'train_samples_per_second': 22.949, 'train_steps_per_second': 0.51, 'total_flos': 32008851947520.0, 'train_loss': 1.815781729561942, 'epoch': 5.333333333333333})

### Save Fine-Tuned model

In [None]:
model.save_pretrained("./distilgpt2-finetuned")
tokenizer.save_pretrained("./distilgpt2-finetuned")

('./distilgpt2-finetuned/tokenizer_config.json',
 './distilgpt2-finetuned/special_tokens_map.json',
 './distilgpt2-finetuned/vocab.json',
 './distilgpt2-finetuned/merges.txt',
 './distilgpt2-finetuned/added_tokens.json')

### Test the Fine-Tuned model

In [None]:
model_name = "./distilgpt2-finetuned"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

def generate_finetuned_text(input_text, max_length=100):
    inputs = tokenizer.encode(input_text, return_tensors="pt")
    outputs = model.generate(inputs, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, pad_token_id=tokenizer.eos_token_id)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

input_text = "Arifian, apa yang bisa kamu ceritakan tentang dirimu?"
generated_finetuned_text = generate_finetuned_text(input_text)
print(f"Generated text (after fine-tuning): {generated_finetuned_text}")


Generated text (after fine-tuning): Arifian, apa yang bisa kamu ceritakan tentang dirimu?

I am not sure if I am going to be able to get my hands on the new book. I have already read the first chapter of the book and I will be writing it in the next few days.
The first part of this book is about the life of a man who is a woman. The second part is the story of an old man. It is very
