#**Unit 1: Transformers Model**

## 1. Pendahuluan

Model Transformer merevolusi Natural Language Processing (NLP) dengan memperkenalkan arsitektur yang unggul
dalam menangani data berurutan. Tidak seperti model tradisional, Transformer secara efektif menangkap hubungan jangka panjang
dengan menggunakan mekanisme seperti self-attention dan positional encoding.


## 2. Pemrosesan Bahasa Alami (NLP)

NLP berfokus pada mengajarkan mesin untuk memahami dan menghasilkan bahasa manusia. Transformer banyak
digunakan dalam tugas seperti:
- Analisis Sentimen
- Penjawaban Pertanyaan
- Ringkasan Teks
- Penerjemahan Bahasa


## 3. Apa yang Bisa Dilakukan Transformer?

Transformer dapat menangani berbagai tugas dalam NLP, termasuk:
- Klasifikasi Teks
- Named Entity Recognition (NER)
- Generasi Teks
- Penerjemahan Bahasa
- Ringkasan Teks


## 4. Bagaimana Cara Kerja Transformer?

Transformer mengandalkan komponen kunci berikut:
1. **Self-Attention**: Menentukan pentingnya setiap kata dalam sebuah urutan terhadap kata lainnya.
2. **Positional Encoding**: Mengodekan urutan kata ke dalam model.
3. **Feedforward Neural Network**: Memproses output dari attention menjadi representasi yang bermakna.


In [63]:
# Contoh Kode untuk Memahami Cara Kerja Transformer
from transformers import AutoModel, AutoTokenizer

# Memuat model dan tokenizer pra-latih
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Contoh teks
text = "Transformers are powerful for NLP tasks!"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

# Cetak bentuk tensor output
print("Output shape:", outputs.last_hidden_state.shape)


Output shape: torch.Size([1, 10, 768])



Penjelasan:
1. Kita memuat model BERT yang sudah dilatih sebelumnya dan tokenizer-nya menggunakan pustaka `transformers`.
2. `tokenizer` mengonversi teks menjadi representasi numerik yang dapat dimasukkan ke dalam model.
3. Output berupa tensor yang merepresentasikan teks dalam ruang vektor (embedding).


## 5. Model Encoder

Model encoder seperti BERT dirancang untuk memahami konteks dari teks input.
Model ini banyak digunakan untuk tugas klasifikasi dan tugas pemahaman lainnya.


In [64]:
# Contoh Kode BERT
from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertModel.from_pretrained("bert-base-uncased")

# Encode dan proses sebuah kalimat
sentence = "Hugging Face makes NLP easier!"
encoded_input = tokenizer(sentence, return_tensors='pt')
output = model(**encoded_input)
print("BERT Output Shape:", output.last_hidden_state.shape)


BERT Output Shape: torch.Size([1, 9, 768])



Penjelasan:
1. Tokenizer mengubah teks input menjadi token yang dapat diproses oleh model.
2. Model menghasilkan representasi teks dalam bentuk tensor dengan dimensi [batch_size, sequence_length, hidden_size].
3. Representasi ini dapat digunakan untuk tugas seperti klasifikasi atau analisis sentimen.


## 6. Model Decoder

Model decoder seperti GPT digunakan untuk tugas generatif seperti pelengkapan teks dan generasi teks.


In [61]:
# Contoh Kode GPT
from transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")

prompt = "Hugging Face is"
inputs = tokenizer.encode(prompt, return_tensors="pt")
outputs = model.generate(inputs, max_length=50, num_return_sequences=1)

print("Generated Text:", tokenizer.decode(outputs[0]))


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


Generated Text: Hugging Face is a game that is a bit of a mess. It's a game where you have to make a decision about what you want to do with your life. You have to decide what you want to do with your life. You have



Penjelasan:
1. Kita menggunakan model GPT-2 untuk menghasilkan teks berdasarkan prompt yang diberikan.
2. Fungsi `generate` menghasilkan teks baru dengan panjang maksimum 50 token.
3. Output adalah teks yang melanjutkan prompt awal.


## 7. Model Sequence-to-Sequence

Model sequence-to-sequence seperti T5 atau BART digunakan untuk tugas seperti penerjemahan dan ringkasan teks.


In [62]:
# Contoh Kode T5
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")

# Menerjemahkan Bahasa Inggris ke Bahasa Prancis
text = "translate English to French: Hugging Face is amazing."
inputs = tokenizer.encode(text, return_tensors="pt")
outputs = model.generate(inputs)

print("Translated Text:", tokenizer.decode(outputs[0]))


tokenizer_config.json:   0%|          | 0.00/2.32k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.39M [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/242M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

Translated Text: <pad> Le visage d'un homme est étonnant.</s>


Penjelasan:
1. Kita memanfaatkan model T5 untuk tugas penerjemahan teks dari Bahasa Inggris ke Bahasa Prancis.
2. Teks input diberi perintah eksplisit "translate English to French" agar model memahami tugasnya.
3. Output berupa teks terjemahan yang dihasilkan oleh model.

## 8. Bias dan Keterbatasan

Transformer sangat kuat tetapi memiliki tantangan:
- Biaya komputasi yang tinggi
- Membutuhkan dataset yang besar
- Dapat mewarisi bias dari data pelatihan


## 9. Ringkasan

- Transformer telah merevolusi NLP dengan kemampuan mereka menangani data berurutan secara efektif.
- Komponen utama termasuk self-attention, positional encoding, dan feedforward networks.
- Jenis populer termasuk model encoder (misalnya, BERT), model decoder (misalnya, GPT), dan model sequence-to-sequence (misalnya, T5).

## 10. Kuis Akhir Bab

Uji pemahaman Anda dengan kuis yang tersedia di platform kursus Hugging Face.



#**Unit 2: Menggunakan 🤗 Transformers**

## 1. Pendahuluan

Bagian ini membahas bagaimana menggunakan pustaka 🤗 Transformers untuk tugas NLP dengan berbagai fitur bawaan.
Anda akan belajar cara menggunakan pipeline untuk menyederhanakan tugas-tugas seperti klasifikasi teks, tokenisasi,
dan memanfaatkan model Transformer secara praktis.


## 2. Di Balik Pipeline

Pipeline adalah abstraksi tingkat tinggi yang ditawarkan oleh pustaka 🤗 Transformers untuk menyederhanakan penggunaan model.
Di balik layar, pipeline:
1. Memuat model dan tokenizer yang relevan.
2. Memproses input (tokenisasi).
3. Melakukan inferensi menggunakan model.
4. Mengembalikan hasil dengan format yang mudah dipahami.

In [65]:
# Contoh Kode: Menggunakan Pipeline untuk Klasifikasi Teks
from transformers import pipeline

# Inisialisasi pipeline untuk klasifikasi sentimen
classifier = pipeline("sentiment-analysis")

# Teks untuk analisis
text = "Hugging Face is an amazing library!"
result = classifier(text)
print(result)

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Device set to use cpu


[{'label': 'POSITIVE', 'score': 0.9998828172683716}]


Penjelasan:
1. `pipeline` secara otomatis memuat model pra-latih yang cocok untuk tugas klasifikasi sentimen.
2. Model memproses teks input dan mengembalikan prediksi sentimen (positif/negatif) dengan skor probabilitas.


## 3. Model

Model Transformer adalah inti dari pipeline. Pustaka 🤗 Transformers menyediakan berbagai model seperti BERT, GPT-2, dan T5.
Anda dapat memuat model spesifik untuk tugas tertentu.



In [66]:
# Contoh Kode: Memuat Model Secara Manual
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# Memuat model dan tokenizer
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Tokenisasi teks
inputs = tokenizer("I love using Hugging Face!", return_tensors="pt")
outputs = model(**inputs)
print(outputs)

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

SequenceClassifierOutput(loss=None, logits=tensor([[-3.9266,  4.2142]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)



1. Model `distilbert-base-uncased-finetuned-sst-2-english` digunakan untuk klasifikasi sentimen.
2. Tokenizer mengubah teks menjadi representasi numerik sebelum diproses oleh model.
3. Output adalah tensor yang merepresentasikan hasil prediksi.

## 4. Tokenizers
Tokenizer mengonversi teks mentah menjadi token numerik yang dapat diproses oleh model. Ada berbagai metode tokenisasi:
- Word-based: Memisahkan teks berdasarkan kata.
- Subword-based: Memecah kata menjadi sub-unit (digunakan oleh BERT, GPT-2).
- Character-based: Tokenisasi pada tingkat karakter.


In [68]:
# Contoh Kode: Menggunakan Tokenizer
from transformers import AutoTokenizer

# Memuat tokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# Tokenisasi teks
text = "Transformers are incredible!"
tokens = tokenizer.tokenize(text)
ids = tokenizer.convert_tokens_to_ids(tokens)
print("Tokens:", tokens)
print("Token IDs:", ids)

Tokens: ['transformers', 'are', 'incredible', '!']
Token IDs: [19081, 2024, 9788, 999]



Penjelasan:
1. `tokenize` memisahkan teks menjadi token berbasis subword.
2. `convert_tokens_to_ids` mengonversi token menjadi ID numerik yang sesuai.


## 5. Menangani Banyak Sekuens

Transformer dirancang untuk menangani beberapa sekuens sekaligus, yang dikenal sebagai pemrosesan batch. Hal ini
memungkinkan model untuk memproses kumpulan data yang lebih besar secara paralel, meningkatkan efisiensi.

Pustaka 🤗 Transformers menyediakan opsi seperti padding dan truncation untuk memastikan bahwa input dalam batch
memiliki panjang yang seragam:
- **Padding**: Menambahkan token khusus (seperti [PAD]) ke teks yang lebih pendek untuk mencocokkan panjang teks terpanjang dalam batch.
- **Truncation**: Memotong teks yang melebihi panjang maksimum yang diperbolehkan oleh model.


In [71]:
# Contoh Kode: Memproses Banyak Sekuens
texts = ["I love NLP!", "Transformers are amazing.", "Batch processing is efficient."]
# Tokenisasi teks dengan padding dan truncation
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")

# Hapus token_type_ids untuk kompatibilitas dengan DistilBERT
inputs.pop("token_type_ids", None)

# Inferensi dengan model
outputs = model(**inputs)

# Menampilkan hasil
print("Input IDs:", inputs["input_ids"])
print("Attention Mask:", inputs["attention_mask"])
print("Logits:", outputs.logits)


Input IDs: tensor([[  101,  1045,  2293, 17953,  2361,   999,   102],
        [  101, 19081,  2024,  6429,  1012,   102,     0],
        [  101, 14108,  6364,  2003,  8114,  1012,   102]])
Attention Mask: tensor([[1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 0],
        [1, 1, 1, 1, 1, 1, 1]])
Logits: tensor([[-4.2216,  4.5496],
        [-4.3598,  4.6863],
        [-4.1426,  4.4706]], grad_fn=<AddmmBackward0>)


## 6. Menggabungkan Semua

Pada bagian ini, kita akan menggabungkan semua langkah yang telah dijelaskan sebelumnya untuk membangun alur kerja NLP
lengkap menggunakan 🤗 Transformers. Dalam implementasi produksi, langkah-langkah ini dapat diintegrasikan ke dalam pipeline otomatis
dengan fitur seperti logging, pengelolaan kesalahan, dan integrasi API.

## Penerapan dalam Pipeline Produksi
1. **Preprocessing**:
   - Langkah tokenisasi dan normalisasi teks dilakukan secara otomatis untuk memastikan data konsisten.
   - Data diproses dalam batch untuk efisiensi.
2. **Model Serving**:
   - Model dilayani menggunakan framework seperti TensorFlow Serving atau FastAPI untuk inferensi real-time.
   - Endpoint API menyediakan akses ke model dengan latensi rendah.
3. **Postprocessing**:
   - Hasil prediksi (logits atau probabilitas) diterjemahkan ke dalam format yang mudah dipahami oleh pengguna akhir.
4. **Monitoring**:
   - Performa model dipantau secara berkala untuk mendeteksi degradasi kinerja.
   - Logging digunakan untuk melacak permintaan dan menganalisis anomali.

Pipeline ini cocok untuk apl

In [73]:
# Contoh Kode: Klasifikasi Sentimen Lengkap
text = "Hugging Face simplifies NLP!"

# Tokenisasi teks
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
inputs.pop("token_type_ids", None)  # Hapus token_type_ids jika ada

# Inferensi dengan model
outputs = model(**inputs)
logits = outputs.logits

# Menghitung prediksi
predictions = torch.nn.functional.softmax(logits, dim=-1)
predicted_class = torch.argmax(predictions, dim=-1).item()

# Menampilkan hasil
print("Logits:", logits)
print("Probabilities:", predictions)
print("Predicted Class:", predicted_class)


Logits: tensor([[-1.3433,  1.5073]], grad_fn=<AddmmBackward0>)
Probabilities: tensor([[0.0546, 0.9454]], grad_fn=<SoftmaxBackward0>)
Predicted Class: 1


Penjelasan:
1. **Tokenisasi**: Teks diubah menjadi format numerik yang dapat diproses oleh model.
2. **Inferensi**: Model menghasilkan logits untuk setiap kelas.
3. **Softmax**: Logits diubah menjadi probabilitas untuk interpretasi yang lebih mudah.
4. **Prediksi**: Kelas dengan probabilitas tertinggi dipilih sebagai hasil akhir.
5. **Integrasi Produksi**: Hasil ini dapat diteruskan ke API atau aplikasi front-end untuk penggunaan langsung.
"""

## 7. Penggunaan Dasar Selesai!

Bagian ini merangkum langkah-langkah yang telah dibahas dan menjelaskan bagaimana mereka membentuk fondasi
untuk menggunakan 🤗 Transformers dalam tugas-tugas NLP. Berikut adalah poin-poin utama yang perlu diingat:

1. **Pipeline Abstraksi Tingkat Tinggi**:
   - Pipeline mempermudah implementasi tugas umum seperti klasifikasi sentimen, penerjemahan, atau analisis teks.
   - Ini sangat cocok untuk memulai tanpa perlu memahami detail teknis model atau tokenisasi.

2. **Pemahaman Komponen Utama**:
   - Memahami cara kerja model Transformer, seperti BERT, GPT, dan T5.
   - Tokenizer memainkan peran penting dalam mempersiapkan data untuk model dengan memastikan format input sesuai.

3. **Pemrosesan Batch untuk Efisiensi**:
   - Pemrosesan batch memungkinkan model untuk menangani banyak input secara paralel, yang berguna dalam aplikasi skala besar.

4. **Produksi dan Integrasi**:
   - Dalam aplikasi produksi, model dapat dilayani melalui API untuk inferensi real-time.
   - Pipeline ini dapat diintegrasikan dengan framework lain seperti FastAPI atau Flask untuk membuat layanan prediksi.

5. **Monitoring dan Pemeliharaan**:
   - Sangat penting untuk memantau performa model secara berkala, termasuk logging dan analisis anomali untuk mendeteksi degradasi performa.

Dengan menguasai langkah-langkah ini, Anda memiliki dasar yang kuat untuk mengembangkan solusi NLP menggunakan 🤗 Transformers.


Dengan memanfaatkan pipeline, model, tokenizer, dan teknik pemrosesan batch, Anda sekarang dapat dengan mudah
mengimplementasikan tugas NLP menggunakan 🤗 Transformers. Anda telah mempelajari langkah-langkah penting untuk
menggunakan model secara efisien.


## 8. Kuis Akhir Bab

Uji pengetahuan Anda dengan kuis di akhir bab untuk menguji pemahaman Anda tentang menggunakan 🤗 Transformers.



#**Unit 3: Fine-Tuning a Pretrained Model**

## 1. Introduction

Fine-tuning adalah proses menyesuaikan model pra-latih (pretrained model) untuk tugas spesifik tertentu dengan menggunakan dataset yang lebih kecil dan domain-spesifik. Model pra-latih seperti BERT, GPT, atau T5 telah dilatih pada dataset besar untuk memahami pola umum dalam bahasa alami. Dengan fine-tuning, kita mengambil pengetahuan ini dan menyesuaikannya dengan tugas seperti:

1. **Klasifikasi Teks**: Memilah teks ke dalam kategori tertentu, seperti analisis sentimen atau deteksi spam.
2. **Pengenalan Entitas Bernama (NER)**: Mengenali nama orang, lokasi, organisasi, atau informasi lainnya dalam teks.
3. **Terjemahan Bahasa**: Mengubah teks dari satu bahasa ke bahasa lain.
4. **Ringkasan Teks**: Menghasilkan ringkasan pendek dari dokumen panjang.

Fine-tuning membantu meningkatkan performa pada tugas spesifik tanpa perlu melatih model dari awal, yang dapat menghemat waktu dan sumber daya komputasi secara signifikan. Dalam bab ini, Anda akan mempelajari:
- Bagaimana memproses data untuk fine-tuning.
- Menggunakan API seperti `Trainer` dari Hugging Face untuk melatih model.
- Mengevaluasi dan menyimpan model yang telah dilatih.

Bagian ini membahas konsep fine-tuning model pra-latih. Model pra-latih, seperti BERT, GPT, atau T5, telah dilatih
pada dataset besar, dan fine-tuning memungkinkan kita untuk menyesuaikan model ini dengan tugas spesifik, seperti
analisis sentimen atau klasifikasi teks.

## 2. Processing the Data

Langkah pemrosesan data adalah fondasi penting dalam fine-tuning model. Data harus dipersiapkan agar sesuai dengan format
model yang digunakan. Proses ini melibatkan:

1. **Memuat Dataset**:
   - Dataset dapat berupa data publik yang tersedia di pustaka seperti Hugging Face Datasets atau data custom yang disiapkan pengguna.

2. **Tokenisasi Data**:
   - Menggunakan tokenizer model pra-latih untuk mengonversi teks menjadi token numerik yang dimengerti oleh model.
   - Memastikan teks memiliki panjang yang seragam dengan padding (menambahkan token hingga panjang tertentu) atau truncation (memotong teks yang terlalu panjang).

3. **Membuat Dataset untuk Pelatihan dan Validasi**:
   - Memisahkan data ke dalam set pelatihan, validasi, dan test untuk mengevaluasi performa model secara obyektif.

Langkah-langkah ini memastikan bahwa model dapat belajar dari data dengan cara yang optimal.

In [75]:
!pip install datasets

Collecting datasets
  Downloading datasets-3.2.0-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.2.0-py3-none-any.whl (480 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m480.6/480.6 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.9.0-py3-none-any.whl (1

In [76]:
# Contoh Kode: Memproses Data
from datasets import load_dataset
from transformers import AutoTokenizer

# Memuat dataset
raw_datasets = load_dataset("imdb")

# Memuat tokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# Tokenisasi data
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)


README.md:   0%|          | 0.00/7.81k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/21.0M [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/20.5M [00:00<?, ?B/s]

unsupervised-00000-of-00001.parquet:   0%|          | 0.00/42.0M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating unsupervised split:   0%|          | 0/50000 [00:00<?, ? examples/s]

Map:   0%|          | 0/25000 [00:00<?, ? examples/s]

Map:   0%|          | 0/25000 [00:00<?, ? examples/s]

Map:   0%|          | 0/50000 [00:00<?, ? examples/s]

Penjelasan:
1. **load_dataset**: Memuat dataset IMDb, dataset umum untuk analisis sentimen yang berisi ulasan film.
2. **tokenizer**: Menggunakan tokenizer BERT untuk mengubah teks menjadi token numerik.
3. **tokenize_function**: Fungsi ini secara otomatis memotong teks yang terlalu panjang dan menambahkan padding ke teks yang lebih pendek.
4. **map**: Menerapkan fungsi tokenisasi pada setiap sampel dataset secara batch untuk mempercepat proses.

Hasil dari proses ini adalah dataset yang siap digunakan untuk pelatihan model.

Sebelum melatih model, data perlu diproses agar sesuai dengan format yang diperlukan. Langkah-langkah ini meliputi:
1. Memuat dataset.
2. Melakukan tokenisasi menggunakan tokenizer model.
3. Membuat dataset untuk pelatihan dan validasi.


In [77]:
# Contoh Kode: Memproses Data
from datasets import load_dataset
from transformers import AutoTokenizer

# Memuat dataset
raw_datasets = load_dataset("imdb")

# Memuat tokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# Tokenisasi data
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)


Map:   0%|          | 0/25000 [00:00<?, ? examples/s]


Penjelasan:
1. `load_dataset`: Memuat dataset IMDb untuk analisis sentimen.
2. `tokenize_function`: Melakukan tokenisasi dengan memotong teks panjang dan menambahkan padding.
3. `map`: Menerapkan fungsi tokenisasi pada seluruh dataset.


## 3. Fine-Tuning a Model with the Trainer API or Keras

Hugging Face menyediakan API bernama `Trainer` untuk melatih model dengan mudah. Jika menggunakan TensorFlow,
kita juga bisa menggunakan Keras untuk fine-tuning model.


In [None]:
# Contoh Kode: Fine-Tuning dengan Trainer API
from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer

# Memuat model
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

# Menyiapkan argumen pelatihan
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
)

# Menyiapkan Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
)

# Melatih model
trainer.train()


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


<IPython.core.display.Javascript object>

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
wandb: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

Penjelasan:
1. `AutoModelForSequenceClassification`: Model BERT disesuaikan untuk klasifikasi dengan 2 label.
2. `TrainingArguments`: Mengatur parameter pelatihan seperti learning rate, batch size, dan jumlah epoch.
3. `Trainer`: API untuk melatih dan mengevaluasi model secara otomatis.

## 4. A Full Training

Langkah pelatihan penuh mencakup semua tahapan dari awal hingga akhir untuk menyesuaikan model pra-latih dengan dataset spesifik.
Berikut adalah langkah-langkah utama yang perlu dilakukan:

1. **Persiapan Dataset**:
   - Dataset dibagi menjadi tiga bagian: train (pelatihan), validation (validasi), dan test (pengujian).
   - Pembagian dataset ini memastikan model dilatih pada data pelatihan, disesuaikan menggunakan data validasi, dan diuji performanya pada data test.

2. **Tokenisasi dan Preprocessing**:
   - Data teks mentah diubah menjadi token yang dapat diproses oleh model.
   - Padding dan truncation diterapkan untuk memastikan keseragaman panjang input.

3. **Pelatihan Model**:
   - Model dilatih menggunakan `Trainer API` yang menangani proses seperti penjadwalan learning rate, logging, dan evaluasi otomatis.

4. **Evaluasi Model**:
   - Model dievaluasi pada dataset validasi untuk mengukur performanya selama pelatihan.
   - Setelah selesai, model diuji pada dataset test untuk memastikan kemampuan generalisasi.

Fine-tuning yang baik memerlukan pemantauan yang cermat terhadap metrik seperti loss dan akurasi pada setiap epoch untuk mencegah overfitting atau underfitting.



In [None]:
# Contoh Kode: Evaluasi Model
# Evaluasi model pada dataset test
eval_results = trainer.evaluate()
print("Evaluation Results:", eval_results)

Penjelasan:
1. **evaluate**: Fungsi ini digunakan untuk mengukur performa model pada dataset test.
2. **Metrik Evaluasi**: Hasil evaluasi meliputi metrik penting seperti:
   - Akurasi: Persentase prediksi benar dibandingkan total data.
   - Loss: Indikator error model pada dataset test.
3. **Output Evaluasi**: Hasil evaluasi ini dapat digunakan untuk membandingkan performa model dengan baseline atau model lainnya.

Hasil evaluasi memastikan model telah dilatih dengan baik dan dapat diandalkan untuk tugas spesifik.

Langkah pelatihan penuh mencakup:
1. Menyiapkan dataset (train/test split).
2. Melakukan tokenisasi.
3. Melatih model dengan Trainer API.
4. Mengevaluasi model pada data validasi atau test set.
"""

In [None]:
# Contoh Kode: Evaluasi Model
# Evaluasi model pada dataset test
eval_results = trainer.evaluate()
print("Evaluation Results:", eval_results)


Penjelasan:
1. `evaluate`: Mengevaluasi performa model pada dataset test.
2. Hasil evaluasi meliputi metrik seperti akurasi dan loss.


## 5. Fine-Tuning, Check!

Setelah fine-tuning, model yang telah disesuaikan siap digunakan untuk tugas spesifik. Berikut adalah langkah-langkah utama
yang perlu dilakukan setelah pelatihan selesai:

1. **Menyimpan Model yang Telah Dilatih**:
   - Model yang telah dilatih harus disimpan ke dalam direktori untuk digunakan di masa mendatang.
   - Folder ini akan berisi file model, tokenizer, dan konfigurasi.

2. **Memuat Model untuk Inferensi**:
   - Model yang telah disimpan dapat dimuat kembali menggunakan pipeline untuk prediksi.
   - Pipeline menyediakan cara mudah untuk menggunakan model tanpa harus menulis ulang kode tokenisasi atau prediksi.

3. **Pengujian pada Data Baru**:
   - Model harus diuji dengan data yang belum pernah dilihat sebelumnya untuk memastikan performanya tetap baik.
   - Ini penting untuk memastikan bahwa model tidak overfitting pada dataset pelatihan.

4. **Integrasi dengan Aplikasi**:
   - Model yang telah dilatih dapat diintegrasikan ke dalam aplikasi atau sistem, seperti API berbasis FastAPI atau Flask.

Langkah-langkah ini memastikan bahwa model siap untuk digunakan dalam produksi atau pengujian lebih lanjut.

In [None]:
# Contoh Kode: Menggunakan Model yang Dilatih
from transformers import pipeline

# Memuat pipeline klasifikasi sentimen
sentiment_model = pipeline("sentiment-analysis", model="./results")

# Prediksi pada teks baru
result = sentiment_model("I love using Hugging Face for NLP tasks!")
print(result)

Penjelasan:
1. **Memuat Pipeline**:
   - Pipeline memuat model, tokenizer, dan konfigurasi dari folder yang telah disimpan.
2. **Inferensi**:
   - Model digunakan untuk membuat prediksi pada teks baru dengan cara yang sederhana.
3. **Hasil Prediksi**:
   - Output berupa prediksi label (misalnya, "POSITIVE" atau "NEGATIVE") dan skor kepercayaan untuk label tersebut.

Hasil ini dapat digunakan untuk evaluasi lebih lanjut atau diintegrasikan ke aplikasi produksi.

Setelah fine-tuning, model dapat digunakan untuk tugas spesifik. Pastikan model telah disimpan dan diuji dengan benar.



In [None]:
# Contoh Kode: Menggunakan Model yang Dilatih
from transformers import pipeline

# Memuat pipeline klasifikasi sentimen
sentiment_model = pipeline("sentiment-analysis", model="./results")

# Prediksi pada teks baru
result = sentiment_model("I love using Hugging Face for NLP tasks!")
print(result)


Penjelasan:
1. Pipeline memuat model yang telah dilatih dari folder output.
2. Model digunakan untuk membuat prediksi pada teks baru.

## 6. End-of-Chapter Quiz

Uji pemahaman Anda dengan kuis akhir bab. Fokus pada langkah-langkah penting seperti preprocessing, fine-tuning,
dan evaluasi model.

#**Unit 4: Sharing Models and Tokenizers**

## 1. The Hugging Face Hub

Hugging Face Hub adalah platform untuk berbagi model, tokenizer, dan dataset. Platform ini memfasilitasi kolaborasi antar peneliti
dan pengembang dengan menyediakan repositori berbasis cloud untuk menyimpan dan mengakses model.

Fitur utama:
- Menyimpan dan berbagi model.
- Dokumentasi model melalui "Model Cards".
- Akses API untuk mengunduh model secara langsung.

In [None]:
# Contoh Kode: Mengunggah Model ke Hugging Face Hub
from huggingface_hub import notebook_login
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# Login ke akun Hugging Face
notebook_login()

# Menyimpan model lokal
model_name = "bert-base-uncased"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

model.save_pretrained("./my_model")
tokenizer.save_pretrained("./my_model")

# Mengunggah model ke Hub
from huggingface_hub import HfApi

api = HfApi()
api.upload_folder(
    folder_path="./my_model",  # Folder berisi model dan tokenizer
    path_in_repo="bert-base-custom",  # Nama repositori di Hub
    repo_id="username/bert-base-custom",  # ID repositori Anda
    repo_type="model"  # Tipe repositori (model/dataset/tokenizer)
)

1. `notebook_login`: Autentikasi dengan akun Hugging Face.
2. `save_pretrained`: Menyimpan model dan tokenizer ke folder lokal.
3. `upload_folder`: Mengunggah model ke Hugging Face Hub.

## 2. Using Pretrained Models

Menggunakan model pra-latih dari Hugging Face Hub memungkinkan Anda untuk memanfaatkan kekuatan model yang telah dilatih tanpa perlu mengunduh atau menyimpan model secara lokal. Fitur ini sangat berguna untuk eksperimen cepat atau saat bekerja dengan model besar yang membutuhkan banyak ruang penyimpanan. Berikut adalah langkah-langkah utama:

1. **Mengakses Model dari Hub**:
   - Anda dapat memuat model langsung menggunakan nama repositori di Hugging Face Hub.
   - Model dapat berupa model standar (pra-latih) atau model yang telah di-fine-tune.

2. **Inisialisasi Pipeline**:
   - Pipeline adalah abstraksi tingkat tinggi untuk tugas-tugas NLP seperti klasifikasi teks, analisis sentimen, atau penerjemahan bahasa.
   - Pipeline secara otomatis memuat model, tokenizer, dan konfigurasi yang diperlukan.

3. **Penggunaan Model dalam Aplikasi**:
   - Setelah model dimuat, Anda dapat langsung menggunakannya untuk prediksi pada data baru.
   - Tidak diperlukan pengaturan tambahan untuk tokenisasi atau preprocessing.


In [None]:
# Contoh Kode: Menggunakan Model Pra-Latih dari Hub
from transformers import pipeline

# Inisialisasi pipeline
classifier = pipeline("sentiment-analysis", model="distilbert-base-uncased-finetuned-sst-2-english")

# Prediksi dengan model pra-latih
result = classifier("I love Hugging Face!")
print(result)

1. **Pipeline Initialization**:
   - `pipeline("sentiment-analysis")` secara otomatis memuat model yang sesuai untuk analisis sentimen.
   - Model yang digunakan adalah "distilbert-base-uncased-finetuned-sst-2-english," yang telah dilatih untuk tugas klasifikasi sentimen.

2. **Input dan Prediksi**:
   - Input berupa teks mentah seperti "I love Hugging Face!".
   - Model memproses teks melalui tokenisasi, inferensi, dan menghasilkan prediksi dalam format yang mudah dibaca.

3. **Output**:
   - Output adalah label prediksi (misalnya, "POSITIVE" atau "NEGATIVE") beserta skor kepercayaan (confidence score) untuk setiap label.

Kelebihan dari pendekatan ini adalah kemudahannya dalam penggunaan, karena semua proses internal, seperti tokenisasi dan decoding, diatur secara otomatis oleh pipeline.

Hugging Face Hub memungkinkan Anda untuk menggunakan model pra-latih tanpa harus menyimpan model secara lokal.
Model dapat diakses langsung melalui repositori Hub.


In [None]:
# Contoh Kode: Menggunakan Model Pra-Latih dari Hub
from transformers import pipeline

# Inisialisasi pipeline
classifier = pipeline("sentiment-analysis", model="distilbert-base-uncased-finetuned-sst-2-english")

# Prediksi dengan model pra-latih
result = classifier("I love Hugging Face!")
print(result)


1. `pipeline`: Memuat model pra-latih langsung dari Hugging Face Hub.
2. Model digunakan untuk tugas spesifik tanpa perlu pelatihan tambahan.

## 3. Sharing Pretrained Models

Setelah melatih atau menyesuaikan model, Anda dapat membagikannya melalui Hugging Face Hub. Berbagi model memungkinkan
pengembang lain untuk mengakses dan menggunakan model Anda tanpa harus melatihnya ulang. Model yang dibagikan dapat mencakup:

1. **Parameter Model**:
   - File yang menyimpan bobot dan bias yang telah dilatih.
   - Dapat dimuat ulang dengan cepat untuk inferensi atau pelatihan lanjutan.

2. **Tokenizer**:
   - Tokenizer yang digunakan untuk memproses data input sehingga konsisten dengan model.

3. **Dokumentasi Tambahan (Model Cards)**:
   - Penjelasan tentang tujuan, dataset, performa, dan batasan model.

Langkah-langkah berbagi model:
1. Login ke Hugging Face Hub menggunakan `notebook_login` untuk autentikasi.
2. Gunakan metode `push_to_hub` untuk mengunggah model dan tokenizer.
3. Tambahkan dokumentasi yang relevan di Model Cards untuk membantu pengguna memahami penggunaan model.



In [None]:
# Contoh Kode: Mengunggah Model yang Telah Dilatih
from huggingface_hub import notebook_login

# Login ke Hugging Face Hub
notebook_login()

# Mengunggah model yang telah dilatih
model.push_to_hub("fine-tuned-bert")
tokenizer.push_to_hub("fine-tuned-bert")


1. **notebook_login**:
   - Fungsi ini membuka autentikasi interaktif untuk masuk ke akun Hugging Face.

2. **push_to_hub**:
   - Metode ini digunakan untuk mengunggah model dan tokenizer ke repositori Hub.
   - Nama repositori dapat disesuaikan (misalnya, "fine-tuned-bert").

3. **Akses Publik atau Privat**:
   - Model yang diunggah dapat diatur sebagai publik (terlihat oleh semua pengguna) atau privat (hanya Anda yang dapat mengakses).

4. **Manfaat Berbagi Model**:
   - Menghemat waktu bagi pengguna lain dengan menyediakan model yang siap digunakan.
   - Meningkatkan kolaborasi dalam komunitas NLP dengan berbagi hasil pelatihan.

Setelah melatih atau menyesuaikan model, Anda dapat membagikannya melalui Hub. Model yang dibagikan dapat mencakup:
- Parameter model.
- Tokenizer.
- Dokumentasi tambahan dalam bentuk Model Cards.
"""


In [None]:
# Contoh Kode: Mengunggah Model yang Telah Dilatih
# Login ke Hugging Face Hub
notebook_login()

# Mengunggah model yang telah dilatih
model.push_to_hub("fine-tuned-bert")
tokenizer.push_to_hub("fine-tuned-bert")


1. `push_to_hub`: Mengunggah model dan tokenizer langsung ke Hub dengan nama repositori tertentu.
2. Model ini dapat diakses publik atau privat berdasarkan pengaturan repositori.

## 4. Building a Model Card

Model Cards adalah dokumentasi yang bertujuan untuk memberikan informasi detail tentang model yang dibagikan di Hugging Face Hub.
File ini memberikan transparansi dan membantu pengguna memahami model secara mendalam, termasuk performa, batasan, dan cara penggunaannya. Model Cards biasanya dibuat dalam format Markdown (`README.md`) dan disertakan di repositori model.

Elemen Utama Model Cards:
1. **Deskripsi Model**:
   - Informasi tentang arsitektur model (misalnya, BERT, GPT-2).
   - Tugas yang didukung oleh model, seperti klasifikasi teks atau analisis sentimen.
   - Dataset yang digunakan untuk pelatihan dan fine-tuning.

2. **Metrik Performa**:
   - Hasil evaluasi model pada dataset validasi atau test (misalnya, akurasi, F1-score).
   - Informasi tentang loss selama pelatihan.

3. **Batasan dan Bias**:
   - Keterbatasan model, seperti hanya mendukung teks dalam Bahasa Inggris.
   - Bias yang mungkin muncul karena dataset pelatihan.

4. **Instruksi Penggunaan**:
   - Panduan tentang bagaimana model dapat digunakan melalui API atau pipeline Hugging Face.

Model Cards sangat penting untuk memastikan bahwa model digunakan secara etis dan sesuai dengan batasannya.

In [None]:
# Contoh Kode: Membuat dan Mengunggah Model Card
from huggingface_hub import Repository

# Konten Model Card
model_card_content = """
# Model Name

## Model Description
- **Architecture**: BERT-base
- **Dataset**: IMDb Sentiment Analysis
- **Fine-tuned for**: Sentiment Classification

## Metrics
- **Accuracy**: 95%
- **Loss**: 0.23

## Limitations
- Hanya cocok untuk teks dalam Bahasa Inggris.
- Mungkin bias terhadap dataset pelatihan.

## How to Use
```
from transformers import pipeline
classifier = pipeline("sentiment-analysis", model="username/fine-tuned-bert")
result = classifier("I love Hugging Face!")
print(result)
```

## Acknowledgments
- Terima kasih kepada Hugging Face untuk platform dan model dasar.
"""

# Buat file README.md di folder model
repo = Repository(local_dir="./my_model", clone_from="username/fine-tuned-bert")
with open("./my_model/README.md", "w") as f:
    f.write(model_card_content)

# Commit dan push perubahan ke repositori Hugging Face
repo.git_add()
repo.git_commit("Add Model Card")
repo.git_push()

Penjelasan:
1. **Konten Model Card**: Menyediakan detail tentang model, metrik, batasan, dan cara penggunaannya.
2. **Repository API**: Mengelola repositori model lokal dan sinkronisasinya ke Hugging Face Hub.
3. **Pengunggahan**: Mengunggah Model Card sebagai file README.md ke repositori Hub.

Dengan kode ini, Model Card Anda akan tersedia di repositori Hugging Face bersama dengan model.

Model Cards adalah dokumentasi yang bertujuan untuk memberikan informasi detail tentang model yang dibagikan di Hugging Face Hub.
File ini memberikan transparansi dan membantu pengguna memahami model secara mendalam, termasuk performa, batasan, dan cara penggunaannya. Model Cards biasanya dibuat dalam format Markdown (`README.md`) dan disertakan di repositori model.


Elemen Utama Model Cards:
1. **Deskripsi Model**:
   - Informasi tentang arsitektur model (misalnya, BERT, GPT-2).
   - Tugas yang didukung oleh model, seperti klasifikasi teks atau analisis sentimen.
   - Dataset yang digunakan untuk pelatihan dan fine-tuning.

2. **Metrik Performa**:
   - Hasil evaluasi model pada dataset validasi atau test (misalnya, akurasi, F1-score).
   - Informasi tentang loss selama pelatihan.

3. **Batasan dan Bias**:
   - Keterbatasan model, seperti hanya mendukung teks dalam Bahasa Inggris.
   - Bias yang mungkin muncul karena dataset pelatihan.

4. **Instruksi Penggunaan**:
   - Panduan tentang bagaimana model dapat digunakan melalui API atau pipeline Hugging Face.

Model Cards sangat penting untuk memastikan bahwa model digunakan secara etis dan sesuai dengan batasannya.
"""

In [None]:
# Contoh: Model Card Template
# Model Name

## Model Description
- **Architecture**: BERT-base
- **Dataset**: IMDb Sentiment Analysis
- **Fine-tuned for**: Sentiment Classification

## Metrics
- **Accuracy**: 95%
- **Loss**: 0.23

## Limitations
- Hanya cocok untuk teks dalam Bahasa Inggris.
- Mungkin bias terhadap dataset pelatihan.

## How to Use
```
from transformers import pipeline
classifier = pipeline("sentiment-analysis", model="username/fine-tuned-bert")
result = classifier("I love Hugging Face!")
print(result)
```

## Acknowledgments
- Terima kasih kepada Hugging Face untuk platform dan model dasar.

Penjelasan:
1. **Deskripsi Model**: Memberikan detail tentang arsitektur, dataset, dan tujuan model.
2. **Metrik**: Menunjukkan performa model dengan angka-angka evaluasi yang relevan.
3. **Batasan**: Membantu pengguna memahami di mana model mungkin tidak bekerja dengan baik.
4. **Cara Penggunaan**: Menyediakan contoh kode langsung untuk mempermudah pengguna dalam menggunakan model.

Model Cards tidak hanya membantu pengguna memahami model, tetapi juga meningkatkan transparansi dan kolaborasi di komunitas NLP.


In [None]:
# Contoh: Model Card Template
"""
# Model Name

## Model Description
- **Architecture**: BERT-base
- **Dataset**: IMDb Sentiment Analysis
- **Fine-tuned for**: Sentiment Classification

## Metrics
- **Accuracy**: 95%
- **Loss**: 0.23

## Limitations
- Hanya cocok untuk teks dalam Bahasa Inggris.
- Mungkin bias terhadap dataset pelatihan.

## How to Use
```
from transformers import pipeline
classifier = pipeline("sentiment-analysis", model="username/fine-tuned-bert")
result = classifier("I love Hugging Face!")
print(result)