# Transfer Learning untuk Data Text

Transfer learning adalah teknik pemelajaran mesin yang memanfaatkan **pengetahuan yang diperoleh dari satu domain atau tugas untuk meningkatkan kinerja dalam domain atau tugas yang berbeda namun terkait**. Dalam konteks data teks, transfer learning melibatkan penggunaan **model yang telah dilatih sebelumnya** pada teks berskala besar untuk mengekstrak **representasi bahasa umum**, yang kemudian dapat fine-tune atau disesuaikan dengan tugas-tugas hilir yang spesifik, seperti klasifikasi teks, analisis sentimen, atau pengenalan entitas bernama.

Ide di balik transfer learning adalah bahwa model yang **dilatih dengan data teks dalam jumlah besar** dapat menangkap informasi semantik dan sintaksis yang kaya yang berguna untuk berbagai tugas pemrosesan bahasa alami (NLP). Dengan memanfaatkan **model yang sudah dilatih sebelumnya**, kita dapat mengambil manfaat dari pengetahuan yang telah dipelajari dan menghemat sumber daya komputasi yang seharusnya diperlukan untuk melatih model dari awal.

![link text](https://miro.medium.com/max/1400/1*b4GiiiIgxhfd3pUd86ZUuw.png)

![link text](https://miro.medium.com/max/2000/0*Cf4ymGKtghF3W4um)

Transfer learning  memanfaatkan pengetahuan yang diperoleh dari **pre-trained model** untuk meningkatkan kinerja model pada tugas atau domain yang berbeda tetapi terkait. Alih-alih memulai proses pelatihan dari awal, transfer learning memungkinkan kita untuk memanfaatkan representasi yang sudah dipelajari dan mengadaptasikannya ke tugas tertentu.

Transfer learning biasanya melibatkan dua langkah: **pre-training** dan **fine-tunning**. Pada langkah pre-training, pre-trained model dilatih pada data berskala besar untuk mempelajari fitur-fitur umum. Fitur-fitur ini sering disebut sebagai "pengetahuan" dari model. Pada langkah fine-tuning, pre-trained model dilatih lebih lanjut pada data yang berukuran lebih kecil yang spesifik untuk tugas tertentu. Langkah ini memungkinkan model untuk berspesialisasi dan beradaptasi dengan tugas tersebut sambil mempertahankan pengetahuan umum yang diperoleh selama pre-training.

Misalnya, dalam NLP, model bahasa yang telah dilatih sebelumnya seperti BERT atau GPT dilatih pada korpus data teks yang sangat besar. Langkah pre-training ini memungkinkan model untuk menangkap hubungan sintaksis dan semantik antara kata-kata. Kemudian, Pre-trained model dapat dilakukan fine-tuning  kumpulan data berlabel yang lebih kecil untuk tugas-tugas tertentu seperti analisis sentimen atau klasifikasi teks.

## Pre-Trained Model

Model pre-trained adalah model yang telah dilatih pada kumpulan data yang besar untuk mempelajari fitur dan pola umum. Model-model ini biasanya dilatih untuk tugas tertentu, seperti klasifikasi gambar atau natural language processing, dengan menggunakan data berlabel dalam jumlah besar. Tujuan dari melatih model yang telah dilatih sebelumnya adalah untuk menangkap pengetahuan umum tentang domain data.

Sebagai contoh, dalam computer vision, model yang sudah dilatih sebelumnya seperti VGG16 atau ResNet telah dilatih pada jutaan gambar dari kumpulan data ImageNet. Selama proses pelatihan, model-model ini belajar untuk mengenali berbagai fitur tingkat rendah dan tingkat tinggi, seperti tepi, bentuk, dan objek, yang dapat berguna untuk berbagai tugas terkait gambar.

Karakteristik utama dari pre-trained model adalah bahwa model ini sudah menjalani seluruh proses pelatihan, dan parameter yang dipelajari adalah tetap dan tidak diperbarui selama penggunaan berikutnya. Model ini pada dasarnya adalah representasi beku dari pengetahuan yang sudah diperoleh selama pelatihan.


### Pre-trained Model untuk data text Indonesia


Daftar pretrained Model
- https://huggingface.co/cahya/bert-base-indonesian-522M
- https://huggingface.co/mdhugol/indonesia-bert-sentiment-classification
- https://indolem.github.io/IndoBERT/
- https://huggingface.co/Hate-speech-CNERG/dehatebert-mono-indonesian?text=I+like+you.+I+love+you
- https://huggingface.co/models?sort=downloads&search=indonesian
- https://huggingface.co/cahya/bert2gpt-indonesian-summarization



##Penggunaan Pre-trained Model di python

In [None]:
! pip install transformers
! pip install xformers

## Sentimen Analysis

In [None]:
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification

pretrained= "mdhugol/indonesia-bert-sentiment-classification"

model = AutoModelForSequenceClassification.from_pretrained(pretrained)
tokenizer = AutoTokenizer.from_pretrained(pretrained)

sentiment_analysis = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

label_index = {'LABEL_0': 'positive', 'LABEL_1': 'neutral', 'LABEL_2': 'negative'}

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/498M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/229k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [None]:
text1 = "Saya ingin tidur"
text2 = "Stuju... Bikin kaya para pejabat aja.. Di tambah subsidi kendaran listrik jg masuk ny kekantong mereka2 jg yg buat kebijakan krn pny bisnis di ev ini"
text3 = "Demokrasi Indonesia lebih besar dan penting dari Jokowi, sehingga tidak layak dikorbankan demi seorang Jokowi."

result = sentiment_analysis(text1)
status = label_index[result[0]['label']]
score = result[0]['score']
print(f'Text: {text1} | Label : {status} ({score * 100:.3f}%)')

result = sentiment_analysis(text2)
status = label_index[result[0]['label']]
score = result[0]['score']
print(f'Text: {text2} | Label : {status} ({score * 100:.3f}%)')


result = sentiment_analysis(text3)
status = label_index[result[0]['label']]
score = result[0]['score']
print(f'Text: {text3} | Label : {status} ({score * 100:.3f}%)')

Text: Saya ingin tidur | Label : neutral (94.815%)
Text: Stuju... Bikin kaya para pejabat aja.. Di tambah subsidi kendaran listrik jg masuk ny kekantong mereka2 jg yg buat kebijakan krn pny bisnis di ev ini | Label : negative (98.155%)
Text: Demokrasi Indonesia lebih besar dan penting dari Jokowi, sehingga tidak layak dikorbankan demi seorang Jokowi. | Label : positive (98.618%)


## Text Summarization

In [None]:
import textwrap

In [None]:
ARTICLE_TO_SUMMARIZE = 'Aset hasil tindak pidana yang telah dirampas oleh negara tidak bisa diminta kembali meskipun pelaku tindak pidana dalam proses penuntutan di Pengadilan.Hal ini termuat dalam Pasal 3 Ayat 2 draf Rancangan Undang-Undang (RUU) Perampasan Aset yang telah dikirim oleh Pemerintah kepada DPR. Draf ini RUU ini telah terkonfirmasi oleh Anggota Komisi III DPR RI Arsul Sani. “Dalam hal dilakukan penuntutan terhadap pelaku tindak pidana sebagaimana dimaksud pada Ayat (1), Aset Tindak Pidana yang telah dinyatakan dirampas negara tidak dapat dimintakan untuk dirampas kembali,” demikian poin 2 Ayat 3 RUU tersebut.'
print(textwrap.fill(ARTICLE_TO_SUMMARIZE, 40))

Aset hasil tindak pidana yang telah
dirampas oleh negara tidak bisa diminta
kembali meskipun pelaku tindak pidana
dalam proses penuntutan di
Pengadilan.Hal ini termuat dalam Pasal 3
Ayat 2 draf Rancangan Undang-Undang
(RUU) Perampasan Aset yang telah dikirim
oleh Pemerintah kepada DPR. Draf ini RUU
ini telah terkonfirmasi oleh Anggota
Komisi III DPR RI Arsul Sani. “Dalam hal
dilakukan penuntutan terhadap pelaku
tindak pidana sebagaimana dimaksud pada
Ayat (1), Aset Tindak Pidana yang telah
dinyatakan dirampas negara tidak dapat
dimintakan untuk dirampas kembali,”
demikian poin 2 Ayat 3 RUU tersebut.


In [None]:
from transformers import BertTokenizer, EncoderDecoderModel

tokenizer = BertTokenizer.from_pretrained("cahya/bert2gpt-indonesian-summarization")
tokenizer.bos_token = tokenizer.cls_token
tokenizer.eos_token = tokenizer.sep_token
model = EncoderDecoderModel.from_pretrained("cahya/bert2gpt-indonesian-summarization")

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/230k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/62.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/4.26k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.08G [00:00<?, ?B/s]

In [None]:
# generate summary
input_ids = tokenizer.encode(ARTICLE_TO_SUMMARIZE, return_tensors='pt')
summary_ids = model.generate(input_ids,
            min_length=20,
            max_length=50,
            num_beams=10,
            repetition_penalty=2.5,
            length_penalty=1.0,
            early_stopping=True,
            no_repeat_ngram_size=2,
            use_cache=True,
            do_sample = True,
            temperature = 0.8,
            top_k = 50,
            top_p = 0.95)

summary_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary_text)

aset hasil tindak pidana yang telah dirampas oleh negara tidak bisa diminta kembali meskipun pelaku kejahatan dalam proses penuntutan di pengadilan.


## Penerapan Transfer learning

penerapan untuk transfer learning bisa melihat https://huggingface.co/docs/transformers/training