# Let's try HuggingFace Transformers NLP Pipelines!


In [None]:
!pip install transformers



In [None]:
from transformers import pipeline

# Load the Zero-Shot Classification pipeline with facebook/bart model
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")

# Contoh teks dalam bahasa Indonesia (mencoba dalam bahasa indonesia karena katanya bisa tetapi tidak se akurat saat memakai indobert)
text = "Saya suka belajar AI dan programming."

# Daftar label yang ingin diuji
labels = ["Teknologi", "Olahraga", "Hobi"]

# Jalankan klasifikasi
threshold = 0.2  # Ambang batas 20%
relevant_labels = [
    (label, score) for label, score in zip(result['labels'], result['scores']) if score > threshold
]
print(relevant_labels)

[('Teknologi', 0.4930022358894348), ('Hobi', 0.31904467940330505)]


In [None]:
from transformers import pipeline

# Load GPT-2 for text generation in Bahasa Indonesia
text_generator = pipeline("text-generation", model="gpt2")

# Prompt awal
prompt = "I want to break up with you because"

# Hasil text generation
text_generator = pipeline("text-generation", model="distilgpt2")
output = text_generator(prompt, max_length=30, truncation=True, num_return_sequences=1)
print(output)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


[{'generated_text': "I want to break up with you because you think of you as a child. You don't know what you're talking about, you don't care"}]


In [39]:
from transformers import pipeline

# Load BertForMaskedLM with trust_remote_code=True (jika diperlukan)
fill_mask = pipeline("fill-mask", model="distilbert-base-uncased", trust_remote_code=True)

# Contoh input
output = fill_mask("the teacher is in the [MASK] room.")
print(output)


[{'score': 0.09807245433330536, 'token': 7759, 'token_str': 'dining', 'sequence': 'the teacher is in the dining room.'}, {'score': 0.08875711262226105, 'token': 5059, 'token_str': 'drawing', 'sequence': 'the teacher is in the drawing room.'}, {'score': 0.034135833382606506, 'token': 3564, 'token_str': 'sitting', 'sequence': 'the teacher is in the sitting room.'}, {'score': 0.021684743463993073, 'token': 8835, 'token_str': 'lecture', 'sequence': 'the teacher is in the lecture room.'}, {'score': 0.02137482352554798, 'token': 2364, 'token_str': 'main', 'sequence': 'the teacher is in the main room.'}]


In [42]:
from transformers import pipeline

# Load NER pipeline
ner_pipeline = pipeline("ner", model="distilbert-base-uncased")

# Contoh input dalam bahasa Inggris
text = "John Doe works at Google in San Francisco on December 18, 2024."

# Hasil NER
output = ner_pipeline(text)
print(output)

Some weights of DistilBertForTokenClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


[{'entity': 'LABEL_1', 'score': 0.52284026, 'index': 1, 'word': 'john', 'start': 0, 'end': 4}, {'entity': 'LABEL_0', 'score': 0.53089684, 'index': 2, 'word': 'doe', 'start': 5, 'end': 8}, {'entity': 'LABEL_0', 'score': 0.5286107, 'index': 3, 'word': 'works', 'start': 9, 'end': 14}, {'entity': 'LABEL_0', 'score': 0.5016301, 'index': 4, 'word': 'at', 'start': 15, 'end': 17}, {'entity': 'LABEL_1', 'score': 0.5062397, 'index': 5, 'word': 'google', 'start': 18, 'end': 24}, {'entity': 'LABEL_0', 'score': 0.5087919, 'index': 6, 'word': 'in', 'start': 25, 'end': 27}, {'entity': 'LABEL_1', 'score': 0.53328663, 'index': 7, 'word': 'san', 'start': 28, 'end': 31}, {'entity': 'LABEL_1', 'score': 0.5620234, 'index': 8, 'word': 'francisco', 'start': 32, 'end': 41}, {'entity': 'LABEL_1', 'score': 0.5593502, 'index': 9, 'word': 'on', 'start': 42, 'end': 44}, {'entity': 'LABEL_1', 'score': 0.5206075, 'index': 10, 'word': 'december', 'start': 45, 'end': 53}, {'entity': 'LABEL_1', 'score': 0.61758155, 'in

In [9]:
from transformers import pipeline

qa_pipeline = pipeline("question-answering", model="bert-large-cased-whole-word-masking-finetuned-squad")
context = "AI adalah teknologi yang dapat meniru kecerdasan manusia. Teknologi ini digunakan untuk menyelesaikan masalah yang biasanya memerlukan kecerdasan manusia."
question = "Apa definisi AI dalam kalimat ini?"

result = qa_pipeline(question=question, context=context, max_answer_len=30, top_k=3)
for i, answer in enumerate(result):
    print(f"Jawaban {i+1}: {answer['answer']} (Skor: {answer['score']})")

Some weights of the model checkpoint at bert-large-cased-whole-word-masking-finetuned-squad were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Jawaban 1: AI adalah teknologi yang dapat meniru kecerdasan manusia (Skor: 0.048151470720767975)
Jawaban 2: Teknologi ini digunakan untuk menyelesaikan masalah (Skor: 0.025670038536190987)
Jawaban 3: AI adalah teknologi yang dapat meniru kecerdasan manusia. (Skor: 0.024041395634412766)


In [12]:
from transformers import pipeline

# Load sentiment analysis pipeline
sentiment_pipeline = pipeline("sentiment-analysis", model="w11wo/indonesian-roberta-base-sentiment-classifier")

# Input kalimat
text = "Saya sangat puas dengan produk ini!"

# Analisis sentimen
result = sentiment_pipeline(text)
print(result)

[{'label': 'positive', 'score': 0.998643696308136}]


In [19]:
from transformers import pipeline

# Inisialisasi pipeline untuk summarization
summarization_pipeline = pipeline("summarization", model="cahya/t5-base-indonesian-summarization-cased")

# Teks yang lebih panjang untuk dirangkum
text = """
Kecerdasan buatan (AI) adalah teknologi yang semakin berkembang pesat dalam beberapa dekade terakhir.
Teknologi ini memiliki kemampuan untuk meniru pola pikir manusia dan memproses data dalam jumlah besar
untuk menghasilkan keputusan yang lebih akurat. Saat ini, AI telah diterapkan di berbagai sektor, mulai dari kesehatan,
transportasi, pendidikan, hingga hiburan. Dalam bidang kesehatan, AI digunakan untuk mendiagnosis penyakit dengan cepat dan akurat,
seperti menganalisis hasil pemindaian medis atau mencocokkan gejala pasien dengan basis data penyakit.
Di sektor transportasi, AI membantu menciptakan kendaraan otonom yang mampu mengemudi tanpa campur tangan manusia,
yang diharapkan dapat mengurangi kecelakaan lalu lintas. Selain itu, dalam dunia pendidikan, AI digunakan untuk memberikan
pengalaman belajar yang lebih personal melalui sistem pembelajaran adaptif yang dapat menyesuaikan materi sesuai dengan
kebutuhan masing-masing siswa. Terakhir, AI juga memainkan peran penting dalam industri hiburan, seperti menciptakan rekomendasi
konten yang sesuai dengan preferensi pengguna di platform streaming. Meskipun AI menawarkan banyak manfaat, teknologi ini juga
menimbulkan kekhawatiran, seperti masalah privasi, etika, dan dampaknya terhadap lapangan pekerjaan. Oleh karena itu, penting untuk
mengembangkan kebijakan yang bertanggung jawab dalam penerapan AI agar manfaatnya dapat dirasakan secara luas tanpa mengabaikan
potensi risiko yang mungkin timbul.
"""

# Melakukan summarization
summary = summarization_pipeline(
    text,
    max_length=97,
    min_length=40,
    do_sample=False,
    no_repeat_ngram_size=3  # Mencegah pengulangan n-gram
)

print(summary[0]['summary_text'])


Kecerdasan buatan( AI) adalah teknologi yang semakin berkembang pesat dalam beberapa dekade terakhir. Teknologi ini memiliki kemampuan untuk meniru pola pikir manusia dan memproses data dalam jumlah besar untuk menghasilkan keputusan yang lebih akurat. Saat ini, AI telah diterapkan di berbagai sektor, mulai dari kesehatan, transportasi, pendidikan, hingga hiburan. Dalam bidang kesehatan, AI digunakan untuk mendiagnosis penyakit dengan cepat dan akurat, seperti menganalisis hasil pemindaian medis atau mencocokkan gejala pasien dengan basis data penyakit. Di


In [27]:
from transformers import pipeline

# Indo ke Inggris
translator_id_to_en = pipeline("translation", model="Helsinki-NLP/opus-mt-id-en")
id_to_en = translator_id_to_en("Matahari")
print("Indo ke Inggris:", id_to_en[0]['translation_text'])

# Inggris ke Jepang
translator_en_to_jp = pipeline("translation", model="Helsinki-NLP/opus-mt-en-jap")
en_to_jp = translator_en_to_jp(id_to_en[0]['translation_text'])
print("Inggris ke Jepang:", en_to_jp[0]['translation_text'])


Indo ke Inggris: Sun
Inggris ke Jepang: キ


## **ANALISIS**

Ada beberapa yang sudah saya coba seperti:
1. zero-shot-classification

```
-> untuk klasifikasi kalimat
model: facebook/bart-large-mnli
karena katanya bisa pakai bahasa indonesia tapi tidak seakurat model indobert tetapi pas di coba lumayan bisa dipakai
```
2. text-generation


```
-> untuk generate text agar lebih panjang
model: gpt2
Model utama yang kuat dan sering digunakan untuk text generation
```


3. fill-mask

```
->mengisi kata yang kosong dalam sebuah kalimat
model: distilbert-base-uncased
trust_remote_code=True
setelah saya nanya chatgpt, sebelum saya pakai ini ada sebuah error dan error itu karena BertForMaskedLM tidak secara langsung mewarisi GenerationMixin.
Beberapa bobot model mungkin tidak cocok jika digunakan di luar arsitektur aslinya (misalnya, dari model bert yang dirancang untuk tugas lain seperti sequence classification) dan fungsi parameter ini untuk mengabaikan error tersebut dan sudah bisa dijalankan
```


4. ner

```
-> untuk mengidentifikasi dan mengekstraksi entitas yang diberi nama dalam teks, seperti nama orang, tempat, organisasi, tanggal, jumlah, dll. (chatgpt)
model: distilbert-base-uncased
model ini memang sudah terlatih untuk ner
```

5. question-answering

```
-> untuk menjawab sesuai dengan statement yang sudah diberikan
model: bert-large-cased-whole-word-masking-finetuned-squad
awalnya mau pake bert-base-cased tetapi yang diambil kalimatnya hanya pertengahan bukan seluruh pengertian, setelah cari-cari luntang-lantung begitu nemu model ini dan berhasil
```

6. sentiment-analysis

```
-> menentukan apakah ini kalimat positif atau negatif atau netral
model: w11wo/indonesian-roberta-base-sentiment-classifier
model ini dilatih untuk sentiment analysis versi bahasa indonesia jadi lebih masuk akal dibandingkan dengan yang umum kayak distilbert
```

7. summarization

```
-> seperti namanya adalah untuk menyimpulkan teks
model: cahya/t5-base-indonesian-summarization-cased
model ini sengaja saya pakai biar bisa dipakai untuk teks berbahasa indonesia
```

8. translation

```
-> untuk menerjemahkan teks atau kata
model: Helsinki-NLP/opus-mt-id-en
model: Helsinki-NLP/opus-mt-en-jap
disini saya memakai 2 model karena tujuan awalnya untuk mengubah dari bahasa indonesia ke bahasa jepang dan ternyata tidak ada model yang langsung seperti itu. Jadi saya pakai dari bahasa indonesia diterjemahin ke bahasa inggris dulu, nanti bahasa inggris ini yang akan diterjemahkan ke bahasa jepang. walaupun yang dari bahasa inggris ke jepang masih belum berhasil karena agak lari terjemahannya, setidaknya sudah bisa ke bahasa jepang dulu.
```

Dan dari semua ini, saya masih penasaran dengan translation karena unik dan masih penasaran kenapa bahasa jepang nya masih lari terjemahannya, mungkin kedepannya saya akan mencoba explore lebih jauh lagi tentang ini.


