# Let's try HuggingFace Transformers NLP Pipelines!


In [12]:
!pip install transformers



# A. Pipeline zero-shot-classification

In [23]:
from transformers import pipeline

# Initialize the pipeline with a spesific model
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")

# Input data and candidate new label
input_text = "The government announced a new policy to tackle climate change and reduce carbon emissions."
candidate_labels = ["politics", "health", "economy", "education"]

# Do classification zero-shot with multi-label option
result = classifier(
    input_text,
    candidate_labels=candidate_labels,
    hypothesis_template="This text is related to {}.",
    multi_label = True, # Allows text to get more than one label
    clean_up_tokenization_spaces=True,  # Eliminate clean-up related warnings
)

# Show result
for label, score in zip(result["labels"], result["scores"]):
  print (f"Label: {label}, Score: {score:.4f}")

Label: environment, Score: 0.9971
Label: politics, Score: 0.7623
Label: science, Score: 0.3955
Label: economy, Score: 0.0089
Label: health, Score: 0.0019


Kode ini menginisialisasi `pipeline zero-shot classification` menggunakan model `facebook/bart-large-mnli`, yang sering digunakan untuk tugas *zero-shot classification* karena kemampuannya mengenali konteks secara efektif di berbagai label **tanpa perlu pelatihan ulang**.

* Klasifikasi zero-shot

`input_text` ini berguna untuk inisiasi text yang akan diklasifikasikan. Kemudian `candidate_labels` adalah label - label kategori yang mungkin sesuai dengan text yang telah diinput. `multi_label` berguna untuk mendeteksi kemungkinan teks mendapatkan lebih dari satu label, kalau set nya `false`, nantinya hanya ada satu label terbaik yang dipilih.
*  Show result

`for label, score in zip(result["labels"], result["scores"])`: Loop ini nanti akan menampilkan setiap label dengan nilai skor yang sesuai, sehingga kita bisa melihat tingkat keyakinan akurasi model dalam mengasosiasikan teks dengan masing-masing labelnya.



# B. Pipeline text-generation

In [29]:
from transformers import pipeline

# Initialize pipeline with model
generator = pipeline("text-generation", model="gpt2")

# Prompt text
input_text = "To improve your mental health, it's essential to practice"

# Generate text with additional parameters
results = generator(
    input_text,
    max_length = 75,
    num_return_sequences = 2,
   # temperature = 0.7, # Text creativity level
    truncation = True, # Eliminate message truncation warning
    clean_up_tokenization_spaces=True,  # Eliminate clean-up related warnings
    pad_token_id=50256  # Set pad_token_id to eos_token_id
)

# Show
for i, result in enumerate(results):
  print(f"Generated Text {i+1}: \n{result['generated_text']}\n")

Generated Text 1: 
To improve your mental health, it's essential to practice mindful living, especially with mindfulness-based exercises. Many of the things you can do to help prevent or lessen stress — including using these tips and tips from Nyan

Related Content:

How to learn mindfulness

How to improve your mental health

For more mindfulness resources to find, go to:

Generated Text 2: 
To improve your mental health, it's essential to practice mindfulness with each class each day. The reason is simple: When mindfulness is practiced regularly and carefully, it may help you live life a healthier and happier way. This approach, which encourages you to focus on the positive instead of focusing only on negative experiences, makes it easy to experience pleasure.

Learning From your Mist



Membuat objek `generator` untuk melakukan text generation menggunakan model `GPT-2`. Hal Ini mempersiapkan model untuk menghasilkan teks berdasarkan input yang diberikan. Kemudian `input_prompt` digunakan untuk menginput teks yang menjadi awal atau basis untuk teks yang nanti akan dhasilkan.

Selanjutnya, generate text akan memanggil metode generator dengan beberapa parameter:


*   `max_length = 75`: Menetapkan panjang maksimum untuk teks yang dihasilkan (75 token).
*   `num_return_sequences = 2`: Meminta dua variasi teks yang dihasilkan dari prompt yang sama.
*   `temperature = 0.7`: Menetapkan tingkat kreativitas model. Nilai lebih tinggi menghasilkan variasi lebih besar dalam output, sedangkan nilai lebih rendah menghasilkan teks yang lebih konservatif.

Kemudian, output atau hasil. Nantinya akan mengiterasi melalui hasil yang dihasilkan oleh generator dan mencetak setiap teks hasil dengan penomoran.





#C. Pipeline fill-mask

In [49]:
from transformers import pipeline

# Initialize pipeline
unmasker = pipeline("fill-mask", model="bert-base-uncased")

# Multi - mask input
input_text = "This course will teach you all about [MASK] models."
results = unmasker(input_text, top_k=3)

# Result
threshold_score = 0.05
filtered_results = [result for result in results if result['score'] > threshold_score]

# Menampilkan hasil yang sesuai dengan threshold
print("Filtered Predictions:")
for result in filtered_results:
    print(f"{result['token_str']} (Score: {result['score']:.3f}) - {result['sequence']}")

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Filtered Predictions:
role (Score: 0.337) - this course will teach you all about role models.
business (Score: 0.084) - this course will teach you all about business models.
the (Score: 0.057) - this course will teach you all about the models.


Pipeline ini menggunakan model BERT `bert-base-uncased`, yang dirancang untuk memprediksi kata yang hilang dalam kalimat. `top_k = 3` dipakai untuk mendapatkan 3 prediksi teratas untuk token yang hilang. Kemudian, `threshold_score = 0.05`dipakai untuk menyaring hasil yang hanya menampilkan prediksi dengan skor lebih tinggi dari ambang batas 0.05.

#D. Pipeline NER -> Named Entity Recognition

In [50]:
from transformers import pipeline

# Initialize pipeline for NER
ner = pipeline("ner", grouped_entities=True)\

# Input text
text = "Barack Obama was the 44th President of the United States and he was born in Hawaii."
results = ner(text)

# Show
for entity in results:
  print(f"Entity: {entity['word']}, Label: {entity['entity_group']}, Score: {entity['score']:.2f}")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Entity: Barack Obama, Label: PER, Score: 1.00
Entity: United States, Label: LOC, Score: 1.00
Entity: Hawaii, Label: LOC, Score: 1.00


#E. Pipeline question-answering

In [64]:
from transformers import pipeline

# Initialize pipeline question-answering
qa_pipeline = pipeline("question-answering", model="distilbert-base-cased-distilled-squad")

# Defining context and question
context = (
    "Python adalah bahasa pemrograman yang sering digunakan untuk pengembangan perangkat lunak, "
    "analisis data, kecerdasan buatan, dan banyak aplikasi lainnya. "
    "Bahasa ini dikenal karena sintaksisnya yang sederhana dan kemudahan penggunaan."
)
question = "Apa keunggulan dari Python?"

result = qa_pipeline(question=question, context=context)
print(f"Jawaban: {result['answer']}")

Jawaban: bahasa pemrograman yang sering digunakan


Pipeline ini diinisialisasi untuk tugas "question-answering" (tanya jawab) menggunakan model `distilbert-base-cased-distilled-squad`, yang merupakan versi DistilBERT yang telah dilatih pada dataset SQuAD untuk menjawab pertanyaan berdasarkan konteks yang diberikan.

# F. Pipeline sentiment-analysiss

In [65]:
from transformers import pipeline

# Inisialisasi pipeline for sentiment-analysis
classifier = pipeline("sentiment-analysis")

# Teks to analyze
text_to_analyze = [
    "I love using Hugging Face's models! They are incredibly useful.",
    "This product is terrible and I regret buying it.",
    "The movie was okay, neither great nor awful.",
    "I'm so happy with the results of my project!",
    "I'm disappointed with the customer service I received."
]

# Do classifier
results = classifier(text_to_analyze)

# Show output
for text, result in zip(text_to_analyze, results):
    print(f"Teks: {text}\nSentimen: {result['label']} (Skor: {result['score']:.2f})\n")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Teks: I love using Hugging Face's models! They are incredibly useful.
Sentimen: POSITIVE (Skor: 1.00)

Teks: This product is terrible and I regret buying it.
Sentimen: NEGATIVE (Skor: 1.00)

Teks: The movie was okay, neither great nor awful.
Sentimen: NEGATIVE (Skor: 0.76)

Teks: I'm so happy with the results of my project!
Sentimen: POSITIVE (Skor: 1.00)

Teks: I'm disappointed with the customer service I received.
Sentimen: NEGATIVE (Skor: 1.00)



In [None]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of
    graduates in traditional engineering disciplines such as mechanical, civil,
    electrical, chemical, and aeronautical engineering declined, but in most of
    the premier American universities engineering curricula now concentrate on
    and encourage largely the study of engineering science. As a result, there
    are declining offerings in engineering subjects dealing with infrastructure,
    the environment, and related issues, and greater concentration on high
    technology subjects, largely supporting increasingly complex scientific
    developments. While the latter is important, it should not be at the expense
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other
    industrial countries in Europe and Asia, continue to encourage and advance
    the teaching of engineering. Both China and India, respectively, graduate
    six and eight times as many traditional engineers as does the United States.
    Other industrial countries at minimum maintain their output, while America
    suffers an increasingly serious decline in the number of engineering graduates
    and a lack of well-educated engineers.
"""
)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

[{'summary_text': ' The number of engineering graduates in the United States has declined in recent years . China and India graduate six and eight times as many traditional engineers as the U.S. does . Rapidly developing economies such as China continue to encourage and advance the teaching of engineering . There are declining offerings in engineering subjects dealing with infrastructure, infrastructure, the environment, and related issues .'}]

In [None]:
from transformers import pipeline

translator = pipeline("translation_id_to_en", model="Helsinki-NLP/opus-mt-id-en")

text_to_translate = "Hari ini aku kehujanan"
result = translator(text_to_translate)

print(result[0]['translation_text'])

config.json:   0%|          | 0.00/1.38k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/291M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/801k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/796k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.26M [00:00<?, ?B/s]



Today I'm in the rain


#G. Analisis

- **Zero-Shot Classification**

Zero-Shot Classification merupakan teknik klasifikasi di mana model dapat melakukan klasifikasi tanpa perlu dilatih pada data yang memiliki label tersebut. Menarik untuk dicoba karena model dapat beradaptasi dengan berbagai jenis label tanpa memerlukan dataset yang besar untuk setiap kategori. Selanjutnya, mengurangi waktu dan biaya pelatihan, karena tidak perlu melatih model untuk setiap tugas klasifikasi baru.

- **Text Generation**

Penggunaan model text generation untuk menghasilkan teks juga sangat relevan dalam pembuatan konten otomatis, karena model dapat menghasilkan teks dengan gaya dan nada yang berbeda, yang memungkinkan penulisan konten yang lebih bervariasi dan kreatif. Selanjutnya, text generation juga mempermudah proses penulisan, terutama untuk tugas-tugas yang memerlukan banyak variasi, seperti pembuatan dialog atau cerita dan tidak dapat menutup kemungkinan dapat diterapkan di banyak bidang, termasuk pemasaran, penulisan artikel, dan pembuatan konten media sosial.

- **Fill-mask**

Fungsi fill-mask menggunakan teknik pemodelan bahasa untuk mengisi bagian yang hilang dari teks. Tentu hal Ini menarik untuk eksplorasi karena model dapat memahami konteks dari kalimat dan menghasilkan kata yang sesuai, memperlihatkan pemahaman bahasa yang dalam.

- **NER** (*Named Entity Recognition*)

NER adalah proses mengidentifikasi entitas dalam teks dan mengkategorikannya. Hal ini penting karena memungkinkan kita atau pengguna untuk dengan cepat mengekstrak informasi relevan dari teks yang panjang, disamping itu dapat digunakan dalam analisis data, pemasaran, dan pemrosesan dokumen untuk menemukan entitas penting seperti nama, lokasi, dan organisasi.

- **Question-Answering**

Fungsi question answering yang memanfaatkan konteks untuk menjawab pertanyaan adalah aplikasi yang juga sangat menarik karena mengizinkan pengguna untuk berinteraksi dengan data dan mendapatkan informasi yang relevan dengan cara yang alami, serta menggunakan database besar untuk memberikan jawaban yang akurat dan relevan dari konteks yang diberikan.

- **Sentiment Analysis**

Analisis sentimen sangat berguna untuk memahami opini atau perasaan dalam teks, dan saya merasa ini menarik karena dapat digunakan dalam analisis umpan balik pelanggan untuk memahami sentimen umum terhadap produk atau layanan. Lalu, memberikan wawasan yang berharga untuk pengambilan keputusan dalam strategi pemasaran dan pengembangan produk.

- **Summarization**

Fungsi rangkuman (summarization) membantu dalam merangkum informasi yang panjang menjadi lebih ringkas dan mudah dipahami. Ini sangat penting karena dapat menghemat waktu dalam membaca dan mencerna informasi yang panjang, memberikan informasi yang relevan secara langsung.

- **Translation**

Fungsi penerjemahan memungkinkan pengguna untuk menerjemahkan teks dari satu bahasa ke bahasa lain dengan mudah, dan ini sangat menarik karena salah satunya dapat digunakan sebagai alat bantu dalam belajar bahasa baru dengan memberikan konteks yang tepat dalam terjemahan.
