# Let's try HuggingFace Transformers NLP Pipelines!


In [1]:
!pip install transformers



In [12]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
    "The recent advancements in quantum computing could revolutionize data encryption methods.",
    candidate_labels=["science", "finance", "sports", "literature", "art"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


{'sequence': 'The recent advancements in quantum computing could revolutionize data encryption methods.',
 'labels': ['science', 'art', 'finance', 'sports', 'literature'],
 'scores': [0.9682704210281372,
  0.011773298494517803,
  0.007351820357143879,
  0.006306402385234833,
  0.006298022344708443]}

In [21]:
from transformers import pipeline

generator = pipeline("text-generation")
generator("Once upon a time in a kingdom, there lived a young girl named Salsa. She fell in love with the son of a king")

No model was supplied, defaulted to openai-community/gpt2 and revision 6c0e608 (https://huggingface.co/openai-community/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "Once upon a time in a kingdom, there lived a young girl named Salsa. She fell in love with the son of a king and was sent to her son's coronation at one of the king's banquet. The prince, a young man"}]

In [23]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
    "Once upon a time in a kingdom, there lived a young girl named Salsa. She fell in love with the son of a king",
    max_length=30,
    num_return_sequences=2,
)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Once upon a time in a kingdom, there lived a young girl named Salsa. She fell in love with the son of a king, who was'},
 {'generated_text': 'Once upon a time in a kingdom, there lived a young girl named Salsa. She fell in love with the son of a king of the island'}]

In [29]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("They went to the <mask> yesterday.", top_k=2)

No model was supplied, defaulted to distilbert/distilroberta-base and revision ec58a5b (https://huggingface.co/distilbert/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at distilbert/distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'score': 0.07590347528457642,
  'token': 6545,
  'token_str': ' gym',
  'sequence': 'They went to the gym yesterday.'},
 {'score': 0.06171426922082901,
  'token': 11605,
  'token_str': ' cinema',
  'sequence': 'They went to the cinema yesterday.'}]

In [34]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("Lisa from Blackpink is known for her exceptional dance skills")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'entity_group': 'PER',
  'score': 0.9989736,
  'word': 'Lisa',
  'start': 0,
  'end': 4},
 {'entity_group': 'ORG',
  'score': 0.93593854,
  'word': 'Blackpink',
  'start': 10,
  'end': 19}]

In [35]:
from transformers import pipeline

qa_pipeline = pipeline("question-answering", model="distilbert-base-cased-distilled-squad")
context = "Panel surya fotovoltaik mengubah sinar matahari menjadi listrik dengan menggunakan efek fotovoltaik, yang melibatkan semikonduktor."
question = "Bagaimana panel surya menghasilkan listrik?"

result = qa_pipeline(question=question, context=context)
print(f"Jawaban: {result['answer']}")

config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

Jawaban: dengan menggunakan efek fotovoltaik


In [38]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("While the food at this restaurant was good, the service was very slow.")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'NEGATIVE', 'score': 0.9997496008872986}]

In [1]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    Social media has transformed how people interact, connect, and share information. Platforms
    like Facebook, Twitter, and Instagram have not only created opportunities for individuals to
    communicate across distances but also impacted politics, culture, and business. Social media
    enables news to travel faster than ever, with major events broadcasted and commented on in real
    time.

    However, the rapid spread of information has also led to concerns over misinformation and
    privacy. Fake news and biased content can easily mislead large audiences, affecting public
    opinion and even influencing elections. Furthermore, data privacy issues have become a major
    concern, as social media companies collect and use personal data for targeted advertising.
    Despite these issues, social media continues to be a dominant force, shaping our society in
    complex ways.
"""
)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]



[{'summary_text': ' Social media enables news to travel faster than ever, with major events broadcasted and commented on in real time . The rapid spread of information has also led to concerns over misinformation and privacy . Fake news and biased content can easily mislead large audiences, affecting public opinion and even influencing elections . Despite these issues, social media continues to be a dominant force, shaping society in complex ways .'}]

In [4]:
from transformers import pipeline

translator = pipeline("translation_id_to_en", model="Helsinki-NLP/opus-mt-id-en")

text_to_translate = "Meskipun terlambat selamat atas pernikahanmu na hee do"
result = translator(text_to_translate)

print(result[0]['translation_text'])

Even if it's too late congratulations on your wedding na hee do


In [10]:
from transformers import pipeline

qa_pipeline = pipeline("question-answering")
context = "Sekolah sihir tempat Harry Potter belajar adalah Hogwarts."
question = "Apa nama sekolah sihir tempat Harry Potter belajar?"

result = qa_pipeline(question=question, context=context)
print(f"Jawaban: {result['answer']}")

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Jawaban: adalah Hogwarts


# Analisis

Analisis

1.	Zero-Shot Classification merupakan teknik di mana model dapat mengklasifikasikan teks tanpa pelatihan khusus pada label tertentu. Saya membuat objek classifier menggunakan pipeline zero-shot-classification. Dengan ini, saya bisa mengklasifikasikan teks tanpa memerlukan model yang dilatih secara khusus untuk kategori tertentu. Saya memberikan teks "The recent advancements in quantum computing could revolutionize data encryption methods." dengan label yang diberikan ["science", "finance", "sports", "literature", "art"] kemudian model ini akan melakukan menganalisis dan teks dan menentukan kategori mana yang paling cocok.  
Di sini, labels menunjukkan kategori yang dipilih, dan scores menunjukkan seberapa yakin alat tersebut dengan setiap kategori. Karena teks tersebut berfokus pada "quantum computing" dan "encryption methods", model lebih cenderung mengklasifikasikannya di bawah label science. Zero-Shot Classification teknik untuk mengklasifikasikan teks ke label yang belum pernah dilihat sebelumnya, membuatnya sangat fleksibel dalam penggunaan.

2.	text-generation merupakan proses yang otomatis untuk membuat teks baru berdasarkan input yang kita berikan.  Saya membuat objek generator yang digunakan untuk menghasilkan teks. Dengan menyebutkan "text-generation", saya memberi tahu pipeline bahwa saya ingin menghasilkan teks berdasarkan input yang saya berikan. Dalam hal ini, saya memberikan sebuah teks yang berisi cerita dan generator apa melanjutkan cerita tersebut. Dengan menggunakan pipeline text-generation dari library transformers, saya dapat dengan mudah menghasilkan teks yang berkelanjutan dari kalimat awal. Namun, tentunya kita bisa menyesuaikan lagi atau menentukan model sesuai dengan situasi atau input yang diberikan, agar hasilnya bisa lebih relevan.

3.	Fill mask digunakan untuk memprediksi kata yang hilang dalam teks. Saya memberikan kalimat dengan kata yang hilang yang diganti dengan <mask>. Model akan menebak dua kata yang paling mungkin mengisi posisi tersebut. Saya juga menentukan top_k=2, yang berarti saya ingin mendapatkan dua prediksi teratas untuk kata yang dapat mengisi bagian yang hilang. Kemudian model akan menghasilkan dua kemungkinan kata untuk mengisi posisi <mask>: "gym"  dan "cinema"


4.	Pipeline untuk pengenalan entitas. Disini saya memakai objek  NER (Named Entity Recognition) sesuai dengan namanya bertujuan untuk mengindentifikasi entitas bernama dalam sebuah teks . Entitas ini bisa berupa nama orang, organisasi, lokasi dll.  Saya membuat objek ner yang dirancang untuk melakukan tugas NER. Dengan menyebutkan "ner" dan mengatur grouped_entities=True, saya memberi tahu pipeline untuk mengelompokkan entitas yang sama dalam hasilnya, yang membantu menyederhanakan output. Entity_group menunjukkan jenis entitas yang terdeteksi. Dari hasil ini, model berhasil mengidentifikasi dua entitas: Lisa sebagai orang dan Blackpink sebagai organisasi.

5.	Pipeline untuk melakukan question answering dengan pustaka transformers. Di sini, model digunakan untuk menjawab pertanyaan berdasarkan konteks yang diberikan. Di sini juga, kita mendefinisikan konteks yang menjelaskan cara kerja panel surya, dan pertanyaan yang menanyakan tentang cara panel surya menghasilkan listrik. Kita memanggil pipeline dengan memberikan pertanyaan dan konteks. Hasilnya disimpan dalam variabel result, dan kita mencetak jawaban yang ditemukan oleh model. Model yang digunakan (distilbert-base-cased-distilled-squad) adalah model yang sudah dilatih pada dataset SQuAD (Stanford Question Answering Dataset). Question Answering ini merupakan Model yang dapat digunakan untuk menjawab pertanyaan berdasarkan teks yang diberikan, membuatnya berguna untuk aplikasi seperti asisten virtual, pencarian informasi, dan lain-lain.


6.	Analisis sentimen adalah proses otomatis untuk menandai data menurut sentimen, seperti positif, negatif, dan netral. Pada kode ini, saya mengimpor pipeline dari pustaka transformers dan membuat objek classifier dengan tugas "sentiment-analysis". Ini secara otomatis menggunakan model yang sudah dilatih untuk menganalisis sentimen teks. Model yang digunakan dalam pipeline adalah distilbert-base-uncased-finetuned-sst-2-english, yang merupakan model DistilBERT yang telah dilatih pada dataset SST-2 (Stanford Sentiment Treebank). Model ini dioptimalkan untuk menentukan sentimen dari teks dalam bahasa Inggris. Saya memberikan kalimat yang berisi dua pendapat: satu tentang makanan yang dianggap baik dan yang lainnya tentang layanan yang dianggap lambat. Model kemudian akan menganalisis kalimat ini dan menentukan sentimennya. Ketika kalimat diberikan ke model, ia menganalisis kata-kata dan konteks untuk menilai sentimen keseluruhan. Meskipun ada elemen positif ("the food at this restaurant was good"), model memutuskan bahwa sentimen keseluruhan adalah negatif karena penilaian negatif yang kuat mengenai layanan yang lambat.

7.	Selanjutnya ada pipeline untuk ringkasan, Pada bagian kode ini, saya mengimpor pipeline dari pustaka transformers dan membuat objek summarizer dengan tugas "summarization". Ini secara otomatis menggunakan model yang sudah dilatih untuk merangkum teks. Teks yang saya berikan menjelaskan dampak media sosial dalam interaksi manusia, serta isu-isu yang dihadapi seperti misinformasi dan privasi. Pipeline kemudian akan menganalisis teks ini dan menghasilkan ringkasan yang mencakup poin-poin utama. Model yang digunakan dalam pipeline adalah sshleifer/distilbart-cnn-12-6, yang merupakan model DistilBART yang dilatih untuk menghasilkan ringkasan dari teks berita. Model ini dirancang untuk menyaring informasi yang relevan dari teks yang lebih panjang dan merangkumnya menjadi versi yang lebih pendek.


8.	Di bagian kode ini, kita mengimpor pipeline dari pustaka transformers dan membuat objek translator dengan tugas "translation_id_to_en". Model yang digunakan adalah Helsinki-NLP/opus-mt-id-en, yang merupakan model terlatih untuk menerjemahkan teks dari bahasa Indonesia ke bahasa Inggris.  Saat diberikan teks dalam bahasa Indonesia, model menganalisis kata-kata dan struktur kalimat untuk menghasilkan terjemahan yang sesuai dalam bahasa Inggris.
