# Let's try HuggingFace Transformers NLP Pipelines!


In [None]:
!pip install transformers

In [28]:
from transformers import pipeline
import warnings
warnings.filterwarnings("ignore")

In [29]:
classifier = pipeline("zero-shot-classification")
classifier(
    "The Golden State Warriors have a unique style of attacking strategy",
    candidate_labels=["jewelry", "basketball", "construction"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


{'sequence': 'The Golden State Warriors have a unique style of attacking strategy',
 'labels': ['basketball', 'construction', 'jewelry'],
 'scores': [0.8819502592086792, 0.07990844547748566, 0.03814127668738365]}

In [30]:
generator = pipeline("text-generation", model="gpt2")
text = generator("In public speaking, the most common mistakes that beginner make are ")

print(text[0]['generated_text'])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In public speaking, the most common mistakes that beginner make are  scenario  and  in the real world, situation  .  If I had to make a simple scenario about my family  the first day of school  and


In [31]:
unmasker = pipeline("fill-mask")
unmasker("Ronaldo can shoot the <mask> to winning the game", top_k=5)

No model was supplied, defaulted to distilbert/distilroberta-base and revision ec58a5b (https://huggingface.co/distilbert/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at distilbert/distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'score': 0.434360533952713,
  'token': 762,
  'token_str': ' key',
  'sequence': 'Ronaldo can shoot the key to winning the game'},
 {'score': 0.3314211964607239,
  'token': 10654,
  'token_str': ' keys',
  'sequence': 'Ronaldo can shoot the keys to winning the game'},
 {'score': 0.021436648443341255,
  'token': 3704,
  'token_str': ' jump',
  'sequence': 'Ronaldo can shoot the jump to winning the game'},
 {'score': 0.017058398574590683,
  'token': 3682,
  'token_str': ' ticket',
  'sequence': 'Ronaldo can shoot the ticket to winning the game'},
 {'score': 0.01585828885436058,
  'token': 2718,
  'token_str': ' path',
  'sequence': 'Ronaldo can shoot the path to winning the game'}]

In [32]:
ner = pipeline("ner", grouped_entities=True)
ner("This is My bestfriend, Mr, Ducky from IT Department. He is a hustler and work harder in Aple Community Depok")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'entity_group': 'PER',
  'score': 0.99634355,
  'word': 'Ducky',
  'start': 27,
  'end': 32},
 {'entity_group': 'ORG',
  'score': 0.9971001,
  'word': 'IT Department',
  'start': 38,
  'end': 51}]

In [33]:
qa_pipeline = pipeline("question-answering", model="distilbert-base-cased-distilled-squad")
context_id = """
    Rafi Ramadhan Sudirman (lahir 31 Oktober 2003) adalah seorang penyanyi-penulis
    lagu berkebangsaan Indonesia. Rafi memulai karier di industri musik sebagai
    bagian dari grup musik Di Atas Rata-Rata generasi kedua yang diasuh oleh
    musisi Erwin Gutawa dan Gita Gutawa. Rafi kemudian merilis debut singel pada
    tahun 2019 bertajuk ""Goodnight"" yang menjadi singel utama dari album mini
    perdananya Bedroom Mix, Vol 1 yang dirilis pada tahun yang sama
    """
question_id = "apa tajuk debut singel rafi?"

context_en = """
    Rafi Ramadhan Sudirman (born October 31, 2003) is an Indonesian singer-songwriter.
    Rafi began his career in the music industry as part of the second-generation
    music group Di Atas Rata-Rata, coached by musicians Erwin Gutawa and Gita Gutawa.
    Rafi then released his debut single in 2019 titled “”Goodnight“” which became
    the lead single from his debut mini album Bedroom Mix, Vol 1 released in the same year"
    """
question_en = "what is the title of rafi's debut single?"

result_id = qa_pipeline(question=question_id, context=context_id)
result_en = qa_pipeline(question=question_en, context=context_en)

print(f"Jawaban dari bahasa indonesia: {result_id['answer']}")
print(f"\nAnswer from english: {result_en['answer']}")

Jawaban dari bahasa indonesia: 2019

Answer from english: ”Goodnight


In [34]:
classifier = pipeline("sentiment-analysis")
classifier("In the Shin Tae-Yong era, there were so many good abroad players who wanted to join the national team. ")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9984346032142639}]

In [40]:
summarizer = pipeline("summarization")
summarizer(
    """
    The symbol of UPN “Veteran” Jakarta is in the form of a convex rectangle with
    a yellow base color, this shape means that it can always keep up with the development
    of the demands of the times in its work in the world of education as well as guardians,
    supporters and followers of all the meanings contained in the UPN “Veteran” Jakarta logo.

    The blooming white jasmine flower with two blossoming petals symbolizes the
    nation's personality that is pure, clean and majestic and fragrant throughout
    the ages. Five flower petals that bud together, symbolizing the spirit of Pancasila.
    Two open petals symbolize the pursuit of knowledge and dedication to society.

    The blazing flames on the left and right of the logo symbolize a high and
    unyielding spirit and a burning will to achieve goals.

    The three-colored black supports of the flame symbolize the Tridarma of Higher Education.

    The white ribbon with the sesanti “Widya Mwat Yasa” symbolizes the sesanti
    “Demanding knowledge in order to serve the country with a pure and clean heart and sincerity”.

    The green steel cap with one yellow five-cornered star symbolizes the
    embodiment of UPN “Veteran” as an active monument of RI “Veterans” and
    efforts to pass on the values of 45 to the younger generation.
    """
)[0]['summary_text']

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


" The symbol of UPN “Veteran” Jakarta is in the form of a convex rectangle with a yellow base color . The blooming white jasmine flower with two blossoming petals symbolizes the nation's personality that is pure, clean and majestic throughout the ages . The blazing flames on the left and right of the logo symbolize a high and unyielding spirit . The three-colored black supports of the flame symbolize the Tridarma of Higher Education ."

In [36]:
translator_id_en = pipeline("translation", model="Helsinki-NLP/opus-mt-id-en")

text_to_translate = """
    Presiden Prabowo Subianto telah membentuk 85 kantor satuan layanan program
    Makan Gizi Gratis yang kini sedang diuji coba di seluruh provinsi. Menteri
    Sekretaris Negara (Mensesneg) Prasetyo Hadi menyebut satuan layanan itu
    disiapkan menjelang pelaksanaan program pada awal Januari 2025.
    """

result_id_en = translator_id_en(text_to_translate)
result_id_en[0]['translation_text']

'President Prabowo Subianto has formed 85 offices of the Free Gizi Food Service unit which is now being tested throughout the province. The Secretary of State (Sesneg) Prasetyo Hadi called the service unit prepared before the execution of the program at the beginning of January 2025.'

# Analysis

### 1. Zero Shot Classification
Klasifikasi ini merupakan klasifikasi dalam NLP yang menggunakan teknik zero shot, yaitu pemberian tugas pada ke model tanpa adanya contoh sebelumnya yang relevan. Hal  menarik yang Saya temukan adalah mungkin secara tidak sadar kita sering menggunakan teknik ini ketika melakukan *prompting*, terutama ketika baru saja menggunakan layanan LLM. Teknik ini dapat digunakan untuk mengukur kualitas model karena jawaban yang diberikan dapat menunjukan seberapa baik pemahaman model terhadap bahasa manusia yang pastinya sangat rentan terhadap *noise*, dikarenakan tiap manusia memiliki cara atau penyampaian tulisan yang unik. <br>
Pada percobaan yang dilakukan, model melakukan klasifikasi dengan baik karena dapat mengetahui bahwa konteks yang diberikan merupakan konteks mengenai basket (Golde State Warriors merupakan tim basket)
<br><br>

### 2. Text generation
Text generation merupakan suatu teknik yang digunakan untuk men-*generate* teks sesuai dengan *prompt* yang diberikan. Pada umumnya, model yang digunakan untuk *text generation* menggunakan arsitektur *transformer* bertipe *decoder-only*, contohnya seperti ChatGPT. Pada arsitektur ini, untuk men-generate kata selanjutnya dilakukan kalkulasi terlebih dahulu kata demi kata untuk menghasilkan kata selanjutnya. <br>
Secara umum, arsitektur ini bekerja dengan cara memecah teks menjadi per kata (token) dan akan diubah ke dalam format numerik, serta posisi dari masing-masing kata juga disimpan dengan kalkulasi tertentu. Setelah itu, kalkulasi akan bekerja dengan MHA (*Masked Head Attention*) untuk memastikan kata berikutnya tidak dipengaruhi oleh kata-kata setelahnya, sehingga hanya dipengaruhi oleh kata-kata sebelumnya, lalu masuk ke normalisasi dan penambahan *residual connections* untuk menjaga stabilitas nilai, serta dilakukan *feedforward* untuk memperkaya representasi kata. Setelah itu, baru masuk ke fungsi linear & softmax, dan akhirnya diambil probabilitas tertinggi sebagai kata berikutnya. <br>
Pada percobaan ini, hasil dari *text generation* sangat buruk dikarenakan output yang dihasilkan berbeda jauh dengan konteks yang diberikan.
<br><br>

### 3. Fill mask
Ingat ketika kita mengerjakan soal-soal isian singkat di zaman sekolah dasar? Kurang lebih seperti itu konsep kerja dari teknik ini. Teknik ini bekerja dengan cara mengisi kekosongan kata pada *prompt* yang ditandai dengan kata kunci <mask>. <br>
Pada percobaan yang dilakukan, hasil yang dikeluarkan bisa dibilang cukup buruk karena jawaban yang dihasilkan tidak berkorelasi dengan kalimat sebelum dan setelahnya. <br>
Mungkin boleh dicoba dengan soal SD ya :D
<br><br>

### 4. NER (Named Entity Recognition)
NER merupakan teknik yang dilakukan untuk klasifikasi setiap kata pada suatu teks ke dalam beberapa bagian, yaitu PER (Person), LOC (Location), ORG (Organization), MISC (Miscellanous), DATE, TIME, MONEY, PERCENT, dan GPE (Geopolitical Entity). <br>
Pada percobaan yang dilakukan, model telah mengelompokan kata-kata dengan baik, namun tidak lengkap dalam melakukan pengelompokan, seperti aple community yang seharusnya organisasi dan Depok yang seharusnya Lokasi (mungkin modelnya ga kenal depok hehehe :D)
<br><br>

### 5. Question Answering
Merupakan teknik yang dapat menjawab persoalan-persoalan yang terdapat pada konteks yang diberikan.
Pada percobaan ini, Saya menggunakan 2 bahasa untuk menguji pemahaman model, yaitu bahasa Indonesia dan juga bahasa Inggris. Konteks yang digunakan adalah biografi singkat seorang penyanyi, yaitu Rafi Sudirman. <br>
Hasilnya adalah model dengan konteks dan pertanyaan menggunakan bahasa inggris lebih baik ketimbang bahasa indonesia. Dengan pertanyaan yang sama, model yang menerima konteks dan pertanyaan dengan bahasa inggris dapat menjawab pertanyaan dengan benar, sedangkan yang menggunakan bahasa Indonesia menjawab soal dengan salah. Jadi dapat disimpulkan bahwa model akan bekerja lebih baik jika menggunakan bahasa inggris.
<br><br>

### 6. Sentiment Analysis
Sentiment Analysis merupakan teknik yang digunakan untuk mengidentifikasi sentimen suatu teks. Teknik ini dapat digunakan untuk mengetahui persepsi seseorang terhadap suatu hal, contohnya persepsi seseorang terhadap kedai makan lewat penilaian, atau tempat lainnya. Teknik ini banyak dijumpai pada skripsi di bidang IT. <br>
Pada percobaan ini, model diminta untuk menganalisis suatu teks tentang penilaian timnas sepak bola di era Shin Tae-Yong. Hasilnya model dapat melakukan klasifikasi dengan benar. 
<br><br>

### 7. Summarization
Merupakan teknik yang sangat menarik dan memiliki kebermanfaatan tinggi bagi beberapa orang karena dapat merangkum seluruh intisari-intisari dalam suatu dokumen atau teks.<br>
Pada percobaan ini, teks yang digunakan mengenai makna logo UPN Veteran Jakarta dan menggunakan bahasa inggris. Hasil dari summarization menunjukan bahwa model yang digunakan tidak cukup baik untuk merangkum poin-poin pada teks dikarenakan rangkuman yang dihasilkan tidak menyeluruh, sehingga terdapat simbol yang tidak masuk ke dalam kesimpulan. 
<br><br>

### 8. Translation
Teknik ini bisa dibilang juga memiliki kebermanfaatan yang tinggi dikarenakan dapat mengubah suatu teks dari suatu bahasa ke bahasa lainnya. <br>
Hasil percobaan menunjukan bahwa model dapat menerjemahkan teks dengan sangat baik dikarenakan terjemahan yang dihasilkan benar.
<br><br>