#### Automatic Text Summarization

**Automatic Text Summarization** adalah teknik penting dalam **Natural Language Processing (NLP)** yang menggunakan algoritma untuk merangkum teks panjang sambil tetap mempertahankan informasi utamanya. Meskipun tidak sepopuler terobosan machine learning lainnya, teknologi peringkasan teks terus mengalami perkembangan yang signifikan.

Dengan mengekstraksi konsep-konsep utama dan mempertahankan makna asli, sistem ini mampu merevolusi berbagai industri seperti **perbankan**, **hukum**, dan **kesehatan**, karena membantu proses pengambilan keputusan dan pencarian informasi menjadi lebih cepat.

---

##### Jenis-Jenis Text Summarization

Terdapat dua jenis utama teknik peringkasan teks:

1. **Extractive Summarization**
2. **Abstractive Summarization**

---

##### Extractive Summarization

**Extractive summarization** menghasilkan ringkasan dengan **memilih dan menggabungkan bagian teks terpenting** dari teks asli. Tidak seperti manusia yang bisa menyusun ulang kalimat, model ini hanya mengekstrak kalimat atau frasa penting tanpa membuat konten baru.

Tujuan metode ini adalah **mempertahankan makna teks asli** sambil mengurangi panjangnya.

---

##### Algoritma TextRank

Salah satu algoritma yang paling banyak digunakan dalam extractive summarization adalah **TextRank**.  
TextRank bekerja dengan **memberi peringkat pada kalimat** berdasarkan relevansi dan kepentingannya, kemudian memilih kalimat terbaik untuk diringkas.

---

##### Menggunakan TextRank untuk Extractive Summarization

TextRank dapat diimplementasikan melalui pustaka **spaCy**, dengan bantuan ekstensi **PyTextRank**.

Dengan TextRank, proses peringkasan dilakukan dengan:
- mengekstrak frasa dan kalimat penting,
- mengurutkan kalimat berdasarkan skor kepentingan,
- menyusun ringkasan dari kalimat dengan skor tertinggi.

Namun perlu dicatat bahwa **extractive summarization tidak menghasilkan kalimat baru**, melainkan hanya memilih bagian dari teks asli.

---
##### Prasyarat

Sebelum menjalankan TextRank, pastikan Anda memiliki:

- **spaCy**  
  Pustaka Python untuk berbagai tugas NLP.

- **PyTextRank**  
  Ekstensi spaCy yang menyediakan implementasi TextRank untuk analisis teks dan summarization.



In [None]:
## Install Library yang dibutuhkan
!pip install spacy
!python3 -m spacy download en_core_web_lg

!pip install pytextrank

In [None]:
import spacy
import pytextrank

nlp = spacy.load("en_core_web_lg")
nlp.add_pipe("textrank")

example_text = """Deep learning (also known as deep structured learning) is part of a 
broader family of machine learning methods based on artificial neural networks with 
representation learning. Learning can be supervised, semi-supervised or unsupervised. 
Deep-learning architectures such as deep neural networks, deep belief networks, deep reinforcement learning, 
recurrent neural networks and convolutional neural networks have been applied to
fields including computer vision, speech recognition, natural language processing, 
machine translation, bioinformatics, drug design, medical image analysis, material
inspection and board game programs, where they have produced results comparable to 
and in some cases surpassing human expert performance. Artificial neural networks
(ANNs) were inspired by information processing and distributed communication nodes
in biological systems. ANNs have various differences from biological brains. Specifically, 
neural networks tend to be static and symbolic, while the biological brain of most living organisms
is dynamic (plastic) and analogue. The adjective "deep" in deep learning refers to the use of multiple
layers in the network. Early work showed that a linear perceptron cannot be a universal classifier, 
but that a network with a nonpolynomial activation function with one hidden layer of unbounded width can.
Deep learning is a modern variation which is concerned with an unbounded number of layers of bounded size, 
which permits practical application and optimized implementation, while retaining theoretical universality 
under mild conditions. In deep learning the layers are also permitted to be heterogeneous and to deviate widely 
from biologically informed connectionist models, for the sake of efficiency, trainability and understandability, 
whence the structured part."""
print('Original Document Size:',len(example_text))
doc = nlp(example_text)

for sent in doc._.textrank.summary(limit_phrases=2, limit_sentences=2):
    print(sent)
    print('Summary Length:',len(sent))

##### Abstractive Summarization

**Abstractive summarization** menghasilkan **kalimat baru sepenuhnya** untuk menyampaikan ide-ide utama dari teks asli. Berbeda dengan *extractive summarization* yang hanya memilih dan menyusun ulang kalimat dari teks sumber, metode ini **memparafrasekan informasi** secara lebih ringkas dan koheren, bahkan menggunakan **kosakata baru** yang tidak ada di teks awal.

Pendekatan ini lebih menyerupai cara manusia merangkum teks, karena hasilnya benar-benar merupakan **pemahaman ulang** dari isi dokumen.

---

##### Perkembangan Abstractive Summarization

Abstractive summarization semakin populer sejak hadirnya **model Transformer**, yang merevolusi berbagai tugas NLP.  

Sebelum Transformer, peringkasan teks terutama menggunakan:

- **Recurrent Neural Networks (RNNs)**
- **LSTM dan GRU**
- Arsitektur **Encoderâ€“Decoder** konvensional

Meskipun efektif, model tersebut memiliki keterbatasan dalam memahami konteks panjang.

Kemunculan **Transformer** membawa arsitektur baru yang menggunakan *self-attention*, sehingga:

- mampu memahami konteks panjang lebih baik,
- menghasilkan ringkasan lebih akurat dan natural,
- mempercepat proses pelatihan,
- menjadi fondasi model modern seperti **BART**, **T5**, dan **GPT**.

---

Dengan demikian, abstractive summarization kini menjadi pendekatan terbaik untuk menghasilkan ringkasan yang **lebih alami, koheren, dan dekat dengan kemampuan manusia**.


##### PEGASUS: A Transformer Model for Text Summarization

**PEGASUS** adalah model berbasis **Transformer** yang dirancang khusus untuk tugas **text summarization**. Tidak seperti model lain, PEGASUS menggunakan strategi *pre-training* yang unik dengan **memasukkan teknik Masked Sentence Prediction**.

Pada proses pelatihan:
- Kalimat-kalimat penting dalam dokumen **di-mask (disembunyikan)**.
- Model kemudian dilatih untuk **menghasilkan kembali kalimat-kalimat yang hilang tersebut**.

Pendekatan ini membuat PEGASUS unggul dalam menghasilkan ringkasan yang:
- lebih **akurat**,  
- **koheren**,  
- dan lebih dekat dengan hasil ringkasan manusia.

Strategi ini membantu model untuk memahami struktur dokumen dan menentukan informasi kunci yang relevan untuk diringkas.

---

##### Menggunakan PEGASUS untuk Text Summarization

Untuk menggunakan model PEGASUS, beberapa pustaka perlu diinstal terlebih dahulu:

##### Prasyarat Instalasi

1. **Transformers (HuggingFace)**
   - Untuk memuat dan menjalankan model PEGASUS.
2. **PyTorch atau TensorFlow**
   - Sebagai backend deep learning untuk menjalankan model.
3. **SentencePiece**
   - Digunakan untuk tokenisasi model PEGASUS.
4. **pip**
   - Manajer paket untuk menginstal semua dependensi.

---

##### ðŸ’» Instalasi dengan pip

```bash
pip install transformers
pip i


In [None]:
from transformers import pipeline
from transformers import PegasusForConditionalGeneration, PegasusTokenizer

# Pick model
model_name = "google/pegasus-xsum"
# Load pretrained tokenizer
pegasus_tokenizer = PegasusTokenizer.from_pretrained(model_name)

example_text = """
Deep learning (also known as deep structured learning) is part of a broader family of machine learning
methods based on artificial neural networks with representation learning. 
Learning can be supervised, semi-supervised or unsupervised. Deep-learning architectures such as 
deep neural networks, deep belief networks, deep reinforcement learning, 
recurrent neural networks and convolutional neural networks have been applied to 
fields including computer vision, speech recognition, natural language processing,
machine translation, bioinformatics, drug design, medical image analysis, 
material inspection and board game programs, where they have produced results 
comparable to and in some cases surpassing human expert performance. 
Artificial neural networks (ANNs) were inspired by information processing and 
distributed communication nodes in biological systems. ANNs have various differences 
from biological brains. Specifically, neural networks tend to be static and symbolic,
while the biological brain of most living organisms is dynamic (plastic) and analogue.
The adjective "deep" in deep learning refers to the use of multiple layers in the network.
Early work showed that a linear perceptron cannot be a universal classifier, 
but that a network with a nonpolynomial activation function with one hidden layer of 
unbounded width can. Deep learning is a modern variation which is concerned with an 
unbounded number of layers of bounded size, which permits practical application and 
optimized implementation, while retaining theoretical universality under mild conditions. 
In deep learning the layers are also permitted to be heterogeneous and to deviate widely 
from biologically informed connectionist models, for the sake of efficiency, trainability 
and understandability, whence the structured part."""

print('Original Document Size:',len(example_text))
# Define PEGASUS model
pegasus_model = PegasusForConditionalGeneration.from_pretrained(model_name)
# Create tokens
tokens = pegasus_tokenizer(example_text, truncation=True, padding="longest", return_tensors="pt")

# Generate the summary
encoded_summary = pegasus_model.generate(**tokens)

# Decode the summarized text
decoded_summary = pegasus_tokenizer.decode(encoded_summary[0], skip_special_tokens=True)

# Print the summary
print('Decoded Summary :',decoded_summary)

summarizer = pipeline(
    "summarization", 
    model=model_name, 
    tokenizer=pegasus_tokenizer, 
    framework="pt"
)

summary = summarizer(example_text, min_length=30, max_length=150)
summary[0]["summary_text"]