# Abstraksi (Summarization)

Abstraksi adalah proses merangkum teks untuk menangkap makna utamanya. Teknik ini sering digunakan dalam pembuatan ringkasan otomatis. \
Berikut contoh kodenya:

In [None]:
from transformers import pipeline

# Load pre-trained model for text summarization
summarizer = pipeline('summarization')

# Teks contoh
text = """OpenAI adalah perusahaan riset yang bertujuan untuk mengembangkan kecerdasan buatan dengan cara yang aman dan bermanfaat. 
          Mereka telah menciptakan berbagai model AI canggih, termasuk GPT-3, yang dapat melakukan berbagai tugas bahasa alami."""

# Buat ringkasan
summary = summarizer(text, max_length=50, min_length=25, do_sample=False)
print("Ringkasan:", summary[0]['summary_text'])


# Ekstraksi (Extraction)

Ekstraksi adalah proses menarik informasi tertentu dari teks, seperti entitas nama atau kata kunci. \
Berikut contoh kodenya:

In [None]:
import spacy

# Muat model spaCy untuk bahasa Inggris
nlp = spacy.load("en_core_web_sm")

# Teks contoh
text = "Elon Musk adalah CEO SpaceX dan Tesla. SpaceX berfokus pada eksplorasi ruang angkasa, sementara Tesla memproduksi kendaraan listrik."

# Proses teks
doc = nlp(text)

# Ekstraksi entitas nama
for ent in doc.ents:
    print(ent.text, ent.label_)


# Pengklasifikasian Teks (Text Classification)

Teknik ini digunakan untuk mengkategorikan teks ke dalam kategori tertentu, seperti klasifikasi sentimen. \
Berikut contoh kodenya:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Data contoh
texts = ["I love this phone", "This movie is terrible", "I feel great about the service"]
labels = ["positive", "negative", "positive"]

# Pipeline untuk teks klasifikasi
model = make_pipeline(CountVectorizer(), MultinomialNB())
model.fit(texts, labels)

# Prediksi
predicted_label = model.predict(["I hate this movie"])
print(predicted_label)


# Analisis Sentimen (Sentiment Analysis)

Analisis sentimen digunakan untuk menentukan sikap atau perasaan yang terkandung dalam teks. \
Berikut contoh kodenya:

In [None]:
from textblob import TextBlob

# Teks contoh
text = "I love this product! It's amazing."
blob = TextBlob(text)
sentiment = blob.sentiment.polarity
print(f"Sentiment score: {sentiment}")


# Pengenalan Entitas Nama (Named Entity Recognition, NER)

NER digunakan untuk mengidentifikasi entitas penting dalam teks, seperti nama orang, tempat, atau organisasi. \
Berikut contoh kodenya:

In [None]:
import spacy

# Muat model spaCy untuk bahasa Inggris
nlp = spacy.load("en_core_web_sm")

# Teks contoh
text = "Barack Obama was the 44th President of the United States."

# Proses teks
doc = nlp(text)

# Ekstraksi entitas nama
for ent in doc.ents:
    print(ent.text, ent.label_)


# Penandaan Bagian Kalimat (Part-of-Speech Tagging, POS)

POS Tagging digunakan untuk mengidentifikasi jenis kata dalam kalimat. \
Berikut contoh kodenya:

In [None]:
import spacy

# Muat model spaCy untuk bahasa Inggris
nlp = spacy.load("en_core_web_sm")

# Teks contoh
text = "The quick brown fox jumps over the lazy dog."

# Proses teks
doc = nlp(text)

# Penandaan POS
for token in doc:
    print(token.text, token.pos_)


# Transformatif (Transformers-based NLP)

Model berbasis transformer seperti BERT, GPT-3, dan T5 digunakan untuk berbagai tugas NLP termasuk pemahaman teks, pembuatan teks, dan penerjemahan. \
Berikut contoh kodenya: (Hugging Face Transformers)

In [None]:
from transformers import pipeline

# Load pre-trained model for text generation
generator = pipeline('text-generation', model='gpt2')

# Generate text
text = generator("Once upon a time", max_length=50)
print(text)


Catatan:

Akses ke Model: Akses ke model-model seperti GPT-3 dan Jurassic-1 Jumbo mungkin memerlukan pengaturan khusus atau biaya langganan. \
Performa: Performa model akan bervariasi tergantung pada tugas, data pelatihan, dan parameter yang digunakan. \
Fine-tuning: Untuk hasil yang lebih baik, Anda mungkin perlu melakukan fine-tuning model pada dataset khusus Anda.

## GPT-3

In [None]:
from transformers import pipeline

# Load pre-trained GPT-3 model
generator = pipeline('text-generation', model='gpt3')

# Generate text
prompt = "Once upon a time, in a land far, far away..."
text = generator(prompt, max_length=100)
print(text)


## BERT

In [None]:
from transformers import pipeline

# Load pre-trained BERT model
fill_mask = pipeline("fill-mask", model="bert-base-uncased")

# Generate text by filling the mask
prompt = "The quick brown fox jumps over the lazy [MASK]."
result = fill_mask(prompt)
print(result)


## T5

In [None]:
from transformers import pipeline

# Load pre-trained T5 model
summarizer = pipeline("summarization", model="t5-base")

# Generate a summary
text = "This is a very long and boring text. Can you please summarize it for me?"
summary = summarizer(text)
print(summary)


## Jurasic-1 Jumbo

In [None]:
from transformers import pipeline

# Load pre-trained Jurassic-1 Jumbo model
# (Note: You might need to specify the correct model name and access details)
generator = pipeline('text-generation', model='jurassic1-jumbo')

# Generate text
prompt = "Write a poem about a robot who dreams of becoming a chef."
text = generator(prompt, max_length=150)
print(text)


# Pembelajaran Representasi Teks (Text Embeddings)

Teknik ini mengubah teks menjadi representasi numerik yang dapat digunakan dalam model pembelajaran mesin. \
Beriktu contoh kodenya:

In [None]:
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess

# Data contoh
sentences = [["dog", "barks"], ["cat", "meows"]]

# Latih model Word2Vec
model = Word2Vec(sentences, vector_size=50, window=3, min_count=1, sg=1)

# Dapatkan embedding untuk kata "dog"
vector = model.wv['dog']
print(vector)


# Penerjemahan Bahasa (Machine Translation)

Teknik ini digunakan untuk menerjemahkan teks dari satu bahasa ke bahasa lain. \
Berikut contoh kodenya:

In [None]:
from transformers import MarianMTModel, MarianTokenizer

# Load model and tokenizer for translation
model_name = 'Helsinki-NLP/opus-mt-en-fr'
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

# Translate text
text = "Hello, how are you?"
translated = model.generate(**tokenizer.prepare_seq2seq_batch(text, return_tensors="pt"))
translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
print(translated_text)
